next up previous
次へ: ニューラルネットの評価 上へ: 情報量基準によるニューラルネットの評価 戻る: 情報量基準によるニューラルネットの評価

AICとMDLP

AIC は、観測されたデータに基づいてモデルの良さを評価するために、赤池が 提案した統計量であり、モデルの自由度を $F$ とすると、

\begin{displaymath}
AIC = - 2 ( \mbox{最大対数尤度} ) + 2 F
\end{displaymath} (253)

のように定義される[1,2,151]。

これは、平均対数尤度のデータに関する期待値(期待平均対数尤度)の推定値で あり、また、真の分布とモデルの近さの測度である Kullback-Leibler 情報量の期待値の推定値であるとみなすことができる [1,2,151]。 つまり、$\theta$をパラメータに持つモデルの確率密度関数を$f(X\vert\theta)$と し、真のパラメータを$\theta_0$、最尤推定値を$\hat{\theta}$とすると、 AIC の第1項は、 $(-P)\mbox{E}\{\log f(X\vert\theta_0)\}$の推定値を与え、 モデル自身の悪さを表す。 一方、第2項は、 $2P\mbox{E}\{\log f(X\vert\theta_0)\}-2P\mbox{E}\{\log f(X\vert\hat{\theta})\}$の 推定値を与え、推定値を用いることによるモデルの悪さの増分を表す。ここで、 $P$は推定に用いたデータの個数である。

AIC を用いると、モデルのあてはまりの良さに大きな差がある場合には第1項に大き な差があらわれ最もよく当てはまるモデルが選ばれる。一方、第1項に大きな差が無 い場合には、第2項が作用して自由度の少ないモデルが選ばれるようになる。つまり、 AIC は、モデル構成においては最小限の仮定を用いるべきであるとする“けちの原理” あるいは“オッカムのかみそり(Occam's Razor)”のひとつの具体化とみるこ とができる。

一方、Rissanen の MDLP は、データをある視点で、本質的な構造(モデル) とそれ以外の偶発的なノイズに分割した時、モデルの記述長とノイズの記述長 の和が最小となるようなモデルを最良のモデルとする基準であり、データの独立 性等の仮定をおくと、

\begin{displaymath}
MDL = -( \mbox{最大対数尤度} ) + \frac{F}{2} \log P
\end{displaymath} (254)

で評価できる。ここで、第1項はモデルからのずれを記述するために必要な符号長で あり、第2項はモデルを記述するために必要な符号長である。MDLP も、AIC と同様 に、モデルの当てはまりの良さが同程度の場合には、第2項により自由度の多いモデ ルにはペナルティが与えられるため、自由度の少ないモデルが選ばれるようになる。 従って、MDLP も、“けちの原理”あるいは“オッカムのかみそり”を符号長の意味 で定式化した基準であるといえる。



Takio Kurita 平成14年7月3日