next up previous
次へ: データからのサンプリングに基づく手法 上へ: モデル選択手法 戻る: モデル選択手法

情報量基準

AIC は赤池により最大対数尤度と期待平均対数尤度の間の偏りに関する解析的 評価から導出されたモデル選択のための基準であり、モデルの自由度を $F$ とすると、

\begin{displaymath}
AIC = -2 (\mbox{最大対数尤度}) + 2 F
\end{displaymath} (89)

のように定義される[3]。一方、MDLは情報圧縮のための最適な符 号化法を決定するための基準として Rissanen により提案された記述長最小化 原理(Principle of Minimum Description Length)が一般化されたもので、重 回帰分析でのモデル選択の場合には、
\begin{displaymath}
MDL = - (\mbox{最大対数尤度}) + \frac{F}{2} \log{n}
\end{displaymath} (90)

のように定義される[56,57]。これらの評価基準を用い ると、学習データに対するあてはまりの良さに大きな差がある場合には、第1 項に大きな差があらわれ、あてはまりの良いモデルが選ばれ、第1項に大きな 差が無い場合には、第2項が働いて自由度の小さいモデルが選ばれる。従って、 これらの基準を用いたモデル選択では、まず、考えているいくつかのモデルの パラメータを学習データから最尤法により求め、そのパラメータを用いた時の 対数尤度(最大対数尤度)とそのモデルの自由度からAICあるいはMDLを計算し、 その値が最も小さくなるモデルを選択すればよい。モデル選択の基準は、AIC やMDL以外にもいくつか提案されているが、基本的には、データに対するあて はまりの良さとモデルの自由度とのバランスを取ることにより、最良のモデル を選択するような基準となっている。



平成14年7月19日