情報量基準

次へ: データからのサンプリングに基づく手法 上へ: モデル選択手法 戻る: モデル選択手法

情報量基準

AIC は赤池により最大対数尤度と期待平均対数尤度の間の偏りに関する解析的評価から導出されたモデル選択のための基準であり、モデルの自由度をとすると、

$\begin{displaymath} AIC = -2 (\mbox{最大対数尤度}) + 2 F \end{displaymath}$

(89)

のように定義される[3]。一方、MDLは情報圧縮のための最適な符号化法を決定するための基準として Rissanen により提案された記述長最小化原理(Principle of Minimum Description Length)が一般化されたもので、重回帰分析でのモデル選択の場合には、

$\begin{displaymath} MDL = - (\mbox{最大対数尤度}) + \frac{F}{2} \log{n} \end{displaymath}$

(90)

のように定義される[56,57]。これらの評価基準を用いると、学習データに対するあてはまりの良さに大きな差がある場合には、第１項に大きな差があらわれ、あてはまりの良いモデルが選ばれ、第１項に大きな差が無い場合には、第２項が働いて自由度の小さいモデルが選ばれる。従って、これらの基準を用いたモデル選択では、まず、考えているいくつかのモデルのパラメータを学習データから最尤法により求め、そのパラメータを用いた時の対数尤度(最大対数尤度)とそのモデルの自由度からAICあるいはMDLを計算し、その値が最も小さくなるモデルを選択すればよい。モデル選択の基準は、AIC やMDL以外にもいくつか提案されているが、基本的には、データに対するあてはまりの良さとモデルの自由度とのバランスを取ることにより、最良のモデルを選択するような基準となっている。

平成14年7月19日