next up previous
次へ: VC次元 上へ: 汎化性 戻る: 汎化性


情報量基準による汎化能力の評価

統計では汎化性の問題は古くから議論されており、特に有名なのは情報量基準 とjackknife法[23,24]あるいはbootstrap法 [25,26,27]などの resampling 手法である。情報量基準 としては、赤池の AIC(An Information Theoretical Criterion)[28,29]やRissanenのMDL(Minimum Description Length)[30,31]が有名である。多層パー セプトロンのの汎化能力を評価するためにこれらの手法を利用することが考え られるが、resampling手法を用いるためには、resampling したデータに対し て何度もネットワークの結合荷重を学習する必要があるので、その評価にはか なりの計算時間が必要となる。一方、情報量基準を用いて評価する方法は、学 習は一回のみでよく、比較的簡便な評価が可能となる[32]。

4.1.5節のように、多層パーセプトロンの結合係数の学習を最尤推定 とみなすと、学習が収束したネットワークに対する対数尤度を最大対数尤度と みなして AIC や MDL などの情報量基準を近似的に計算することにより、汎化 能力を比較することが可能となる。

AICは赤池により最大対数尤度と期待平均対数尤度の間の偏りの解析的評価か ら導出されたもので、最尤推定するモデルの自由度を $N$ とすると、

\begin{displaymath}
AIC = -2(\mbox{最大対数尤度})+2N
\end{displaymath} (95)

のように定義される。一方、MDLはRissanenにより符号化における記述長最小 化(Minimal Discription Length)原理として導出されたもので、
\begin{displaymath}
MDL = -(\mbox{最大対数尤度})+\frac{N}2 \log P
\end{displaymath} (96)

のように定義される。これらの評価を用いると、学習データに対する当てはま りに大きな差があると第1項に大きな差があらわれ当てはまりの良いネットワー クが選ばれ、第1項に大きな差が無い場合には第2項が作用して自由度の小さ いネットワークが選択される。

従って、汎化能力の高いネットワークを設計するためには、予め中間層のユニッ ト数の異なるネットワークの候補をいくつか用意し、各ネットワークの結合荷 重を学習用のデータに対して十分に学習させ、そのパラメータを用いて式 (82)から対数尤度を計算し、AIC あるいは MDL の小さ いネットワークを選択すればよい。

ただし一般のニューラルネットワークの学習では、学習の結果得られたパラメー タは最尤推定量の近似値であるためAICの導出における仮定(主に漸近正規性) を満足できない可能性がある。そのため、情報量基準の改良に関する報告もい くつかなされており、例えば最尤推定量を仮定しないで情報量基準を導出し、ク ロスバリデーションによってペナルティ項を決定するもの(和田、川人(1991)) がある。またブートストラップ法を用いて最尤法以外の推定でも評価可能な EIC(北川ら(1993))もニューラルネットワークの学習においては有効であると 考えられる。



平成14年7月19日