次へ: 情報量基準によるニューラルネットの評価 上へ: 階層型ニューラルネットワークの学習 戻る: パターン識別

情報量基準による階層型ニューラルネットの中間層のニューロン数の決定法

階層型ニューラルネットは、理論的には、中間層のニューロン数を多くすると、中間層が１層のみのネットワークを用いて任意の関数を近似できる [31,34]。つまり、理論的には中間層のニューロン数を多くすると学習データに対して平均２乗誤差のほとんど無いネットワークを構成することが可能である。しかし、中間層のニューロン数を多くすることによって学習データに対していくら近似を良くしてもそのネットワークが未知データに対しても良い近似を与えるとは限らない。これは，学習データには、一般に、本質的な情報と偶発的なノイズの両方が含まれており、偶発的なノイズの情報をいくら精度良く学習しても本来の目的である未知データに対する近似を良くすることにはならないためである。

この問題に対して、Baumは、妥当な一般化能力を持つネットワークのサイズの上限に関して VC 次元による考察を行なっている[14]。

一方、統計あるいはモデル推定の研究分野では、こうした汎化性に関する問題は古くから議論されており、特に有名なのは情報量基準とjackknife法[112]あるいはbootstrap法[26]などのresampling手法である。情報量基準としては、赤池の AIC (An　Information Theoretical Criterion) [1,2,151]や、 Rissanenの MDLP (Minimum Description Length Principle) [37,146,147] が有名である。

ここでは、これらの手法を用いて一般化能力の高いニューラルネットを構成する方法について考察する。学習データを何度もresamplingし、その結果の平均値によって偏りの少ない推定値を得ようとするresampling手法をニューラルネットの評価に用いるには、resampling したデータに対して何度もネットワークのパラメータを学習する必要がある。ニューラルネットは、一般に学習に時間が掛るので、resampling手法による評価にはかなりの時間が必要となる。一方、情報量基準を用いる方法では、学習は１回のみでよく、簡便な評価が可能となる。従って、実用性の点でニューラルネットの評価法としては情報量基準を用いる手法の方が優れているように思われる。

ここでは、情報量基準を評価基準として、中間層が１層の階層型のニューラルネットの中間層のニューロン数を決定する試みについて論じる[86,92]。

Subsections

Takio Kurita 平成14年7月3日