next up previous
次へ: 情報量基準によるニューラルネットの評価 上へ: 階層型ニューラルネットワークの学習 戻る: パターン識別

情報量基準による階層型ニューラルネットの中間層のニューロン数の決定法

階層型ニューラルネットは、理論的には、中間層のニューロン数を多くすると、中間 層が1層のみのネットワークを用いて任意の関数を近似できる [31,34]。つまり、理論的には中間層のニューロン数を多くすると学 習データに対して平均2乗誤差のほとんど無いネットワークを構成することが可能で ある。しかし、中間層のニューロン数を多くすることによって学習データに対してい くら近似を良くしてもそのネットワークが未知データに対しても良い近似を与えると は限らない。これは,学習データには、一般に、本質的な情報と偶発的なノイズの両 方が含まれており、偶発的なノイズの情報をいくら精度良く学習しても本来の目的で ある未知データに対する近似を良くすることにはならないためである。

この問題に対して、Baumは、妥当な一般化能力を持つネットワークのサイズの上 限に関して VC 次元による考察を行なっている[14]。

一方、統計あるいはモデル推定の研究分野では、こうした汎化性に関する問題は古く から議論されており、特に有名なのは情報量基準とjackknife法[112]あるい はbootstrap法[26]などのresampling手法である。情報量基準としては、赤 池の AIC (An Information Theoretical Criterion) [1,2,151]や、 Rissanenの MDLP (Minimum Description Length Principle) [37,146,147] が有名である。

ここでは、これらの手法を用いて一般化能力の高いニューラルネットを構成する方法 について考察する。学習データを何度もresamplingし、その結果の平均値によって偏 りの少ない推定値を得ようとするresampling手法をニューラルネットの評価に用いる には、resampling したデータに対して何度もネットワークのパラメータを学習する 必要がある。ニューラルネットは、一般に学習に時間が掛るので、resampling手法に よる評価にはかなりの時間が必要となる。一方、情報量基準を用いる方法では、学習 は1回のみでよく、簡便な評価が可能となる。従って、実用性の点でニューラルネッ トの評価法としては情報量基準を用いる手法の方が優れているように思われる。

ここでは、情報量基準を評価基準として、中間層が1層の階層型のニューラルネット の中間層のニューロン数を決定する試みについて論じる[86,92]。



Subsections

Takio Kurita 平成14年7月3日