次へ: ニューロン１個のみからなるネットワークの場合 上へ: 階層型ニューラルネットワークの学習 戻る: はじめに

階層型ニューラルネットのパラメータの最尤推定

階層型ニューラルネットに対する誤差逆伝搬学習法では、２乗誤差が最小となるようなパラメータを最急降下法によって求める。階層型ニューラルネットを個のクラスを識別するパターン認識課題に応用する場合には、ネットワークの教師信号として、対応するクラスの要素のみでそれ以外の要素が全てとなるような次元の２値ベクトルを用いるのが一般的である。この場合には、２章の非線形重回帰分析の議論からも明らかなように、ネットワークの出力は Bayes の事後確率の推定値を与えると解釈できる [8,10,144]。

パターン識別のための２乗誤差基準以外の評価基準としては、ネットワークの出力と教師信号とのクロスエントロピー基準が有名である [13,42,144]。この基準は、教師信号が独立な２値の確率変数で、ネットワークの出力がこの確率変数がである条件付き確率を表すという仮定のもので導出されたものである。この基準は、 Kullback-Liebler 情報量を最小化する基準として、相互情報量を最大化する基準として、あるいは、尤度を最大とする基準として導出することもできる [15,33,42]。２乗誤差基準の代わりにこの基準を用いることにより、学習に必要な繰り返しの回数が少なくなることが報告されている [36,44]。また、この基準は、ネットワークの出力が Bayes の事後確率のとき最適となることも示されている[144]。

ここでは、この基準に基づいてパターン認識のための階層型ニューラルネットのパラメータの学習を最尤推定の観点から考察する。

まず、最も簡単なネットワークとしてニューロン1個のみからなるネットワークのパラメータの最尤推定について考察する。これは、データ解析の分野では、ロジスティック回帰として知られている手法に対応している[110]。ロジスティック回帰では、パラメータの推定法に関して、ニュートン法の一種である Fisher のスコアリングアルゴリズムが使われている。ここでは、これをニューラルネットの枠組で概観する。まず、Fisher の情報行列を具体的に計算し、それがネットワークの入力の重み付き相関行列となることを示す。次に、この Fisher 情報行列を使ったパラメータの推定法（Fisher のスコアリングアルゴリズム）を示す。結果的に、それは、重み付き最小２乗法の繰り返しとみなすことができ、線形回帰との対応が明確となる。

次に、単一ニューロンの場合の結果を中間層が１層のネットワークに拡張する。このネットワークに対しても Fisher 情報行列を具体的に計算し、それが入力あるいは中間層の出力の重み付き相関行列となることを示す。さらに、それを用いたパラメータの推定アルゴリズムを提案し、簡単な学習実験によりそのアルゴリズムの有効性を示す[95,96]。

以上はパターン識別のためのネットワークに対する学習アルゴリズムに関する結果であるが、同様な方法は、出力層の各ニューロンが線形の入出力関数を持つような関数近似のためのネットワークの学習に対しても、教師信号とネットワークの出力の誤差が正規分布に従うと仮定することにより適用できる。

Subsections

Takio Kurita 平成14年7月3日