階層型ニューラルネットに対する誤差逆伝搬学習法では、2乗誤差が最小とな
るようなパラメータを最急降下法によって求める。階層型ニューラルネットを
個のクラスを識別するパターン認識課題に応用する場合には、ネットワー
クの教師信号として、対応するクラスの要素のみ
でそれ以外の要素が全
て
となるような
次元の2値ベクトルを用いるのが一般的である。こ
の場合には、2章の非線形重回帰分析の議論からも明らかなように、ネットワー
クの出力は Bayes の事後確率の推定値を与えると解釈できる
[8,10,144]。
パターン識別のための2乗誤差基準以外の評価基準としては、ネットワークの
出力と教師信号とのクロスエントロピー基準が有名である
[13,42,144]。この基準は、教師信号が独立な2値の確
率変数で、ネットワークの出力がこの確率変数が である条件付き確率を
表すという仮定のもので導出されたものである。この基準は、
Kullback-Liebler 情報量を最小化する基準として、相互情報量を最大化する
基準として、あるいは、尤度を最大とする基準として導出することもできる
[15,33,42]。2乗誤差基準の代わりにこの基準を用いること
により、学習に必要な繰り返しの回数が少なくなることが報告されている
[36,44]。また、この基準は、ネットワークの出力が Bayes の
事後確率のとき最適となることも示されている[144]。
ここでは、この基準に基づいてパターン認識のための階層型ニューラルネット のパラメータの学習を最尤推定の観点から考察する。
まず、最も簡単なネットワークとしてニューロン1個のみからなるネットワー クのパラメータの最尤推定について考察する。これは、データ解析の分野では、 ロジスティック回帰として知られている手法に対応している[110]。 ロジスティック回帰では、パラメータの推定法に関して、ニュートン法の一種 である Fisher のスコアリングアルゴリズムが使われている。ここでは、これ をニューラルネットの枠組で概観する。まず、Fisher の情報行列を具体的に 計算し、それがネットワークの入力の重み付き相関行列となることを示す。次 に、この Fisher 情報行列を使ったパラメータの推定法(Fisher のスコアリ ングアルゴリズム)を示す。結果的に、それは、重み付き最小2乗法の繰り返 しとみなすことができ、線形回帰との対応が明確となる。
次に、単一ニューロンの場合の結果を中間層が1層のネットワークに拡張する。 このネットワークに対しても Fisher 情報行列を具体的に計算し、それが入力 あるいは中間層の出力の重み付き相関行列となることを示す。さらに、それを 用いたパラメータの推定アルゴリズムを提案し、簡単な学習実験によりそのア ルゴリズムの有効性を示す[95,96]。
以上はパターン識別のためのネットワークに対する学習アルゴリズムに関する 結果であるが、同様な方法は、出力層の各ニューロンが線形の入出力関数を持 つような関数近似のためのネットワークの学習に対しても、教師信号とネット ワークの出力の誤差が正規分布に従うと仮定することにより適用できる。