入出力関数としてロジスティック関数を用い、最尤法によりパラメータを推定す る場合には、ロジスティック回帰と呼ばれる手法と等価となる。この場合には、 ロジスティック回帰のためのパラメータ推定アルゴリズムとして知られている フィッシャーのスコアリングアルゴリズムを学習に利用することも可能である。
今、訓練サンプル集合を とする。ここで は、教師信号 は、 か の2値で与えられるものとする。
入力
を与えたときの出力 を、入力
のもとで教師信号
が である確率の推定値と考えると、訓練サンプル集合に対するネット
ワークの尤度は、
(52) |
線形重回帰分析の場合と同様に、まずは、最急降下法によりパラメータ
を遂次更新することで最適なパラメータを求める方法につい
て考えてみよう。対数尤度のパラメータに関する偏微分は、
(54) |
(55) |
(56) | |||
(57) |
最尤推定においては、Fisher 情報行列が重要な役割を演じる。一般に、
データ がパラメータ
をもつ
密度関数
をもつ分布に従うとき、
(58) |
ここでは、ロジスティック回帰の Fisher 情報量を具体的に計算する。そのため
には、式 (53) の対数尤度の2次微分を計算する必要がある。対数尤
度の2次微分は、
(59) |
(60) | |||
これらを用いて、パラメータ
に対する Fisher 情報行列、すなわち、Hessian 行列の期待値のマイナスは、
(61) |
対数尤度(53)を最大とするようなパラメータを求めるためには、非線形最適 化法を用いる必要がある。ロジスティック回帰では、このために Fisher のスコアリ ングアルゴリズムが使われる [18]。これは、一種のニュートン法で、 Hessian 行列のかわりに Fisher 情報行列を用いる。ニューロン1個のみからなるネッ トワークの場合、Fisher 情報行列とHessian 行列は単に符合が異なるだけなので、 Fisher のスコアリングアルゴリズムはニュートン法そのものとなる。
今、現時点でのパラメータの推定値を
とし、それを修正ベクトル
により、
(63) |
(64) |
(65) |
上記のアルゴリズムは、繰り返しアルゴリズムであるためパラメータの初期値が
必要である。これは、例えば、以下のような簡単な方法で推定することが可能で
ある。今、結合重みがすべて 、つまり、
とする。この
とき、
,
および
である。従って、これらを (66) の計算
式に代入すると、初期パラメータの推定値
は、
(67) |