入出力関数としてロジスティック関数を用い、最尤法によりパラメータを推定す る場合には、ロジスティック回帰と呼ばれる手法と等価となる。この場合には、 ロジスティック回帰のためのパラメータ推定アルゴリズムとして知られている フィッシャーのスコアリングアルゴリズムを学習に利用することも可能である。
今、訓練サンプル集合を
とする。ここで
は、教師信号
は、
か
の2値で与えられるものとする。
入力
を与えたときの出力
を、入力
のもとで教師信号
が
である確率の推定値と考えると、訓練サンプル集合に対するネット
ワークの尤度は、
![]() |
(52) |
線形重回帰分析の場合と同様に、まずは、最急降下法によりパラメータ
を遂次更新することで最適なパラメータを求める方法につい
て考えてみよう。対数尤度のパラメータ
に関する偏微分は、
![]() |
(54) |
![]() |
(55) |
![]() |
![]() |
![]() |
(56) |
![]() |
![]() |
![]() |
(57) |
最尤推定においては、Fisher 情報行列が重要な役割を演じる。一般に、
データ がパラメータ
をもつ
密度関数
をもつ分布に従うとき、
![]() |
(58) |
ここでは、ロジスティック回帰の Fisher 情報量を具体的に計算する。そのため
には、式 (53) の対数尤度の2次微分を計算する必要がある。対数尤
度の2次微分は、
![]() |
(59) |
![]() |
![]() |
![]() |
(60) |
![]() |
![]() |
![]() |
これらを用いて、パラメータ
に対する Fisher 情報行列、すなわち、Hessian 行列の期待値のマイナスは、
![]() |
(61) |
対数尤度(53)を最大とするようなパラメータを求めるためには、非線形最適 化法を用いる必要がある。ロジスティック回帰では、このために Fisher のスコアリ ングアルゴリズムが使われる [18]。これは、一種のニュートン法で、 Hessian 行列のかわりに Fisher 情報行列を用いる。ニューロン1個のみからなるネッ トワークの場合、Fisher 情報行列とHessian 行列は単に符合が異なるだけなので、 Fisher のスコアリングアルゴリズムはニュートン法そのものとなる。
今、現時点でのパラメータの推定値を
とし、それを修正ベクトル
により、
![]() |
(63) |
![]() |
(64) |
![]() |
(65) |
上記のアルゴリズムは、繰り返しアルゴリズムであるためパラメータの初期値が
必要である。これは、例えば、以下のような簡単な方法で推定することが可能で
ある。今、結合重みがすべて 、つまり、
とする。この
とき、
,
および
である。従って、これらを (66) の計算
式に代入すると、初期パラメータの推定値
は、
![]() |
(67) |