サポートベクターマシンは、線形しきい素子を用いた識別器であるが、
Rosenblatt が提案したパーセプトロンも、同様に、線形しきい素子を用いて、
訓練サンプルから学習する識別機械である。サポートベクターマシンと同様に、
単純パーセプトロンでは、入力
に対する出力
を
今、訓練サンプル集合を
とする。ここで
は、教師信号
は、
か
の2値で与えられるものとする。
入力
を与えたときの出力
を、入力
のもとで教師信号
が
である確率の推定値と考えると、訓練サンプル集合に対するネット
ワークの尤度は、
![]() |
(40) |
まずは、最急降下法によりパラメータ
を遂次更新することで最
適なパラメータを求める方法について考えてみよう。対数尤度のパラメータ
に関する偏微分は、
![]() |
(42) |
![]() |
(43) |
![]() |
![]() |
![]() |
(44) |
![]() |
![]() |
![]() |
(45) |
最尤推定においては、Fisher 情報行列が重要な役割を演じる。一般に、
データ がパラメータ
をもつ
密度関数
をもつ分布に従うとき、
![]() |
(46) |
ここでは、ロジスティック回帰の Fisher 情報量を具体的に計算する。そのため
には、式 (41) の対数尤度の2次微分を計算する必要がある。対数尤
度の2次微分は、
![]() |
(47) |
![]() |
![]() |
![]() |
(48) |
![]() |
![]() |
![]() |
これらを用いて、パラメータ
に対する Fisher 情報行列、す
なわち、Hessian 行列の期待値のマイナスは、
![]() |
(49) |
対数尤度(41)を最大とするようなパラメータを求めるためには、非線形最適 化法を用いる必要がある。ロジスティック回帰では、このために Fisher のスコアリ ングアルゴリズムが使われる [68]。これは、一種のニュートン法で、 Hessian 行列のかわりに Fisher 情報行列を用いる。ニューロン1個のみからなるネッ トワークの場合、Fisher 情報行列とHessian 行列は単に符合が異なるだけなので、 Fisher のスコアリングアルゴリズムはニュートン法そのものとなる。
今、現時点でのパラメータの推定値を
とし、それを修正ベクトル
により、
![]() |
(51) |
![]() |
(52) |
![]() |
(53) |
上記のアルゴリズムは、繰り返しアルゴリズムであるためパラメータの初期値が
必要である。これは、例えば、以下のような簡単な方法で推定することが可能で
ある。今、結合重みがすべて 、つまり、
とする。この
とき、
,
および
である。従って、これらを (54) の計算
式に代入すると、初期パラメータの推定値
は、
![]() |
(55) |