サポートベクターマシンは、線形しきい素子を用いた識別器であるが、
Rosenblatt が提案したパーセプトロンも、同様に、線形しきい素子を用いて、
訓練サンプルから学習する識別機械である。サポートベクターマシンと同様に、
単純パーセプトロンでは、入力
に対する出力
を
今、訓練サンプル集合を とする。ここで は、教師信号 は、 か の2値で与えられるものとする。
入力
を与えたときの出力 を、入力
のもとで教師信号
が である確率の推定値と考えると、訓練サンプル集合に対するネット
ワークの尤度は、
(40) |
まずは、最急降下法によりパラメータ
を遂次更新することで最
適なパラメータを求める方法について考えてみよう。対数尤度のパラメータ
に関する偏微分は、
(42) |
(43) |
(44) | |||
(45) |
最尤推定においては、Fisher 情報行列が重要な役割を演じる。一般に、
データ がパラメータ
をもつ
密度関数
をもつ分布に従うとき、
(46) |
ここでは、ロジスティック回帰の Fisher 情報量を具体的に計算する。そのため
には、式 (41) の対数尤度の2次微分を計算する必要がある。対数尤
度の2次微分は、
(47) |
(48) | |||
これらを用いて、パラメータ
に対する Fisher 情報行列、す
なわち、Hessian 行列の期待値のマイナスは、
(49) |
対数尤度(41)を最大とするようなパラメータを求めるためには、非線形最適 化法を用いる必要がある。ロジスティック回帰では、このために Fisher のスコアリ ングアルゴリズムが使われる [68]。これは、一種のニュートン法で、 Hessian 行列のかわりに Fisher 情報行列を用いる。ニューロン1個のみからなるネッ トワークの場合、Fisher 情報行列とHessian 行列は単に符合が異なるだけなので、 Fisher のスコアリングアルゴリズムはニュートン法そのものとなる。
今、現時点でのパラメータの推定値を
とし、それを修正ベクトル
により、
(51) |
(52) |
(53) |
上記のアルゴリズムは、繰り返しアルゴリズムであるためパラメータの初期値が
必要である。これは、例えば、以下のような簡単な方法で推定することが可能で
ある。今、結合重みがすべて 、つまり、
とする。この
とき、
,
および
である。従って、これらを (54) の計算
式に代入すると、初期パラメータの推定値
は、
(55) |