next up previous
次へ: 最尤推定としての定式化 上へ: 多層パーセプトロン 戻る: 多層パーセプトロン


誤差逆伝搬学習法

多層パーセプトロンは任意の連続関数を近似するのに十分な表現能力をもって いるが、そうしたネットワークに望みの情報処理をさせるためにはユニット間 の結合荷重を適切なものに設定しなければならない。ユニットの数が増えると 結合荷重の数も増え、それらをいちいち設定することは難しい。一般には、そ れらは利用可能なデータからの学習によって求めらる。そのためのアルゴリズ ムとしては、最急降下法に基づく誤差逆伝搬学習法[6,7]が 有名である。

ここでは、中間層のユニットの入出力関数がロジスティック関数で、出力層の ユニットの入出力関数が線形の中間層が1層のみネットワークに対する誤差逆 伝搬学習法について説明する。

今、学習用のデータを $\{\mbox{\boldmath$x$}_p,\mbox{\boldmath$u$}_p\}$ とする。また、学習のため の評価基準として2乗誤差

\begin{displaymath}
\varepsilon^2_{emp} = \sum_{p=1}^P \vert\vert\mbox{\boldmat...
...dmath$z$}_p\vert\vert^2
= \sum_{p=1}^P \varepsilon^2_{emp}(p)
\end{displaymath} (71)

を用いるとする。2乗誤差 $\varepsilon^2_{emp}$ の結合荷重に関する偏微 分を計算すると、
$\displaystyle \frac{\partial \varepsilon^2_{emp}}{\partial a_{ij}}$ $\textstyle =$ $\displaystyle \sum_{p=1}^P \frac{\partial \varepsilon^2_{emp}(p)}{\partial a_{ij}}$ (72)
$\displaystyle \frac{\partial \varepsilon^2_{emp}}{\partial b_{jk}}$ $\textstyle =$ $\displaystyle \sum_{p=1}^P \frac{\partial \varepsilon^2_{emp}(p)}{\partial b_{jk}}$ (73)

となる。ただし、
$\displaystyle \frac{\partial \varepsilon^2_{emp}(p)}{\partial a_{ij}}$ $\textstyle =$ $\displaystyle -2 \gamma_{pj} \nu_{pj} x_{pi}$ (74)
$\displaystyle \frac{\partial \varepsilon^2_{emp}(p)}{\partial b_{jk}}$ $\textstyle =$ $\displaystyle -2 \delta_{pk} y_{pj}$ (75)
$\displaystyle \nu_{pj}$ $\textstyle =$ $\displaystyle y_{pj}(1-y_{pj})$ (76)
$\displaystyle \gamma_{pj}$ $\textstyle =$ $\displaystyle \sum_{k=1}^K \delta_{pk} b_{jk}$ (77)
$\displaystyle \delta_{pk}$ $\textstyle =$ $\displaystyle u_{pk}-z_{pk}$ (78)

である。また、$x_{p0}=1$ および $y_{p0}=1$ としている。従って、最急降 下法による結合荷重の更新式は
$\displaystyle a_{ij} \Leftarrow
a_{ij} - \alpha \frac{\partial \varepsilon^2_{emp}}{\partial a_{ij}}$     (79)
$\displaystyle b_{jk} \Leftarrow
b_{jk} - \alpha \frac{\partial \varepsilon^2_{emp}}{\partial b_{jk}}$     (80)

のようになる。ただし、$\alpha$は学習率と呼ばれる正のパラメータである。 このアルゴリズムは、教師信号とネットワークの出力との誤差 $\delta$ を結 合荷重$b_{jk}$ を通して逆向きに伝搬して $\gamma$ を計算していると解釈 できるので誤差逆伝搬法と名付けられている。

上記のアルゴリズムは学習データ集合全体を見て結合荷重を修正しているが、 学習データ毎に $\frac{\partial \varepsilon^2_{emp}(p)}{\partial
a_{ij}}$ および $\frac{\partial \varepsilon^2_{emp}(p)}{\partial
b_{jk}}$ により結合荷重を更新することも可能であり、実際にはこちらの方 法を使うことが多い。

このような最急降下法を用いた学習法では、学習率をどのように決めるかによっ てアルゴリズムの収束の速さが影響を受けるので、学習率を適切な値に設定す るための方法がいくつかの提案されている(例えば、[13])。また、 学習の高速化に関しては、多くの方法が提案されている。例えば、 Quick Prop [34] は、多くのヒューリスティックを組み合わせて、学習 を高速化している。


next up previous
次へ: 最尤推定としての定式化 上へ: 多層パーセプトロン 戻る: 多層パーセプトロン
平成14年7月19日