next up previous
次へ: ノイズの付加による汎化能力の向上 上へ: 汎化性 戻る: Optimal Brain Surgeon

Weight Decay

汎化能力の高いネットワークを構成するために、正則化の考え方を取り入れて、 不要な結合荷重を陽に取り除かないで、学習の評価基準に複雑すぎる解の探索 を抑制するような項を追加する方法もいくつか提案されている。例えば、 Hanson ら[21]は、不要な結合荷重が大きくなり過ぎないようなペ ナルティ項を加えることにより、学習が進むにつれて不要な結合荷重が $0$ に近付くようにする Weight Decay 法と呼ばれる方法を提案している。具体的 には、2乗誤差基準にネットワークの結合荷重の2乗和の項を加えた評価基準

\begin{displaymath}
Q = \varepsilon^2_{emp} + \frac{\lambda}{2} \left\{ \sum_{i...
...{j=1}^J a_{ij}^2 + \sum_{j=0}^J \sum_{k=1}^K b_{jk}^2 \right\}
\end{displaymath} (102)

を最小化するような結合荷重を求める。ここで、$\lambda$ は、2乗誤差に対 するペナルティ項の影響を制御するパラメータである。この基準に基づく最急 降下法による結合係数の更新式は、
$\displaystyle a_{ij} \Leftarrow
a_{ij} - \alpha \frac{\partial \varepsilon^2_{emp}}{\partial a_{ij}} - \alpha \lambda a_{ij}$     (103)
$\displaystyle b_{jk} \Leftarrow
b_{jk} - \alpha \frac{\partial \varepsilon^2_{emp}}{\partial b_{jk}} - \alpha \lambda b_{jk}$     (104)

となる。この第3項は、常に結合荷重の絶対値が小さくなる方向に働き、学習 が進むに連れて不要な結合荷重が $0$ に近付く。

別の形のペナルティ項を用いる同様な試みは、 [41,42,43] などにも報告されている。また、情 報量基準の漸近的近似としてペナルティ項を定義し実験的評価を行った例(渡 辺(1993))やベイズ推定の立場からペナルティ項の係数 $\lambda$ の評価を行っ た例(Mackey(1992))などもある。



平成14年7月19日