next up previous
次へ: パラメータの学習実験 上へ: パラメータ推定アルゴリズム 戻る: Fisher のスコアリングアルゴリズム

ニューロンごとの Fisher 情報量を用いる方法

上述の FS 法では、Fisher 情報量を完全な形で用いているが、一般に、Fisher 情報 行列は $(IJ+JK)\times(IJ+JK)$ の大きさの行列であり、大きなネットワークに対し てこれを計算するにはかなりの計算時間が必要である。また、式(4.38)は $(IJ+JK)$ 個の未知変数をもつ線形方程式であり、これを解くにもかなりの時間が必 要である。従って、実用的なアルゴリズムのためには、なんらかの方法でこれらの計 算をさぼる必要がある。ここでは、ニューロンごとの Fisher 情報量、つまり、 Fisher 情報行列のブロック対角成分のみを用いて残りの部分は無視することにより 計算量を削減することを考える。

入力層から中間層のニューロン $j$ への結合荷重に関係する Fisher 情報行列の成 分は、

\begin{displaymath}
F_{Aj} = \left[ \sum_{p=1}^P x_{pl} \nu_{pj} \chi_{pjj} \nu_{pj} x_{pi}
\right]
= X^T W_{Aj} X,
\end{displaymath} (237)

となる。ここで、
$\displaystyle X$ $\textstyle =$ $\displaystyle \left[ \mbox{\boldmath$x$}_1, \ldots, \mbox{\boldmath$x$}_P \right]^T$ (238)
$\displaystyle W_{Aj}$ $\textstyle =$ $\displaystyle \mbox{diag}(\nu_{pj} \chi_{pjj} \nu_{pj})$ (239)

である。これは、中間層のニューロン $j$ への入力ベクトルの重み付き相関行列で ある。式(4.37)や式(4.38)等から入力層から中間層のニューロン $j$ への結合荷重 $\mbox{\boldmath$\theta$}_{Aj}^{*} = (a_{j1},\ldots,a_{jI})^T$ を計算す るための正規方程式は、
\begin{displaymath}
X^T W_{AJ} X \mbox{\boldmath$\theta$}_{Aj}^{*} = X^T W_{AJ}...
...oldmath$\zeta$}_j + W_{Aj}^{-1}
\mbox{\boldmath$\delta$}_{Aj})
\end{displaymath} (240)

となる。ただし、
$\displaystyle \mbox{\boldmath$\zeta$}_j$ $\textstyle =$ $\displaystyle (\zeta_{1j},\ldots,\zeta_{Pj})^T$ (241)
$\displaystyle \mbox{\boldmath$\delta$}_{Aj}$ $\textstyle =$ $\displaystyle (\sigma_{1j} \nu_{1j}, \ldots, \sigma_{Pj}
\nu_{Pj})^T$ (242)

である。これは、中間層のニューロン $j$ への入力ベクトル $X$ から $\mbox{\boldmath$\zeta$}_j + W_{Aj}^{-1} \mbox{\boldmath$\delta$}_{Aj}$ を推定する重み付き最小2乗法 の正規方程式とみなすことができる。

同様に、中間層から出力層のニューロン $k$ への結合荷重に関係する Fisher 情報 行列の成分は、

\begin{displaymath}
F_{Bk} = \left[ \sum_{p=1}^P y_{pm} \omega_{pk} y_{pj} \right]
= Y^T W_{Bk} Y
\end{displaymath} (243)

となる。ここで、
$\displaystyle Y^T$ $\textstyle =$ $\displaystyle \left[ \mbox{\boldmath$y$}_1, \ldots, \mbox{\boldmath$y$}_P \right]$ (244)
$\displaystyle W_{Bk}$ $\textstyle =$ $\displaystyle \mbox{diag}(\omega_{pk})$ (245)

である。従って、中間層から出力層のニューロン $k$ への結合荷重を計算するため の正規方程式は、
\begin{displaymath}
Y^T W_{Bk} Y \mbox{\boldmath$\theta$}_{Bk}^{*} = Y^T W_{Bk}...
...oldmath$\eta$}_k + W_{Bk}^{-1}
\mbox{\boldmath$
\delta$}_{Bk})
\end{displaymath} (246)

となる。ここで、
$\displaystyle \mbox{\boldmath$\eta$}_k$ $\textstyle =$ $\displaystyle (\eta_{1k},\ldots,\eta_{Pk})^T$ (247)
$\displaystyle \mbox{\boldmath$\delta$}_{Bk}$ $\textstyle =$ $\displaystyle (\omega_{1k}, \ldots, \omega_{Pj})^T$ (248)

である。

結合荷重の推定値 $\{\mbox{\boldmath$\theta$}_{Aj}\vert j=1,\ldots,J\}$ および $\{\mbox{\boldmath$\theta$}_{Bk}\vert k=1,\ldots,K\}$ は、これらの正規方程式を繰り返し解くこと により求められる。つまり、このアルゴリズムでは、各ニューロンがそのニューロン に関係する結合荷重を重み付き最小2乗法を繰り返すことにより推定しているとみ なすことができる。以下、このアルゴリズムを UFS 法と呼ぶことにする。

次に、これらの重み付き最小2乗法を解くための再帰計算式を導出する。これにより ここで提案したアルゴリズムと通常の誤差逆伝搬法との関係がより明確になる。

学習用のデータ集合 $\{<\mbox{\boldmath$x$}_p,\mbox{\boldmath$t$}_p>\vert p=1,\ldots,N-1\}$ に対する結合荷重 の推定値 $\mbox{\boldmath$\theta$}_{Aj}^{(N-1)}$ が得られているとき、新たに学習データ $<\mbox{\boldmath$x$}_{N},\mbox{\boldmath$t$}_{N}>$ を追加したデータ集合に対して最適な結合荷重の推定値 $\mbox{\boldmath$\theta$}_{Aj}^{(N)}$ を計算するための再帰計算式は、

\begin{displaymath}
\mbox{\boldmath$\theta$}_{Aj}^{(N)} = \mbox{\boldmath$\thet...
...} + Q_{Aj}^{(N)}
\mbox{\boldmath$x$}_{N} \sigma_{Nj} \nu_{Nj},
\end{displaymath} (249)

となる。ここで、行列 $Q_{Aj}^{(N)}$ は重み付き相関行列 $X^{(N)T}W_{Aj}^{(N)}X ^{(N)}$ の逆行列の推定値で、再帰計算式
\begin{displaymath}
Q_{Aj}^{(N)} = Q_{Aj}^{(N-1)}
- \frac{\nu_{Nj} \chi_{Njj} ...
...x{\boldmath$x$}_{N}^T Q_{Aj}^{(N-1)}
\mbox{\boldmath$x$}_{N}
}
\end{displaymath} (250)

で与えられる。

同様に、 $\mbox{\boldmath$\theta$}_{Bk}$ に対する再帰計算式は、

$\displaystyle \mbox{\boldmath$\theta$}_{Bk}^{(N)}$ $\textstyle =$ $\displaystyle \mbox{\boldmath$\theta$}_{Bk}^{(N-1)} + Q_{Bk}^{(N)}
\mbox{\boldmath$y$}_{N} \delta_{Nj}$ (251)
$\displaystyle Q_{Bk}^{(N)}$ $\textstyle =$ $\displaystyle Q_{Bk}^{(N-1)}
- \frac{\omega_{Nj} Q_{Bk}^{(N-1)} \mbox{\boldmath...
... \omega_{Nj} \mbox{\boldmath$y$}_{N}^T Q_{Bk}^{(N-1)} \mbox{\boldmath$y$}_{N}}.$ (252)

となる。

これらの計算式とクロスエントロピー基準を評価基準とする誤差逆伝搬法の結合荷重 の更新式(SD法)を比べると、提案したアルゴリズムでは学習率 $\alpha$ のかわり に重み付き相関行列の逆行列の推定値を用いていることがわかる。


next up previous
次へ: パラメータの学習実験 上へ: パラメータ推定アルゴリズム 戻る: Fisher のスコアリングアルゴリズム
Takio Kurita 平成14年7月3日