ニューロンごとの Fisher 情報量を用いる方法

次へ: パラメータの学習実験 上へ: パラメータ推定アルゴリズム 戻る: Fisher のスコアリングアルゴリズム

ニューロンごとの Fisher 情報量を用いる方法

上述の FS 法では、Fisher 情報量を完全な形で用いているが、一般に、Fisher 情報行列は $(IJ+JK)\times(IJ+JK)$ の大きさの行列であり、大きなネットワークに対してこれを計算するにはかなりの計算時間が必要である。また、式（4.38）は個の未知変数をもつ線形方程式であり、これを解くにもかなりの時間が必要である。従って、実用的なアルゴリズムのためには、なんらかの方法でこれらの計算をさぼる必要がある。ここでは、ニューロンごとの Fisher 情報量、つまり、 Fisher 情報行列のブロック対角成分のみを用いて残りの部分は無視することにより計算量を削減することを考える。

入力層から中間層のニューロンへの結合荷重に関係する Fisher 情報行列の成分は、

$\begin{displaymath} F_{Aj} = \left[ \sum_{p=1}^P x_{pl} \nu_{pj} \chi_{pjj} \nu_{pj} x_{pi} \right] = X^T W_{Aj} X, \end{displaymath}$

(237)

となる。ここで、

$\displaystyle X$	$\textstyle =$	$\displaystyle \left[ \mbox{\boldmath$x$}_1, \ldots, \mbox{\boldmath$x$}_P \right]^T$	(238)
$\displaystyle W_{Aj}$	$\textstyle =$	$\displaystyle \mbox{diag}(\nu_{pj} \chi_{pjj} \nu_{pj})$	(239)

である。これは、中間層のニューロン

への入力ベクトルの重み付き相関行列である。式（4.37）や式（4.38）等から入力層から中間層のニューロン

への結合荷重 $\mbox{\boldmath$\theta$}_{Aj}^{*} = (a_{j1},\ldots,a_{jI})^T$ を計算するための正規方程式は、

$\begin{displaymath} X^T W_{AJ} X \mbox{\boldmath$\theta$}_{Aj}^{*} = X^T W_{AJ}... ...oldmath$\zeta$}_j + W_{Aj}^{-1} \mbox{\boldmath$\delta$}_{Aj}) \end{displaymath}$

(240)

となる。ただし、

$\displaystyle \mbox{\boldmath$\zeta$}_j$	$\textstyle =$	$\displaystyle (\zeta_{1j},\ldots,\zeta_{Pj})^T$	(241)
$\displaystyle \mbox{\boldmath$\delta$}_{Aj}$	$\textstyle =$	$\displaystyle (\sigma_{1j} \nu_{1j}, \ldots, \sigma_{Pj} \nu_{Pj})^T$	(242)

である。これは、中間層のニューロン

への入力ベクトル

から $\mbox{\boldmath$\zeta$}_j + W_{Aj}^{-1} \mbox{\boldmath$\delta$}_{Aj}$ を推定する重み付き最小２乗法の正規方程式とみなすことができる。

同様に、中間層から出力層のニューロンへの結合荷重に関係する Fisher 情報行列の成分は、

$\begin{displaymath} F_{Bk} = \left[ \sum_{p=1}^P y_{pm} \omega_{pk} y_{pj} \right] = Y^T W_{Bk} Y \end{displaymath}$

(243)

となる。ここで、

$\displaystyle Y^T$	$\textstyle =$	$\displaystyle \left[ \mbox{\boldmath$y$}_1, \ldots, \mbox{\boldmath$y$}_P \right]$	(244)
$\displaystyle W_{Bk}$	$\textstyle =$	$\displaystyle \mbox{diag}(\omega_{pk})$	(245)

である。従って、中間層から出力層のニューロン

への結合荷重を計算するための正規方程式は、

$\begin{displaymath} Y^T W_{Bk} Y \mbox{\boldmath$\theta$}_{Bk}^{*} = Y^T W_{Bk}... ...oldmath$\eta$}_k + W_{Bk}^{-1} \mbox{\boldmath$ \delta$}_{Bk}) \end{displaymath}$

(246)

となる。ここで、

$\displaystyle \mbox{\boldmath$\eta$}_k$	$\textstyle =$	$\displaystyle (\eta_{1k},\ldots,\eta_{Pk})^T$	(247)
$\displaystyle \mbox{\boldmath$\delta$}_{Bk}$	$\textstyle =$	$\displaystyle (\omega_{1k}, \ldots, \omega_{Pj})^T$	(248)

である。

結合荷重の推定値 $\{\mbox{\boldmath$\theta$}_{Aj}\vert j=1,\ldots,J\}$ および $\{\mbox{\boldmath$\theta$}_{Bk}\vert k=1,\ldots,K\}$ は、これらの正規方程式を繰り返し解くことにより求められる。つまり、このアルゴリズムでは、各ニューロンがそのニューロンに関係する結合荷重を重み付き最小２乗法を繰り返すことにより推定しているとみなすことができる。以下、このアルゴリズムを UFS 法と呼ぶことにする。

次に、これらの重み付き最小２乗法を解くための再帰計算式を導出する。これによりここで提案したアルゴリズムと通常の誤差逆伝搬法との関係がより明確になる。

学習用のデータ集合 $\{<\mbox{\boldmath$x$}_p,\mbox{\boldmath$t$}_p>\vert p=1,\ldots,N-1\}$ に対する結合荷重の推定値 $\mbox{\boldmath$\theta$}_{Aj}^{(N-1)}$ が得られているとき、新たに学習データ $<\mbox{\boldmath$x$}_{N},\mbox{\boldmath$t$}_{N}>$ を追加したデータ集合に対して最適な結合荷重の推定値 $\mbox{\boldmath$\theta$}_{Aj}^{(N)}$ を計算するための再帰計算式は、

$\begin{displaymath} \mbox{\boldmath$\theta$}_{Aj}^{(N)} = \mbox{\boldmath$\thet... ...} + Q_{Aj}^{(N)} \mbox{\boldmath$x$}_{N} \sigma_{Nj} \nu_{Nj}, \end{displaymath}$

(249)

となる。ここで、行列 $Q_{Aj}^{(N)}$ は重み付き相関行列 $X^{(N)T}W_{Aj}^{(N)}X ^{(N)}$ の逆行列の推定値で、再帰計算式

$\begin{displaymath} Q_{Aj}^{(N)} = Q_{Aj}^{(N-1)} - \frac{\nu_{Nj} \chi_{Njj} ... ...x{\boldmath$x$}_{N}^T Q_{Aj}^{(N-1)} \mbox{\boldmath$x$}_{N} } \end{displaymath}$

(250)

で与えられる。

同様に、 $\mbox{\boldmath$\theta$}_{Bk}$ に対する再帰計算式は、

$\displaystyle \mbox{\boldmath$\theta$}_{Bk}^{(N)}$	$\textstyle =$	$\displaystyle \mbox{\boldmath$\theta$}_{Bk}^{(N-1)} + Q_{Bk}^{(N)} \mbox{\boldmath$y$}_{N} \delta_{Nj}$	(251)
$\displaystyle Q_{Bk}^{(N)}$	$\textstyle =$	$\displaystyle Q_{Bk}^{(N-1)} - \frac{\omega_{Nj} Q_{Bk}^{(N-1)} \mbox{\boldmath... ... \omega_{Nj} \mbox{\boldmath$y$}_{N}^T Q_{Bk}^{(N-1)} \mbox{\boldmath$y$}_{N}}.$	(252)

となる。

これらの計算式とクロスエントロピー基準を評価基準とする誤差逆伝搬法の結合荷重の更新式（SD法）を比べると、提案したアルゴリズムでは学習率 $\alpha$ のかわりに重み付き相関行列の逆行列の推定値を用いていることがわかる。

次へ: パラメータの学習実験 上へ: パラメータ推定アルゴリズム 戻る: Fisher のスコアリングアルゴリズム

Takio Kurita 平成14年7月3日