next up previous
次へ: 重回帰分析のための汎化性向上の工夫 上へ: 識別のための線形手法と汎化性 戻る: 単純パーセプトロンの学習

線形重回帰分析

これに対して、出力ユニットの入出力関数として線形関数を用い、ネットワーク の出力と教師信号と平均2乗誤差を最小にするような結合荷重を推定する場合に は、平均2乗誤差の意味で最適なパラメータを求めることができる。

今、$N$ 個の学習用のデータを $\{(\mbox{\boldmath$x$}_i,t_i)\vert i=1,\ldots,N\}$ とする。 ここで、 $\mbox{\boldmath$x$}_i$ が入力ベクトルで、その入力ベクトルに対する望みの出 力(教師信号)が $t_i$ である。この時、この学習用のデータに対する2乗誤 差は、

\begin{displaymath}
\varepsilon^2_{emp} = \sum_{i=1}^N (t_i - y_i)^2
= \sum_{i=1}^N \varepsilon^2_{emp}(i)
\end{displaymath} (34)

となる。最適なパラメータを求めるために、パラメータ(結合荷重) $\tilde{\mbox{\boldmath$w$}}$ を逐次更新することにより次第に最適なパラメータに近似さ せる最急降下法を用いることにすると、2乗誤差 $\varepsilon^2_{emp}$ のパ ラメータに関する偏微分を計算する必要がある。2乗誤差 $\varepsilon^2_{emp}$ のパラメータ$w_j$に関する偏微分は、
\begin{displaymath}
\frac{\partial \varepsilon^2_{emp}}{\partial w_{j}} =
\sum...
...1}^N -2 (t_i - y_i) x_{ij} =
\sum_{i=1}^N -2 \delta_i x_{ij}
\end{displaymath} (35)

となる。また、バイアス$h$に関する偏微分は、
\begin{displaymath}
\frac{\partial \varepsilon^2_{emp}}{\partial h} =
\sum_{i=1}^N -2 (t_i - y_i) (-1)=
\sum_{i=1}^N -2 \delta_i (-1)
\end{displaymath} (36)

ただし、 $\delta_i = (t_i - y_i)$ である。従って、最急降下法によるパラメー タの更新式は、
$\displaystyle w_j$ $\textstyle \Leftarrow$ $\displaystyle w_j + \alpha (\sum_{i=1}^N \delta_i x_{ij})$ (37)
$\displaystyle h$ $\textstyle \Leftarrow$ $\displaystyle h + \alpha (\sum_{i=1}^N \delta_i (-1))$ (38)

のようになる。ここで、$\alpha$は、学習係数(learning rate)である。この更 新法は、Widrow-Hoffの学習規則(Widrow-Hoff learning rule) と呼ばれている。 また、教師信号$t_i$とネットワークの出力$y_i$の誤差 $\delta_i$ に応じてパ ラメータを修正するため、デルタルール(delta rule) と呼ばれることもある。

Widrow-Hoffの学習規則では、最急降下法を用いて逐次近似によりパラメータを 推定するが、重回帰分析の場合には、遂次学習ではなく、最適な解を行列計算に より陽に求めることが可能である。

今、訓練サンプルデータの入力ベクトルを並べた $N \times (M+1)$ 次元の行列 を $X = (\tilde{\mbox{\boldmath$x$}}_1,\ldots,\tilde{\mbox{\boldmath$x$}}_N)^T$ とし、教師信号を並 べた$N$次元のベクトルを $\mbox{\boldmath$t$} = (t_1,\ldots,t_N)^T$ とする。これらを用 いると2乗誤差は、

\begin{displaymath}
\varepsilon^2_{emp} = \sum_{i=1}^N (t_i - y_i)^2 = \vert\ve...
...mbox{\boldmath$t$} - X \tilde{\mbox{\boldmath$w$}}\vert\vert^2
\end{displaymath} (39)

のように書ける。これをパラメータ $\tilde{\mbox{\boldmath$w$}}$ で偏微分して$0$とおくと、
\begin{displaymath}
\frac{\partial \varepsilon^2_{emp}}{\partial \tilde{\mbox{\...
...^T (\mbox{\boldmath$t$} -
X \tilde{\mbox{\boldmath$w$}}) = 0
\end{displaymath} (40)

となる。従って、$(X^TX)$が正則ならば、最適なパラメータ $\tilde{\mbox{\boldmath$w$}}^{*}$は、
\begin{displaymath}
\tilde{\mbox{\boldmath$w$}}^{*} = (X^TX)^{-1} X^T \mbox{\boldmath$t$}
\end{displaymath} (41)

となる。これは、重回帰分析(multiple regression analysis)と呼ばれる最も 基本的な多変量データ解析と等価である。重回帰分析では、 $\mbox{\boldmath$x$}$ は説明 変数 (explanatory variable)、 $t$ は目的変数(criterion variable)と呼ばれ ている。


next up previous
次へ: 重回帰分析のための汎化性向上の工夫 上へ: 識別のための線形手法と汎化性 戻る: 単純パーセプトロンの学習
平成14年7月18日