next up previous
次へ: 汎化性 上へ: 階層型ニューラルネット 戻る: 最尤推定としての定式化

多層パーセプトロンと非線形回帰

4.1.1節で述べたように、単純パーセプトロンと多変量データ 解析、特に、回帰分析とは密接な関係がある。従って、その拡張としての多層 パーセプトロンも多変量データ解析と密接に関係していると考えられる。

ここでは、多層パーセプトロンが究極的に何を学習しようとしているのかを見 るために、非線形回帰との関係について考察する。

多層パーセプトロンは、入力と望みの出力(教師信号)の対からなる学習用デー タ $\{\mbox{\boldmath$x$}_p,\mbox{\boldmath$u$}_p\vert p=1,\ldots,P\}$ に基づいて、入力 $\mbox{\boldmath$x$} \in
R^I$ から望みの出力 $\mbox{\boldmath$u$}$ を推定するような非線形の変換

\begin{displaymath}
\hat{\mbox{\boldmath$u$}} = \Phi(\mbox{\boldmath$x$})
\end{displaymath} (89)

をユニット間の結合重荷を調節することによって構成するための手段であると 考えることができる。出来上がったネットワークを関数関係の近似に利用する 場合には、望みの出力は実数ベクトル $\mbox{\boldmath$u$} \in R^K$ とし、パターン認識 に使う場合には、2値ベクトル $\mbox{\boldmath$u$} \in [0,1]^K$ とするのが一般的であ る。ユニット間の結合荷重を決定するための評価基準としては、普通、2乗誤 差
\begin{displaymath}
\varepsilon^2_{emp} = \sum_{p=1}^P \vert\vert\mbox{\boldmath$u$}_p - \Phi(\mbox{\boldmath$x$}_p)\vert\vert^2
\end{displaymath} (90)

が使われている。つまり、多層パーセプトロンは、たくさんの単純なユニット を結合したネットワークを用いて非線形の回帰を行っているとみなすことがで きる。

今、中間層のユニットの個数を任意に多く用いることができ、従って、任意の 連続関数が実現でき、また、学習サンプル $\{\mbox{\boldmath$x$},\mbox{\boldmath$u$}\}$ が確率密度 分布 $p(\mbox{\boldmath$x$},\mbox{\boldmath$u$})$ で表される母集団から無数に得られるような理想的 な場合を考えてみる。この場合には、平均2乗誤差

\begin{displaymath}
\varepsilon^2(\Phi) = \int \vert\vert\mbox{\boldmath$u$}_p ...
...\mbox{\boldmath$u$}) d\mbox{\boldmath$x$} d\mbox{\boldmath$u$}
\end{displaymath} (91)

を最小とするような最適な変換 $\Phi$ は、変分法を用いて陽に求められ、
\begin{displaymath}
\hat{\mbox{\boldmath$u$}} = \Phi_{opt}(\mbox{\boldmath$x$})...
...ox{\boldmath$u$}\vert\mbox{\boldmath$x$}) d\mbox{\boldmath$u$}
\end{displaymath} (92)

となる[14,15]。これは、入力 $\mbox{\boldmath$x$}$ をそのもとでの $\mbox{\boldmath$u$}$ の条件つき平均に写像することを示しており、非線形回帰として自 然な結論となっている。例えば、この写像により達成される最小平均2乗誤差 は、 $\hat{\mbox{\boldmath$u$}}$ $\mbox{\boldmath$x$}$ の相関係数 $\rho$ を用いて
\begin{displaymath}
\varepsilon^2_{opt} = \sigma^2_{u}(1-\rho^2)
\end{displaymath} (93)

のような線形回帰で見なれた関係が成り立つことが確かめられる。この変換 $\Phi$ 入力 $\mbox{\boldmath$x$}$ と 望みの出力 $\mbox{\boldmath$u$}$ との確率的な関係が完全にわ かるような理想的な場合の結果であるが、実際のニューラルネットでは、有限 個の学習サンプルからの学習によって、ネットワークの制約のもとでこの写像 が近似的に実現されていると考えることができる。

多層パーセプトロンを入力パターン $\mbox{\boldmath$x$}$$K$ 個のクラス $\{C_k\vert k=1,\ldots,K\}$ に識別する問題に応用する場合には、クラス $C_k$ に対応して $k$ 番目の要素のみが $1$ で残りの要素が全て $0$ の2値ベク トルを教師信号 $\mbox{\boldmath$u$}$ とするのが普通である。この場合には、上述の最適 な写像は、

\begin{displaymath}
\hat{\mbox{\boldmath$u$}} = \Phi_{opt}(\mbox{\boldmath$x$})...
...\ \vdots \\ p(C_K\vert\mbox{\boldmath$x$}) \end{array} \right]
\end{displaymath} (94)

のようにベイズ事後確率を要素とするベクトルとなる。従って、この場合には、 ニューラルネットは、有限個の学習サンプルからネットワークの制約のもとで 事後確率を近似しているとみなすことができる。さらに、麻生ら(麻生89,麻生 90)は、パターン認識のための多層パーセプトロンと非線形判別分析との関係 について考察している。同様な考察は、Webbら(Webb90,Lowe91)にも報告され ている。



平成14年7月19日