多層パーセプトロンと非線形回帰

次へ: 汎化性 上へ: 階層型ニューラルネット 戻る: 最尤推定としての定式化

多層パーセプトロンと非線形回帰

4.1.1節で述べたように、単純パーセプトロンと多変量データ解析、特に、回帰分析とは密接な関係がある。従って、その拡張としての多層パーセプトロンも多変量データ解析と密接に関係していると考えられる。

ここでは、多層パーセプトロンが究極的に何を学習しようとしているのかを見るために、非線形回帰との関係について考察する。

多層パーセプトロンは、入力と望みの出力（教師信号）の対からなる学習用データ $\{\mbox{\boldmath$x$}_p,\mbox{\boldmath$u$}_p\vert p=1,\ldots,P\}$ に基づいて、入力 $\mbox{\boldmath$x$} \in R^I$ から望みの出力 $\mbox{\boldmath$u$}$ を推定するような非線形の変換

$\begin{displaymath} \hat{\mbox{\boldmath$u$}} = \Phi(\mbox{\boldmath$x$}) \end{displaymath}$

(89)

をユニット間の結合重荷を調節することによって構成するための手段であると考えることができる。出来上がったネットワークを関数関係の近似に利用する場合には、望みの出力は実数ベクトル $\mbox{\boldmath$u$} \in R^K$ とし、パターン認識に使う場合には、２値ベクトル $\mbox{\boldmath$u$} \in [0,1]^K$ とするのが一般的である。ユニット間の結合荷重を決定するための評価基準としては、普通、２乗誤差

$\begin{displaymath} \varepsilon^2_{emp} = \sum_{p=1}^P \vert\vert\mbox{\boldmath$u$}_p - \Phi(\mbox{\boldmath$x$}_p)\vert\vert^2 \end{displaymath}$

(90)

が使われている。つまり、多層パーセプトロンは、たくさんの単純なユニットを結合したネットワークを用いて非線形の回帰を行っているとみなすことができる。

今、中間層のユニットの個数を任意に多く用いることができ、従って、任意の連続関数が実現でき、また、学習サンプル $\{\mbox{\boldmath$x$},\mbox{\boldmath$u$}\}$ が確率密度分布 $p(\mbox{\boldmath$x$},\mbox{\boldmath$u$})$ で表される母集団から無数に得られるような理想的な場合を考えてみる。この場合には、平均２乗誤差

$\begin{displaymath} \varepsilon^2(\Phi) = \int \vert\vert\mbox{\boldmath$u$}_p ... ...\mbox{\boldmath$u$}) d\mbox{\boldmath$x$} d\mbox{\boldmath$u$} \end{displaymath}$

(91)

を最小とするような最適な変換 $\Phi$ は、変分法を用いて陽に求められ、

$\begin{displaymath} \hat{\mbox{\boldmath$u$}} = \Phi_{opt}(\mbox{\boldmath$x$})... ...ox{\boldmath$u$}\vert\mbox{\boldmath$x$}) d\mbox{\boldmath$u$} \end{displaymath}$

(92)

となる[14,15]。これは、入力 $\mbox{\boldmath$x$}$ をそのもとでの $\mbox{\boldmath$u$}$ の条件つき平均に写像することを示しており、非線形回帰として自然な結論となっている。例えば、この写像により達成される最小平均２乗誤差は、 $\hat{\mbox{\boldmath$u$}}$ と $\mbox{\boldmath$x$}$ の相関係数 $\rho$ を用いて

$\begin{displaymath} \varepsilon^2_{opt} = \sigma^2_{u}(1-\rho^2) \end{displaymath}$

(93)

のような線形回帰で見なれた関係が成り立つことが確かめられる。この変換 $\Phi$ 入力 $\mbox{\boldmath$x$}$ と望みの出力 $\mbox{\boldmath$u$}$ との確率的な関係が完全にわかるような理想的な場合の結果であるが、実際のニューラルネットでは、有限個の学習サンプルからの学習によって、ネットワークの制約のもとでこの写像が近似的に実現されていると考えることができる。

多層パーセプトロンを入力パターン $\mbox{\boldmath$x$}$ を個のクラス $\{C_k\vert k=1,\ldots,K\}$ に識別する問題に応用する場合には、クラスに対応して番目の要素のみがで残りの要素が全ての２値ベクトルを教師信号 $\mbox{\boldmath$u$}$ とするのが普通である。この場合には、上述の最適な写像は、

$\begin{displaymath} \hat{\mbox{\boldmath$u$}} = \Phi_{opt}(\mbox{\boldmath$x$})... ...\ \vdots \\ p(C_K\vert\mbox{\boldmath$x$}) \end{array} \right] \end{displaymath}$

(94)

のようにベイズ事後確率を要素とするベクトルとなる。従って、この場合には、ニューラルネットは、有限個の学習サンプルからネットワークの制約のもとで事後確率を近似しているとみなすことができる。さらに、麻生ら(麻生89,麻生 90)は、パターン認識のための多層パーセプトロンと非線形判別分析との関係について考察している。同様な考察は、Webbら(Webb90,Lowe91)にも報告されている。

平成14年7月19日