next up previous
次へ: Fisher 情報量 上へ: 階層型ネットワークの場合 戻る: 階層型ネットワークの場合

尤度

4.3のようなネットワークでは、入力信号 $\mbox{\boldmath$x$} = (x_{1},\ldots,x_{I})^T$ に対して、次式に従って出力信号 $\mbox{\boldmath$z$} = (z_{1},\ldots,z_{K})^T$ が計算される。

$\displaystyle \zeta_{j}$ $\textstyle =$ $\displaystyle \sum_{i=1}^I a_{ji} x_{i}$ (216)
$\displaystyle y_{j}$ $\textstyle =$ $\displaystyle f(\zeta_{j}) = \frac{exp(\zeta_{j})}{1 + exp(\zeta_{j})}$ (217)
$\displaystyle \eta_{k}$ $\textstyle =$ $\displaystyle \sum_{j=1}^J b_{kj} y_{j}$ (218)
$\displaystyle z_{k}$ $\textstyle =$ $\displaystyle f(\eta_{k}) = \frac{exp(\eta_{k})}{1 + exp(\eta_{k})}$ (219)

ただし、 $a_{ji}$ は、第 $i$ 番目の入力から中間層の第 $j$ 番目のニューロンへの 結合荷重であり、$b_{kj}$ は、中間層の第 $j$ 番目のニューロンから出力層の第 $k$ 番目のニューロンへの結合荷重である。

図 4.3: 階層型ネットワークの例
\begin{figure}\begin{center}
\psfig{file=images/fig-4.3.eps,width=90mm}\end{center}\end{figure}

学習のためのデータの集合を、ニューロン1個のみのネットワークの場合と同様に、 $\{<\mbox{\boldmath$x$}_p,\mbox{\boldmath$t$}_p>\vert p=1,\ldots,P\}$ とする。また、教師信号は対応するクラ スの要素は $1$ でそれ以外の要素は $0$$K$ 次元の2値ベクトルで与えられる ものとする。

今、出力の各要素の条件付き独立性を仮定すると、学習データに対するネットワーク の尤度は、

\begin{displaymath}
L = \prod_{p=1}^P \prod_{k=1}^K z_{pk}^{t_{pk}} (1 - z_{pk})^{(1-t_{pk})}
\end{displaymath} (220)

で与えられる。従って、対数尤度は、
\begin{displaymath}
l = \sum_{p=1}^P \sum_{k=1}^K \{ t_{pk} \log z_{pk}
+ (1-t_{pk}) \log (1-z_{pk}) \}
\end{displaymath} (221)

となる。これの符号をかえるとクロスエントロピーと呼ばれている基準となる [144]。



Takio Kurita 平成14年7月3日