ニューラルネットの評価

次へ: 実験 上へ: 情報量基準によるニューラルネットの評価 戻る: AICとMDLP

ニューラルネットの評価

次に、情報量基準を用いて「中間層のニューロン数をいくつにするか」を決定する方法について考察する。

例として、図4.3のような中間層が１層の階層型ネットワークを用いてパターンを識別する場合を考える。この場合、中間層のニューロンを多くすると学習データに対する識別率は良くなるが、未知データに対する識別率は必ずしも単調に良くなるわけではない[14,176]。現在、妥当な一般化能力を持つネットワークを設計するためには、ネットワークの設計者がその経験と勘をたよりに、試行錯誤的に中間層のニューロン数を変えて、ネットワークの学習を試みているのが普通である。これを自動化するためには、中間層のニューロン数をいくつにすべきかに関するなんらかの目安を与える必要がある。ここでは、そのためにAICあるいはMDLPを用いる。すなわち、中間層のニューロン数の異なるネットワークの候補をいくつか用意し、学習データに対して各ネットワークのパラメータ（結合荷重）を前述の学習アルゴリズムによって学習し、その結果に基づいて各ネットワークを AIC あるいは MLDPで評価し最良のネットワークを決定する。

今、ネットワークの入力層のニューロン数を、中間層のニューロン数を、出力層のユニット数をとする。4.2.2 と同様に、ネットワークの入出力関係は、

$\displaystyle \zeta_{p}$	$\textstyle =$	$\displaystyle \sum_{i=1}^I a_{ji} x_{i} - a_{j0}$	(255)
$\displaystyle y_{j}$	$\textstyle =$	$\displaystyle f(\zeta_{j}) = \frac{exp(\zeta_{j})}{1 + exp(\zeta_{j})}$	(256)
$\displaystyle \eta_{k}$	$\textstyle =$	$\displaystyle \sum_{j=1}^J b_{kj} y_{j} - b_{k0}$	(257)
$\displaystyle z_{k}$	$\textstyle =$	$\displaystyle f(\eta_{k}) = \frac{exp(\eta_{k})}{1 + exp(\eta_{k})}$	(258)

で表されるものとする。また、教師ベクトルとしては、各クラスを代表するベクトルを取り、クラスに対応する要素は

でそれ以外のようそは

の

次元の２値ベクトルで与えられるものとする。ここで、 $a_{ji}$ は、第

番目の入力から中間層の第

番目のニューロンへの結合荷重であり、 $b_{kj}$ は、中間層の第

番目のニューロンから出力層の第

番目のニューロンへの結合荷重である。また、 $a_{j0}$ および $b_{k0}$ はそれぞれニューロン

および

のしきい値である。以下では、これらのパラメータをまとめて $\theta$ と書くことにする。

このネットワークは、個の重みと個のしきい値によって完全に記述できるので、このネットワークの自由度はである。

今、第番目の学習データの入力ベクトルを $\mbox{\boldmath$x$}_p$ 、その入力に対する望みの出力ベクトル（教師ベクトル）を $\mbox{\boldmath$t$}_p$ 、ネットワークに入力 $\mbox{\boldmath$x$}_p$ を入力した時の出力ベクトルを $\mbox{\boldmath$z$}_p$ と書くことにする。このとき、4.2.2 で示したように出力の各要素の条件付き独立性を仮定すると、互に独立な個の学習データに対して、望みの出力 $\{\mbox{\boldmath$t$}_p\vert p=1,\ldots,P\}$ が得られるもっともらしさ（尤度）は、

$\begin{eqnarray*} L &=& \prod_{p=1}^P \prod_{k=1}^K z_{pk}^{t_{pk}} (1 - z_{pk}... ...)]} {\prod_{p=1}^P \prod_{k=1}^K \{1+\mbox{exp}(-\eta_{pk})\}} \end{eqnarray*}$

となる。尤度

を最大とするパラメータ $\hat{\theta}$ が最尤推定値である。式(4.61)の対数を取ると、対数尤度は、

$\begin{displaymath} l = -\sum_{p=1}^P \sum_{k=1}^K \eta_{pk}(1-t_{pk}) -\sum_{p=1}^P \sum_{k=1}^K \log(1+\mbox{exp}(-\eta_{pk})) \end{displaymath}$

(259)

となる。

前述の学習アルゴリズムは尤度を最大とする学習アルゴリズムであるが、無限回の繰り返しを行うことは難しく、また、局所最適解に陥ることもあり、推定されたネットワークのパラメータ $\theta$ は最尤推定値 $\hat{\theta}$ に収束しないこともある。ここでは、学習が十分に進んだネットワークのパラメータ $\tilde{\theta}$ を用いて AIC あるいは MDL を計算することにする。

考えているネットワークの自由度はであるから、AIC および MDL の値は、それぞれ、

$\displaystyle AIC$	$\textstyle =$	$\displaystyle -2\tilde{l} + 2(IJ+JK+H+K)$	(260)
$\displaystyle MDL$	$\textstyle =$	$\displaystyle -\tilde{l} + \frac{1}{2} (IJ+JK+H+K)\log(P)$	(261)

で与えられる。ただし、 $\tilde{l}$ は、十分に学習が進んだネットワークのパラメータを用いて計算した対数尤度である。

以上をまとめると、中間層が１層のネットワークの中間層のニューロン数を決定するための手続きは、次のようになる。

中間層のニューロン数を決定するための手順

中間層のニューロン数の異なるいくつかのネットワークを用意し、各ネットワークを十分学習させる。
各ネットワークの学習後のパラメータを用いて、AIC あるいはMDLを近似的に計算する。
最も小さいAICあるいはMDLを与えるネットワークを最良のものと判定する。

以上はパターン認識のためのニューラルネットの中間層のニューロンの個数を決定するために情報量基準をもちいる手法についてであるが、連続関数を近似するネットワークの中間層のニューロン数の決定や何層のネットワークにすべきかあるいはもっと複雑な構造をもつネットワークの候補の中から最良のネットワークを選ぶ場合にも、同様に情報量基準を計算することによって評価できるであろう。

最後に、ここでは、情報量基準として特に有名な AIC と MDL の２つの基準を用いる手法について述べたが、これらふたつの基準の違いについて簡単に触れておく。式(4.62)と式(4.63)を比べると明らかなように、、つまり、の場合には、MDL の方が AIC よりも第２項の効果が大きくなる。通常、学習に用いるデータの個数は、よりもかなり大きいので、 MDL は AIC に比べパラメータ数の多いモデルに対してより大きなペナルティを与えることになる。従って、MDL は AIC よりも少ないパラメータ数のモデルを好む基準であるといえる。

次へ: 実験 上へ: 情報量基準によるニューラルネットの評価 戻る: AICとMDLP

Takio Kurita 平成14年7月3日