next up previous
次へ: 部分的な隠れへの対応 上へ: 向きに依存した識別器 戻る: 向きに依存した識別器


Mixture of Classifiers

複数の向きに依存した識別器をgating networkを用いて統合することにより向き に依存しない顔画像の認識を実現する。各識別器には同一の特徴ベクトルが入力 され、識別結果が出力される。gating networkも識別器と同じ特徴ベクトルを入 力として受け取り、その入力に対してどの識別器が適当かを選択する重みを出力 する。ネットワーク全体の出力は、各ネットワークをgating networkの出力で重 み付けたベクトルとして計算される。すなわち、gating networkは識別器を選択 するスイッチのような役割を持つ。

ここでは、$H$ 個の識別器を統合する場合について考える。 そして、$h$番目の識別器の結合加重を $A^{(h)} =
\{\mbox{\boldmath$a$}_1^{(h)},\ldots,\mbox{\boldmath$a$}_{K-1}^{(h)}\}$、その識別器の$k$番目の出力 を$p_k^{(h)}$とする。この時、$h$番目の識別器の確率モデルは、

\begin{displaymath}
P^{(h)}(\mbox{\boldmath$t$}\vert\mbox{\boldmath$x$};A^{(h)}) = \prod_{k=1}^K p_k^{(h)t_k}
\end{displaymath} (79)

で与えられる。

ネットワーク全体の出力は、各識別器の確率$P^{(h)}$を gatingネットワークの中間層の出力値$g_{h}$で重みつけて、

\begin{displaymath}
P(\mbox{\boldmath$t$}\vert\mbox{\boldmath$x$}) = \sum_{h=1}...
...h P^{(h)}(\mbox{\boldmath$t$}\vert\mbox{\boldmath$x$};A^{(h)})
\end{displaymath} (80)

のように計算される。この対数をとると、ネットワーク全体の対数尤度は、
\begin{displaymath}
l_1 = \log \left[ \sum_{h=1}^{H} g_h
P^{(h)}(\mbox{\boldmath$t$}\vert\mbox{\boldmath$x$};A^{(h)}) \right]
\end{displaymath} (81)

となる。

一方、gatingネットワークの学習には、入力と出力との二乗誤差を最小とする基 準

\begin{displaymath}
l_2 = -\frac{1}{2\sigma^{2}}\sum_{n=1}^{N}(x_n - z_n)^2,
\end{displaymath} (82)

が必要である。

これらをまとめると、全ネットワークの学習のための評価それらをまとめると、全ネットワークの学習のための評価基準として、

\begin{displaymath}
L = l_1 + \lambda l_2,
\end{displaymath} (83)

が得られる。ここで、$\lambda$ は、各識別器の学習とgatingネットワークの学 習のバランスをとるためのパラメータである。

この評価基準を最大とするパラメータを最急降下法で求めるとすると、 $\mbox{\boldmath$a$}_k^{(h)}$に対する学習アルゴリズムは、

\begin{displaymath}
\Delta \mbox{\boldmath$a$}_k^{(h)} = \alpha \frac{\partial ...
...}_k^{(h)}} = \alpha s_h (t_k - p_k^{(h)}) \mbox{\boldmath$x$},
\end{displaymath} (84)

となる。ここで、$\alpha$ 学習係数である。同様に、 $\mbox{\boldmath$v$}_h$ および $\mbox{\boldmath$w$}_m$ に対する学習アルゴリズムは、
$\displaystyle \Delta \mbox{\boldmath$v$}_h$ $\textstyle =$ $\displaystyle \alpha \{ (s_h - g_h)\mbox{\boldmath$x$}$  
    $\displaystyle + \lambda \sum_{j=1}^N(x_{j}-z_{j})(w_{hj} - z_{j})y_{h}\mbox{\boldmath$x$} \}$ (85)
$\displaystyle \Delta \mbox{\boldmath$w$}_m$ $\textstyle =$ $\displaystyle \alpha \lambda(x_m-z_m)\mbox{\boldmath$g$}$ (86)

となる。

ここで、$s_h$ は、

\begin{displaymath}
s_h = \frac{g_h P_h(\mbox{\boldmath$t$}\vert\mbox{\boldmath...
...}^{H} g_j P_j(\mbox{\boldmath$t$}\vert\mbox{\boldmath$x$};A)}}
\end{displaymath} (87)

のように定義され、入力 $\mbox{\boldmath$x$}$が与えられたときに$h$番目のgateが開く事後 確率とみなすことができる。

著者等は、このネットワークを25方向から撮影した10人の顔の識別問題に適用し、 向きに関する情報を教示しないでも向きに依存した識別器が学習により自己組織 的に獲得され、どんな向きの顔に対しても安定に認識できるようになることを示 した[60,61]。


next up previous
次へ: 部分的な隠れへの対応 上へ: 向きに依存した識別器 戻る: 向きに依存した識別器
平成14年11月18日