next up previous
次へ: EM アルゴリスム 上へ: セミパラメトリックな手法 戻る: 混合分布モデル(Mixture Model)

最尤法

各確率密度分布が式(43)の正規分布に従う場合の混合分布 では、パラメータとして、重み係数 $\omega_j$、 各確率密度の平均 $\mbox{\boldmath$\mu$}_j$ および分散 $\sigma_j$ を推定する必要がある。学習用の $N$ 個 のデータ $\{\mbox{\boldmath$x$}_n\vert n=1,\ldots,N\}$ から最尤法でこれらのパラメータ を推定することを考える。与えられたデータに対する対数尤度 $l$ は、

\begin{displaymath}
l = \log L = \sum_{n=1}^N \log p(\mbox{\boldmath$x$}_n) = \...
...\sum_{j=1}^O \omega_j p(\mbox{\boldmath$x$}_n\vert j) \right\}
\end{displaymath} (44)

のようなる。

対数尤度 $l$ を最大とするようなパラメータは、非線形最適化手法を用いて 求めることができる。ただし、パラメータの選び方によっては、対数尤度が無 限大になってしまうので、それを避けるための工夫が必要となる。対数尤度 $l$ はパラメータに関して微分可能な連続関数であるので、パラメータ $\mbox{\boldmath$\mu$}_j$ および $\sigma_j$ で偏微分すると

$\displaystyle \frac{\partial l}{\partial \mbox{\boldmath$\mu$}_j}$ $\textstyle =$ $\displaystyle \sum_{n=1}^N
\frac{\omega_j p(\mbox{\boldmath$x$}_n\vert j)}{p(\m...
...th$x$}_n) \frac{(\mbox{\boldmath$x$}_n -
\mbox{\boldmath$\mu$}_j)}{2\sigma_j^2}$ (45)
$\displaystyle \frac{\partial l}{\partial \sigma_j}$ $\textstyle =$ $\displaystyle \sum_{n=1}^N
\frac{\omega_j p(\mbox{\boldmath$x$}_n\vert j)}{p(\m...
...box{\boldmath$x$}_n - \mbox{\boldmath$\mu$}_j\vert\vert^2}{\sigma_j^3} \right\}$ (46)

となる。ただし、
\begin{displaymath}
P(j\vert\mbox{\boldmath$x$}_n) = \frac{\omega_j p(\mbox{\boldmath$x$}_n\vert j)}{p(\mbox{\boldmath$x$}_n)}
\end{displaymath} (47)

である。一方、混合パラメータ $\omega_j$ は、条件(41)を 満たす必要がある。補助パラメータ $\gamma_j$ を用いて
\begin{displaymath}
\omega_j = \frac{\exp(\gamma_j)}{\sum_{k=1}^O \exp(\gamma_k)}
\end{displaymath} (48)

のように定義すると、混合パラメータ $\omega_j$ は条件を満たすようになる。 これは softmax 関数と呼ばれている。対数尤度 $l$ を補助パラメータ $\gamma_j$ で変微分すると、
\begin{displaymath}
\frac{\partial l}{\partial \gamma_j} = \sum_{k=1}^O \frac{\...
...}^N \left\{ P(j\vert\mbox{\boldmath$x$}_n) - \omega_j \right\}
\end{displaymath} (49)

となる。対数尤度の微分に関するこれらの結果を利用して、尤度を最大とする パラメータ(最尤解)を非線形最適化手法により求めることができる。

また、対数尤度の微分を $0$ とおくことにより、最尤解に関して、

$\displaystyle \hat{\omega}(j)$ $\textstyle =$ $\displaystyle \frac{1}{N} \sum_{n=1}^N P(j\vert\mbox{\boldmath$x$}_n)$ (50)
$\displaystyle \hat{\mbox{\boldmath$\mu$}_j}$ $\textstyle =$ $\displaystyle \frac{\sum_{n=1}^N P(j\vert\mbox{\boldmath$x$}_n)
\mbox{\boldmath$x$}_n}{\sum_{n=1}^N P(j\vert\mbox{\boldmath$x$}_n)}$ (51)
$\displaystyle \hat{\sigma}_j^2$ $\textstyle =$ $\displaystyle \frac{1}{d} \frac{\sum_{n=1}^N P(j\vert\mbox{\boldmath$x$}_n)
\ve...
...ox{\boldmath$\mu$}}_j\vert\vert^2}{\sum_{n=1}^N P(j\vert\mbox{\boldmath$x$}_n)}$ (52)

のような関係が成り立つことがわかる。これは、最尤解が各要素への帰属度 を表す事後確率 $P(j\vert\mbox{\boldmath$x$}_n)$ を重みとして計算されることを示している。


next up previous
次へ: EM アルゴリスム 上へ: セミパラメトリックな手法 戻る: 混合分布モデル(Mixture Model)
平成14年7月19日