next up previous
次へ: ノンパラメトリックな方法 上へ: パラメトリックモデル 戻る: 最尤法

ベイズ推定

上記の最尤法では、パラメータ $\mbox{\boldmath$\theta$}$ を未知の定数として扱い、デー タから最も尤もらしいパラメータを一つ推定したが、ベイズ推定では、パラメー タ $\mbox{\boldmath$\theta$}$ を仮に確率変数とみなして、パラメータの値の確信度を確 率密度分布を用いて表現する。そして、データ $X$ を観測する前にパラメー タが取るであろう値の確率密度分布 $p(\mbox{\boldmath$\theta$})$ を事前確率として表現 し、データが観測された後にパラメータが取るであろう値の確率密度分布(事 後確率密度分布) $p(\mbox{\boldmath$\theta$}\vert X)$ を推定する。一般に、データを観測す る前には、パラメータがどんな値を取るかに関する情報が得られないので、パ ラメータの取るであろう値の確率密度分布 $p(\mbox{\boldmath$\theta$})$ は、広がった分 布となる。データが観測されると事後確率密度分布 $p(\mbox{\boldmath$\theta$}\vert X)$ は、 データと整合性の良いパラメータほど大きな値を持つような分布となる。つま り、事後確率分布は事前確率分布よりも狭い分布となる。このようなデータを 観測することにより確率分布が先鋭化される現象は、ベイズ学習(Bayesian learning)と呼ばれている。

今、$N$ 個の学習用データの集合 $X = \{\mbox{\boldmath$x$}_1,\ldots,\mbox{\boldmath$x$}_N\}$ から 事後確率密度分布 $p(\mbox{\boldmath$\theta$}\vert X)$ が計算できるとすると、学習用データ と同じ分布から特徴ベクトル $\mbox{\boldmath$x$}$ が得られる確率密度分布は、

\begin{displaymath}
p(\mbox{\boldmath$x$}\vert X) = \int p(\mbox{\boldmath$x$},\mbox{\boldmath$\theta$}\vert X) d \mbox{\boldmath$\theta$}
\end{displaymath} (18)

のように計算できる。ここで、条件付き確率密度分布の定義から
$\displaystyle p(\mbox{\boldmath$x$},\mbox{\boldmath$\theta$}\vert X)$ $\textstyle =$ $\displaystyle p(\mbox{\boldmath$x$}\vert\mbox{\boldmath$\theta$},X)
p(\mbox{\boldmath$\theta$}\vert X)$  
  $\textstyle =$ $\displaystyle p(\mbox{\boldmath$x$}\vert\mbox{\boldmath$\theta$}) p(\mbox{\boldmath$\theta$}\vert X)$ (19)

である。この時、 $\mbox{\boldmath$x$}$ はパラメータのみに依存し、データ $X$ に依存し ない、つまり、 $\mbox{\boldmath$x$}$ の確率密度分布は、パラメトリックモデルとして表 現できるという仮定で議論しているので、 $p(\mbox{\boldmath$x$}\vert\mbox{\boldmath$\theta$},X) =
p(\mbox{\boldmath$x$}\vert\mbox{\boldmath$\theta$})$ のように簡単化した。これを、式(18)に 代入すると、
\begin{displaymath}
p(\mbox{\boldmath$x$}\vert X) = \int p(\mbox{\boldmath$x$}\...
... p(\mbox{\boldmath$\theta$}\vert X) d \mbox{\boldmath$\theta$}
\end{displaymath} (20)

のように書ける。つまり、ベイズ推定では、パラメータ $\mbox{\boldmath$\theta$}$ の特 定の値を決める代わりに、すべての可能な値を考え、 $p(\mbox{\boldmath$\theta$}\vert X)$ を 重みとした重み付き平均により $\mbox{\boldmath$x$}$ の確率密度分布を推定する。

学習データ $X = \{\mbox{\boldmath$x$}_1,\ldots,\mbox{\boldmath$x$}_N\}$ が同じ分布からの独立なサ ンプルと仮定すると、

\begin{displaymath}
p(X\vert\mbox{\boldmath$\theta$}) = \prod_{i=1}^N p(\mbox{\boldmath$x$}_i; \mbox{\boldmath$\theta$})
\end{displaymath} (21)

のようになる。これは、式(14) の尤度の定義と同じである。 ベイズの定理を用いると、
\begin{displaymath}
p(\mbox{\boldmath$\theta$}\vert X) = \frac{p(X\vert\mbox{\b...
...rod_{i=1}^N p(\mbox{\boldmath$x$}_i; \mbox{\boldmath$\theta$})
\end{displaymath} (22)

のように計算できる。ここで、分母の正規化項は、
\begin{displaymath}
p(X) = \int p(\mbox{\boldmath$\theta$}) \prod_{i=1}^N p(\mb...
...th$x$}_i;
\mbox{\boldmath$\theta$}) d\mbox{\boldmath$\theta$}
\end{displaymath} (23)

である。

以上のように形式的には、 $p(\mbox{\boldmath$x$}\vert X)$ を計算することができるが、一般に は、このための積分計算はかなり複雑で、解析的な結果は正規分布などの一部 の分布関数属についてのみ可能である。



平成14年7月19日