上記の最尤法では、パラメータ を未知の定数として扱い、デー タから最も尤もらしいパラメータを一つ推定したが、ベイズ推定では、パラメー タ を仮に確率変数とみなして、パラメータの値の確信度を確 率密度分布を用いて表現する。そして、データ を観測する前にパラメー タが取るであろう値の確率密度分布 を事前確率として表現 し、データが観測された後にパラメータが取るであろう値の確率密度分布(事 後確率密度分布) を推定する。一般に、データを観測す る前には、パラメータがどんな値を取るかに関する情報が得られないので、パ ラメータの取るであろう値の確率密度分布 は、広がった分 布となる。データが観測されると事後確率密度分布 は、 データと整合性の良いパラメータほど大きな値を持つような分布となる。つま り、事後確率分布は事前確率分布よりも狭い分布となる。このようなデータを 観測することにより確率分布が先鋭化される現象は、ベイズ学習(Bayesian learning)と呼ばれている。
今、 個の学習用データの集合
から
事後確率密度分布
が計算できるとすると、学習用データ
と同じ分布から特徴ベクトル
が得られる確率密度分布は、
(19) |
(20) |
学習データ
が同じ分布からの独立なサ
ンプルと仮定すると、
(21) |
(22) |
(23) |
以上のように形式的には、 を計算することができるが、一般に は、このための積分計算はかなり複雑で、解析的な結果は正規分布などの一部 の分布関数属についてのみ可能である。