上記の最尤法では、パラメータ
を未知の定数として扱い、デー
タから最も尤もらしいパラメータを一つ推定したが、ベイズ推定では、パラメー
タ
を仮に確率変数とみなして、パラメータの値の確信度を確
率密度分布を用いて表現する。そして、データ
を観測する前にパラメー
タが取るであろう値の確率密度分布
を事前確率として表現
し、データが観測された後にパラメータが取るであろう値の確率密度分布(事
後確率密度分布)
を推定する。一般に、データを観測す
る前には、パラメータがどんな値を取るかに関する情報が得られないので、パ
ラメータの取るであろう値の確率密度分布
は、広がった分
布となる。データが観測されると事後確率密度分布
は、
データと整合性の良いパラメータほど大きな値を持つような分布となる。つま
り、事後確率分布は事前確率分布よりも狭い分布となる。このようなデータを
観測することにより確率分布が先鋭化される現象は、ベイズ学習(Bayesian
learning)と呼ばれている。
今、 個の学習用データの集合
から
事後確率密度分布
が計算できるとすると、学習用データ
と同じ分布から特徴ベクトル
が得られる確率密度分布は、
![]() |
![]() |
![]() |
|
![]() |
![]() |
(19) |
![]() |
(20) |
学習データ
が同じ分布からの独立なサ
ンプルと仮定すると、
![]() |
(21) |
![]() |
(22) |
![]() |
(23) |
以上のように形式的には、
を計算することができるが、一般に
は、このための積分計算はかなり複雑で、解析的な結果は正規分布などの一部
の分布関数属についてのみ可能である。