next up previous
次へ: 正規分布の場合 上へ: ベイズ決定理論 戻る: ベイズ決定理論


ベイズ決定方式

識別したい $K$ 個のクラスを $C=\{C_k\}_{k=1}^K$ で表し、認識対象を計測 して得られた特徴ベクトルの空間(特徴空間)を $X=\{\mbox{\boldmath$x$} \in R^M\}$ で 表す。

識別対象がクラス $C_k$ に属している確率 $P(C_k)$ は、事前確率(prior probability)あるいは先見確率と呼ばれている。識別対象が $K$ 個の クラスのどれかに属しているとすると、 $\sum_{k=1}^K P(C_k)=1$ が満たされ る。また、あるクラス $C_k$ に属する対象を計測した時、特徴ベクトル $\mbox{\boldmath$x$}$ が観測される確率密度分布を $p(\mbox{\boldmath$x$}\vert C_k)$ で表す。この時、当 然、 $\int p(\mbox{\boldmath$x$}\vert C_k) d\mbox{\boldmath$x$}=1$ が満たされる。これらの確率がわかれ ば、特徴ベクトルとクラスとの確率的な関係はすべて計算できる。例えば、 パターン認識で非常に重要な事後確率(posterior probability)、つま り、ある対象から特徴ベクトル $\mbox{\boldmath$x$}$が観測された時、それがクラス $C_k$ に属している確率 $P(C_j\vert\mbox{\boldmath$x$})$ は、ベイズの公式(Bayes theorem)から、

\begin{displaymath}
P(C_k\vert\mbox{\boldmath$x$})=\frac{P(C_k)p(\mbox{\boldmat...
...\ \mbox{ } \ \
\sum_{k=1}^K P(C_k\vert\mbox{\boldmath$x$})=1
\end{displaymath} (1)

のように計算できる。ここで、
\begin{displaymath}
p(\mbox{\boldmath$x$})=\sum_{k=1}^K P(C_k)p(\mbox{\boldmath...
...box{ } \ \ \int p(\mbox{\boldmath$x$})\,d\mbox{\boldmath$x$}=1
\end{displaymath} (2)

$\mbox{\boldmath$x$}$ の確率密度分布である。

このように特徴ベクトルとクラスの関係が確率統計的知識として事前に完全に わかる場合には、識別の問題は以下のように統計的決定理論の枠組で完全に定 式化される。

特徴ベクトル $\mbox{\boldmath$x$}$ に基づき対象がどのクラスに属するかを決定する関数 (決定関数)を $d(\mbox{\boldmath$x$})$ で表し、クラス $C_k$ の対象をクラス $C_j$ に決定したときの損失(loss)を$r(C_j\vert C_k)$ で表すと、損失の期待値(平均 損失)は、

\begin{displaymath}
R[d]= \sum_{k=1}^K \int r(d(\mbox{\boldmath$x$})\vert C_k)P...
...box{\boldmath$x$})p(\mbox{\boldmath$x$})\,d\mbox{\boldmath$x$}
\end{displaymath} (3)

となり、決定関数の汎関数となる。これを最小とする決定関数 $d(\mbox{\boldmath$x$})$ を 求めるのが統計的(ベイズ)決定理論である。

特に0-1損失、つまり、誤った識別に対して均等な損失を与える場合には、損失関数は、

\begin{displaymath}
r(C_k\vert C_j)=1-\delta_{jk}
\end{displaymath} (4)

で与えられ、これを最小とする最適な識別関数は、
\begin{displaymath}
d(\mbox{\boldmath$x$}) = C_k \ \ \mbox{ } \ \ \ \ \mbox{if}...
...rt\mbox{\boldmath$x$}) = \max_j P(C_j\vert\mbox{\boldmath$x$})
\end{displaymath} (5)

となる。これは、事後確率が最大となるクラスに決定する識別方式であり、ベ イズ識別方式と呼ばれている。この識別関数によって達成される最小誤識別率 は、
\begin{displaymath}
P_e^* = 1-\int \max_j P(C_j\vert\mbox{\boldmath$x$})p(\mbox{\boldmath$x$})d\mbox{\boldmath$x$}
\end{displaymath} (6)

で与えられる。

また、識別したいクラスが2つ($K=2$)の場合には、さらに簡単になり、最適な 識別方式は、

\begin{displaymath}
\ \ \mbox{If} \ \ P(C_1\vert\mbox{\boldmath$x$}) \ge P(C_2\...
...$x$} \in C_1,
\ \ \mbox{else} \ \ \mbox{\boldmath$x$}\in C_2
\end{displaymath} (7)

のように事後確率の大小を比較して識別すればよい。これは、尤度比検定
\begin{displaymath}
\ \ \mbox{If} \ \ \L =\frac{p(\mbox{\boldmath$x$}\vert C_1)...
...h$x$} \in
C_1, \ \ \mbox{else} \ \ \mbox{\boldmath$x$}\in C_2
\end{displaymath} (8)

と等価となる。ただし、閾値 $\theta$ は、 $\theta=P(C_2)/P(C_1)$ である。

実際のパターン認識の応用では、$K$個 のクラスのどのクラスにも識別できな いような対象が含まれることがある。そのような対象は、識別できない対象の クラスとして区別できれば簡単である。今、そのようなクラスを $D$ とし、 対象を $K$ 個のクラス $C=\{C_k\}_{k=1}^K$ および識別できない対象のクラ ス $D$ のいずれかに決定する識別関数 $\hat{d}(\mbox{\boldmath$x$})$ を考えてみよう。 また、損失関数も識別できなかった場合の損失も考えて、 $\hat{r}(C_j\vert C_k)
= 1 - \delta_{jk}$ および $\hat{r}(D \vert C_k) = d$ とする。この場合には、 最適な識別関数は、

$\displaystyle \hat{d}(\mbox{\boldmath$x$})$ $\textstyle =$ $\displaystyle C_k \ \ \mbox{ } \ \ \ \ \mbox{if} \ \ \ \ \mbox{ } \ \ P(C_k\ver...
...ox{\boldmath$x$}) \ \ \ \mbox{and} \ \ \ P(C_k\vert\mbox{\boldmath$x$}) > 1 - d$  
$\displaystyle \hat{d}(\mbox{\boldmath$x$})$ $\textstyle =$ $\displaystyle D \ \ \mbox{ } \ \ \ \ \mbox{if} \ \ \ \ \mbox{ } \ \ \mbox{each} \ \ P(C_j\vert\mbox{\boldmath$x$}) \le 1 - d$ (9)

となる[2]。


next up previous
次へ: 正規分布の場合 上へ: ベイズ決定理論 戻る: ベイズ決定理論
平成14年7月19日