ベイズ決定方式

識別したい

個のクラスを $C=\{C_k\}_{k=1}^K$ で表し、認識対象を計測して得られた特徴ベクトルの空間（特徴空間）を $X=\{\mbox{\boldmath$x$} \in R^M\}$ で表す。

識別対象がクラス

に属している確率

は、事前確率(prior probability)あるいは先見確率と呼ばれている。識別対象が

個のクラスのどれかに属しているとすると、 $\sum_{k=1}^K P(C_k)=1$ が満たされる。また、あるクラス

に属する対象を計測した時、特徴ベクトル $\mbox{\boldmath$x$}$ が観測される確率密度分布を $p(\mbox{\boldmath$x$}\vert C_k)$ で表す。この時、当然、 $\int p(\mbox{\boldmath$x$}\vert C_k) d\mbox{\boldmath$x$}=1$ が満たされる。これらの確率がわかれば、特徴ベクトルとクラスとの確率的な関係はすべて計算できる。例えば、パターン認識で非常に重要な事後確率(posterior probability)、つまり、ある対象から特徴ベクトル $\mbox{\boldmath$x$}$ が観測された時、それがクラス

に属している確率 $P(C_j\vert\mbox{\boldmath$x$})$ は、ベイズの公式(Bayes theorem)から、

$\begin{displaymath} P(C_k\vert\mbox{\boldmath$x$})=\frac{P(C_k)p(\mbox{\boldmat... ...\ \mbox{ } \ \ \sum_{k=1}^K P(C_k\vert\mbox{\boldmath$x$})=1 \end{displaymath}$

(1)

$\begin{displaymath} p(\mbox{\boldmath$x$})=\sum_{k=1}^K P(C_k)p(\mbox{\boldmath... ...box{ } \ \ \int p(\mbox{\boldmath$x$})\,d\mbox{\boldmath$x$}=1 \end{displaymath}$

(2)

このように特徴ベクトルとクラスの関係が確率統計的知識として事前に完全にわかる場合には、識別の問題は以下のように統計的決定理論の枠組で完全に定式化される。

特徴ベクトル $\mbox{\boldmath$x$}$ に基づき対象がどのクラスに属するかを決定する関数（決定関数）を $d(\mbox{\boldmath$x$})$ で表し、クラス

の対象をクラス

に決定したときの損失(loss)を $r(C_j\vert C_k)$ で表すと、損失の期待値（平均損失）は、

$\begin{displaymath} R[d]= \sum_{k=1}^K \int r(d(\mbox{\boldmath$x$})\vert C_k)P... ...box{\boldmath$x$})p(\mbox{\boldmath$x$})\,d\mbox{\boldmath$x$} \end{displaymath}$

(3)

特に0-1損失、つまり、誤った識別に対して均等な損失を与える場合には、損失関数は、

$\begin{displaymath} d(\mbox{\boldmath$x$}) = C_k \ \ \mbox{ } \ \ \ \ \mbox{if}... ...rt\mbox{\boldmath$x$}) = \max_j P(C_j\vert\mbox{\boldmath$x$}) \end{displaymath}$

(5)

$\begin{displaymath} P_e^* = 1-\int \max_j P(C_j\vert\mbox{\boldmath$x$})p(\mbox{\boldmath$x$})d\mbox{\boldmath$x$} \end{displaymath}$

(6)

また、識別したいクラスが2つ(

)の場合には、さらに簡単になり、最適な識別方式は、

$\begin{displaymath} \ \ \mbox{If} \ \ P(C_1\vert\mbox{\boldmath$x$}) \ge P(C_2\... ...$x$} \in C_1, \ \ \mbox{else} \ \ \mbox{\boldmath$x$}\in C_2 \end{displaymath}$

(7)

$\begin{displaymath} \ \ \mbox{If} \ \ \L =\frac{p(\mbox{\boldmath$x$}\vert C_1)... ...h$x$} \in C_1, \ \ \mbox{else} \ \ \mbox{\boldmath$x$}\in C_2 \end{displaymath}$

(8)

実際のパターン認識の応用では、

個のクラスのどのクラスにも識別できないような対象が含まれることがある。そのような対象は、識別できない対象のクラスとして区別できれば簡単である。今、そのようなクラスを

とし、対象を

個のクラス $C=\{C_k\}_{k=1}^K$ および識別できない対象のクラス

のいずれかに決定する識別関数 $\hat{d}(\mbox{\boldmath$x$})$ を考えてみよう。また、損失関数も識別できなかった場合の損失も考えて、 $\hat{r}(C_j\vert C_k) = 1 - \delta_{jk}$ および $\hat{r}(D \vert C_k) = d$ とする。この場合には、最適な識別関数は、

$\displaystyle \hat{d}(\mbox{\boldmath$x$})$	$\textstyle =$	$\displaystyle C_k \ \ \mbox{ } \ \ \ \ \mbox{if} \ \ \ \ \mbox{ } \ \ P(C_k\ver... ...ox{\boldmath$x$}) \ \ \ \mbox{and} \ \ \ P(C_k\vert\mbox{\boldmath$x$}) > 1 - d$
$\displaystyle \hat{d}(\mbox{\boldmath$x$})$	$\textstyle =$	$\displaystyle D \ \ \mbox{ } \ \ \ \ \mbox{if} \ \ \ \ \mbox{ } \ \ \mbox{each} \ \ P(C_j\vert\mbox{\boldmath$x$}) \le 1 - d$	(9)