ノンパラメトリックな確率密度関数の推定

次へ: 核関数に基づく方法 上へ: ノンパラメトリックな方法 戻る: ノンパラメトリックな方法

ノンパラメトリックな確率密度関数の推定

ノンパラメトリックな確率密度関数の推定のための基本的な考え方は、直観的には比較的単純である。

今、あるベクトル $\mbox{\boldmath$x$}$ が未知の確率密度関数 $p(\mbox{\boldmath$x$})$ からのサンプルであるとすると、このベクトル $\mbox{\boldmath$x$}$ がある領域の内側に入る確率は、

$\begin{displaymath} P = \int_{R} p(\mbox{\boldmath$x$}') d\mbox{\boldmath$x$}' \end{displaymath}$

(24)

で与えられる。確率密度関数 $p(\mbox{\boldmath$x$})$ が連続で、領域

内でほとんど変化しない場合には、確率

は、

$\begin{displaymath} P = \int_{R} p(\mbox{\boldmath$x$}') d\mbox{\boldmath$x$}' \approx p(\mbox{\boldmath$x$}) V \end{displaymath}$

(25)

と近似できる。ただし、 $\mbox{\boldmath$x$}$ は領域

内の点であり、

は領域

の体積である。

次に、独立な個のサンプルが与えられた場合を考えよう。この場合、このうちの個が領域に入る確率は、二項分布の定義から

$\begin{displaymath} \mbox{Pr}(K) = {N \choose K} P^K (1-P)^{N-K} \end{displaymath}$

(26)

で与えられる。また、

の期待値は、

$\begin{displaymath} E[K] = N P \end{displaymath}$

(27)

となる。二項分布は平均付近で鋭いピークを持つので、比 $\frac{K}{N}$ は確率

の良い推定値であると考えられる。

これらの結果から、確率密度関数は、

$\begin{displaymath} p(\mbox{\boldmath$x$}) \approx \frac{K}{N V} \end{displaymath}$

(28)

のように推定できることがわかる。

ただし、このような近似が成り立つためには、次の様な相反する要請を満足するように領域を選ばなければならない。まず、領域内で確率密度関数 $p(\mbox{\boldmath$x$})$ があまり変化しないためには、領域は十分小さくなければならない。一方、二項分布が鋭いピークを持つためには、領域に入るサンプルの数が十分多くなければならないので、領域はある程度大きくなければならない。つまり、このような近似を成り立たせるためには適切な大きさの領域を選ぶ必要がある。

平成14年7月19日