next up previous
次へ: 核関数に基づく方法 上へ: ノンパラメトリックな方法 戻る: ノンパラメトリックな方法

ノンパラメトリックな確率密度関数の推定

ノンパラメトリックな確率密度関数の推定のための基本的な考え方は、直観的 には比較的単純である。

今、あるベクトル $\mbox{\boldmath$x$}$ が未知の確率密度関数 $p(\mbox{\boldmath$x$})$ からのサン プルであるとすると、このベクトル $\mbox{\boldmath$x$}$がある領域 $R$ の内側に入る確 率 $P$ は、

\begin{displaymath}
P = \int_{R} p(\mbox{\boldmath$x$}') d\mbox{\boldmath$x$}'
\end{displaymath} (24)

で与えられる。確率密度関数 $p(\mbox{\boldmath$x$})$ が連続で、領域 $R$ 内でほとんど 変化しない場合には、確率 $P$ は、
\begin{displaymath}
P = \int_{R} p(\mbox{\boldmath$x$}') d\mbox{\boldmath$x$}' \approx p(\mbox{\boldmath$x$}) V
\end{displaymath} (25)

と近似できる。ただし、 $\mbox{\boldmath$x$}$は領域 $R$ 内の点であり、$V$ は領域 $R$ の体積である。

次に、独立な $N$ 個のサンプルが与えられた場合を考えよう。この場合、$N$ このうちの $K$ 個が領域 $R$ に入る確率は、二項分布の定義から

\begin{displaymath}
\mbox{Pr}(K) = {N \choose K} P^K (1-P)^{N-K}
\end{displaymath} (26)

で与えられる。また、$K$ の期待値は、
\begin{displaymath}
E[K] = N P
\end{displaymath} (27)

となる。二項分布は平均付近で鋭いピークを持つので、比 $\frac{K}{N}$ は 確率 $P$ の良い推定値であると考えられる。

これらの結果から、確率密度関数は、

\begin{displaymath}
p(\mbox{\boldmath$x$}) \approx \frac{K}{N V}
\end{displaymath} (28)

のように推定できることがわかる。

ただし、このような近似が成り立つためには、次の様な相反する要請を満足す るように領域 $R$ を選ばなければならない。まず、領域 $R$ 内で確率密度関 数 $p(\mbox{\boldmath$x$})$ があまり変化しないためには、領域 $R$ は十分小さくなけれ ばならない。一方、二項分布が鋭いピークを持つためには、領域 $R$ に入る サンプルの数が十分多くなければならないので、領域 $R$ はある程度大きく なければならない。つまり、このような近似を成り立たせるためには適切な大 きさの領域 $R$ を選ぶ必要がある。



平成14年7月19日