核関数に基づく方法では、領域 の体積 を固定して、データから
を決定する。今、領域 として、点
を中心とする辺の長さが
の超立方体(hyper cube)を考えよう。この時、領域 の体積は、
(30) |
(32) |
(33) |
このような核関数に基づく方法では、領域の大きさを 変更することによ り推定される密度分布の滑らかさが制御できる。もし推定される密度分布が滑 らかさを大きくしすぎると、バイアスが大きくなり良い推定結果が得られなく なる。一方、滑らかさが十分で無い場合には、密度分布が個々の学習データに 強く依存するようになり、推定結果の分散が大きくなってしまう。従って、良 い推定結果を得るためには、滑らかさのパラメータを適切な値に決めることが 重要となる。
学習データに対する尤度は、モデルの良さを測る基準であるが、滑らかさの値
が小さいほど尤度の値が大きくなってしまうので、滑らかさのパラメータを決
めるための基準としては適当ではない。つまり、滑らかさを制御するためには
尤度以外の評価基準が必要となる。滑らかさのパラメータを決定する目的は、
未知の真の確率密度分布
に出来るだけ近い確率密度のモデルを
を求めることである。そのためには、二つの確率密度分
布間の距離尺度が必要となるが、一般には、Kullback-Leibler の距離尺度
(34) |