データからのサンプリングに基づく手法

次へ: 領域分割への応用 上へ: モデル選択手法 戻る: 情報量基準

データからのサンプリングに基づく手法

情報量基準は、漸近展開により、モデルの自由度に関するバイアスを式の形で求めて補正する評価基準であるが、データからのサンプリングに基づく手法では、コンピュータの計算パワーを利用して学習データからのサンプリングを繰り返し、その平均的な振舞いを知る事ことにより、バイアスの少ない評価基準を得ようとする。その代表的な方法には、交差確認法(Cross-Validation法)や bootstrap法[15,16]などがある。

交差確認法では、大きさの学習データを推測用のデータと評価用のデータに分け、推測用データから求めた推定値を用いたモデルを評価用データにあてはめることにより、モデルの良さを評価する。データの分け方としては、推測用のデータとして個のデータを用い、残りの個のデータを評価に用いることが多い。そして、個のデータの各々がちょうど1回ずつ評価用データとなるように通りの分け方を考え、その平均値によりモデルを評価する。モデル選択の場合には、各モデル毎に交差確認法でモデルの良さ(例えば、平均２乗誤差)を評価し、それらを比較することにより、最良のモデルが決定できる。

bootstrap 法では、個の学習データから重複を許して個の標本をランダムに選び、それに基づいてパラメータを計算し、そのパラメータに基づいてモデルの良さ(例えば、平均２乗誤差)を評価するという操作を多数回繰り返し、それらの平均を比較することにより、最良のモデルを決定する。

こうしたデータからのサンプリングに基づく手法は、多数回のサンプリングとそれに基づいてパラメータを推定するための膨大な計算が必要となるが、情報量基準のような漸近展開を用いていないので、手法を適用する際に要求される条件がかなり緩やかである。しかし、bootstrap法におけるサンプリングの回数の選び方や交差確認法における評価用データと推測用データの分割の仕方については、必ずしも最善の方法か知られているわけではない。

画像処理やコンピュータビジョンの応用では、MDL が頻繁に用いられているが、場合によってはデータからのサンプリングに基づくモデル選択手法も適用して見る価値があると思う。

平成14年7月19日