情報量基準は、漸近展開により、モデルの自由度に関するバイアスを式の形で 求めて補正する評価基準であるが、データからのサンプリングに基づく手法で は、コンピュータの計算パワーを利用して学習データからのサンプリングを繰 り返し、その平均的な振舞いを知る事ことにより、バイアスの少ない評価基準 を得ようとする。その代表的な方法には、交差確認法(Cross-Validation法)や bootstrap法[15,16]などがある。
交差確認法では、大きさ
の学習データを推測用のデータと評価用のデータ
に分け、推測用データから求めた推定値を用いたモデルを評価用データにあて
はめることにより、モデルの良さを評価する。データの分け方としては、推測
用のデータとして
個のデータを用い、残りの
個のデータを評価に
用いることが多い。そして、
個のデータの各々がちょうど1回ずつ評価用
データとなるように
通りの分け方を考え、その平均値によりモデルを評価
する。モデル選択の場合には、各モデル毎に交差確認法でモデルの良さ(例え
ば、平均2乗誤差)を評価し、それらを比較することにより、最良のモデルが
決定できる。
bootstrap 法では、
個の学習データから重複を許して
個の標本をランダ
ムに選び、それに基づいてパラメータを計算し、そのパラメータに基づいてモ
デルの良さ(例えば、平均2乗誤差)を評価するという操作を多数回繰り返し、
それらの平均を比較することにより、最良のモデルを決定する。
こうしたデータからのサンプリングに基づく手法は、多数回のサンプリングと それに基づいてパラメータを推定するための膨大な計算が必要となるが、情報 量基準のような漸近展開を用いていないので、手法を適用する際に要求される 条件がかなり緩やかである。しかし、bootstrap法におけるサンプリングの回 数の選び方や交差確認法における評価用データと推測用データの分割の仕方に ついては、必ずしも最善の方法か知られているわけではない。
画像処理やコンピュータビジョンの応用では、MDL が頻繁に用いられているが、 場合によってはデータからのサンプリングに基づくモデル選択手法も適用して 見る価値があると思う。