情報量基準は、漸近展開により、モデルの自由度に関するバイアスを式の形で 求めて補正する評価基準であるが、データからのサンプリングに基づく手法で は、コンピュータの計算パワーを利用して学習データからのサンプリングを繰 り返し、その平均的な振舞いを知る事ことにより、バイアスの少ない評価基準 を得ようとする。その代表的な方法には、交差確認法(Cross-Validation法)や bootstrap法[15,16]などがある。
交差確認法では、大きさの学習データを推測用のデータと評価用のデータ
に分け、推測用データから求めた推定値を用いたモデルを評価用データにあて
はめることにより、モデルの良さを評価する。データの分け方としては、推測
用のデータとして
個のデータを用い、残りの
個のデータを評価に
用いることが多い。そして、
個のデータの各々がちょうど1回ずつ評価用
データとなるように
通りの分け方を考え、その平均値によりモデルを評価
する。モデル選択の場合には、各モデル毎に交差確認法でモデルの良さ(例え
ば、平均2乗誤差)を評価し、それらを比較することにより、最良のモデルが
決定できる。
bootstrap 法では、個の学習データから重複を許して
個の標本をランダ
ムに選び、それに基づいてパラメータを計算し、そのパラメータに基づいてモ
デルの良さ(例えば、平均2乗誤差)を評価するという操作を多数回繰り返し、
それらの平均を比較することにより、最良のモデルを決定する。
こうしたデータからのサンプリングに基づく手法は、多数回のサンプリングと それに基づいてパラメータを推定するための膨大な計算が必要となるが、情報 量基準のような漸近展開を用いていないので、手法を適用する際に要求される 条件がかなり緩やかである。しかし、bootstrap法におけるサンプリングの回 数の選び方や交差確認法における評価用データと推測用データの分割の仕方に ついては、必ずしも最善の方法か知られているわけではない。
画像処理やコンピュータビジョンの応用では、MDL が頻繁に用いられているが、 場合によってはデータからのサンプリングに基づくモデル選択手法も適用して 見る価値があると思う。