next up previous
次へ: 領域分割への応用 上へ: モデル選択手法 戻る: 情報量基準

データからのサンプリングに基づく手法

情報量基準は、漸近展開により、モデルの自由度に関するバイアスを式の形で 求めて補正する評価基準であるが、データからのサンプリングに基づく手法で は、コンピュータの計算パワーを利用して学習データからのサンプリングを繰 り返し、その平均的な振舞いを知る事ことにより、バイアスの少ない評価基準 を得ようとする。その代表的な方法には、交差確認法(Cross-Validation法)や bootstrap法[15,16]などがある。

交差確認法では、大きさ$n$の学習データを推測用のデータと評価用のデータ に分け、推測用データから求めた推定値を用いたモデルを評価用データにあて はめることにより、モデルの良さを評価する。データの分け方としては、推測 用のデータとして $n-1$ 個のデータを用い、残りの $1$ 個のデータを評価に 用いることが多い。そして、$n$ 個のデータの各々がちょうど1回ずつ評価用 データとなるように $n$ 通りの分け方を考え、その平均値によりモデルを評価 する。モデル選択の場合には、各モデル毎に交差確認法でモデルの良さ(例え ば、平均2乗誤差)を評価し、それらを比較することにより、最良のモデルが 決定できる。

bootstrap 法では、$n$個の学習データから重複を許して$m$個の標本をランダ ムに選び、それに基づいてパラメータを計算し、そのパラメータに基づいてモ デルの良さ(例えば、平均2乗誤差)を評価するという操作を多数回繰り返し、 それらの平均を比較することにより、最良のモデルを決定する。

こうしたデータからのサンプリングに基づく手法は、多数回のサンプリングと それに基づいてパラメータを推定するための膨大な計算が必要となるが、情報 量基準のような漸近展開を用いていないので、手法を適用する際に要求される 条件がかなり緩やかである。しかし、bootstrap法におけるサンプリングの回 数の選び方や交差確認法における評価用データと推測用データの分割の仕方に ついては、必ずしも最善の方法か知られているわけではない。

画像処理やコンピュータビジョンの応用では、MDL が頻繁に用いられているが、 場合によってはデータからのサンプリングに基づくモデル選択手法も適用して 見る価値があると思う。



平成14年7月19日