カーネル学習法と汎化能力

次へ: 識別のための線形手法と汎化性 上へ: カーネル学習法 戻る: カーネルトリック

カーネル学習法と汎化能力

カーネルトリックを用いて非線形に拡張したサポートベクターマシンでは、「マージン最大化」という基準から自動的に識別平面付近の少数の訓練サンプルに対応するカーネル（カーネル特徴）のみが選択され、最適な識別関数が構成される。これは、汎化能力の高い識別器を構成するために、カーネル特徴を選択することでモデルの自由度を低く抑えて、より安定なモデルを構成したとみなすことができる。そう考えると、カーネル特徴を選択するだけでなく、入力特徴を選択することも汎化能力の向上につながると期待できる。さらには、中間層のニューロン数を削減するために、いくつかのサンプルを統合した代表ベクトルを用いてカーネル特徴を構成することなども考えられる。

また、サポートベクターマシンでは、「マージン最大化」という基準でカーネル特徴が選択されたが、その基準は汎化能力を評価する手法の一つとして知られているCV次元と関連している。パターン識別器の学習における汎化性能は、学習に用いない未知のデータに対する識別性能であるので、文字認識などのように、訓練サンプル以外に汎化性能を評価するためのデータを比較的容易に集めることができる場合には、訓練サンプル以外のサンプルに対する識別率を計算し、その結果から、直接的に汎化性能を評価することも可能である。つまり、汎化性能を評価するためのサンプルを用意し、そのサンプルに対する識別率に基づいてカーネル特徴や入力特徴を選択することが可能である。

カーネル学習では、入力特徴の選択の他に、Gaussカーネルの場合のカーネル幅 $\sigma$ のようなカーネルのパラメータをうまく設定しなければ高い汎化性能は得られない。現状ではそれらのパラメータは試行錯誤的に決められていることが多いが、汎化性能を評価するためのサンプルに対する識別率を評価することで、適切なパラメータを決定することも可能である。

サポートベクターマシンでは、２クラスの識別のために線形しきい値素子を用いたが、それ以外にも、目的に応じて、主成分分析、判別分析、線形回帰などの多変量解析手法とカーネルトリックを組み合わせることも可能である。そうすることでカーネルベースの非線形の多変量解析が実現できる。特に、パターン識別器を構成するには、カーネル判別分析が有効であろう。また、後段に多クラスの識別のための最も簡単なニューラルネットモデルの１つであるmultinomial logit model を用いると、各クラスの事後確率を直接推定する非線形予測モデルを構成することも可能である。

平成14年7月18日