next up previous
次へ: 非線形手法への拡張 上へ: ロジスティック回帰 戻る: ロジスティック回帰

ロジスティック回帰のための汎化性向上の工夫

(1) 変数選択法

入力特徴ベクトル $\mbox{\boldmath$x$}$の中には予測モデルに取って有用な特徴のみでなく不 用な特徴が含まれていることがある。例えば、極端な場合として、予測に全無関 係な特徴が含まれているとすると、その特徴は未学習サンプルの予測には有効に 働かないで、逆に予測の邪魔をすることに成りかねない。また、訓練サンプルの 数に比べて入力特徴の数が多い場合には、予測モデルのパラメータを一意に決め ることすらできなくなってしまう。このような場合には、特徴の中から予測に有 効な特徴の部分集合を選び出して予測モデルを構築することが必要となる。この ような与えられた特徴の中から予測に有効な特徴の部分集合を選び出して予測モ デルを構築する手法は、変数選択法と呼ばれている。

変数選択のためには、すべての特徴の部分集合に対して、予測性能を評価する必 要がある。しかし、部分集合の数は、特徴の数が増えると指数関数的に増大する。 したがって、特徴の数が多い場合には、すべての部分集合に対して評価すること るは現実的では無い。そのため、比較的良い特徴の部分集合を探策する手法が提 案さるれている。単純な方法としては、Forward stepwise selection あるいは、 Backward stepwise selection と呼ばれる手法がある。Forward stepwise selection は、最初、特徴$1$個のみのモデルからはじめて、特徴を$1$個づつ追 加して行くことで、最も良い特徴の組を選び出す。逆に、Backward stepwise selection は、全ての特徴を含むモデルから特徴を$1$個づつ取り除いて行くこ とで、最も良い特徴の組を選び出す。これらの他にも遺伝的アルゴリズムを用い て特徴の組を撰択することなども可能である。

変数選択を行うためには、特徴の部分集合に対して学習が終った予測モデルの予 測性能を評価できなければならない。先の訓練サンプルに対する2乗誤差基準は、 特徴の数を増やせば増やすほど小さくなるので、この基準で特徴の部分集合を選 択することはできない。

予測モデルの汎化性能は、学習に用いない未知のデータに対する予測性能である ので、訓練サンプル以外に汎化性能を評価するためのデータを比較的容易に集め ることができる場合には、訓練サンプル以外のサンプルに対する予測性能を評価 することも可能である。つまり、汎化性能を評価するためのサンプルを用意し、 そのサンプルに対する予測性能が最大となるような特徴の部分集合を選択するこ とが可能である。この方法は、最も簡単で、最も直接的な方法であり、訓練サン プル以外にデータを集めることが可能な場合には、まず試みてみるべき方法であ る。

訓練サンプルを集めることが難しく、訓練サンプルが少ない場合には、訓練サン プル以外の評価用データを用意することが難しい。このような場合には、訓練サ ンプルのみから予測性能を評価しなければならない。かなり多くの計算量が必要 であるが、計算パワーさえあれば、比較的簡単に予測性能を評価できる方法に、 resampling手法がある。leave-one-out法は、その中でも最も単純な手法である。 leave-one-out法では、$N$個のサンプルが与えられた場合、それを$N-1$個の訓 練サンプルと$1$個の評価用サンプルとに分割し、$N-1$ 個の訓練サンプルを用 いた学習結果で$1$個の評価用サンプルを評価する。このような分割の仕方は$N$ 通りあるので、その全てに対する評価結果の平均を計算し、それを予測性能の評 価値として利用する。その他、もう少し洗練された手法として、jackknife法 [70,99]やbootstrap法[23,24,25]等の resampling手法もある。resampling手法は、コンピュータの計算パワーを最大限 に利用することで、予測性能を評価する手法であり、現在のようにコンピュータ の性能が急激に向上し、コンピュータの計算パワーが至る所で有り余っているよ うな状況では、もっともっと利用しても良い手法であると考える。

訓練サンプルに対する2乗誤差基準の代わりに、予測性能を評価するための訓練 サンプルのみから計算できる評価基準も提案されている。重回帰分析では、F統 計量を用いる方法もあるが、その他にも、赤池の AIC(An Information Theoretical Criterion)[2,95]やRissanenのMDL(Minimum Description Length)[90,91]などの情報量基準も有名で ある。このような方法は、学習は一回のみでよく、比較的簡便な評価が可能とな る。重回帰分析を用いたパーセプトロンの結合係数の学習は最尤推定とみなすこ とができるので、学習されたパラメータを使って計算した対数尤度(最大対数尤 度)から AIC や MDL などの情報量基準を計算することにより、予測モデルの予 測性能を比較することが可能となる。

(2) Weight Decay

変数選択法では、説明変数の組を選択することで、未学習のデータ対する予測性 能の良いモデルを構築しようとするが、この変数選択のプロセスは、変数を選ぶ、 選ばないというように離散的である。それに対して、もう少し連続的にモデルを 制限する方法として、Shrinkage法と呼ばれる方法がある。その代表的なものが、 対数尤度最大化基準にパラメータが大きくなりすぎないようなペナルティ(正則 化項)を追加するWeight Decay法である。つまり、Weight Decay法では、目的関数を、

$\displaystyle Q(\tilde{\mbox{\boldmath$w$}})$ $\textstyle =$ $\displaystyle - l + \lambda \sum_{j=1}^M w_{j}^2$  
  $\textstyle =$ $\displaystyle \sum_{i=1}^N \{\log \{1+\exp(\eta_i) \} - u_i \eta_i\}$  
    $\displaystyle + \lambda \sum_{j=1}^M w_{j}^2$ (56)

のように変更する。これを最小化するパラメータを求めるために、 $Q(\tilde{\mbox{\boldmath$w$}})$のパラメータ$w_j$に関する偏微分を計算してみると、
$\displaystyle \frac{\partial Q}{\partial w_j}$ $\textstyle =$ $\displaystyle - \frac{\partial l}{\partial w_j} + 2 \lambda w_j$  
  $\textstyle =$ $\displaystyle - \sum_{i=1}^N (u_i - y_i) x_{ij} + 2 \lambda w_j$ (57)

となる。また、 $Q(\tilde{\mbox{\boldmath$w$}})$のパラメータ$h$に関する偏微分は、
$\displaystyle \frac{\partial Q}{\partial h}$ $\textstyle =$ $\displaystyle - \frac{\partial l}{\partial h}$  
  $\textstyle =$ $\displaystyle - \sum_{i=1}^N (u_i - y_i) (-1)$ (58)

となる。したがって、Weight Decayでのパラメータの更新式は、
$\displaystyle w_j$ $\textstyle \Leftarrow$ $\displaystyle w_j + \alpha (\sum_{i=1}^N (u_i - y_i) x_{ij}) - 2 \alpha \lambda w_j$ (59)
$\displaystyle h$ $\textstyle \Leftarrow$ $\displaystyle h + \alpha (\sum_{i=1}^N (u_i - y_i) (-1))$ (60)

となる。ここで、$w_j$の更新式の第2項は、$w_j$の絶対値を小さくする方向に 作用する。つまり、予測に不必要な無駄なパラメータを$0$にするような効果が ある。


next up previous
次へ: 非線形手法への拡張 上へ: ロジスティック回帰 戻る: ロジスティック回帰
平成14年11月18日