next up previous
次へ: 正則化法としてのサポートベクターマシン 上へ: 識別のための線形手法と汎化性 戻る: ロジスティック回帰

ロジスティック回帰のための汎化性向上の工夫

ロジスティック回帰分析の場合にも、特徴の中から予測に有効な特徴の部分集合 を選び出す変数選択法は、汎化性能の高い予測モデルを構築するための有効な手 段であり、先に紹介した変数撰択手法をそのままロジスティク回帰にも応用でき る。変数撰択のための評価基準としても、同様に、訓練サンプル以外の汎化性能 を評価するためのサンプルを用意し、予測性能を直接評価する方法、resampling 法により訓練サンプルから汎化性能を予測して評価する方法、情報量基準を用い て予測性能を評価する方法などが考えられる。

(1) Weight Decay

リッジ回帰では、2乗誤差基準にパラメータが大きくなりすぎないようなペナル ティを課した。ロジスティック回帰の場合にも、同様に、対数尤度最大化基準に パラメータが大きくなりすぎないようなペナルティを課してみよう。この場合 の目的関数は、

$\displaystyle Q(\tilde{\mbox{\boldmath$w$}})$ $\textstyle =$ $\displaystyle - l + \lambda \sum_{j=1}^M w_{j}^2$  
  $\textstyle =$ $\displaystyle \sum_{i=1}^N \{\log \{1+\exp(\eta_i) \} - u_i \eta_i\}$  
    $\displaystyle + \lambda \sum_{j=1}^M w_{j}^2$ (68)

のように書ける。これを最小化するパラメータを求めるために、 $Q(\tilde{\mbox{\boldmath$w$}})$のパラメータ$w_j$に関する偏微分を計算して みると、
$\displaystyle \frac{\partial Q}{\partial w_j}$ $\textstyle =$ $\displaystyle - \frac{\partial l}{\partial w_j} + 2 \lambda w_j$  
  $\textstyle =$ $\displaystyle - \sum_{i=1}^N (u_i - y_i) x_{ij} + 2 \lambda w_j$ (69)

となる。また、 $Q(\tilde{\mbox{\boldmath$w$}})$のパラメータ$h$に関する偏微分は、
$\displaystyle \frac{\partial Q}{\partial h}$ $\textstyle =$ $\displaystyle - \frac{\partial l}{\partial h}$  
  $\textstyle =$ $\displaystyle - \sum_{i=1}^N (u_i - y_i) (-1)$ (70)

となる。したがって、Weight Decayでのパラメータの更新式は、
$\displaystyle w_j$ $\textstyle \Leftarrow$ $\displaystyle w_j + \alpha (\sum_{i=1}^N (u_i - y_i) x_{ij}) - 2 \alpha \lambda w_j$ (71)
$\displaystyle h$ $\textstyle \Leftarrow$ $\displaystyle h + \alpha (\sum_{i=1}^N (u_i - y_i) (-1))$ (72)

となる。ここで、$w_j$の更新式の第2項は、$w_j$の絶対値を小さくする方向に 作用する。つまり、予測に不必要な無駄なパラメータを$0$にするような効果が ある。


next up previous
次へ: 正則化法としてのサポートベクターマシン 上へ: 識別のための線形手法と汎化性 戻る: ロジスティック回帰
平成14年7月18日