ロジスティック回帰のための汎化性向上の工夫

入力特徴ベクトル $\mbox{\boldmath$x$}$ の中には予測モデルに取って有用な特徴のみでなく不用な特徴が含まれていることがある。例えば、極端な場合として、予測に全無関係な特徴が含まれているとすると、その特徴は未学習サンプルの予測には有効に働かないで、逆に予測の邪魔をすることに成りかねない。また、訓練サンプルの数に比べて入力特徴の数が多い場合には、予測モデルのパラメータを一意に決めることすらできなくなってしまう。このような場合には、特徴の中から予測に有効な特徴の部分集合を選び出して予測モデルを構築することが必要となる。このような与えられた特徴の中から予測に有効な特徴の部分集合を選び出して予測モデルを構築する手法は、変数選択法と呼ばれている。

変数選択のためには、すべての特徴の部分集合に対して、予測性能を評価する必要がある。しかし、部分集合の数は、特徴の数が増えると指数関数的に増大する。したがって、特徴の数が多い場合には、すべての部分集合に対して評価することるは現実的では無い。そのため、比較的良い特徴の部分集合を探策する手法が提案さるれている。単純な方法としては、Forward stepwise selection あるいは、 Backward stepwise selection と呼ばれる手法がある。Forward stepwise selection は、最初、特徴

個のみのモデルからはじめて、特徴を

個づつ追加して行くことで、最も良い特徴の組を選び出す。逆に、Backward stepwise selection は、全ての特徴を含むモデルから特徴を

個づつ取り除いて行くことで、最も良い特徴の組を選び出す。これらの他にも遺伝的アルゴリズムを用いて特徴の組を撰択することなども可能である。

変数選択を行うためには、特徴の部分集合に対して学習が終った予測モデルの予測性能を評価できなければならない。先の訓練サンプルに対する2乗誤差基準は、特徴の数を増やせば増やすほど小さくなるので、この基準で特徴の部分集合を選択することはできない。

予測モデルの汎化性能は、学習に用いない未知のデータに対する予測性能であるので、訓練サンプル以外に汎化性能を評価するためのデータを比較的容易に集めることができる場合には、訓練サンプル以外のサンプルに対する予測性能を評価することも可能である。つまり、汎化性能を評価するためのサンプルを用意し、そのサンプルに対する予測性能が最大となるような特徴の部分集合を選択することが可能である。この方法は、最も簡単で、最も直接的な方法であり、訓練サンプル以外にデータを集めることが可能な場合には、まず試みてみるべき方法である。

訓練サンプルを集めることが難しく、訓練サンプルが少ない場合には、訓練サンプル以外の評価用データを用意することが難しい。このような場合には、訓練サンプルのみから予測性能を評価しなければならない。かなり多くの計算量が必要であるが、計算パワーさえあれば、比較的簡単に予測性能を評価できる方法に、 resampling手法がある。leave-one-out法は、その中でも最も単純な手法である。 leave-one-out法では、

個のサンプルが与えられた場合、それを

個の訓練サンプルと

個の評価用サンプルとに分割し、

個の訓練サンプルを用いた学習結果で

個の評価用サンプルを評価する。このような分割の仕方は

通りあるので、その全てに対する評価結果の平均を計算し、それを予測性能の評価値として利用する。その他、もう少し洗練された手法として、jackknife法 [70,99]やbootstrap法[23,24,25]等の resampling手法もある。resampling手法は、コンピュータの計算パワーを最大限に利用することで、予測性能を評価する手法であり、現在のようにコンピュータの性能が急激に向上し、コンピュータの計算パワーが至る所で有り余っているような状況では、もっともっと利用しても良い手法であると考える。

訓練サンプルに対する2乗誤差基準の代わりに、予測性能を評価するための訓練サンプルのみから計算できる評価基準も提案されている。重回帰分析では、F統計量を用いる方法もあるが、その他にも、赤池の AIC(An Information Theoretical Criterion)[2,95]やRissanenのMDL(Minimum Description Length)[90,91]などの情報量基準も有名である。このような方法は、学習は一回のみでよく、比較的簡便な評価が可能となる。重回帰分析を用いたパーセプトロンの結合係数の学習は最尤推定とみなすことができるので、学習されたパラメータを使って計算した対数尤度(最大対数尤度)から AIC や MDL などの情報量基準を計算することにより、予測モデルの予測性能を比較することが可能となる。

変数選択法では、説明変数の組を選択することで、未学習のデータ対する予測性能の良いモデルを構築しようとするが、この変数選択のプロセスは、変数を選ぶ、選ばないというように離散的である。それに対して、もう少し連続的にモデルを制限する方法として、Shrinkage法と呼ばれる方法がある。その代表的なものが、対数尤度最大化基準にパラメータが大きくなりすぎないようなペナルティ(正則化項)を追加するWeight Decay法である。つまり、Weight Decay法では、目的関数を、

$\displaystyle Q(\tilde{\mbox{\boldmath$w$}})$	$\textstyle =$	$\displaystyle - l + \lambda \sum_{j=1}^M w_{j}^2$
	$\textstyle =$	$\displaystyle \sum_{i=1}^N \{\log \{1+\exp(\eta_i) \} - u_i \eta_i\}$
		$\displaystyle + \lambda \sum_{j=1}^M w_{j}^2$	(56)

$\displaystyle \frac{\partial Q}{\partial w_j}$	$\textstyle =$	$\displaystyle - \frac{\partial l}{\partial w_j} + 2 \lambda w_j$
	$\textstyle =$	$\displaystyle - \sum_{i=1}^N (u_i - y_i) x_{ij} + 2 \lambda w_j$	(57)

$\displaystyle \frac{\partial Q}{\partial h}$	$\textstyle =$	$\displaystyle - \frac{\partial l}{\partial h}$
	$\textstyle =$	$\displaystyle - \sum_{i=1}^N (u_i - y_i) (-1)$	(58)

$\displaystyle w_j$	$\textstyle \Leftarrow$	$\displaystyle w_j + \alpha (\sum_{i=1}^N (u_i - y_i) x_{ij}) - 2 \alpha \lambda w_j$	(59)
$\displaystyle h$	$\textstyle \Leftarrow$	$\displaystyle h + \alpha (\sum_{i=1}^N (u_i - y_i) (-1))$	(60)