next up previous
次へ: 非線形判別分析 上へ: 多変量データ解析手法の非線形への拡張 戻る: 多変量データ解析手法の非線形への拡張

非線形重回帰分析

重回帰分析は、多変量データ解析のなかでも最も基本的な手法のひとつであり、説明 変数から従属変数を推定するために使われる。前述の数量化1類は、質的データに基 づく重回帰分析であると考えることができる。重回帰分析の非線形への拡張について 考察する前に、従来の線形の重回帰分析について概観しておく。

今、数値データとして与えられる説明変数を $ \mbox{\boldmath$u$} \in R^m $、従属変数を $\mbox{\boldmath$v$} \in R^n$ とする。また、 $ p( \mbox{\boldmath$u$} \wedge \mbox{\boldmath$v$} ) $ をそれら の同時確率密度関数とする。このとき、重回帰分析は、平均2乗誤差

\begin{displaymath}
\varepsilon^2 = \int \int \vert\vert \mbox{\boldmath$v$} - ...
...box{\boldmath$v$} p(\mbox{\boldmath$u$}) d\mbox{\boldmath$u$}
\end{displaymath} (112)

を最小とするような $R^m$ から $R^n$ への線形写像
\begin{displaymath}
\mbox{\boldmath$x$} = \Phi(\mbox{\boldmath$u$}) = A^T \mbox{\boldmath$u$} + \mbox{\boldmath$b$}
\end{displaymath} (113)

を求める問題として定式化される。

平均2乗誤差を最小とするような最適な係数 $A$ および $\mbox{\boldmath$b$}$ は、よく知られ ているように、

$\displaystyle A$ $\textstyle =$ $\displaystyle \Sigma_{U}^{-1}\Sigma_{UV}$ (114)
$\displaystyle \mbox{\boldmath$b$}$ $\textstyle =$ $\displaystyle \bar{\mbox{\boldmath$v$}}_T - \Sigma_{UV}^T\Sigma_{U}^{-1}\bar{\mbox{\boldmath$u$}}_T$  

である。ここで、
$\displaystyle \Sigma_{U}$ $\textstyle =$ $\displaystyle \int (\mbox{\boldmath$u$} - \bar{\mbox{\boldmath$u$}}_T) (\mbox{\...
...$} - \bar{\mbox{\boldmath$u$}}_T)^T
p(\mbox{\boldmath$u$}) d\mbox{\boldmath$u$}$ (115)
$\displaystyle \Sigma_{UV}$ $\textstyle =$ $\displaystyle \int \int (\mbox{\boldmath$u$} - \bar{\mbox{\boldmath$u$}}_T) (\m...
...dmath$u$} \wedge \mbox{\boldmath$v$}) d\mbox{\boldmath$u$} d\mbox{\boldmath$v$}$  
$\displaystyle \bar{\mbox{\boldmath$u$}}_T$ $\textstyle =$ $\displaystyle \int \mbox{\boldmath$u$} p(\mbox{\boldmath$u$}) d\mbox{\boldmath$u$}$  
$\displaystyle \bar{\mbox{\boldmath$v$}}_T$ $\textstyle =$ $\displaystyle \int \mbox{\boldmath$v$} p(\mbox{\boldmath$v$}) d\mbox{\boldmath$v$}$  

である。

次に、$\Phi$ に制約を付けずに任意の非線形関数を許す場合を考える。最適な非 線形写像は変分法によって求めることができて、

\begin{displaymath}
\mbox{\boldmath$x$} = \Phi(\mbox{\boldmath$u$})
= \int \m...
...ox{\boldmath$v$}\vert\mbox{\boldmath$u$}) d\mbox{\boldmath$v$}
\end{displaymath} (116)

となる。これは、 $\mbox{\boldmath$u$}$ のもとでの $\mbox{\boldmath$v$}$ の条件付き平均値であり、数量化 1類を非線形に拡張した場合と全くと同じである。さらに、 $\mbox{\boldmath$x$}$ および $\mbox{\boldmath$v$}$に関する統計量や最小2乗誤差についても、非線形の数量化1類と同様の関 係が成り立っていることが示せる。



Takio Kurita 平成14年7月3日