next up previous
次へ: 線形近似としての線形データ解析手法 上へ: 多変量データ解析手法の非線形への拡張 戻る: 非線形判別分析

非線形正準相関分析

正準相関分析は、二組の変数群に対する測定値が与えられている場合に、相互の変数 群の関連を最大とするような解を求めるために、Hotelling によって 1936 年に導入 された手法である[172]。正準相関分析は、単に応用の観点だけでなく、手 法の数学的構造の一般性にも関心が注がれてきた。例えば、重回帰分析は正準相関分 析の特殊な場合と考えられるし、判別分析は一方の変数群がカテゴリカルデータ(ど のクラスに属するかを $0$$1$ で表したデータ)で与えられる場合の正準相関分 析と考えられる。また、数量化3類も両方の変数群ともにカテゴリカルデータの場合 の正準相関分析と考えることができる。従って、正準相関分析を非線形に拡張するこ とは、その数学的構造の一般性の点からも興味深い[6]。ここでも、従来 の線形の正準相関分析について概観し、それを非線形に拡張することを考える。

今、二組の連続な確率変数を $\mbox{\boldmath$u$} \in R\/^m$ および $\mbox{\boldmath$v$} \in R\/^n$ とし、 それらの同時確率密度関数を $ p( \mbox{\boldmath$u$} \wedge \mbox{\boldmath$v$} ) $ とする。この時、正 準相関分析は、条件

$\displaystyle \bar{\mbox{\boldmath$x$}}_T$ $\textstyle =$ $\displaystyle \bar{\mbox{\boldmath$y$}}_T = {\bf0} \hspace{40pt}\mbox{(平均ゼロ)}$ (123)
$\displaystyle \Sigma_{X}$ $\textstyle =$ $\displaystyle \Sigma_{Y} = I_{L} \hspace{20pt}\mbox{(共分散行列が単
位行列)}$  

を満たし、
\begin{displaymath}
\mbox{tr}(\Sigma_{XY})
\end{displaymath} (124)

を最大とするような二つの線形写像
$\displaystyle \mbox{\boldmath$x$}$ $\textstyle =$ $\displaystyle \Phi(\mbox{\boldmath$u$}) = A^T \mbox{\boldmath$u$} + \mbox{\boldmath$a$}$ (125)
$\displaystyle \mbox{\boldmath$y$}$ $\textstyle =$ $\displaystyle \Psi(\mbox{\boldmath$v$}) = B^T \mbox{\boldmath$v$} + \mbox{\boldmath$b$}$  

を求める問題として定式化される。

最適な線形写像の係数行列 $A$ , $ B $ は、よく知られているように、固有値問題

$\displaystyle \Sigma_{U}^{-1}\Sigma_{UV}\Sigma_{V}^{-1}\Sigma_{VU} A$ $\textstyle =$ $\displaystyle A \Lambda$ (126)
$\displaystyle \Sigma_{V}^{-1}\Sigma_{VU}\Sigma_{U}^{-1}\Sigma_{UV} B$ $\textstyle =$ $\displaystyle B \Lambda$  

から求められる。正規化条件は、通常、
$\displaystyle A^T \Sigma_{U} A$ $\textstyle =$ $\displaystyle I_L$ (127)
$\displaystyle B^T \Sigma_{V} B$ $\textstyle =$ $\displaystyle I_L$  

とされる。また、バイアス $\mbox{\boldmath$a$}$ および $\mbox{\boldmath$b$}$ は、それぞれ、
$\displaystyle \mbox{\boldmath$a$}$ $\textstyle =$ $\displaystyle A^T \bar{\mbox{\boldmath$u$}}_T$ (128)
$\displaystyle \mbox{\boldmath$b$}$ $\textstyle =$ $\displaystyle B^T \bar{\mbox{\boldmath$v$}}_T$  

となる。

線形写像の制約を取り除いて、$\Phi$ および $\Psi$ として一般の非線形の写像を 許す場合には、最適な非線形写像は $\mbox{\boldmath$x$}$ $\mbox{\boldmath$y$}$ に関する連立積分方程式

$\displaystyle \Lambda^{\frac{1}{2}} \mbox{\boldmath$x$}(\mbox{\boldmath$u$})$ $\textstyle =$ $\displaystyle \int \mbox{\boldmath$y$}(\mbox{\boldmath$v$})
(p(\mbox{\boldmath$v$}\vert\mbox{\boldmath$u$})-p(\mbox{\boldmath$v$})) d\mbox{\boldmath$v$}$ (129)
$\displaystyle \Lambda^{\frac{1}{2}} \mbox{\boldmath$y$}(\mbox{\boldmath$v$})$ $\textstyle =$ $\displaystyle \int \mbox{\boldmath$x$}(\mbox{\boldmath$u$})
(p(\mbox{\boldmath$u$}\vert\mbox{\boldmath$v$})-p(\mbox{\boldmath$u$})) d\mbox{\boldmath$u$}$  

を解くことに帰着される[6,131]。ここで、 $\Lambda^{\frac{1}{2}}$ は Lagrange の未定定数を要素とする対角行列である。

これらの連立方程式から $\mbox{\boldmath$x$}$ を消去すると、 $\mbox{\boldmath$y$}$ に関する固有方程式

\begin{displaymath}
\Lambda \mbox{\boldmath$y$}(\tilde{\mbox{\boldmath$v$}}) = ...
...\boldmath$v$}}) - p(\mbox{\boldmath$v$})) d\mbox{\boldmath$v$}
\end{displaymath} (130)

が得られる。同様に、 $\mbox{\boldmath$y$}$ を消去すると、
\begin{displaymath}
\Lambda \mbox{\boldmath$x$}(\tilde{\mbox{\boldmath$u$}}) = ...
...\boldmath$u$}}) - p(\mbox{\boldmath$u$})) d\mbox{\boldmath$v$}
\end{displaymath} (131)

が得られる。これらは、まさに、交差係数の固有方程式である。

前述の数量化3類の基本方程式は、ちょうどこの積分固有方程式に対応する行列の固 有方程式である。つまり、数量化3類は、ふたつの事象の間の関係が同時確率として 与えられた場合の非線形の正準相関分析であるといえる。


next up previous
次へ: 線形近似としての線形データ解析手法 上へ: 多変量データ解析手法の非線形への拡張 戻る: 非線形判別分析
Takio Kurita 平成14年7月3日