next up previous
次へ: 直線の当てはめ 上へ: 主成分分析 戻る: 主成分分析

主成分分析と主成分スコア

今、多変量の計測値を $\{\mbox{\boldmath$x$}_i\vert i=1,\ldots,N\}$ とし、各データから平 均ベクトル $\bar{\mbox{\boldmath$x$}}$ を引いたベクトルを $\tilde{\mbox{\boldmath$x$}}$ で表す とす。このとき、主成分分析の特徴ベクトル(主成分スコア) $\mbox{\boldmath$y$}$ は、

\begin{displaymath}
\mbox{\boldmath$y$} = U^T \tilde{\mbox{\boldmath$x$}} = U^T(\mbox{\boldmath$x$} - \bar{\mbox{\boldmath$x$}})
\end{displaymath} (30)

のように直交行列 $U$ で定義される直交変換により計算される。したがって、 $\tilde{\mbox{\boldmath$x$}}$$U$ の各列を正規直交基底とする部分空間への射影は、
\begin{displaymath}
\hat{\tilde{\mbox{\boldmath$x$}}}_i = U U^T \tilde{\mbox{\boldmath$x$}}_i
\end{displaymath} (31)

となり、元の計測値ベクトル $\tilde{\mbox{\boldmath$x$}}_i$ の近似となる。主成分スコ ア $\mbox{\boldmath$y$}$ によって、平均2乗誤差の意味で元の計測値の情報(分散)を最大 限抽出するような直交行列 $U$ を求めるには、元の $\tilde{\mbox{\boldmath$x$}}_i$ と その近似 $\hat{\tilde{\mbox{\boldmath$x$}}}_i$ との平均2乗誤差
\begin{displaymath}
\varepsilon^2(U) = \frac{1}{N} \sum_{i=1}^N \vert\tilde{\mbox{\boldmath$x$}}_i - \hat{\tilde{\mbox{\boldmath$x$}}}_i\vert^2
\end{displaymath} (32)

を最小とする正規直交基底 $U=[\mbox{\boldmath$u$}_1,\cdots,\mbox{\boldmath$u$}_L]$ を求めれば良い。 最適な直交行列 $U$ は、$X$ の分散共分散行列 $\Sigma_X = \frac{1}{N}
\sum_{i=1}^N \tilde{\mbox{\boldmath$x$}}_i \tilde{\mbox{\boldmath$x$}}_i^T$ の固有値問題
\begin{displaymath}
\Sigma_X U = U \Lambda , \hspace*{3mm} (U^TU = I)
\end{displaymath} (33)

の解として求まる[51,13]。ただし、$\Lambda$ は固有 値行列である。また、$U$ としては、固有値の大きさの順番に対応する固有ベ クトルを $L$ 個まで取るものとする。

この時、主成分スコア $\mbox{\boldmath$y$}$ の平均および分散共分散行列は、それぞれ、

$\displaystyle \bar{\mbox{\boldmath$y$}}$ $\textstyle =$ $\displaystyle \mbox{\boldmath$0$}$  
$\displaystyle \Sigma_Y$ $\textstyle =$ $\displaystyle U^T \Sigma_X U = U^T U \Lambda = \Lambda$ (34)

となり、変量間の相関が無くなることがわかる。



Subsections

平成14年7月19日