next up previous
次へ: 数量化法の非線形への拡張 上へ: 多変量データ解析の理論 戻る: はじめに

記号と定義

多変量データ解析手法を一般の非線形変換を許すように拡張するためには、データの 背後にある確率分布に関する完全な知識が必要となる。多くの多変量解析手法は、2 つの変量(多変量測定値)間の関係を解析する手法として定式化されているので、そ れらを以下のような記号を用いて表すものとする。

まず、2つの事象の集合を $\Omega=\{\omega_i\}_{i=1}^M$ および $\Theta=\{\theta_j\}_{j=1}^N$ とする。また、 事象 $\omega_i$ および $\theta_j$ に対して与えられる多変量測定値(ベクトル表現)を、 $\mbox{\boldmath$u$}_i\in
R^m$ および $\mbox{\boldmath$v$}_j\in R^n$ とする。これらを行列を使って書くと、 $U=[\mbox{\boldmath$u$}_1,\ldots,\mbox{\boldmath$u$}_M]\;\;{\scriptstyle (m \times M)}$ および $V=[\mbox{\boldmath$v$}_1,\ldots,\mbox{\boldmath$v$}_N]\;\;{\scriptstyle (n \times N)}$ のようになる。 さらに、ふたつの事象の積空間 $(\Omega \times \Theta)$ 上の確率を、

$\displaystyle P_{\Omega}$ $\textstyle =$ $\displaystyle [p(\omega_i)\delta_{ij}]\;\;{\scriptstyle (M \times M
\mbox{diagonal})},$ (1)
$\displaystyle P_{\Theta}$ $\textstyle =$ $\displaystyle [p(\theta_j)\delta_{ij}]\;\;{\scriptstyle (N \times N
\mbox{diagonal})},$ (2)
$\displaystyle \mbox{\boldmath$p$}_{\Omega}$ $\textstyle =$ $\displaystyle P_{\Omega}{\bf 1}_M\;\;{\scriptstyle (M \times 1)},$ (3)
$\displaystyle \mbox{\boldmath$p$}_{\Theta}$ $\textstyle =$ $\displaystyle P_{\Theta}{\bf 1}_N\;\;{\scriptstyle (N \times 1)},$ (4)
$\displaystyle P$ $\textstyle =$ $\displaystyle [p(\omega_i \wedge \theta_j)]\;\;\;{\scriptstyle (M\times N)},$ (5)
$\displaystyle P_{\Omega\vert\Theta}$ $\textstyle =$ $\displaystyle [p(\omega_i\vert\theta_j)]\;\;{\scriptstyle (M\times N)},$ (6)
$\displaystyle P_{\Theta\vert\Omega}$ $\textstyle =$ $\displaystyle [p(\theta_i\vert\omega_j)]\;\;{\scriptstyle (N\times M)}$ (7)

のように行列およびベクトルで表すものとする。ここで、${\bf 1}_M$ は、すべて $1$ を要素とする $M$ 次元のベクトルである。

多変量観測値 $\mbox{\boldmath$u$}_i$ および $\mbox{\boldmath$v$}_j$ は、これらの確率分布に従って観測さ れるものとする。従って、例えば、 $\mbox{\boldmath$u$}_i$ の平均 $\bar{\mbox{\boldmath$u$}}_T$ および共分 散行列$\Sigma_U$ は、

$\displaystyle \bar{\mbox{\boldmath$u$}}_T$ $\textstyle =$ $\displaystyle U~\mbox{\boldmath$p$}_{\Omega}$  
$\displaystyle \Sigma_U$ $\textstyle =$ $\displaystyle UP_{\Omega}U^T-\bar{\mbox{\boldmath$u$}}_T \bar{\mbox{\boldmath$u$}}_T^T$ (8)

のように計算される。ここで、 $^T$ は行列の転置を表す。

以上は、事象の集合が離散的な場合であるが、事象の集合 $\Omega$ または $\Theta$ が連続な集合の場合には、事象の表現 $\mbox{\boldmath$u$}$ または $\mbox{\boldmath$v$}$ の確率 密度分布の存在を仮定する。例えば、 $\Omega$ が連続集合の場合、 $p(\mbox{\boldmath$u$}),
\;\; p(\mbox{\boldmath$u$}\vert\theta_j)$ などの存在を仮定する。

一般に、多変量データ解析手法は、事象の集合 $\Omega$ および $\Theta$ の 要素の初期表現 $U,V$ から、ある評価基準の下で 最適な表現 $X=[\mbox{\boldmath$x$}_1,\ldots,\mbox{\boldmath$x$}_M]$ および $Y=[\mbox{\boldmath$y$}_1,\ldots,\mbox{\boldmath$y$}_N]$ への変換を求めるという形で定式化される。 評価基準は、普通、表現空間 $X$ あるいは $Y$ における統計量によっ て与えられる。ここでは、事象の表現を変換する写像を

\begin{displaymath}
\Phi: \mbox{\boldmath$u$}_i\in R^m\mapsto \mbox{\boldmath$x$}_i\in R^K
\end{displaymath} (9)

および
\begin{displaymath}
\Psi: \mbox{\boldmath$v$}_j\in R^n\mapsto \mbox{\boldmath$y$}_j\in~R^L
\end{displaymath} (10)

と表す。

従来の線形の多変量データ解析手法は、写像 $\Phi$ および $\Psi$ をそれぞれ もとの表現 $\mbox{\boldmath$u$}$ および $\mbox{\boldmath$v$}$ に関して線形な写像に制限していると考える ことができる。これに対して、一般に任意の非線形関数の中から 最適な写像 $\Phi$ および $\Psi$ を求めるのが非線形の多変量データ解析である。

次に、事象の空間 $\Omega$$\Theta$ の間の確率的な関係を表す量を定義してお く。

\begin{displaymath}
\Gamma_{\Omega}=[\gamma(\omega_i\wedge \omega_j)]=[\sum_{k=1...
...Theta}P_{\Omega\vert\Theta}^T\quad {\scriptstyle (M\times M)},
\end{displaymath} (11)

同様に、
\begin{displaymath}
\Gamma_{\Theta}=[\gamma(\theta_i\wedge \theta_j)]=P_{\Theta\...
...mega}P_{\Theta\vert\Omega}^T \quad {\scriptstyle (N\times N)}.
\end{displaymath} (12)

また、
\begin{displaymath}
S_{\Omega}=[s(\omega_i\vert\omega_j)]=[\sum_{k=1}^N p(\omega...
...\Theta}P_{\Theta\vert\Omega}
\quad {\scriptstyle (M\times M)},
\end{displaymath} (13)

同様に、
\begin{displaymath}
S_{\Theta}=[s(\theta_i\vert\theta_j)]=P_{\Theta\vert\Omega}P_{\Theta\vert\Omega}
\quad {\scriptstyle (N\times N)}.
\end{displaymath} (14)

これらの量は、大津によってその重要性が認識され、$S_{\Omega}$ および $S_{\Theta}$ は交差係数と呼ばれている[121,122,123,128]。こ れらは、以後の議論においても重要な役割を演じる。定義から明らかなように、 $\Gamma$$S$ の間には、
$\displaystyle \Gamma_{\Omega}$ $\textstyle =$ $\displaystyle S_{\Omega}P_{\Omega}$ (15)
$\displaystyle \Gamma_{\Theta}$ $\textstyle =$ $\displaystyle S_{\Theta}P_{\Theta}$ (16)

という関係が成り立っている。

事象の空間が連続な場合にも、同様に、これらの量は

$\displaystyle \gamma_{\Omega}(\mbox{\boldmath$u$}\wedge\tilde{\mbox{\boldmath$u$}})$ $\textstyle =$ $\displaystyle \,\int p(\mbox{\boldmath$u$}\vert\mbox{\boldmath$v$})p(\tilde{\mb...
...math$u$}}\vert\mbox{\boldmath$v$})p(\mbox{\boldmath$v$})\,d\mbox{\boldmath$v$},$ (17)
$\displaystyle s_{\Omega}(\mbox{\boldmath$u$}\,\vert\,\tilde{\mbox{\boldmath$u$}})$ $\textstyle =$ $\displaystyle \int p(\mbox{\boldmath$u$}\vert\mbox{\boldmath$v$})p(\mbox{\boldmath$v$}\vert\tilde{\mbox{\boldmath$u$}})\,d\mbox{\boldmath$v$}$ (18)

のように定義することができる。


next up previous
次へ: 数量化法の非線形への拡張 上へ: 多変量データ解析の理論 戻る: はじめに
Takio Kurita 平成14年7月3日