next up previous
次へ: 非線形の数量化2類と数量化3類の関係 上へ: 数量化法の非線形への拡張 戻る: 数量化1類とその非線形への拡張

数量化2類とその非線形への拡張

数量化2類は、仮釈放の予測の問題を通して林によって考え出された多変量データ解 析手法である。受刑者は、その刑期の3分の1を過ぎた時点で、社会復帰しても問題 無いと判断された場合に仮釈放される。仮釈放された受刑者を追跡調査すると、社会 復帰しているグループと再び犯罪を犯したグループに分けることができる。数量化2 類は、受刑者の両親の状態、犯罪の種類、犯罪心理、社会に対する態度などの情報か ら仮釈放すべきかどうかを決める問題に使われた[47]。つまり、数量 化2類は、質的データに基づく判別分析であると考えることができる。ここでは、ま ず、通常の線形の数量化2類を概観し、次にそれを非線形に拡張する。

今、質的データとして与えられる説明変数を $\mbox{\boldmath$u$}_i \in \{0,1\}^m$ とし、$N$ 個のクラスを $\Theta = \{\theta_j\vert j=1,\ldots,N\}$ とする。ここで、各 $\mbox{\boldmath$u$}_i$ に対応する事象を $\omega_i$ とする。また、クラス $\theta_j$ の先 験確率を $p(\theta_j)$、ベクトル $\mbox{\boldmath$u$}_i$ の生起確率を $p(\omega_i)$とし、 それらの条件付き確率を $p(\theta_j\vert\omega_i)$ および $p(\omega_i\vert\theta_j)$ とする。

この時、数量化2類では、各 $\mbox{\boldmath$u$}_i$ を低次元のしかも $N$ 個のクラス間の分 離を平均的に最大限強調するような新しい変量 $\mbox{\boldmath$x$}_i \in R^L$ に写すような線 形判別写像

\begin{displaymath}
\mbox{\boldmath$x$}_i = \Phi(\mbox{\boldmath$u$}_i) = A^T \mbox{\boldmath$u$}_i
\end{displaymath} (42)

が構成される。

数量化2類や判別分析で用いられる判別写像のよさを評価する基準(判別基準)は、

\begin{displaymath}
J(\Phi) = \mbox{tr}(\hat{\Sigma}_T^{-1} \hat{\Sigma}_B))
\end{displaymath} (43)

で与えられる。ここで、 $\hat{\Sigma}_T$ および $\hat{\Sigma}_B$ は、それぞれ、 判別空間 $R^L$ での全分散共分散行列および平均クラス間共分散行列であり、
$\displaystyle \hat{\Sigma}_T$ $\textstyle =$ $\displaystyle \hat{\Sigma}_X = \sum_{i=1}^M p(\omega_i) \mbox{\boldmath$x$}_i \...
...^T
- \bar{\mbox{\boldmath$x$}}_T \bar{\mbox{\boldmath$x$}}_T^T
= A^T \Sigma_T A$ (44)
$\displaystyle \hat{\Sigma}_B$ $\textstyle =$ $\displaystyle \sum_{j=1}^N p(\theta_j) \bar{\mbox{\boldmath$x$}}_j \bar{\mbox{\...
...^T
- \bar{\mbox{\boldmath$x$}}_T \bar{\mbox{\boldmath$x$}}_T^T
= A^T \Sigma_B A$ (45)

のように定義される。ただし、
$\displaystyle \bar{\mbox{\boldmath$x$}}_T$ $\textstyle =$ $\displaystyle \sum_{i=1}^M p(\omega_i) \mbox{\boldmath$x$}_i = A^T \bar{\mbox{\boldmath$u$}}_T$  
$\displaystyle \bar{\mbox{\boldmath$x$}}_j$ $\textstyle =$ $\displaystyle \sum_{i=1}^M p(\omega_i\vert\theta_j) \mbox{\boldmath$x$}_i = A^T \bar{\mbox{\boldmath$u$}}_j$  
$\displaystyle \bar{\mbox{\boldmath$u$}}_T$ $\textstyle =$ $\displaystyle \sum_{i=1}^M p(\omega_i) \mbox{\boldmath$u$}_i$  
$\displaystyle \bar{\mbox{\boldmath$u$}}_j$ $\textstyle =$ $\displaystyle \sum_{i=1}^M p(\omega_i\vert\theta_j) \mbox{\boldmath$u$}_i$  
$\displaystyle \Sigma_T$ $\textstyle =$ $\displaystyle \Sigma_U = \sum_{i=1}^M p(\omega_i) \mbox{\boldmath$u$}_i \mbox{\boldmath$u$}_i^T - \bar{\mbox{\boldmath$u$}}_T \bar{\mbox{\boldmath$u$}}_T^T$  
$\displaystyle \Sigma_B$ $\textstyle =$ $\displaystyle \sum_{j=1}^N p(\theta_j) \bar{\mbox{\boldmath$u$}}_j \bar{\mbox{\boldmath$u$}}_j^T - \bar{\mbox{\boldmath$u$}}_T \bar{\mbox{\boldmath$u$}}_T^T$ (46)

である。

判別基準 $J$ を最大とする係数行列 $A$ は、Lagrange 乗数行列を $\Lambda = \mbox{diag}(\lambda_1,\ldots,\lambda_L)$ として、

\begin{displaymath}
Q(A) = \mbox{tr}(\hat{\Sigma}_B) - \mbox{tr}[(\hat{\Sigma}_T-I)\Lambda] .
\end{displaymath} (47)

を最大とすることにより求められる。これを、$A$ で偏微分し $0$ とおくと、
\begin{displaymath}
\Sigma_B A = \Sigma_T A \Lambda
\end{displaymath} (48)

となり、結局、この固有値問題を解くことにより最適な係数 $A$ が求まる。

次に、線形写像の制約を取り除いて数量化2類を一般の非線形写像を許すように拡張 する。これは、大津が求めた非線形の判別分析 [121,122,123,128]の特殊な場合になっている。非線形の数量化2 類は、判別基準 (2.43) を最大とするような非線形の写像 $\mbox{\boldmath$x$}_i = \Phi(\mbox{\boldmath$u$}_i)$ を求める問題として定式化できる。ここでも、写像 $\Phi$ は一般 の非線形写像であるから、各 $\mbox{\boldmath$u$}_i$ に対して、独立に最適な値 $\mbox{\boldmath$x$}_i$ を 求めればよい。従って、判別基準は、 $\mbox{\boldmath$x$}_i$ の関数として、

\begin{displaymath}
J(\mbox{\boldmath$x$}_1,\ldots,\mbox{\boldmath$x$}_M) = \mbox{tr}(\hat{\Sigma}_T^{-1}\hat{\Sigma}_B) .
\end{displaymath} (49)

と書ける。

判別基準 $J$ を最大とするためには、Lagrange 乗数行列を $\Lambda = \mbox{diag}(\lambda_1,\ldots,\lambda_L)$ として、

\begin{displaymath}
Q(\mbox{\boldmath$x$}_1,\ldots,\mbox{\boldmath$x$}_M) = \mb...
...}(\hat{\Sigma}_B) - \mbox{tr}[(\hat{\Sigma}_T - I_L)\Lambda] .
\end{displaymath} (50)

を最大とする $\mbox{\boldmath$x$}_i$ を求めればよい。$Q$ $\mbox{\boldmath$x$}_i$ に関する偏微分を求 めると、
\begin{displaymath}
2 \sum_{j=1}^{N}p(\theta_j)p(\omega_i\vert\theta_j)\bar{\mb...
...bar{\mbox{\boldmath$x$}}_Tp(\omega_i) = 0 \ \ \ (i=1,\ldots,M)
\end{displaymath} (51)

となる。Bayes の公式
\begin{displaymath}
p(\theta_j\vert\omega_i) = \frac{p(\theta_j)p(\omega_i\vert\theta_j)}{p(\omega_i)}
\end{displaymath} (52)

を用いると、上式は、
\begin{displaymath}
\mbox{\boldmath$x$}_i = \sum_{j=1}^N p(\theta_j\vert\omega_...
...1}(I+\Lambda)\bar{\mbox{\boldmath$x$}}_T \ \ \ (i=1,\ldots,M).
\end{displaymath} (53)

となる。ここで、右辺の第2項は、定数ベクトルである。定数ベクトルは、判別には 影響しないので、 $\mbox{\boldmath$x$}_i$ に関して、条件
\begin{displaymath}
\bar{\mbox{\boldmath$x$}}_T = 0
\end{displaymath} (54)

を考えることにする。

簡単化のため $\bar{\mbox{\boldmath$x$}}_j$ $\Lambda^{-\frac{1}{2}}$ で正規化したベクト ルを、

\begin{displaymath}
\mbox{\boldmath$y$}_j = \Lambda^{-\frac{1}{2}} \bar{\mbox{\boldmath$x$}}_j \ \ \ (j=1,\ldots,N)
\end{displaymath} (55)

とする。ここで、 $\Lambda^{-\frac{1}{2}} =
\mbox{diag}(1/\sqrt{\lambda_1},\ldots,1/\sqrt{\lambda_L})$ である。この正規 化ベクトルを用いると、式 (2.53) は、
\begin{displaymath}
\mbox{\boldmath$x$}_i = \sum_{j=1}^N p(\theta_j\vert\omega_...
...mbda^{-\frac{1}{2}} \mbox{\boldmath$y$}_j
\ \ \ (i=1,\ldots,M)
\end{displaymath} (56)

となる。つまり、最適な $\mbox{\boldmath$x$}_i$ は 条件付確率 $p(\theta_j\vert\omega_i)$ を重 みとする $\mbox{\boldmath$y$}_j$ の線形結合で与えられる。

式 (2.56) から $\mbox{\boldmath$x$}_i$ の 平均ベクトル $\bar{\mbox{\boldmath$x$}}_T$ は、

$\displaystyle \bar{\mbox{\boldmath$x$}}_T$ $\textstyle =$ $\displaystyle \sum_{i=1}^M p(\omega_i) \sum_{k=1}^n p(\theta_k\vert\omega_i)
\Lambda^{-\frac{1}{2}} \mbox{\boldmath$y$}_k$  
  $\textstyle =$ $\displaystyle \Lambda^{-\frac{1}{2}} Y ^T \mbox{\boldmath$p$}_{\Theta}$ (57)

と書ける。ただし、
\begin{displaymath}
Y = \left[
\begin{array}{c} \mbox{\boldmath$y$}_1^T \\ \vdots \\ \mbox{\boldmath$y$}_N^T \end{array} \right]
\end{displaymath} (58)

である。 平均ベクトル $\bar{\mbox{\boldmath$x$}}_T$ に関する条件 (2.54) から、 行列 $Y$ は、条件
\begin{displaymath}
Y^T \mbox{\boldmath$p$}_{\Theta} = 0
.
\end{displaymath} (59)

を満足しなければならない。

一方、式 (2.55) および (2.56) から、各 $\mbox{\boldmath$y$}_j$ は、

$\displaystyle \mbox{\boldmath$y$}_j$ $\textstyle =$ $\displaystyle \Lambda^{-\frac{1}{2}} \bar{\mbox{\boldmath$x$}}_j$  
  $\textstyle =$ $\displaystyle \sum_{k=1}^N s(\theta_k\vert\theta_j) \Lambda^{-1} \mbox{\boldmath$y$}_k
\ \ \ \ (i=1,\ldots,M).$ (60)

を満足しなければならない。これは、行列 $Y$ が交差係数行列 $S_{\Theta}$ の 固有方程式
\begin{displaymath}
S_{\Theta}^T Y = Y \Lambda
.
\end{displaymath} (61)

の解でなければならないことを示している。ただし、行列 $S_{\Theta}$ は対角では ないので、式 (2.16) に示した $S_{\Theta}$ $\Gamma_{\Theta}$ の関 係を用いて変形すると、式 (2.61) は、
\begin{displaymath}
\Gamma_{\Theta} Y = P_{\Theta} Y \Lambda
.
\end{displaymath} (62)

となる。ここで、付録 A.1. に示すように、この固有値問題の最大固有値は、常に $1$ であり、対応する固有ベクトルは、 ${\bf 1}_N^T = (1,\ldots,1)$ である。 従って、この固有ベクトルは、式 (2.59) の条件を満足しない。しかし、 それ以外の残りの固有ベクトルはこの条件を満足する(付録 A.2. 参照)。式 (2.62) から最大固有値に対応する固有ベクトルを取り除くと、
\begin{displaymath}[\Gamma_{\Theta} - \mbox{\boldmath$p$}_{\Theta} \mbox{\boldmath$p$}_{\Theta}^T ]Y = P_{\Theta} Y \Lambda
.
\end{displaymath} (63)

となる(付録 A.3. 参照)。

以上をまとめると、非線形の数量化2類の非線形判別写像は、

$\displaystyle X$ $\textstyle =$ $\displaystyle \left[
\begin{array}{c} \mbox{\boldmath$x$}_1^T \\  \vdots \\  \m...
...ldmath$u$}_1)^T \\  \vdots \\  \Phi(\mbox{\boldmath$u$}_M)^T
\end{array}\right]$  
  $\textstyle =$ $\displaystyle P_{\Theta \vert \Omega}^T Y \Lambda^{-\frac{1}{2}}$ (64)

で与えられる。ただし、
\begin{displaymath}[\Gamma_{\Theta} - \mbox{\boldmath$p$}_{\Theta} \mbox{\boldmath$p$}_{\Theta}^T ]Y = P_{\Theta} Y \Lambda
.
\end{displaymath} (65)

である。また、$Y$ に関する正規化条件は、
\begin{displaymath}
Y^T P_{\Theta} Y = I_L
\end{displaymath} (66)

とする。この時、$X$ に関して、関係
\begin{displaymath}
X^T P_{\Omega} X = I_L
\end{displaymath} (67)

が成り立つ。ここでも、最適な非線形判別写像は、もとの質的データの表現 $\mbox{\boldmath$u$}_i$ に依存しないで、データの背後にある確率構造のみに依存して決まって いる。これに対して、線形の数量化2類では、線形変換の制約のためにもとの 質的データをどのように表現するかに依存した線形判別写像が構成される。


next up previous
次へ: 非線形の数量化2類と数量化3類の関係 上へ: 数量化法の非線形への拡張 戻る: 数量化1類とその非線形への拡張
Takio Kurita 平成14年7月3日