next up previous
次へ: 多変量データ解析手法の非線形への拡張 上へ: 交差係数行列の固有値問題 戻る: 数量化4類との関係

距離について

次に、交差係数行列 $S_{\Omega}$ の固有値問題によって集合 $\Omega$ の各要素に 与えられる表現ベクトル間の距離について考える。要素 $\omega_i$$\omega_j$ に与えられる表現ベクトル $\mbox{\boldmath$x$}_i$ $\mbox{\boldmath$x$}_j$ の固有値で重み 付けた距離は、

\begin{displaymath}
d(\mbox{\boldmath$x$}_i,\mbox{\boldmath$x$}_j) = (\mbox{\bo...
...}_j)^T \Lambda (\mbox{\boldmath$x$}_i - \mbox{\boldmath$x$}_j)
\end{displaymath} (104)

と書ける。今、$X$ の空間の次元をフルランク( $L=rank(S_{\Omega})$ )まで取り、 $X$ の正規化条件を $X' P_\Omega X = I_L$ とすると、固有値 問題 $S_{\Omega} X = X \Lambda$ から、関係
\begin{displaymath}
\sum_{s=1}^L \lambda_s x_{is} x_{js} =
\sum_{k=1}^N \frac...
...theta_k \vert \omega_j)}{p(\theta_k)}
\ \ \ (i,j=1,\ldots,M)
\end{displaymath} (105)

が成り立つことが示せる[46]。ここで、$\lambda_s$$s$ 番目の固 有値であり、$x_{is}$ は、$s$ 番目の固有ベクトルの $i$ 番目の要素をあらわす。 固有値問題 (2.61) の最大固有値は$1$ であり、対応する固有ベクトルは $\mbox{\boldmath$1$}_M$ であるから、式 (2.105) は、
\begin{displaymath}
1 + \sum_{s=2}^L \lambda_s x_{is} x_{js} =
\sum_{k=1}^N \f...
...heta_k \vert \omega_i)p(\theta_k \vert \omega_j)}{p(\theta_k)}
\end{displaymath} (106)

となる。従って、 $\mbox{\boldmath$x$}_i$ $\mbox{\boldmath$x$}_j$ の関係、
$\displaystyle \mbox{\boldmath$x$}_i^T \Lambda \mbox{\boldmath$x$}_j$ $\textstyle =$ $\displaystyle \sum_{s=2}^L \lambda_s x_{is} x_{js}$ (107)
  $\textstyle =$ $\displaystyle \sum_{k=1}^N \frac{p(\theta_k\vert\omega_i)p(\theta_k\vert\omega_j)}{p(\theta_k)} - 1 \nonumber$  
  $\textstyle =$ $\displaystyle \sum_{k=1}^N q(\omega_i\vert\theta_k)q(\omega_j\vert\theta_k)p(\theta_k)$ (108)

が得られる。ただし、
\begin{displaymath}
q(\omega_i\vert\theta_k) = \frac{p(\omega_i\vert\theta_k) - p(\omega_i)}{p(\omega_i)}
\end{displaymath} (109)

である。これは、条件付き確率 $p(\omega_i\vert\theta_k)$ の条件無し確率 $p(\omega_i)$ からのずれの程度を表す量である。

こうして、距離 $d(\mbox{\boldmath$x$}_i,\mbox{\boldmath$x$}_j)$ は、

$\displaystyle d(\mbox{\boldmath$x$}_i,\mbox{\boldmath$x$}_j)$ $\textstyle =$ $\displaystyle (\mbox{\boldmath$x$}_i - \mbox{\boldmath$x$}_j)^T \Lambda (\mbox{\boldmath$x$}_i - \mbox{\boldmath$x$}_j)$ (110)
  $\textstyle =$ $\displaystyle \sum_{k=1}^N \{q(\omega_i\vert\theta_k) - q(\omega_j\vert\theta_k) \}^2 p(\theta_k) .$  

となる。これは、距離 $d(\mbox{\boldmath$x$}_i,\mbox{\boldmath$x$}_j)$ $\{q(\omega_i\vert\theta_k)\}$ $\{q(\omega_j\vert\theta_k)\}$ の条件付き平均距離で与えられることを意味する。つ まり、非線形の数量化2類および数量化3類で得られる表現ベクトルは、条件付き確 率 $p(\omega_i\vert\theta_k)$ の条件無し確率 $p(\omega_i)$ からのずれの程度を反 映したものであることを意味する。

一方、 $\{q(\omega_i\vert\theta_k)\}$ $\{ \gamma(\omega_i \wedge \omega_j) \}$ の間には、関係

\begin{displaymath}
\sum_{k=1}^N q(\omega_i\vert\theta_k)q(\omega_j\vert\theta_...
...)p(\omega_j)}{p(\omega_i)p(\omega_j)} \ \ \ (i,j=1,\ldots,M) .
\end{displaymath} (111)

が成り立つ。


next up previous
次へ: 多変量データ解析手法の非線形への拡張 上へ: 交差係数行列の固有値問題 戻る: 数量化4類との関係
Takio Kurita 平成14年7月3日