next up previous
次へ: 数量化2類とその非線形への拡張 上へ: 数量化法の非線形への拡張 戻る: 数量化法の非線形への拡張

数量化1類とその非線形への拡張

数量化1類は、日本人の読み書き能力の調査結果の分析の過程で林によって考え出さ れた手法であり、被験者の性別、年齢、産業構成、学歴などに関する情報から読み書 き能力(得点)を推定するために使われた[47]。つまり、数量化1類 は質的データから数値を推定するための手法であり、質的データに対する重回帰分析 であると考えることができる。数量化1類を非線形に拡張する前に、数量化1類につ いて概観しておく。

今、質的データとして与えられる説明変数を $\mbox{\boldmath$u$}_i \in \{0,1\}^m$ とし、数値 データとして与えられる従属変数を $\mbox{\boldmath$v$} \in R^n$ とする。ここで、質的データ によって表現可能な事象は有限個であるので、以下では $\mbox{\boldmath$u$}_i$ によって表され る事象を $\omega_i$ とする。この時、数量化1類は、平均2乗誤差

\begin{displaymath}
\varepsilon^2(A,\mbox{\boldmath$b$}) = \sum_{i=1}^M p(\omeg...
...t^2 p(\mbox{\boldmath$v$}\vert\omega_i) d\mbox{\boldmath$v$}
.
\end{displaymath} (19)

を最小とするような $\{0,1\}^m$ から $R^n$ への最適な線形写像
\begin{displaymath}
\mbox{\boldmath$x$}_i = \Phi(\mbox{\boldmath$u$}_i) = A^T \mbox{\boldmath$u$}_i+\mbox{\boldmath$b$}
\end{displaymath} (20)

を求める問題として定式化される。ここで、 $p(\mbox{\boldmath$v$}\vert\omega_i)$ は、$\omega_i$ のもとでの $\mbox{\boldmath$v$}$ の条件付き確率分布である。最適な係数 $A$ によって説明変数 $\mbox{\boldmath$u$}_i$ の各要素に重みが与えられ、それを用いて数値を予測することが可能と なる。

最適な係数 $A$ および $\mbox{\boldmath$b$}$ を求めるために、 式(2.19)を $\mbox{\boldmath$b$}$ で偏微分すると、

\begin{displaymath}
\frac{\partial \varepsilon^2(A,\mbox{\boldmath$b$})}{\parti...
... 2 A^T \bar{\mbox{\boldmath$u$}}_T + 2 \mbox{\boldmath$b$} = 0
\end{displaymath} (21)

となる。ここで、
$\displaystyle \bar{\mbox{\boldmath$u$}}_T$ $\textstyle =$ $\displaystyle \sum_{i=1}^M \mbox{\boldmath$u$}_i p(\omega_i)$ (22)
$\displaystyle \bar{\mbox{\boldmath$v$}}_T$ $\textstyle =$ $\displaystyle \int \mbox{\boldmath$v$} p(\mbox{\boldmath$v$}) d\mbox{\boldmath$v$}.$ (23)

である。式(2.21) から最適な $\mbox{\boldmath$b$}$ は、
\begin{displaymath}
\mbox{\boldmath$b$} = \bar{\mbox{\boldmath$v$}}_T - A^T \bar{\mbox{\boldmath$u$}}_T
.
\end{displaymath} (24)

となる。これを式 (2.19) に代入すると、
\begin{displaymath}
\varepsilon^2(A) = \mbox{tr}(\Sigma_V) - 2 \mbox{tr}(A ^T \Sigma_{UV}) + \mbox{tr}(A ^T \Sigma_U A)
\end{displaymath} (25)

となる。ここで、
$\displaystyle \Sigma_U$ $\textstyle =$ $\displaystyle \sum_{i=1}^M \mbox{\boldmath$u$}_i \mbox{\boldmath$u$}_i ^T p(\omega_i) - \bar{\mbox{\boldmath$u$}}_T \bar{\mbox{\boldmath$u$}}_T^T$ (26)
$\displaystyle \Sigma_{UV}$ $\textstyle =$ $\displaystyle \sum_{i=1}^M p(\omega_i) \int \mbox{\boldmath$u$}_i \mbox{\boldma...
...\mbox{\boldmath$v$} -
\bar{\mbox{\boldmath$u$}}_T \bar{\mbox{\boldmath$v$}}_T^T$ (27)
$\displaystyle \Sigma_V$ $\textstyle =$ $\displaystyle \int \mbox{\boldmath$v$}\mbox{\boldmath$v$}^T p(\mbox{\boldmath$v...
...mbox{\boldmath$v$} - \bar{\mbox{\boldmath$v$}}_T \bar{\mbox{\boldmath$v$}}_T^T.$ (28)

である。さらに、これを $A$ で偏微分すると、
\begin{displaymath}
\frac{\partial \varepsilon^2(A)}{\partial A} = -2 \Sigma_{UV} + 2 \Sigma_U A
= 0
.
\end{displaymath} (29)

となり、最適な係数 $A$ は、
\begin{displaymath}
A = \Sigma_U^{-1} \Sigma_{UV}
.
\end{displaymath} (30)

となる。結局、最適な線形写像は、
\begin{displaymath}
\mbox{\boldmath$x$}_i = \Sigma_{UV}^T \Sigma_U^{-1}( \mbox{...
...- \bar{\mbox{\boldmath$u$}}_T) + \bar{\mbox{\boldmath$v$}}_T
.
\end{displaymath} (31)

で与えられる。実際の数量化1類では、行列 $\Sigma_U$ のランク落ちに対応するた めに、さらに工夫がなされている。

次に、線形変換の制約をとり除いて数量化1類を一般の非線形に拡張することを考え る。非線形の数量化1類は、平均2乗誤差を最小とするような非線形の写像 $\mbox{\boldmath$x$}_i = \Phi(\mbox{\boldmath$u$}_i)$ を求める問題として定式化できる。この時、写像 $\Phi$ は一般の非線形の写像であるから、各 $\mbox{\boldmath$u$}_i$ に対して、最適な値 $\mbox{\boldmath$x$}_i$ を独立に求めればよい。従って、平均2乗誤差は、各 $\mbox{\boldmath$x$}_i$ の 関数として、

\begin{displaymath}
\varepsilon^2(\Phi) = \varepsilon^2(\mbox{\boldmath$x$}_1,\...
...2
p(\mbox{\boldmath$v$}\vert\omega_i) d\mbox{\boldmath$v$}
.
\end{displaymath} (32)

と書ける。

この $\mbox{\boldmath$x$}_i$ に関する偏微分をとると、

$\displaystyle \frac{ \partial \varepsilon^2(\Phi) }{ \partial \mbox{\boldmath$x$}_i }$ $\textstyle =$ $\displaystyle p(\omega_i) \int (-2 \mbox{\boldmath$v$} + 2 \mbox{\boldmath$x$}_i) p(\mbox{\boldmath$v$}\vert\omega_i) d\mbox{\boldmath$v$}$  
  $\textstyle =$ $\displaystyle 2 p(\omega_i)[\mbox{\boldmath$x$}_i - \int \mbox{\boldmath$v$} p(\mbox{\boldmath$v$}\vert\omega_i) d\mbox{\boldmath$v$}] = 0.$ (33)

となる。式 (2.33) から最適解は、
\begin{displaymath}
\mbox{\boldmath$x$}_i = \Phi(\mbox{\boldmath$u$}_i) = \int ...
...\omega_i) d\mbox{\boldmath$v$} = \bar{\mbox{\boldmath$v$}}_i
.
\end{displaymath} (34)

となる。すなわち、非線形の数量化1類の最適な非線形写像は、 $\mbox{\boldmath$u$}_i$ のもと での $\mbox{\boldmath$v$}$ の条件付き平均値である。ここで、この最適な非線形写像が説明変数 $\mbox{\boldmath$u$}_i$ の表現の仕方には全く依存しないことに注意する必要がある。これに対 して、通常の数量化1類では、線形変換の制約のために最適な写像がもとの説明変数 の位相をひきずっている。

この非線形写像が最適であることは、以下のようにして確かめることができる。

$\{0,1\}^m$ から $R^n$ への任意の写像 $\tilde{\Phi}$ に対して、

$\displaystyle \varepsilon^2(\tilde{\Phi}) - \varepsilon^2(\Phi)$ $\textstyle =$ $\displaystyle \sum_{i=1}^M p(\omega_i) \int \vert\vert \mbox{\boldmath$v$} - \t...
...ath$x$}_i \vert\vert^2
p(\mbox{\boldmath$v$}\vert\omega_i) d\mbox{\boldmath$v$}$  
  $\textstyle =$ $\displaystyle \sum_{i=1}^M \vert\vert \tilde{\Phi}(\mbox{\boldmath$u$}_i) - \mbox{\boldmath$x$}_i \vert\vert^2 p(\omega_i) \geq 0$ (35)

である。従って、 $\mbox{\boldmath$x$}_i = \Psi(\mbox{\boldmath$u$}_i)$ は最適な写像である。

この最適な非線形の写像によって達成される最小平均2乗誤差は、

$\displaystyle \varepsilon^2$ $\textstyle =$ $\displaystyle \sum_{i=1}^M p(\omega_i) \int \vert\vert \mbox{\boldmath$v$} - \m...
...ath$x$}_i \vert\vert^2
p(\mbox{\boldmath$v$}\vert\omega_i) d\mbox{\boldmath$v$}$  
  $\textstyle =$ $\displaystyle \int \mbox{\boldmath$v$}^T \mbox{\boldmath$v$} p(\mbox{\boldmath$...
... \tilde{\mbox{\boldmath$v$}})
d\mbox{\boldmath$v$} d\tilde{\mbox{\boldmath$v$}}$ (36)

で与えられる。ここで、 $\gamma(\mbox{\boldmath$v$} \wedge \tilde{\mbox{\boldmath$v$}})$ は、2.2 で定義し たように、条件付き確率の積の期待値である。

次に、 $\{ \mbox{\boldmath$x$}_i \}$ および $\{ \mbox{\boldmath$v$} \}$ の統計量について見てみる。 $\{ \mbox{\boldmath$x$}_i \}$ の平均および分散は、それぞれ、

$\displaystyle \bar{\mbox{\boldmath$x$}}_T$ $\textstyle =$ $\displaystyle \sum_{i=1}^M \mbox{\boldmath$x$}_i p(\omega_i)$  
  $\textstyle =$ $\displaystyle \int \mbox{\boldmath$v$} p(\mbox{\boldmath$v$}) d\mbox{\boldmath$v$} = \bar{\mbox{\boldmath$v$}}_T$ (37)
$\displaystyle \sigma_x^2$ $\textstyle =$ $\displaystyle \sum_{i=1}^M \mbox{\boldmath$x$}_i ^T \mbox{\boldmath$x$}_i p(\omega_i) - \bar{\mbox{\boldmath$x$}}_T^T \bar{\mbox{\boldmath$x$}}_T$  
  $\textstyle =$ $\displaystyle \int \int \mbox{\boldmath$v$}^T \tilde{\mbox{\boldmath$v$}} \gamm...
...box{\boldmath$v$}}
- \bar{\mbox{\boldmath$v$}}_T^T \bar{\mbox{\boldmath$v$}}_T.$ (38)

となる。一方、 $\{ \mbox{\boldmath$v$} \}$ $\{ \mbox{\boldmath$x$}_i \}$ の共分散は、
$\displaystyle \sigma_{xv}^2$ $\textstyle =$ $\displaystyle \sum_{i=1}^M p(\omega_i) \int \mbox{\boldmath$v$}^T \mbox{\boldmath$x$}_i p(\mbox{\boldmath$v$}\vert\omega_i) d\mbox{\boldmath$v$}$  
  $\textstyle =$ $\displaystyle \int \int \mbox{\boldmath$v$}^T \tilde{\mbox{\boldmath$v$}} \gamm...
...$v$}}
- \bar{\mbox{\boldmath$v$}}_T^T \bar{\mbox{\boldmath$v$}}_T
= \sigma_x^2.$ (39)

となる。また、 $\{ \mbox{\boldmath$v$} \}$ $\{ \mbox{\boldmath$x$}_i \}$ の相関係数は、
$\displaystyle \rho$ $\textstyle =$ $\displaystyle \frac{\sigma_{xv}^2}{\sqrt{\sigma_{x}^2 \sigma_{v}^2}}$  
  $\textstyle =$ $\displaystyle \sqrt{\frac{\sigma_x^2}{\sigma_v^2}}$ (40)

となる。

これらの統計量を用いると、最小平均2乗誤差は、

\begin{displaymath}
\varepsilon^2 = \sigma_v^2(1 - \rho^2)
\end{displaymath} (41)

と書ける。

これらの関係は、線形重回帰分析や数量化1類でも良く知られた関係であり、数量化 1類を非線形に拡張しても同じように成り立っていることがわかる。


next up previous
次へ: 数量化2類とその非線形への拡張 上へ: 数量化法の非線形への拡張 戻る: 数量化法の非線形への拡張
Takio Kurita 平成14年7月3日