next up previous
次へ: 日程表作成実験 上へ: bottom-up mergingによるクラスタリング 戻る: JaccardのMatching Coefficientを用いた手法の導出


従来の階層的クラスタリング手法との比較

上述のbootom-up mergingによるクラスタリングでは、問題から自然に与えられる評 価基準から、クラスターの統合のための測度および新しく作られるクラスターの代表 ベクトルが論理的に一意に決まった。しかも、得られた測度およびクラスター代表ベ クトルは、該当ベクトルの要素ごとの論理演算を含んでいる。二値(質的)データに 対して論理演算を施すことは自然であり、データの意味を考慮することにより、測度 およびクラスター代表ベクトルの意味が自然に理解できる。

ここで、さらに、従来の階層的クラスタリング手法の代表例として、Group Average 法との関係について調べてみる。各項目間の類似度を $s_{ij}$ とすると、Group Average法でのクラスター統合のための測度 $g$ は、二つのクラスター $C_p$, $C_q$ に対して、

\begin{displaymath}
g(C_p,C_q) = \sum_{i \in C_p, j \in C_q} \frac{s_{ij}}{N_p N_q}
\end{displaymath} (275)

のように、二つのクラスター間のペアごとの類似度の平均で定義される [3]。ここで、$N_p$, $N_q$ はそれぞれクラスター $C_p$, $C_q$ に 属する項目数である。

今、項目間の類似度を

\begin{displaymath}
s_{ij} = w(\mbox{\boldmath$x$}_i \cap \mbox{\boldmath$x$}_j) = \sum_{k=1}^N x_{ik} x_{jk}
\end{displaymath} (276)

のように、該当ベクトル間の要素ごとの AND を取ったベクトルの $1$ の個数とする と、 $g$ は、
$\displaystyle g(C_p,C_q)$ $\textstyle =$ $\displaystyle \sum_{i \in C_p, j \in C_q} \sum_{k=1}^N \frac{x_{ik} x_{jk}}
{N_p N_q}$ (277)
  $\textstyle =$ $\displaystyle \sum_{k=1}^N ( \sum_{i \in C_p, j \in C_q} \frac{x_{ik}
x_{jk}}{N_p N_q} )$  
  $\textstyle =$ $\displaystyle \sum_{k=1}^N (\frac{1}{N_p} \sum_{i \in C_p} x_{ik})
( \frac{1}{N_q} \sum_{j \in C_q} x_{jk})$  
  $\textstyle =$ $\displaystyle (\frac{1}{N_q} \sum_{i \in C_p} \mbox{\boldmath$x$}_i) \cdot (\frac{1}{N_q}
\sum_{j \in C_q} \mbox{\boldmath$x$}_j)$  

のように、各クラスターの平均該当ベクトル間の内積となる。

一方、ここで導出したクラスター統合のための測度 $m$ は、

\begin{displaymath}
m(C_p,C_q) = (\bigcup_{i \in C_p} \mbox{\boldmath$x$}_i) \cdot (\bigcup_{j \in C_q} \mbox{\boldmath$x$}j)
\end{displaymath} (278)

と書ける。従って、二つの項目間の類似度を該当ベクトル間の要素ごとの AND を取っ たベクトルの $1$ の個数とした場合の Group Average 法と、ここで導出した手法と の本質的な差は、クラスター間の類似度を平均該当ベクトル間の内積とするか、要素 ごとの OR を取ったベクトル間の内積とするかであるといえる。



Takio Kurita 平成14年7月3日