従来の階層的クラスタリング手法との比較

次へ: 日程表作成実験 上へ: bottom-up mergingによるクラスタリング 戻る: JaccardのMatching Coefficientを用いた手法の導出

従来の階層的クラスタリング手法との比較

上述のbootom-up mergingによるクラスタリングでは、問題から自然に与えられる評価基準から、クラスターの統合のための測度および新しく作られるクラスターの代表ベクトルが論理的に一意に決まった。しかも、得られた測度およびクラスター代表ベクトルは、該当ベクトルの要素ごとの論理演算を含んでいる。二値（質的）データに対して論理演算を施すことは自然であり、データの意味を考慮することにより、測度およびクラスター代表ベクトルの意味が自然に理解できる。

ここで、さらに、従来の階層的クラスタリング手法の代表例として、Group Average 法との関係について調べてみる。各項目間の類似度を $s_{ij}$ とすると、Group Average法でのクラスター統合のための測度は、二つのクラスター , に対して、

$\begin{displaymath} g(C_p,C_q) = \sum_{i \in C_p, j \in C_q} \frac{s_{ij}}{N_p N_q} \end{displaymath}$

(275)

のように、二つのクラスター間のペアごとの類似度の平均で定義される [3]。ここで、

はそれぞれクラスター

に属する項目数である。

今、項目間の類似度を

$\begin{displaymath} s_{ij} = w(\mbox{\boldmath$x$}_i \cap \mbox{\boldmath$x$}_j) = \sum_{k=1}^N x_{ik} x_{jk} \end{displaymath}$

(276)

のように、該当ベクトル間の要素ごとの AND を取ったベクトルの

の個数とすると、

は、

$\displaystyle g(C_p,C_q)$	$\textstyle =$	$\displaystyle \sum_{i \in C_p, j \in C_q} \sum_{k=1}^N \frac{x_{ik} x_{jk}} {N_p N_q}$	(277)
	$\textstyle =$	$\displaystyle \sum_{k=1}^N ( \sum_{i \in C_p, j \in C_q} \frac{x_{ik} x_{jk}}{N_p N_q} )$
	$\textstyle =$	$\displaystyle \sum_{k=1}^N (\frac{1}{N_p} \sum_{i \in C_p} x_{ik}) ( \frac{1}{N_q} \sum_{j \in C_q} x_{jk})$
	$\textstyle =$	$\displaystyle (\frac{1}{N_q} \sum_{i \in C_p} \mbox{\boldmath$x$}_i) \cdot (\frac{1}{N_q} \sum_{j \in C_q} \mbox{\boldmath$x$}_j)$

のように、各クラスターの平均該当ベクトル間の内積となる。

一方、ここで導出したクラスター統合のための測度は、

$\begin{displaymath} m(C_p,C_q) = (\bigcup_{i \in C_p} \mbox{\boldmath$x$}_i) \cdot (\bigcup_{j \in C_q} \mbox{\boldmath$x$}j) \end{displaymath}$

(278)

と書ける。従って、二つの項目間の類似度を該当ベクトル間の要素ごとの AND を取ったベクトルの

の個数とした場合の Group Average 法と、ここで導出した手法との本質的な差は、クラスター間の類似度を平均該当ベクトル間の内積とするか、要素ごとの OR を取ったベクトル間の内積とするかであるといえる。

Takio Kurita 平成14年7月3日