next up previous
次へ: 従来の階層的クラスタリング手法との比較 上へ: bottom-up mergingによるクラスタリング 戻る: 評価基準に沿って導出したbottom-up mergingによる手法


JaccardのMatching Coefficientを用いた手法の導出

二つのクラスター代表ベクトルの対 $(\mbox{\boldmath$x$}_1,\mbox{\boldmath$x$}_2)$ $(\mbox{\boldmath$y$}_1,\mbox{\boldmath$y$}_2)$ に対して、測度 $m$ がタイの場合、上述の手法では、統合 後のクラスターに関係する人の数 $w(\mbox{\boldmath$x$}_1 \cup \mbox{\boldmath$x$}_2)$ および $w(\mbox{\boldmath$y$}_1 \cup \mbox{\boldmath$y$}_2)$ の小さいクラスター対が統合される。 従って、 $\mbox{\boldmath$a$}$ , $\mbox{\boldmath$b$}$ をクラスター代表ベクトルとし、新しく測度 $J$ を、

\begin{displaymath}
J(\mbox{\boldmath$a$},\mbox{\boldmath$b$}) = \frac{m(\mbox{...
...oldmath$b$})}{w(\mbox{\boldmath$a$} \cup \mbox{\boldmath$b$})}
\end{displaymath} (273)

と定義すると、$J$ はタイの場合には上述の手法と同じクラスター対を選ぶ。$m$ が 等しくない場合に対しても、クラスター代表ベクトルの各要素の $0$ および $1$ が ランダムに現れると考えると、 $w(\mbox{\boldmath$a$} \cup \mbox{\boldmath$b$})$ は平均的には $(N-m(\mbox{\boldmath$a$},\mbox{\boldmath$b$}))/2$ となる。従って、 $m(\mbox{\boldmath$x$}_1,\mbox{\boldmath$x$}_2) > m(\mbox{\boldmath$y$}_1,\mbox{\boldmath$y$}_2)$ ならば、平均的に
\begin{displaymath}
J(\mbox{\boldmath$x$}_1,\mbox{\boldmath$x$}_2)
= \frac{2 ...
...th$y$}_2)}{N - m(\mbox{\boldmath$y$}_1,\mbox{\boldmath$y$}_2)}
\end{displaymath} (274)

となる。こうして、クラスター代表ベクトルをクラスターに属する該当ベクトルの要 素ごとのORを取ったベクトルとし、クラスター統合のための測度を $J$ とした手法 は、前述のタイの場合の処理を含んだ手法と定性的に似た振舞いをすることが分かる。

ここで導出した測度 $J$ は、JaccardのMatching Coefficient [3] と 呼ばれている。



Takio Kurita 平成14年7月3日