本章では、「柔らかな情報処理」を実現する際の基本的な道具として利用されるであ ろうクラスタリングのアルゴリズムについて考察した。
まず、最も簡単な1次元データのクラスタリングの例としてヒストグラムの分割問題 を最尤推定の枠組から考察し、大津により提案された判別および最小2乗基準に基づ くしきい値選定法と Kittler らの最小誤差しきい値選定法が同じ枠組で統一的に考 察できることを示した。それは、これらの手法の背後にある仮定を明確化するもので あり、これらの手法をある特定の問題に利用する場合にどちらの手法を使うべきかの 指針を与える。また、こうしたクラスタリングを最尤推定の枠組から考察することは、 一般のクラスタリングに対しても可能であり、クラスタリングのアルゴリズムを理解 するための有効な手段となると考えられる。
次に、一般の多次元データのクラスタリング手法のひとつである階層的クラスタリン
グアルゴリズムをクラスター間の類似度をヒープに蓄えることにより高速化する方法
を示した。ヒープを用いることにより、 個のデータに対して、
の記憶
領域が必要となるが、計算時間は従来法の
から
に高
速化される。その結果、従来法に比べてより多くの対象のクラスタリングが可能とな
り、画像のセグメンテーションなどのように大量のデータを分類する必要のある問題
に対しても階層的クラスタリングが利用可能となると期待できる。
最後に、データが逐次的に与えられるような状況でのクラスタリングアルゴリズムを 示した。このアルゴリズムは、例えば、ベクトルデータの情報圧縮のための適応的ベ クトル量子化などに応用できるものと考えられる。