次へ: 代表ベクトルの逐次更新アルゴリズム 上へ: クラスタリングのアルゴリズム 戻る: 計算機実験

データが逐次的に与えられる場合のクラスタリングアルゴリズム

最後に、データが逐次的に得られるような状況でのクラスタリングのアルゴリズムについて考察する。多次元のベクトルデータが逐次的にしか得られないような場合に、データを次々と処理してその時点で最良のクラスタリング結果を求めたいとする。このようなアルゴリズムは、例えば、ベクトルデータの情報圧縮のための適応的ベクトル量子化等に応用できる。

ベクトル量子化[32]では、各ベクトルをどの代表ベクトルで代表させるかをコードとして記述することによりベクトル集合を情報圧縮する。現在、ベクトル量子化は音声信号や画像の情報圧縮のための基本的な手法として利用されている。ベクトル量子化器を設計する場合には、代表ベクトルをどう選ぶか（コードブックの設計）と与えられたベクトルをどの代表ベクトルに符号化するか（量子化）の問題を考える必要がある。コードブックの設計は，一般に学習データのクラスタリングにより求められる。コードブックの設計アルゴリズムとしては，Linde ら[107]の提案した k-means法 [3,163]に基づくLBGアルゴリズムが最も有名である．

一般にベクトル量子化を用いて情報圧縮する場合には、ある学習サンプルに対してコードブックをあらかじめ設計しておき、新たに入って来たベクトルをそのベクトル量子化器で量子化する。画像圧縮の場合には、画像を小ブロックに分割し、各ブロックをひとつのベクトルとみなしてベクトル量子化する。ベクトル集合の構造は画像ごとにかなり異なるため、あらかじめ全ての画像に対して好ましいコードブックを設計することはむずかしい。従って、画像ごとにコードブックを設計しなおして、そのコードブックを用いてベクトル量子化する必要がある。実用的には、各画像に対してコードブックの設計を高速に行なう必要がある。しかし、LBGアルゴリズムは基本的に k-means 法であり、データを繰返し処理して代表ベクトルを見つける手法であるためかなりの処理時間が必要となる．

ここでは、データを一回だけ処理して２乗誤差が最小となるように代表ベクトルを決定するクラスタリングアルゴリズムを示す[91]。

Subsections

Takio Kurita 平成14年7月3日