クラスター分析 cluster analysis

クラスター分析とは,2つ以上の対象を,それらの間の類似度あるいは非類似度を手がかりにして似たものを集め,いくつかのグループ(クラスター)に分類する方法である.類似度として,さまざまな距離(遺伝距離や塩基置換数など)を用いることで,さまざまなデータについて分析できる.

クラスター分析の流れ

  1. 形質の抽出と数値化
  2. データマトリックスの作成
  3. 類似度の計算と類似度マトリックスの作成
  4. デンドログラム(樹形図)の作成
  5. グルーピング

(無荷重)平均距離法(Unweighted Pair Group Method using arithmetic Average; UPGMA)

Sokal & Michener(1985)により開発されたクラスター分析の一手法.距離の算術平均の小さなものから結合することにより得られる樹形を選ぶ.段階的探索法の一種.進化速度の一定生が仮定されるため,有根系統樹が得られる.一番簡単な方法で計算も容易であるが,進化速度一定の仮定が必要であるため,進化速度が系統間で異なるときは誤った推定を行いやすい.


距離行列からの系統樹の作製 -ヒトの仲間を例に-

平均距離法を用いて,系統樹を表計算ソフトにより実際に計算する.実習室の端末で利用可能な表計算ソフトとしては,Star SiteのCalcなどがある.

UPGMAの計算手順

  1. すべてのOTU(operational taxonomic unit,操作上の分類単位)の中から,一番近い関係にあるOTUを二つ選ぶ.この二つのOTUをまとめ,新しく一つのOTUとして扱う.
  2. 各OTUからの平均をとった値が新しいOTUの値となる.
  3. 新しいOTUを含めた距離行列を求める.

クラスター分析の例

例1. ヒトと類人猿の系統関係

UPGMAを用いて,以下の表1より系統樹を作成せよ.

表1. 5つのOTU間の100bpあたりの平均塩基置換数(Li et al. 1987より)
OTU
OTU
H
C
G
O
R
H ヒト
C チンパンジー
1.45
G ゴリラ
1.51
1.57
O オラウータン
2.98
2.94
3.04
R アカゲザル
7.51
7.55
7.39
7.10

解法例

1. HとCの間の距離が最小であるので,HとCでクレードを作る.ただし,本題の場合は平均塩基置換数が与えられているので,各OTUが分岐した後の距離は,両者の間の平均塩基置換数の半分となる.このため,2つのOTUを1.45 / 2 = 0.725のところで結合する.

OTU
OTU
H
C
G
O
R
H ヒト
C チンパンジー
1.45
G ゴリラ
1.51
1.57
O オラウータン
2.98
2.94
3.04
R アカゲザル
7.51
7.55
7.39
7.10

2. 複合OTU(HC)と他のOTUの間の新たな距離行列を求める.

表2.
OTU
OTU
HC
G
O
R
HC
G ゴリラ 1.54a
O オラウータン 2.96b 3.04
R アカゲザル 7.53c 7.39 7.10
a(1.51 + 1.57) / 2; b(2.98 + 2.94) / 2; c(7.51 + 7.55) / 2

3. 次に,(HC)とGの間の距離が最小なので,この2つのOTUを1.540 / 2 = 0.770のところで結合する.

4. 複合OTU(HCG)と他のOTUの間の新たな距離行列を求める.

表3
OTU
OTU
HCG
O
R
HCG
O オラウータン 2.99d
R アカゲザル 7.48e 7.10
d(2.98 + 2.94 + 3.04) / 3; e(7.51 + 7.55 + 7.39) / 3

5. 次に,(HCG)とOの間の距離が最小なので,この2つのOTUを2.98666... / 2 = 1.493のところで結合する.

6. 複合OTU(HCGO)とOTU Rの間の新たな距離行列を求める.

表4
OTU
OTU
HCGO
R
HCGO
R アカゲザル 7.39f
f(7.51 + 7.55 + 7.39 + 7.10) / 4

7. 最後に(HCGO)とRを7.3875 / 2 = 3.694のところで結合する.

8. それぞれ結合する値をデンドログラムで示す.はじめは手書きでよい.

9. 得られた系統樹を,New Hampshire (Newick Standard)形式で表す.最後の括弧の後はセミコロン(;)で終わること.

((((H:0.725,C:0.725):0.045,G:0.770):0.723,O:1.493):2.201,R:3.694);

ただし,それぞれの枝の長さは,0.770 - 0.725 = 0.045などのようにあらかじめ計算しておく.

10. New Hampshire形式により表現した系統樹を,Phylodendron <http://iubio.bio.indiana.edu/treeapp/treeprint-form.html>で表示して,保存する.印刷したものに対して,各枝の長さなどを書き込んでおくこと.