アイゲンファクターに関する、すばらしい解説が公開されている。それらについて書き留めておく。
「アイゲンファクターを知る」 増田直紀博士によるすばらしい解説 http://www.stat.t.u-tokyo.ac.jp/~masuda/papers/eigenfactor.pdf http://www.stat.t.u-tokyo.ac.jp/~masuda/index.html アイゲンファクターについて正しく理解するには、ネットワーク科学の知識が必要になる。
最近では、ネットワークの考え方が「いかにも生物学」な問題を解くのにも有効であることが実証されるようになった。生物はたくさんの遺伝子を持つ。それらはネットワークを形成している。しかしネットワーク全体を見るだけでは生物学的な問題を解くことには結びつかない。遺伝子のネットワークは小さなモジュールに分けることができることがわかってきた。ある生物学的な問題に関与している遺伝子のリストを様々な実験の結果に基づいて作る。80個もあれば十分なことが多いらしい。それらが形成する小さなネットワークが、一つのモジュールになる。そのネットワークの、各メンバーのつながり方を調べることによって、ある遺伝子の機能変化がどのような結果をもたらすかを予想できるようになった。その予想は、遺伝子組換え実験などによって実証することができる。生物学的な実験によって、つながり方の方向性を確定できる。つながり方の強度は発現量の相関が高いか低いかで、ある程度定量化できる。アイゲンファクターのような解析もできなくはないかもしれない。
その例: 京都産業大学 生命科学セミナー 演者: 市橋泰範博士 演題: 葉の複雑性を多様化させた遺伝子制御ネットワーク http://www.kyoto-su.ac.jp/department/nls/news/20130425_seminar.html
システム生物学:T H 17細胞の分化を制御する動的な調節ネットワーク Nir Yosef など(23人も並んでいる:数理的、統計的な分析を生物学に取り入れると実験の数を減らしたりできるかと一時は思ったが、実際はそんなことは全くなく論文に数理セクションが増えるだけでますます面倒で複雑になるだけだった), Nature 496, 461–468 (25 April 2013) doi:10.1038/nature11981 というのもあった。
学術雑誌の出版、印刷で定評のある中西印刷のホームページ http://www.nacos.com/nakanishi/ でもアイゲンファクターについて説明されている。
雑誌「現代化学」(東京化学同人)2009年12月号では、「新しい雑誌評価指標 アイゲンファクターとは」という表題で 小野寺夏生 博士がすばらしい解説を書かれている。 http://www.tulips.tsukuba.ac.jp/dspace/bitstream/2241/91623/1/JIMS_5-1.pdf 角田、小野寺両博士による、研究者評価に関する論文
アイゲンファクターと、ページランクの計算法は似ている。 http://www.math.kyushu-u.ac.jp/pages/laboratory01.html 「インターネットを支える数学」 石井先生の解説
(以下は私の勝手な考え)
EigenFactor では、雑誌間のネットワークから得られる値の行列を分析する。雑誌間の相互引用の回数から、行列を作成している。自己引用は考慮しない。雑誌間の相互引用の回数は、二つの雑誌間の関係を示しているので相関係数と少し似ているが、方向性があるので対称ではない。「二つの因子の関連を表すが、方向性がある係数」というものは様々な分野で役に立つような気がする。
雑誌間の相互引用について考える。一流雑誌と一流雑誌の間では、お互いに高頻度に引用し合っていると考えられる。しかし一流雑誌と三流雑誌では、三流から一流の論文をよく引用しても、一流雑誌から三流雑誌の論文はめったに引用しないだろう。それによって相互引用の行列の対称性が変化する。
この Eigen factor が高いということは「一流(雑誌)だけが集う、少人数の会員制クラブ(のようなもの)のメンバーである」ということを表すのかもしれない。こういう考え方は、学者の世界ではよく見られる。例えば、研究者が集まって何かの新学術領域研究 http://www.mext.go.jp/a_menu/shinkou/hojyo/1300048.htm を申請しスタートさせることに成功する。それによってその領域は文部科学省という一流の権威から希少性のあるお墨付き(リンク)を得た一流のクラブとなり、その分野の研究者全員に対して大きな存在感を示す。そのメンバーとして入っている研究者は、そのクラブから厳選されたリンクを得ていることで一流であると認められる。 メンバー間では頻繁に情報交換や共同研究が行われるが、メンバーに入れそうもない三流研究者と付き合いたがることはほとんどないだろう。一流の研究者が書いた文章には「先日××大学の○○教授(やはり一流)と話したが・・」というように一流の研究者との交際が出てくることが多い。「昨日三流の研究者の話を聞かされて時間を無駄にした」などとわざわざ書くことはない。三流の研究者が一流の研究者の話を聞くことはあっても、一流の研究者から研究について講演を頼まれることはないだろう。もし頼まれることがあれば三流ではなく二流ぐらいには入るだろう。
「一流クラブ」と「三流クラブ」には、「他の一流(新学術領域研究なら文部科学省)によって一流と認められるかどうか」「入会希望者がきわめて多い(クラブ外の雑誌から高頻度で引用される)かどうか」という違いがある。この factor を高くするには、「引用をむやみにするな」「引用するなら一流雑誌の論文にしろ。三流雑誌の論文は引用するな」という、お達しを著者に出せばいいのかもしれない。もちろんよい論文を多数載せて、他の雑誌(特に一流雑誌)から引用される機会を増やさなければならないのは当然である。これは研究者でも同じことで、誰も気づかなかった、間違いのない成果を少しずつでも出していき、一流の研究者に「こいつの研究は見どころがある」と言わせるようにならなければならない。また「一流が集う研究機関・領域研究」に所属できればそれに越したことはない。
例えば植物生理学の分野では、一流雑誌として「Plant Physiology」「Plant Cell」「Plant Journal」そして日本植物生理学会が発行する英文専門誌である「Plant Cell Physiology」がある。「Plant Cell Physiology」はインパクトファクターだけでなくアイゲンファクターも高いことが、中西印刷のホームページで紹介されている。このことは「Plant Cell Physiology」が植物生理学の分野で「一流雑誌クラブ」のメンバーとして認められていることを示しているのかもしれない。
アイゲンファクターの仕組みは、Googleのページランクシステムと似ていると書かれている。非常にランクが高いページは、ランクの低いきわめて多数、多種類のページから参照される。ランクが高いページからのリンクは、それにふさわしい価値のある、比較的少数のページに対してなされているだろう。リンクのされ方は非対称になっている。固有値、固有ベクトルというのはいろいろな使い道があり奥が深い。
http://homepage2.nifty.com/baba_hajime/wais/pagerank.html BABA博士がページランクの計算を自分でされた例を公開されている。「sitemap.html のようにツリー状になっている場合は、 sitemap.html にスコアが集中する」と書いてある。
今まで評価が高い割にインパクトファクターが低いことが知られていた雑誌が、アイゲンファクターでは高い値を出すことがあることが中西印刷のホームページで説明されている。その逆もある。
(さらに Eigenfactor の考え方を他の分野にも応用できないか)
Eigen という言葉は行列の固有値、固有ベクトルを求めるときに出てくる。生物学ではパラメーターが多い多次元のデータを得ることが多い。しかもそれらはお互いに高い相関を持つことが多い。相関が高いことが、「代謝や遺伝子発現において、お互いに密接な関係がある」ことを表すと考えられ、そのことは実験的に実証されている。それらの数値を、低次元のお互いに相関を持たないデータに変換し、まとめるときに主成分分析を使う。 主成分分析では、それぞれの主成分の寄与率が、元のデータの分散共分散行列 または相互相関行列の固有値に相当する。寄与率は分散にも相当する。分散共分散行列や相互相関行列は対称行列なので、それに対応する固有値は必ず実数になる。固有ベクトルから、主成分得点が計算される。雑誌間の相互引用の回数は、二つの雑誌間の関係を示しているので相関係数と少し似ているが、方向性があるので対称ではない。
遺伝子や代謝産物について、「二つの因子の関連を表すが、方向性がある係数」を得る実験法、計算方法を開発すれば EigenFactor のように、それぞれの因子の重要性を定量的に示す値を計算できるという可能性もある。遺伝子なら、「多数の配下遺伝子を制御する重要な転写因子」のようなものが、その方法では「一流遺伝子」として高いスコアを出すようになるのではないだろうか。一流遺伝子があるなら「三流遺伝子(他の遺伝子との関連がほとんどなく、あってもなくても何の変化もない)」というものもあるかもしれない。「遺伝子の格付け」はできるような気もするが、そういう分析はあまり見た覚えはない。
Detecting novel associations in large data sets. Reshef DN, Reshef YA, Finucane HK, Grossman SR, McVean G, Turnbaugh PJ, Lander ES, Mitzenmacher M, Sabeti PC. Science. 2011 Dec 16;334(6062):1518-24. PMID: 22174245 という論文では、相互情報量を用いて二つのデータの間の関連を検出する方法が報告された。どんなデータに対しても適用できる。論文でも遺伝子発現の分析が行われている。二つのデータを散布図にして、いくつかのグリッドに区切る。それぞれの区画に含まれるデータの数を数え、表にする。それを元に相互情報量を計算できる。
相互情報量の例: 「遺伝子「ABI3」が強く働いているときは、ほとんどすべての場合種子遺伝子「EM6」も強く働いている。」ということが観測されれば、ABI3 から EM6 への相互情報量は高い値になる。すなわち、「ABI3が働いているという情報がわかれば、それだけで EM6 の状態を知ることができる」ということである。「「EM6」が強く働いている場合、「ABI3」は働いていることも多いが、働いていないことが同じくらいの頻度で生じている」ということが観測されれば、EM6 から ABI3 への相互情報量は低い値になる。遺伝子の上位、下位の関係がある程度わかるかもしれないが、そんなにうまくいかないかもしれない。KL 情報量というものがあって、非対称な性質を持ち文書に出現する単語の分析などに使われているらしい。http://www.adl.nii.ac.jp/paper/wakaki_dbws2005_j.pdf 若木裕美† 正田備也‡ 高須淳宏‡ 安達淳‡ 各博士らによる解説 『単語ti の有ることが,別の単語tj の有無に,どれだけ影響するか.』と書かれている。
すでに、転写因子について、それぞれの因子の階層性が重要であることが示されている。サイエンス誌からのメールマガジンで紹介されていた。 転写調節ネットワークの再構成 : 接続性よりも階層性が調節因子の重要性をよく反映する N. Bhardwaj, P. M. Kim, M. B. Gerstein, Rewiring of Transcriptional Regulatory Networks: Hierarchy, Rather Than Connectivity, Better Reflects the Importance of Regulators. Sci. Signal. 3, ra79 (2010).
もし「一流遺伝子」のリストができたら、それらを集中的に研究すればよいことになって無駄な実験をせずに済むかもしれない。研究者が使える時間、資源、資金は限られている。どんな分野でも効率化が求められる社会情勢(これが変化することはまず考えられない。それどころかもっとひどくなるに決まっている)であるから、無駄な実験を排除するための分析をする必要が今後ますます高まっていくだろう(私もそのうち研究社会から排除されるだろうが)。どこかの研究拠点大学、一流研究所でそういう分析を行って頂きたい。
「A遺伝子を主題とした論文で、B遺伝子が取り上げられる頻度」をデータにするのは「二つの因子の関連を表すが、方向性がある係数」を得る一つの方法である。これなら方向性が出てくる。実際にこういうデータでネットワーク図を書いている例も公開されている。しかしデータの収集が難しいのとデータ数が大きくならないと言うことで、いまのところあまりよくないようだった。
ゲノム上のすべての遺伝子について、挿入変異体を用意したライブラリーを作成する。それぞれの遺伝子破壊体についてマイクロアレイ分析を行い変動を調べる。「A 遺伝子の破壊が B 遺伝子に与える影響」を数値として得られる。A → B と B → A は対称にはならないはずである。こういうことをすればいいかもしれない。しかし植物では遺伝子重複などの問題がある。大腸菌なら既に行われているかもしれない。遺伝子の破壊ではなく、過剰発現の影響を見るのなら植物でも可能である。しかし大変な作業になる。
すべての遺伝子を標的とするのではなく、特定のグループの転写因子に絞って行った例があるらしい。それなら現実的かもしれない。 N. Bhardwaj, P. M. Kim, M. B. Gerstein, Rewiring of Transcriptional Regulatory Networks: Hierarchy, Rather Than Connectivity, Better Reflects the Importance of Regulators. Sci. Signal. 3, ra79 (2010).
横浜で行われた「ICAR2010」では、約10〜25個の遺伝子についてネットワーク図を描画した研究が複数見られた。「A 遺伝子の破壊が B 遺伝子に与える影響」を、22個の遺伝子について調べてネットワーク図を導いた研究があった。平面的なネットワーク図を書く以外にも、階層性に関するデータ解析が出来るかもしれない。
TAIRのデータベースでは、各遺伝子のページから関連文献、関連遺伝子に対するリンクがされている。一応「引用関係」のようにも解釈できる。しかし方向性がない。
すばらしい発現データベースである ATTED では、遺伝子発現の相関のリストを見ることができる。相関係数には方向性はないが、それを高い順に並べた順位は方向によって変化する。ATTED には、すでに順位が考慮された MR 値が導入されている。リストは上から MR 値の低い順に並べられている。MR 値は遺伝子機能の予測に、単なる相関係数より高い精度を示すそうである。 データをそのまま使うのではなく、大きさ順に並べたランク値に変換してから分析することは様々な分野で行われている。しかし植物生理学の分野ではあまり行われていなかった。
「同じ相関係数でも、順位値にすると遺伝子ごとに異なる値になる」ということは、遺伝子ごとに発現相関係数の分布様式が異なっていると言うことを示している。たしかに第一位から二百位まで、ずっと相関係数が高い遺伝子(種子形成関連など:少数の因子が多数の遺伝子を単純に制御していて発現量も大きいため?)もあれば、第一位で既に相関係数がかなり低い遺伝子(どういう機構でそうなるのか?単に発現が低くてノイズが大きいから?制御要因の数が大きいから?)もある。それらの情報に、その遺伝子の特性を表す情報が含まれているという可能性もないわけではない。遺伝子のグループ分け、分類に使えるかもしれないが、あまり意味はないかもしれない。
ある先生が、回帰、相関係数とノイズの関連についてブログで紹介されていた。Y =X + ノイズ という式でサンプルデータを作る。ノイズがなければ X と Y の相関係数は1、回帰を行うと X = Y になるが、ノイズが大きいほど見かけの相関係数は小さくなる。ノイズの影響で回帰を行っても X = Y にならない。PCA を使えば、ノイズに影響されずに X = Y という関係を抽出できることが紹介されていた。
ATTED で見ることが出来る「ある遺伝子の coexpression list における相関係数の最高値」は、その遺伝子の発現量と関係があるのかもしれない。 「どの遺伝子にも、全く同じ発現様式を示すパートナーのような遺伝子が少なくとも一つ存在する」と仮定する。その場合、発現量をノイズ無しで測定できれば、相関係数の最高値は必ず1になる。そこに測定ノイズが入ると、ノイズの大きさに応じて相関係数の最大値が低下することになる。測定ノイズは発現量が低いと高くなるだろう。それによって、相関係数の最大値と発現量とに反比例のような関係がでてくる。しかし、最初の仮定自体が成り立たないだろうから、うまくいかないだろう。「パートナーのような遺伝子がいくつあるか」ということが推定できるかもしれない?
遺伝子発現をリアルタイムPCRで調べていると「繰り返し実験で値のバラツキが小さい、よく揃う遺伝子」もあれば「大きく値がばらつく遺伝子」もある。そういうことも遺伝子のグループ分けに使えるかもしれない。しかしそれが機能不明遺伝子の機能推定などに使えるほど重要なことかどうかはわからない。シグナルの強度が低いことによる測定誤差を反映しているのかもしれない。しかしシグナルが強くてもバラツキが大きいものもある。時間変化、環境変化に応じて発現量が変化しやすい性質を持つ遺伝子はバラツキ(分散)が大きくなるだろう。分散はデータの分析においてとても重要である。タンパク質同士が形成する反応ネットワークの構造が、刺激に対する頑健性 robustness に関わっているという話があった。Science 12 March 2010: Vol. 327. no. 5971, pp. 1389 - 1391 Structural Sources of Robustness in Biochemical Reaction Networks Guy Shinar1 and Martin Feinberg2,*
雑誌「蛋白質核酸酵素」2009年12月号で、竹松、小堤両博士が「相関解析法を組み込んだ新しい DNA マイクロアレイデータ解析法CIRES」という優れた解説を書かれていた。マイクロアレイデータの相関係数を元にしたデータベースにはたいへん優れたものが開発されている。それらは遺伝子発現データ同士の相関を見ている。CIRES 法では、定量できる表現型(例としてレクチンで細胞表層の糖鎖を染色したシグナルが挙げられている)と、遺伝子発現データ間の相関を計算している。6種類の細胞株について分析を行って相関係数を出している。案外少なめのサンプル数でも、よい結果が得られると書いてあった。しかしそれは CIRES 法では分析する対象を糖鎖に関連する遺伝子に絞っているかららしい。多数の遺伝子を用いて解析する場合は、少ないサンプル数ではよい結果を得られないという話を聞いた。
様々な定量可能な表現型に関する数値とマイクロアレイデータを同時に得ることができれば、表現型の値と相関が高い変動を示す遺伝子を抽出することが可能になるだろう。植物分野では二次代謝産物の生合成などに関して、既にそういう例があったような気がする。いろいろな分野に適用できるだろう。例えば何らかの伸長成長を阻害する生理活性物質を培地に入れて植物を育成する。根の長さや太さなどを測定する。同時にマイクロアレイ分析を行う。根の長さと相関のある発現変化をしている遺伝子は、根の伸長と関係があるかもしれない。しかし分析回数が少ないと偽の相関を示すものがたくさん出るだろう。対象とする遺伝子を限定したりして減らさないといけないかもしれない。いずれにせよ実験で確かめないといけない。「高次元のデータを低次元に縮約する」ことは様々な使い道があり多くの分野で行われている。
「条件1と条件2の間での、A遺伝子の発現量の変化」と「B遺伝子の発現量の変化」を比較するということも考えられる。 A が重要な転写因子、B がその配下の遺伝子とする。A の発現強度が条件変化によって変動すれば、B もそれにつれて変化する可能性が高い。 しかし B が何らかの要因で変動しても、それが A に影響を与える仕組みはない。