表紙(FrontPage) | 編集(管理者用) | 差分 | 新規作成 | 一覧 | RSS | 検索 | 更新履歴

Matrixとして得られたデータの分析について -

目次

最近は生物学でも大量の数値データが結果として得られ、それを分析することが多くなっている。それらのデータは行列として得られる。例えば、マイクロアレイのデータは

        |  対照    | 条件1、....
 --------------------------------------   
 遺伝子1  |  数値01  | 数値11、....
 遺伝子2  |  数値02  | 数値12、....   

(植物なら、遺伝子は2万以上あるので2万行以上続く)

のように得られる。

GC-MS では

        |  TIC      | m/z = 70、....
 ----------------------------------------   
 5分         | 数値050  | 数値150、....
 5分1秒     | 数値051  | 数値151、....     

(一定時間おきに、クロマトが終わるまで行数が増える)

のように得られる。

脳の神経細胞のつながり方は行列で表現することができる。すべてのつながり方をまとめたものを行列として表現したものは、コネクトーム connectome と呼ばれている。細胞内の代謝モデルでは、化学量論行列 stoichiometry matrix が用いられる。

こういうデータを分析して有用な知見を導くことは、ほとんどすべての学問分野で必要になってきている(どんなデータでも行列、エクセルの表のようなデータ構造に押し込めようとするのはよくないが)。放送大学の心理学の講義を見ていたら、最初から最後まで統計の話ばかりだった。次の回も統計の話ばかりで数学の講義かと思ったらそうではなく心理学だった。それくらい重要なことである。 

http://dnagarden.hgc.jp/petacom/doku.php?id=home   理研のチームにより、データ解析融合 Wiki という Wiki が公開されている。「データ解析」という観点から、様々な学問分野を融合させ、統一することはすばらしい試みである。大変高度なことが書いてある。私はそんなわけにもいかないので、practical なことを自分のために書いている。

http://www.datascience.jp/index.html   Data Science Consortium のホームページ 

Science 誌のメールマガジンで、様々な分野の専門家による、データ分析に関する特集が紹介されていた。Science(2011年2月11日号)Making Data Maximally Available    データを最大限に利用する    Brooks Hanson, Andrew Sugden, and Bruce Alberts    http://www.sciencemag.org/content/331/6018/649.summary   気象、生態系、脳科学、社会科学などのデータ解析について展望が示されている。    http://www.cosmobio.co.jp/aaas_signal/archive/eg_20110215.asp   にも特集がある。   Why Statistics?   Science 6 April 2012: Vol. 336 no. 6077 p. 12 DOI: 10.1126/science.1218685 Editorial Marie Davidian, Thomas A. Louis

学問分野によって、行列が表現する対象物が異なることに注意しないといけない。生物学の実験結果、アンケート調査の結果などは得られたデータ自体(対象物の状態)がそのまま行列として表現される。一方数学に近い分野では行列が写像、変換、演算を表現するために使われる。

またデータ分析は学問以外にも非常に役立つ。その良い例として「その数学が戦略を決める」という本(イアン・エアーズ(著)、山形浩生(訳)、文藝春秋)も発売されている。最近「ビッグデータ」という言葉が新聞紙面によく出てくる。企業では優れた研究が多数行われている。   http://www.trl.ibm.com/projects/dataanalytics/Analytics_for_manufacturing.htm   IBM 東京基礎研究所   http://ide-research.net/

そこでそういう分析のために何をするとよいか、役立つソフトウェアにどんなものがあるかなどについて書き留めておきたい。

データを解析する

主成分分析、特異値分解 (SVD)、対応分析

主成分分析を行う関数(素人にも結果がわかりやすいように拡張されたもの)が、検索すると見つかる(群馬大学の青木先生)。大変感謝している。「バイオインフォマティクスの基礎」 斎藤 輪太郎 著 数理科学SGCライブラリ-41 でも、「6.4 コドンバイアスの主成分分析」で解説されている。

化学と生物(日本農芸化学会会誌)2013年2月号に、芳賀敏郎先生が「官能評価実験の計画と結果の解析」という解説を書かれている。主成分分析の官能評価実験への適用についても解説されている。ヒストグラムや変数間の散布図を作成して観察することが必須であると書かれている。単純に機械的に主成分分析を適用してその結果をグラフにするだけではいけない。

主成分分析は単純で初心者向きの方法かというとそんなこともないようである。理化学研究所のプレスリリースで、「生体分子の大きな構造変化を詳細に解析・予測する理論(ペプカ)を開発」というものがあった。そのような理論でも主成分分析が使われているらしい。 
http://www.riken.jp/r-world/research/results/2008/081010/index.html

社会、文化の発展と「神」という概念の出現に関して、文書分析などのデータ解析が適用されている。その方法について解説して頂いているページ    「Nature神論文データ解析のメモ書き」http://rpubs.com/kohske/479704   ここでも主成分分析が出てくる。第一主成分が「社会の複雑性」と解釈されている。

統計を専門とされる先生が主成分分析の有用性を語っている。   http://www.spss.co.jp/success/opinions/files/031.html   成蹊大学 理工学部 岩崎教授   専門家でもこのようにおっしゃっているのだから、素人はなおさら基本的な主成分分析をよく勉強すべきなのだろう。

主成分分析は特異値分解 SVD と関係がある。SVD と主成分分析について勉強したことをまとめてみた。 リンク:SVD 

主成分分析は生物学において、代謝産物の分析データの分析に良く用いられる。 細胞に供給される栄養資源の量は限られている。そのため代謝産物の量は「ある化合物Aが増加すると、化合物Bを合成するための資源が足りなくなってBは減る」ということがおきやすい。また化合物Dの前駆体である化合物Cが増加するとDの量も増えるということもおきやすい。 各化合物の量には高い相関が見られる可能性が、他のデータに比べると高くなる。「各成分の量はお互いに独立に変動する」という前提は成り立たない。「各成分はお互いに影響を及ばし合っている」と考えなければならない。こういうデータは回帰分析には向いていないらしい。しかし主成分分析ではかえってよい結果を生みやすいのかもしれない。

測定値がどのような分布に従っているかは大切なポイントになる。「分布が左右対称であれば、正規分布でなくても、正規分布のために開発された手法がそれほど問題をおこさずに適用できる」というようなことが書いてある(ように思える)資料があった。

「分子生物学、生化学、細胞生物学における統計のポイント」 蛋白質核酸酵素 2009年 1792ページ   あの iPS 細胞、ノーベル賞の山中先生も統計に関して勉強を怠っていない。「正規分布というのは,平均と標準偏差が決まれば全部が決まってしまう」「データが左右対称に近い分布をしていれば,平均と標準偏差だけでほとんど問題ないと思います.」と書いてある。これを誇大解釈すると、「分布が左右対称であれば、正規分布でなくても、正規分布の為に開発された手法がそれほど問題をおこさずに適用できる」ということになるかもしれない。

しかし、いくら左右対称でも「両側が高くて真ん中が低い」ような分布では正規分布(真ん中が一番高くて両側に裾野を引く)と形が違いすぎるのでまずい。うまく変数を変換したりして、真ん中が一番高いように書き換える必要があるだろう。「分布の真ん中が一番高く、両側に裾を引くように減って行っている。しかも左右対称に近いなら、正規分布の為に開発された手法がそれほど問題をおこさずに適用できるかもしれない」と考えないといけない。

データのヒストグラムを見て、正規分布の形とかけ離れた分布だったら結果の解釈も注意しないといけないのだろう。そのデータに何か問題がある可能性もある。考えてみるとそれは当たり前で、データのヒストグラムを見てみることは非常に大切である。主成分分析では多くの場合相関係数行列を出発点として計算する。相関係数は変数間に直線的な関連があるときに高い値になる。変数間に関連があっても直線に載らなければ相関係数としては低くなる。ヒストグラムだけでなく、変数間の散布図も作成し見てみなければならない。

文書の分析に特異値分解を用いると、特徴軸は文書内で共起する単語間の関係を表すそうである。 文書の分析の世界で「共起」とは、二つの単語がある関係を持って出現することを表す。 共起情報をネットワークのように表示すると、人間にわかりやすくなって知識の発見に有効らしい。 生化学の教科書や論文を文書分析に供すれば、代謝産物、酵素、遺伝子間のネットワークのようなものが抽出されるかもしれない。 http://www.bioportal.jp/genome/cgi-bin/index.cgi?org=hs  という遺伝子データベースでは、文献での共起性を基にした遺伝子間の関連付けをネットワークで表した図を表示できる。

光合成と乾燥という二つの問題について、それら同士の関わり connection を450以上の論文、文献をデータとして抽出し分析したという論文があった。文書分析から有用な情報を抽出する手法の適用例として注目される。

Photosynthesis and drought: can we make metabolic connections from available data?   Pinheiro C, Chaves MM.   J Exp Bot. 2010 Dec 20. [Epub ahead of print]

画像の分析に主成分分析を用いると、「画像認識に有効な、画像の特徴抽出」が結果として行われるそうである。「顔画像認識」に有効に用いられている。「主成分分析によって顔画像の特徴を持った低次元の部分空間を得て、認識処理をこの部分空間で行う」と書かれている。http://www.ism.ac.jp/editsec/toukei/pdf/49-1-023.pdf

代謝のデータならば「ある変異によって引き起こされた代謝変化」と「あるストレスによって引き起こされた代謝変化」がどの程度似ているかを判断するのに有効かもしれない。なんらかの要因によって引き起こされた変化は、データの特徴として抽出されやすいのかもしれない。

メタボローム等のデータは「サッカーボールに、とげが何本も生えているもの」というように思うようになった。サッカーボールの部分は、どんな環境条件、生育段階でも基本的に変化しない。よっぽど強い衝撃を受けない限り形は変わりにくい。しかしとげの部分は様々な刺激によって大きく変動する。とげの部分は出っ張っているので、分散が大きい。そのため分散を指標とする主成分分析によって、とげの部分が強調されて浮かび上がってきやすい。

サッカーボールの部分を「定常状態」、とげの部分を「そこからの揺らぎ」と考えることができるかもしれない。代謝のモデル化の研究では定常状態を求めることがある。そこに何らかの刺激、外乱、シグナルを加える。そのときの変化が揺らぎとして観測される。

最終的に多数のデータを採取するとしても、まずある程度データを集めた段階で試しに分析することは必要である。主成分分析は制限が少ないので試しに分析するのには適している。もし何か大間違いをしていても、早い段階で気がつくことが出来るかもしれない。また集めたデータが、今までに知られていることや自分が考えた仮説と一致した性質を示すかどうかをチェックすることが出来る。

対応分析も統計的な仮説を用いないので少ないデータでも分析可能であるらしい。
対応分析は、「クロス集計表」のデータを分析するのに適している。
しかし、「バイオインフォマティクスの基礎」 斎藤 輪太郎 著 数理科学SGCライブラリ-41 に、コドンバイアスの分析に適用した例が詳しく解説されている。R 言語による、対応分析を行うプログラムが111ページに掲載されている。

離散変量でないデータに適用した場合は結果の解釈に注意が必要であると書かれている。 しかし一応 RSCU 値のような数値データも分析できるのは確からしい。RSCU 値は、必ず 0 から 4 までに収まっているので、問題がないのかもしれない。

主成分分析では、データを第一主成分、第二主成分、第三・・・・ と分解する。そしてその中から例えば第一、第二成分だけを取り出して散布図を書く。これは「第三主成分以下の情報を無視してしまっている」ということになる。しかし、「本質的でないノイズ成分を除去し、重要な情報だけを抽出している」と考えることもできる。「ノイズリダクション」をしていると考えることもできる。

それが本当にノイズリダクションになっているのか、それとも元のデータを単にいじって変形しているだけにすぎないかは、そのデータの性質や解釈の仕方によるだろう。

他分野のデータ解析技術を学ぶ

様々な学問分野を「データ解析」という観点から眺めてみると、それぞれの学問の特徴のようなものが見えてくるような気がする(各分野の専門家から見れば「わかってないな」と思うだろうが)。

化学プラントのシミュレーション

複雑な化学プラントを設計し、効率よく安定に運転するのは非常に難しいことらしい。化学工学の分野ではそれを実現するためにさまざまなすぐれた研究が行われている。メタボロームの結果を分析して細胞内の仕組みを推定するのに参考になるかもしれない。

http://www-pse.cheme.kyoto-u.ac.jp/~kano/research/JSPSreport-InfCont.pdf その例 この資料では、PLS 回帰を多用している。多重共線性の問題がないので、いくつもあるパラメーター(お互いに相関が高い)を全て有効に活用できる。 生物の細胞も化学プラントの一種と見なすことが出来る。特に植物の光合成をしている組織は「炭酸固定と糖、多糖類への変換」という工場のような物である。植物の細胞内の代謝をモデル化し重要な代謝経路を求める研究も行われている。しかしメタボロームと言ってもプラントに取り付けたセンサーのように細かい時系列で精密なデータが得られるわけではないので化学工学のような優れた分析はできないかもしれない。

しかし技術の進歩が早いので、メタボロームなどでも細かい時系列データが得られるようになる日は近いだろう。化学工学の優れた成果が、そういうデータの分析にも役立つと予想される。

センサーから得られる値は常に信用できるわけではなく、たまに異常値が得られることがあるそうである。多変量解析によって異常値を取り除くことにより推定精度を高める研究が行われている。   http://www.jstage.jst.go.jp/article/kakoronbunshu/35/4/35_382/_article/-char/ja   金子 弘昌, 荒川 正幹, 船津 公人 各博士らの研究  

データをクラスタリングすることで異常値を検出できる(正常値とは別のクラスターに分けられる)。 データから異常値を検出し取り除く、重要なデータを選択してそれ以外を取り除くことは「データの精製」と言われ、重要視されている。新聞に書いてあった日本IBM社長の講演要旨に、「データは21世紀の天然資源だ。原油をガソリンや重油に精製する技術が発達して、油田の価値が高くなった。それと同じようにうまくデータを精製するしくみを開発すればデータの価値を高められる」と書いてあった。

天文学ではデータ解析が非常に重要であるらしい。「STP データからの異常検出法の開発」という資料が公開されていた。   http://airex.tksc.jaxa.jp/dr/prc/japan/contents/AA0064542030/64542030.pdf   徳永 旭将博士ら   広島大学の植村先生が、「天文屋のための How to スパースモデリング」というすばらしい解説を公開されている。http://home.hiroshima-u.ac.jp/uemuram/?page_id=234   

「近年、工学システムの異常検知などの問題に、特異スペクトル分析 (Singular Spectrum Analysis。以下、SSAと略す) を応用した変化点検知法が応用され始めている。」と書かれている。最近植物工場が注目されている。植物の細胞内の状態をクロロフィル蛍光計測、近赤外分光法等を用いモニターし、異常が検出されたらすぐに対策を取る(水を与える、肥料を調節する、温度を管理、光源の調節など)ことによって、効率よい育成ができるかもしれない。こういうことは植物工場でないとやりにくいだろう。すでに研究が進んでいる。単に人工光を与え温度を管理するだけでは温室と同じで植物工場の意味がない。化学工学の分野では 製造中の工程管理による品質保証 RTRt(Real-Time Release testing)というそうである。植物工場の運営に化学工学の成果が生かされるのだろうし、そうならないといけない。

植物には光を当てないと光合成できない。しかし光が強すぎると活性酸素が生成したり光化学系にダメージが起きたりしてかえって効率が悪い。人工光の場合電気代もかかる。最適な光の強度があるはずである。植物の細胞内の状態を何らかの方法でモニターし最適な光強度に常に制御することで効率よい育成ができるかもしれない。すでに植物生理学者によって優れた光合成の研究が多数されているので、それらの知見を元にして可能になるだろう。また細胞内の光合成、電子伝達系に関する状態を時系列で感知する方法、センサーが必要になるだろう。これも植物生理学者、生態学者によって様々な方法が開発されている。   http://www.photosynthesis.jp/sokutei.html   園池先生による解説   そういうわけであるから、植物工場の研究に投資されている研究費の少なくても4分の1くらいは、植物生理学のために分配されるべきである(と私は考える)。

時系列のデータを対応分析すると、異常値は主成分の一つとして検出されやすい。対応分析では、検出された異常データと対応する日時(行ラベル)がグラフ上で近くにプロットされるので、 人間の目で間違いを見つけやすくなり非常に有用である。

メタボロームやマイクロアレイのデータでも異常値はあるだろうから、同様なことを研究する価値はあるかもしれないし既に行われているのだろう。しかしセンサーとは異なり細かい時系列でデータが得られるわけではないので、やり方が変わってくるのだろう。一つの遺伝子に対して複数のプローブを用意することで異常値を取り除いている。同一サンプルを複数回分析し、値に大きな違いがあるものを異常値、信用できないものとすることは普通に行われる。

リモートセンシングの研究

リモートセンシングの研究が盛んに行われている。人工衛星に搭載されたセンサーによって、地上からの反射光を感知する。反射光の波長をスキャンしながら強度を記録する。それによって「ハイパースペクトル」データが得られる。

それらのデータを多変量解析することにより、地上の植物バイオマス量や、生えている植物の水分含量などを精度良く推定することができている。環境中に放出される窒素やリンの量を推定することもできる。地球環境問題の研究に大変役立っている。広島大学国際協力研究科 川村先生の研究室ホームページ http://home.hiroshima-u.ac.jp/kamuken/index.html   日本リモートセンシング学会誌 http://www.jstage.jst.go.jp/browse/rssj/-char/ja

リモートセンシング用のカメラも売られている。   http://www.zolix.com.cn/en/Product_desc/1240_1530.html

衛星に搭載されたセンサー、カメラからの「ハイパースペクトル」データは多変量の膨大なデータになる。それらを分析する方法が開発され、改良を続けている。反射光のスペクトルからできる限り有用な情報を引き出すという技術であるから、スケールを小さくすれば植物生理学にも役立つ(非接触、非破壊で植物体内の情報を得られる)と思われる。軍事関係でも多用されているらしいと言うことである。

Normalized Difference Index (NDI)
植生指数 (波長1(近赤外波長)−波長2(赤波長))/(波長1+波長2) という式に、適当な波長のデータを当てはめると米粒タンパク%と相関のある値が得られる。http://www.agri.pref.hokkaido.jp/center/syuppan/a_rimosen/sld008.htm 異なる波長を用いることにより、ほかの因子に関する推定値も得ることができる。

「二つの波長の差を和で正規化する指標は、観測条件や対象の背景効果などの誤差因子の影響を軽減化する効果がある」と、論文に書かれていた。   日本リモートセンシング学会誌   Vol. 28 (2008) , No. 4 ハイパースペクトル計測に基づく正規化分光反射指数NDSIマップおよび波長選択型PLSによる植物・生態系変量の評価   米粒タンパク含有率・クロロフィル濃度・バイオマス評価を事例として 317-330   井上 吉雄, ミア ギァシュディン, 境谷 栄治, 中野 憲司, 川村 健介

NDI は二つの値の差を表現している。同時に倍率、割合も表現している。最小値は -1 で、二つの値が同じなら 0、最大値は 1 になる。

二つの値があり、その差が重要なことは様々な物事で見られる。ある物を A円で購入した人がいるとする。それを B円で買いたいという人が現れた場合、B-A が正の値で大きければ「よし、売ろう」と思うことが多いだろう。NDI のように、単なる B-A でなく B+A で割って正規化すれば、よりよい指標になるだろう。

物理学の実験データの解析でも、NDI と同じ式が使われていた。   http://ci.nii.ac.jp/naid/110007100407   小林・益川両博士とBelle実験   図7で、二つのピークの高さの違い(対称性の破れの度合い)を定量化するために、(A-B)/(A+B) の形の式が用いられている。

重回帰、PCA回帰、PLS回帰
この分野でも、PLS回帰は有力な方法だそうである。しかしPLS回帰に全ての波長データを変量として当てはめると、予測精度がかえって悪くなる。例えば、ある波長にのみシグナルを妨害するノイズが強く混入していたとする。その場合その波長のデータを用いることで予測精度が悪くなってしまう。予測に必要のない変量を減らしていくほうが良くなる。その方法として ISE-PLS, UVE-PLS などの方法が開発されているそうである。
Iterative predictor weighting (IPW) PLS
勉強中   
uninformative variable elimination PLS (UVEPLS)
勉強中
IPLS
   日本リモートセンシング学会誌   Vol. 28 (2008) , No. 4 ハイパースペクトル計測に基づく正規化分光反射指数NDSIマップおよび波長選択型PLSによる植物・生態系変量の評価   米粒タンパク含有率・クロロフィル濃度・バイオマス評価を事例として  317-330   井上 吉雄, ミア ギァシュディン, 境谷 栄治, 中野 憲司, 川村 健介

「波長を選択する」ということは、「必要な波長に大きな重みをつけ、不必要な波長の重みは0にする」ということに相当する。 波長選択型 PLS における、適切な重みを求める方法をよく勉強しマイクロアレイデータの分析に取り入れることで、よりよい分析ができるかもしれない。遺伝子はたくさん種類がある。それぞれの遺伝子の発現情報をデータベースから得ることができる。そこから得られる数値には、ノイズなどの影響を大きく受けている信頼性が低いものと、そうでないものがあるだろう。それらをすべて同じ重みで扱ってしまっていることは、適切でないかもしれない。信頼性が低いデータの重みを小さくするだけでも、よりよい分析になるかもしれない。

スペクトルデータから有用な情報を引き出すという技術は、大変広い応用範囲がある。
お茶の分析、品質評価に使用した例:

 Journal of Computer Aided Chemistry
 Vol. 9 (2008) pp.37-46
 Predicting Rank of Japanese Green Teas by Derivative Profiles of Spectra Obtained from Fourier Transform Near-Infrared Reflectance Spectroscopy
 Tatsuhiko Ikeda1), Md. Altaf-Ul-Amin2), Aziza Kawsar Parvin2), Shigehiko Kanaya2), Tsutomu Yonetani3) and Eiichiro Fukusaki1)

近赤外分光法によるウンシュウミカンの非破壊迅速な養水分診断技術 (和歌山県果樹試験場栽培部 主任研究員 宮本氏) 
http://www.pref.wakayama.lg.jp/prefg/070109/news/002/news60_3.htm

本 「先端材料開発における振動分光分析法の応用」   西岡利勝   CMC出版 Google Books で、一部を読むことができる。貝原博士によって、多変量スペクトル分離(MCR multivariate curve resolution)、森林学習法などが紹介されている。スペクトルデータを時系列で採取することで、混合物のスペクトル(の時間変化)を個々の化合物のスペクトルに分解し濃度変化を推定することを可能にする。

関西学院大学 近赤外環境モニタリングシステム研究センターのホームページ  http://science.kwansei.ac.jp/~ozaki/rcnirs.htm 素晴らしい成果が上げられている。

気象学

http://www.sci.hokudai.ac.jp/~minobe/ocean_climate/index.html   海と気候の用語集   見延庄士郎博士   http://es.ris.ac.jp/~nakagawa/   中川清隆研究室   気象学・気候学の用語説明を読むことが出来る

EOF (イーオーエフ) という、主成分分析に相当するデータ解析法が紹介されている。「今日の気候変動解析で,最も基本的(相関の次,スペクトルと並ぶくらいか)な2・3の手法の一つだろう.」と、書かれている。PCA では第1主成分、第2、というところが第1モード、第2、となっている。「北極振動」という現象がEOFの第一モードとして検出されることが紹介されている。http://ocw.hokudai.ac.jp/Course/GraduateSchool/Science/MeteorologyAndOceanology/2001/page/materials/MeterologyAndOceanology-2001-Note-05.pdf   EOF に関する優れた解説

Singular Spectrum Analysis (SSA)、complex EOF analysis などの、他分野にも適用できそうな手法が紹介されている。

気象のデータは時系列のデータになっているものが多い。ある時点のデータと、ある時間(ラグ)遅れたデータを多変量のように扱って分析することができる。雨の降り始めの時間の遅れから、二地点間を雨雲が移動した速度を求めることができる。周期性のある変動を検出、分析することができる。「ラグ相関解析」などの方法がある。「ラグ相関解析」は自己相関関数と考えられる。

一方生物学のデータは時系列を細かく取ることが難しいことがある。電位差のようなデータ(脳波、心電図など)は時系列的に得ることができる。 心電図のデータ解析法の簡単な説明   http://www.hql.jp/project/workdb1998/c5/c5_i_02.htm   メタボロームのデータやマイクロアレイデータを細かい時系列で大量に得るのは大変である。

X線天体

X線天体から得られた時系列のX線強度データを分析する方法が解説されていた。「X線天文学におけるランダム変動現象」土井恒成   別冊数理科学「宇宙」1987年

「定常ランダム変動」と呼ばれる変動を示す。気象学などと同様な分析方法が用いられる。特徴として、X線が弱いときに、カウント数が少なくなってポアソン変動によってX線源固有の変動がわからなくなってしまうということがある。マイクロアレイでもシグナルが弱くなると信用できる値を得にくくなる。

時系列の分析では、1次のモーメント、2次のモーメント、3次のモーメント、というように統計量を計算する。確率的に決定される、ある変数の実現値(観測値)が、時間軸に沿って順番にたくさん並んでいる。それは、その母体となる分布関数から、観測によって順番に取り出された値の並びであると見なせる(私の仕事の分野なら単純にそう考える)。 観測値をたくさん集めて、分布関数の代用品として使う。どれくらい集めればよいかは、分野によって異なる。「観測値によって構成した分布関数の代用品」から、一次、二次・・・のモーメントが計算できる。モーメントだけでなく、中心モーメントという量も計算できる。中心モーメントは、平均値を中心と見なし、そこからの偏りを量的に表現した値である。エクセルで出てくる var, skew, kurt は、2次、3次、4次の中心モーメントに相当する(たぶん)。優れた資料   http://ws25.pse143.org/Part3.pdf   日本学術振興会プロセスシステム工学第143委員会ワークショップNo.25最終報告書 79ページに解説がある。

1次モーメントは平均で、2次の統計量(分散に相当するもの、分散以外にも様々な表現の仕方がある)が重要とされている。 自己相関関数を、ラグを変えて計算する。 まず時系列データの平均値を 0 になるように換算する。このことがとても大切である。 ラグ値 Δt を定数として決めておく。 時間 t でのシグナルの値と、時間 t + Δt でのシグナルの値をかけ算する。時間 t をずらしながら計算を繰り返す。 それらの値の平均値を取る。その値を「時間 t でのシグナルの値の二乗(これも t をずらしながら計算を繰り返す)の平均」で割り算する。

得られた値はどうなるか。時間 t でのシグナルの値と、時間 t + Δt でのシグナルの値が常に全く同じ場合(相関係数 = 1 に相当)を 考える。シグナルの値は平均値 = 0 にしてあるので、正の値と負の値が同等に出現する。 「時間 t でのシグナルの値 = 3」なら「時間 t + Δt でのシグナルの値 = 3」、「時間 t でのシグナルの値 = -99」なら「時間 t + Δt でのシグナルの値 = -99」 というようになる。 ゆえにこの場合時間 t でのシグナルの値と、時間 t + Δt でのシグナルの値をかけ算した値は、常に正の値になる。 それらを全部足し合わせると、必ず正の値になる。 その値を「時間 t でのシグナルの値の二乗の平均」で割れば、相関係数の最大の値と同じ1にすることができる。

一方、時間 t + Δt でのシグナルの値が、時間 t でのシグナルの値と全く関係なくランダムに決まる場合(相関係数 = 0 に相当)はどうだろうか。この場合時間 t でのシグナルの値と、時間 t + Δt でのシグナルの値をかけ算した値は、正になったり負になったりする。 全部足し合わせると 0 になる。この場合も、相関係数の値 (0) と対応させることができる。

まとめると、ある時系列のデータが「時間 t でのシグナルの値と、時間 t + Δt でのシグナルの値が常に全く同じ」になるように変動していれば、相関関数の値は1になる。これは「周期Δt で振動している」ことに相当する。 「時間 t + Δt でのシグナルの値が、時間 t でのシグナルの値と全く関係なくランダムに決まる」場合は、相関関数の値は0になる。 時系列データに周期性があるか、ある変動が起きた場合に、それによって変化した値が元に戻りにくい(変動の寿命が長い、尾を引く)か、ランダム性がどれくらいあるかということを、相関関数の値で調べることができる。

さらにラグ値 Δt を変化させて計算を繰り返すことによって時系列から周期を発見することもできる。

周期的な変化(振動)を分析することは非常に多くの分野で有効に用いられている。光、電磁波は振動そのものである。太陽は自律的に振動しているので、それを観測し球の振動としてデータを分析することで太陽内部の構造に関する知見が得られる。遠くの恒星に適用した「星震学」もある。分子に存在する原子間結合に生じる振動がスペクトルの吸収として観測される。

「叩いて超音波で見る−非線形効果を利用した計測」佐藤 拓栄博士の著書 コロナ社 1995年 という本に、相関関数について説明されている。佐藤博士は、信号の非線形性に注目することで、超音波による生体組織の画像化に関する優れた成果を上げている。

二つの信号を組織に与えて、反射または通過した信号を受信する。組織による伝達が線形であれば、そのままの信号が出てくる。しかし組織の性質、不均一性によって非線形効果が生じる。その結果二つの信号の和、差信号、それぞれの信号の高調波が生じる。それらの生じた信号は、元の信号と関わり合いがあり統計的に独立ではなく、何らかの相関があるものとなる。「独立成分分析は非線形性を積極的に生かす方法である」という話と関係があるように思える。非線形効果によって高次のモーメントが0でない信号が生じる。

一方、ランダムに生じるノイズは元の信号と相関がない、統計的に独立なものになる。そのことを利用してノイズの影響を受けない、真の信号を推定することができる。ランダムに生じるノイズの自己相関関数を計算すると値は0になる。

例として信号に含まれる周波数 f1, f2, f1+f2 の成分について分析する例が挙げられている。周波数 f1, f2, f1+f2 の成分には相互に関連性があるので、相関関数の値は0にはならない。 三つの周波数成分の「バイスペクトル」を求め、二次元にプロットすることができる。バイスペクトルは「信号の中の三つの時点での関わり合いを示す三次の相関関数」の二次元のフーリエ変換として定義されるそうである。 実際にデータから計算するには、信号をスペクトルに分解し、着目する成分をとりだして重みをつけた平均処理などをして推定する(理解できていないのでうまく説明できない)。

ある変動が起きた場合に、それによって変化した値が元に戻りにくいと自己相関関数の値は1に近くなる。 それによって、変動の影響がどの程度尾を引くかを表すことができる。「粘性」のようなものがあると尾を長く引く。「宇宙」154ページに掲載されていた X 線天体のデータは尾を引く傾向があるようだった。それは何らかのメカニズムによるはずで、天体が X 線を発生する仕組みを考える糸口になる。「パワースペクトル」を計算して変動の周期を検出する。限られたデータから計算するために問題が生じる。それらを解決する方法がある。高周波数の方でパワーが下がっていく。その傾きが意味を持つ。ランダムに見えるデータから周期性を発見し、それをもたらす原因、メカニズムを推定する。

「生物物理」Vol.52 No.6 「先端的な蛍光相関分光法を応用した生体分子のダイナミクスの解析」石井 邦彦,田原 太平 両博士  では、蛍光値の相関関数を用い生体分子ダイナミクスに関する高度な情報を得る方法が解説されている。 蛍光を測定する方法として光子の数をカウントすることで測定が行われる。X 線天体からのカウント数を測定する X 線天文学と似ている。生物学と天文学で関係ないようだが、データを精密に得て、きちんとした理論に基づいて抽象的で重要な量を導くという点では共通している。 蛍光測定では蛍光の寿命が求められる。寿命が長いということは、一度光子が出るとそのあと光子が続けて出やすくなることになる。 これは X 線天体の観測で「X 線天体のデータは尾を引く傾向がある」ということがわかったことに対応する。

変動の標準偏差と平均の比を変動係数と呼ぶ。この値が有効であると書かれていた。データはある一定の時間幅にセンサーが何カウントのX線を検出したかで表される。その時間幅を bin 幅という。bin 幅を変えたデータを作り、それぞれの場合の変動係数を計算する。横軸に bin 幅、縦軸に変動係数をプロットする。プロットの形に、変動の定性的な振る舞いが表れる。

それらの変動が、どのような仕組みで起きるのかを説明することが重要である。「ショットノイズモデル」「ランジュバンモデル」という二つのモデルが図解入りで紹介されていた。ランジュバン方程式は、微粒子の運動(ブラウン運動)などをモデル化するのに使われている。生物学に適用した例もある。微粒子は動きを止めようとする力(抵抗力)と、動きの原動力になるランダム力を受ける。抵抗力は粒子の速度、流体の粘性に比例する。Chemical Master Equation and Langevin Regimes for a Gene Transcription Model という文献があるそうである。   http://jglobal.jst.go.jp/public/20090422/200902256263640701   そういうモデルがデータを解析するのに役立ったりするのだろう。しかし実際の生物学のデータではもっと単純な統計的な方法が有用だったりする。

天文学

松原隆彦博士による解説   http://tmcosmos.org/cosmology/cosmology-web/

「天体分布の統計理論」というセクションがある。天体の分布から、二点相関関数とパワースペクトルが計算される。二点相関関数は銀河が空間的にどのように群れ集まっているかを表す。

相関係数にもピアソンの相関係数以外に幾つかあるが、相関関数にもいろいろなものがある。目的に合わせて定義し拡張、改変することができる。そのこと自体が重要な研究対象らしい。自分が調べている物事に合わせて相関関数を組み立てなければならない。

自己相関関数と二点相関関数は計算法が違う。時系列データの自己相関関数は、変動の周期性やランダム性、変動が尾を引く程度を計量するために使われる。二点相関関数は、軸、平面、空間における点の分布の仕方を計量するために用いられる。 「生物物理」Vol.52 No.6 「先端的な蛍光相関分光法を応用した生体分子のダイナミクスの解析」石井 邦彦,田原 太平 両博士  では、蛍光値の相関関数を用い生体分子ダイナミクスに関する高度な情報を得る方法が解説されている。 相関関数の計算式について、理論的な考察と目的に基づいた複数の式が提案されている。

別冊数理科学「宇宙」1987年 「X線天文学におけるランダム変動現象」土井恒成博士 に、二点相関関数について説明がある。ある点が平面上にある。その点を中心として円を描く。その円の円周(を中心とする適当な狭い幅)に、他の点が存在する確率を考えてみる。 もし点が平面上に均一に、ランダムに存在しているのなら、単純に確率は円周に比例して大きくなっていく。 宇宙は三次元なので円ではなく球を考えれば同じことになる。

実際の銀河の場合そうではなく、ある銀河を中心とする小さい球(銀河の近傍)には他の銀河が含まれている確率がとても高い。 球を大きく取ってカウントすると、ランダムを仮定した値に近くなっていく。球の半径を定数として決めておき、 実際のデータから確率(割合)を求め、ランダムを仮定した値との違いから分布の偏りを表す値(二点相関関数)を求める。 球の半径を変えて計算を繰り返し、グラフの X 軸に半径、Y 軸に分布の偏りを表す値を取ってプロットする。 右下がりの直線になる。その傾きも重要な情報を含む。

別冊数理科学「宇宙」1987年の35ページに、実際に二点相関関数をデータから求めたグラフが掲載されている。「宇宙の階層構造の形成」富田憲二博士   銀河の集団は均一に分布しているのではないことが示される。

生態学では生物がどのように分布しているかが重要になる。その解析にも、銀河の分布の解析と同じ方法が使われる。   http://takenaka-akio.org/etc/pair_cor/index.html   竹中先生による解説

銀河の分布は均一ではなく、大規模な構造がある。それがどのような仕組みで形成されたのか、重要な問題になっている。生物では均一な培養細胞集団を適当な条件に置くことで器官を形成させることができる。それと同じように、生まれたときは均一だった宇宙に不均一な構造が形成されてくる。星や銀河が形成される。 生物の器官が形成されしくみと銀河が形成されるしくみに共通する点があるかもしれない。

構造の形成過程を説明する理論モデルと、観測値を照らし合わせるためにデータから統計量を計算する。銀河の観測結果から、二点、三点相関関数を計算してグラフをプロットする。

構造を形成するモデルを作る。モデルの時間を進めながら計算することで、銀河の分布、密度の時間的な変化を計算する。それによって密度揺らぎを求める。そのモデルが示す二点、三点相関関数、パワースペクトルを計算できる。

時系列の自己相関関数を求めるときには「時間差」がパラメーター、引数になる。銀河やマイクロアレイのような時系列でないデータでは、時間差というものがない。銀河の分布なら、「ある銀河を中心とした球の体積」になった。 マイクロアレイなら、それぞれの遺伝子について、発現量の「処理区/対象区」の値を出す。 発現量の「処理区/対象区」の値で、遺伝子のランキングを作ることができる。例えばその順位が、それぞれの遺伝子が占める「場所、位置」に相当すると考えることもできる。 宇宙空間に存在する天体の位置は三次元で表現されるが、遺伝子のランキングにおける順位は一次元の値で表現される。たくさんのランキングを集めれば二次元になる。天体の分布データの解析とそのまま対応させることはできないが、データを解析する方法の参考になるかもしれない。

実際の銀河がランダムな分布からどれくらいずれているかと言うことが重要な統計量になる。それがパワースペクトルに結びつく。相関関数は、パワースペクトルから求めることもできる。遺伝子の場合も、「いままでランダムであると予想されていたパラメーターが、実際にはランダムではなかった」というようなことがあれば、他の分野の方法が使えるかもしれない。実際に微生物ゲノムデータの解析からそういう発見が既になされている。

データから計算した値、理論から計算した値をグラフにする。以前は単なる直線のグラフだと見過ごしていたものが、測定、データ解析技術の進歩によって小さなピークが存在することがわかったという例が紹介されている。そういうことが起きたならば、理論の方もそのピークを説明するものでなければならないという制限がかかる。それによって正しいモデル、理解に近づいていく。

天文学では望遠鏡を用い、宇宙の天体から発せされる様々な波長の光、電磁波を観測する。得られるデータは画像として表現することができる。データに含まれるノイズを取り除き、本質的な部分を取り出す高度な手法が研究され実用化されている。生物学でも顕微鏡を用い細胞に遺伝子導入したGFPなどから発する蛍光を観測する。それらのデータも、天文学と同様に様々な処理をされる。

http://kincha.kek.jp/kincha042_iye.pdf   「すばる望遠鏡から30m望遠鏡TMTへ」家博士による一般向け解説   「ボケを直してしまう補償光学」についての解説が含まれている。アマチュアの天文学マニアでも、画像を補正、ノイズ除去するためのソフトウェアを利用できる。コンポジット処理、デコンボリューション処理などがある。   http://rotanev.blog100.fc2.com/   で紹介されている。

コンビニエンスストアなどのPOSデータの解析

小売業では商品が売れるとレジで記録する。どんなものが、何時何分に、どんな客によって買われたかを膨大なデータによって記録できる。商品管理手法において「単品管理」と呼ばれる。電子計算機、ネットワークの発達によって可能になった。「ある商品を買う客は、同時に〜を買うことが多い」とか、「雨が降ると〜は全然売れなくなる」とか、様々な規則性をデータマイニングによって発見することが出来る。それらの規則性はよりよい経営のために役立てられる。

マイクロアレイデータの分析は、相関を解析することが有効ということにおいて、この分野の「データマイニング」と似ているような気がする。実際にクラスタリングなど、同じような分析が行われている。

相関係数を計算するということは、「似た動きをする遺伝子、商品を探す」ということと通じるところがある。谷 聖一博士 によって、「似ていることの数学的定式化とその応用」 という講演が行われていた。   http://lab.twcu.ac.jp/ohyama/topsem07.html   「データ間の類似性の自動判定も,データマイニングにおける重要な課題の1つである」と書かれている。「Kolmogorov 記述量に基づく類似度」というものが紹介されている。

Kolmogorov 記述量 は、和歌の類似度の算出などの様々な物事に応用されている。   http://www.tani.cs.chs.nihon-u.ac.jp/~overs/gr/resume.pdf   谷研究室、見目氏による解説   ファイル圧縮プログラムを使って近似的に値を求めることが出来る。データがどのようなものでも、圧縮可能なファイルとして表現されていれば全く同一の手順で計算できるという特徴がある。生物学関連の多変量データにも適用可能だろう。「数理科学」という雑誌でも紹介されていた。数理科学 2006年9月号 No.519 特集:「ランダムネス」   ・「圧縮度に基づいた汎用な類似度測定法」 P.Vitanyi、渡辺 治   Vitanyi 博士のページ http://homepages.cwi.nl/~paulv/papers/japan06.pdf

Normalized Compression Distance for Gene Expression Analysis   Matti Nykter1,2, Olli Yli-Harja2 and Ilya Shmulevich   という PDF ファイルが見つかる。マイクロアレイデータを分析できるが、データをどういう形式で表現するかによって結果が大きく異なってしまうらしい。

見目氏が書かれているように、こういう分析を実際に行ってみると様々な問題点が出てくるだろう。ある方法を自分の研究分野のデータに適応して、そのままでよい結果が必ずしも得られるわけではないだろう。それをそれぞれのデータに合わせて補正、改良することが大切なのだろう。遺伝子発現のデータベースでも、単純な相関係数でよい結果が得られるわけではなく、様々な工夫(重みをつけるなど)が適用されているらしい。そういったところにそれぞれの研究者のアイデア、考察、実装技術の差が出てきたり、新しい問題、理論が発見されたりするのだろう。

ATLAS実験

http://www.kek.jp/ja/SocialContribution/Openlecture/2012_2_nagano.pdf で、長野 邦浩博士による「ATLAS実験:ヒッグスらしき新粒子の発見とこれから」という一般向け解説資料が公開されている。一般向けにやさしく解説してあるようなので私も読んでみた。

ATLAS実験では、陽子と陽子を衝突させ、その時に生成して散乱する粒子を検出する。「宇宙創成」(サイモン・シン、青木薫訳 新潮文庫)という本の下巻44〜45ページに、こういう実験の原型となったラザフォードらの実験について紹介されている。ラザフォードの実験と一言で言っても、ラザフォード博士はたくさんの実験を行っているのでいろいろなバージョンがあるらしい。 この本で紹介されている実験では、ラジウムから生じるアルファ粒子のビームを金箔に衝突させている。ほとんどのアルファ粒子は金の原子と当たることなくまっすぐ突き抜ける。それを検出するためには金箔の後ろ側に硫化亜鉛のスクリーンを置く。アルファ粒子がスクリーンに当たると光を発する。ラザフォードらの時代は、暗室でスクリーンの発光を顕微鏡で見てカウントすることで検出していた(スクリーンと目が検出器)。少数のアルファ粒子は金原子と衝突して跳ね返る。スクリーンを金箔の後ろではなく斜め前に置くことでそれを検出でき、正しい原子モデルに結びついた。 さらに原子を構成する素粒子に関する情報を得るには、もっと高いエネルギーで粒子と粒子を衝突させて新しい粒子を生み出すことが必要になる。そのために加速器が建設された。粒子と粒子が正面衝突するとエネルギーが新しい粒子を生み出すために使われる割合が高くなる。検出器も改良され粒子が通過した飛跡や速度を記録できるようになった。

この分野では、他の分野と比べて極めて多量のデータが生産されることが紹介されている。生物学でも「円筒の内部に生物材料を固定し、その周りに様々な検出器をセットする。それらの検出器から大量に生産される時系列の多次元なデータを解析する」というような感じに将来なるかもしれない。早くそうなってほしい。MRI というのはそれに近い。すでに MRI から画像だけでなく細胞内の化学物質の量などの情報が得られるようになってきている。MRI も原子核からの情報を扱うので、ATLAS実験と似ていないこともない。医療用画像化法:組織の指紋を追跡する E. Brian Welch Nature 495, 184–185 (14 March 2013) と言う記事があった。

データとしては、粒子の飛跡を記録することにより運動量を測定する。粒子のエネルギーを測定するためにカロリーメータを用いる。それらを全部記録することは到底できない。そこでデータを一時的に蓄積するファーストイン・ファーストアウトバッファーとなる記録部を用意する。そこに入ってきたデータを分析し、注目するイベントが発生したとき(トリガー)に本格的なデータを蓄積する。注目するイベントが発生した時に検出された、新しく生成した粒子の運動量とエネルギーを記録する。 それらを元に、観測された粒子の前駆体である目的の粒子の質量(エネルギー)を計算する。素粒子物理学では質量を eV (電子ボルト)で表現する。質量とエネルギーは直接結びつく(しかし光子はエネルギーを持っているが質量はない)。ある質量 (eV) の粒子が発生するイベントが何回起きたか、イベント数としてY軸に取る。質量の方をX軸に取る。そういうグラフが書ける。ある質量をもつ粒子の生成を多数回観測できれば、その eV のところでグラフにピークが生じる。

しかしどの分野のどんな検出器でもバックグラウンドのノイズがある。この分野でもそれが問題になる。「A粒子から生成したB粒子を検出したい」と思っても、「C粒子から生成したB粒子」も同時に生成していたりする。それらはエネルギーが異なるので区別できるが、エネルギーは常に一定の値を取るのではなくある程度の幅で分布しているのでいくらかの割合でシグナルが混ざり合う。それらがバックグラウンドのノイズになる。大きなピークの裾野にとても小さなピークがなんとか出現するというようになる。 この分野では標準理論というモデルが確立しておりバックグラウンドの値を計算できるらしい。その値と、実際に観測された値に違いがあるかどうか、統計的に有意度を検定し、本当にピークになっているのか確かめる。観測回数が多いほど統計的にはっきりとした結果を求めることができる。また検出原理の異なる独立した複数の検出器で同時に測定を行い、結果が一致するかどうかで確かめる。もちろん膨大なデータからはこれ以外にも様々な有用な情報を取り出すことができる。それらについても素人向け解説が出てきたら読んでみたい。

ランキングの分析

服部哲弥先生による本「Amazonランキングの謎を解く」確率的な順位付けが教える売り上げの構造   化学同人 1700円   Amazonで売られている多種類の、それぞれの本に付与されている順位を題材に、数理モデル(確率順位付け模型)を構築し、時系列として得られた観測データとの一致を示している。そこからロングテールなどに関する重要な結論を引き出すことができている。確率、測度、数理モデルの現実問題への適用に関して、きわめて丁寧に解説した書物としてもすばらしい価値がある。

マイクロアレイのデータから、遺伝子に順位をつけランキングを作ることができる。例えば、ある処理をした植物体から得られたデータの値を、対照となる植物体の、対応するデータの値で割り算する。さらに2を底とする対数にする。ほとんどの遺伝子は、その処理によって影響を受けないので、全体を見ると0を中心とした左右対称の分布になる。値の大きい遺伝子から順位をつけることができる。順位がどのように決まるのか、モデルを考えることは重要だが、「このモデルが決定版だ」というものはまだないようである(私が知らないだけかもしれないが)。

服部先生のモデルを、遺伝子のランキングが決定されるモデルに当てはめることもできるかもしれない。もちろんそのままではいけないので改変しないといけない。ランキングの上位、下位の部分については遺伝子ごとに特別な仕組みがあるだろうから考えない。普通のマイクロアレイ分析では注目しない、ランキングで中央に近い部分(それぞれの遺伝子を区別する必要がない)に注目して情報を引き出せるかもしれない。

時間をたくさんのステップに非常に細かく分ける。一つのステップでは、一つの遺伝子が選び出され、ランキングの最上位または最下位にジャンプする。それは、「その時間に、どちらかのサンプルで、その遺伝子のプロモーターにRNAポリメラーゼが効率よく結合し、mRNAが多量に生成した」ことに相当する。本の売れ行きでは上にしかジャンプしないが、発現レシオのランキングだと二通りあり得る。他の遺伝子はそれによって順位がずれる。ステップが次々と進行することでランキングが時間変化する。

しかし問題がある。服部先生の本に書かれているように、アマゾンのランキングでは時間的な順位変動を細かく観測したデータを得ることができている。しかしマイクロアレイの場合はそういうデータはない。時系列のデータもあるが、時間間隔が大きくデータ数も少ない。何か工夫しないといけない。数多くの条件で、順位がどれくらい変動しやすいか、どう分布してるかと言うことなら遺伝子ごとにデータから調べられる。

マイクロアレイではなくメタボロームだが、一細胞に含まれる分子を直接質量分析することで、細胞に含まれる分子の時間的な揺らぎを測定 することが成功している。今までの方法では多数の細胞の平均値しか測れなかっ た。また細かい時系列で測定することも難しかった。それらが克服された。 「一細胞内に存在する分子種のランキング」が時系列で観測できるかもしれない。    http://www.riken.jp/r-world/info/release/press/2012/120425/detail.html   

ランキングの変化は、「ランキング」という1次元のフィールドを、たくさんの種類の本や遺伝子が上、下に動き回るというように考えることもできる。 「動き回る」ということを「運動」とすれば、その運動を表現する運動方程式を決めることができるかもしれない。決めるにはなにか拠り所がないといけない。そのためには、遺伝子の場合マイクロアレイデータから計算される様々な量の分布様式が使えるかもしれない。 もっともらしい運動方程式が見いだせたら、それを元にして他の分野の優れた理論や手法にうまく乗っかることで、遺伝子のランキング変化を理解できるようになるかもしれない。

他分野のデータとマイクロアレイデータ、メタボロームデータの違い

他分野では、データを時系列で大量に集めることが多い。それが当たり前、疑うことなど全くない所与の条件のようになっている。そのため、ラグ相関分析(自己相関関数)、パワースペクトルなどを求めること等が出来る。時間的な変化(時間発展)を予測する理論を考え、その予測と実験結果を比較することで真実に近づいていく。それらの分野の根底には力学がある。力学の基本法則に時間が入っているので、時間なしではやりにくい。時間がなかったら速度も加速度も計算できない。

生物学ではデータを時系列で大量に集めることが難しいことが多い。ある環境で、細胞は一つの定常状態を取っている。特に何もなければ、それがいつまでも続く。それは長生きすると言うことだから、そうあってほしい。また完全に静止しているわけではない。食物を食べ、光合成を行いエネルギーを取り入れる。二酸化炭素や水、それ以外にもいろいろなものを排泄する。「バスタブモデル」というもので表現される。つねに水が流入し、それと同じ量の水が漏れているのでバスタブ内の水の量はだいたい一定になるが揺らぎが生じる。

そこに何らかの刺激、環境変化、遺伝的な変化が加わると、別の定常状態に移る。その状態はどんなものなのか、移る前の状態とはどう違うのか、どんな因子がその変化が実現されるために働いているのか、どんな薬を与えると元に戻るのかを調べようとする。移るのにかかる時間、どんな経路で移るかについてはあまり気にしないことが多い。得られた結果を定性的に説明する理屈を考え、それによって起こりうることを予測する。その予測を実験結果と比較することで真実に近づいていく。 しかしこれは極端な言い方で、生物学でも時間発展を求めようとすることももちろんある。その場合は、できるだけ細かい時系列でデータを多量にとれるようにしなければならない。実際にそういう技術が進んでいる。 生物が発生を始めると、その状態は時々刻々と変化していく。その様子を事細かに多次元のデータとして時系列で観測、定量化する技術がどんどん進んでいる。しかし、その時間発展の様子を今までの物理や工学のやり方で表現しようとしても、いくつかの理由でうまくいかないと書かれていた。

生物の発生は状態が時間ごとに激しく変化するので時系列でデータを蓄積しないといけない。しかし生物の細胞で起きることなのでとても複雑で観測しきれない物事の方が、観測できることよりもずっと多い。二つの難しさを兼ね備えている。

時間にこだわらなければ、別の物事を軸にして細かくデータをとることができる。例えば培地に何か薬剤を入れておいて、そこに種子をまく。一定時間後に成長や遺伝子発現などを定量する。薬剤の濃度を細かく変化させることで、薬剤に対する応答に関する新しい情報がとれるかもしれない。しかし時間のように普遍性があるわけではない。

しかし、こういう方法でも、「ある濃度で突然状態が変化する(氷が融解して水になるような)」ということが観測できれば、それを手がかりにして細胞内で起きていることのモデル化がやりやすくなると言うことを、理論家が書かれていた。 その濃度ポイントでは、何かが起きていることが推定できる。 「分岐点を見つけて、分岐図を書く」と言うことができる。モデル化がうまくいけば、「どんな測定をすればよいか」を推定できるので実験家にとっても無駄な努力をせずにすむようになる。実験と理論がお互いに補えるようになる。

http://q-bio.jp/wiki/Main_Page 定量生物学の会のホームページ の http://q-bio.jp/wiki/%E7%90%86%E8%AB%96%E7%94%9F%E7%89%A9%E5%AD%A6%E5%9F%BA%E7%A4%8E%E3%81%BE%E3%81%A8%E3%82%81 理論生物学基礎まとめ に資料が置かれている。 

時間があまり重要視されていない分野として、古典的な熱力学がある。 「ゆっくりじわじわと準静的に状態が変化して、効率が極めて高い」というのは特に植物の成長に近い(植物の成長は可逆ではないのでそこは大きく異なるが)。熱力学は、植物の細胞、個体で起きることを考える上で相性がよいように思える。 熱力学について勉強している。

温度というものは多数の分子の平均運動エネルギーを定数で割り算したものだから、変化するのに時間がかかることが多い。温度が一秒間に1000回、10度の振幅で変化するというようなことはあまり起こらない。生物から得られる様々なデータと似たところがある。

生物で起きることの根底に熱力学があるのなら、他の分野の時系列解析の「時間」に相当するものとして、温度が使えるのかもしれない。例えばアレニウスプロットなどの方法がある。生物現象の分析に適用した例がある。それによって「状態が大きく変化する分岐点」が見つけられれば、細胞内で起きていることをモデル化する手がかりを得られるだろう。

農業において、温度変化はとても大切な因子である。アレニウスの式に基づいて、温度を積算した値(時系列の温度データ)と「標準温度での開花日数」から開花時期を予測することが可能なことが実証されている。   温度による生態資源の評価法 −温度変換日数を用いた果樹の開花予測を例として−   http://hdl.handle.net/10091/12678   信州大学 星川先生

生物の基本的な現象を質量作用の法則とアレニウスの式から考えた、小西博士によるすばらしい論文がある。   A thermodynamic model of transcriptome formation.   Konishi T.   Nucleic Acids Res. 2005 Nov 24;33(20):6587-92. Print 2005. 

動植物個体、培養細胞、微生物で、他の条件を一定にして温度だけを細かく変えて多数のサンプルを育成する必要がある。「安定な温度勾配を持ったインキュベータ」を開発して、そこにサンプルを順番に並べるような方法が必要になる。

または壊してもよいインキュベータを一台用意する。庫内の温度を一様にするためにファンがあるが、そこにつながる配線を切る。その状態で庫内の上と下にサンプルを置く。それぞれのサンプルのすぐ横に小型の「温度ロガー」を置いて時系列で温度データを蓄積する。SDカードに記録できるものが一万円台で売っている。時系列の温度データ(を加工した値)と、成長や遺伝子発現などを定量した値の関係を分析する。

今後マイクロアレイデータやメタボロームデータの測定、分析に求められることは、

マイクロアレイで細かい時系列のデータを大量に集めるのは難しい。時系列で実験したとしてもデータの時間間隔が大きくなる。その代わりに、求められる値の種類が膨大(2万の遺伝子に関するデータが一度に求まる)になる。それらの2万の値を多数の条件で測定したデータは、お互いに動きの相関が高い、遺伝子の組み合わせを多数含んでいる。 2万の遺伝子のデータがあるからと言って、直交する軸が2万種類あるわけではない。数値的には、お互いに相関のない、いくつかの軸に分けることができる。しかし、そうやって分けた軸と遺伝子の機能や発現パターンに関連が見つからなければ、生物学的には意味が小さい。

経済の分野では、以前は日ごと、月ごとのように大きな間隔で得られたデータを分析することが多かった。しかし最近では秒以下の単位で記録されたデータが利用されるようになってきている。   http://jp.fujitsu.com/group/fri/downloads/report/research/2004/report188.pdf   それによって様々な影響が出てきているらしい。 昔ながらの方法で取引をしている自己売買部門が全く利益を上げられなくなり解散したと言うことが書かれていた。 最近世界中で経済的な問題が起きている。その原因に、細かい時系列のデータを用いた超高速取引に中央銀行や政府が対応できていないことがあるかもしれない。

生物学でも、動画、画像としてデータを得ることができる分野は数理的な研究が適用されることが多い。   The mechanism of cell cycle arrest front progression explained by a KLUH/CYP78A5-dependent mobile growth factor in developing leaves of Arabidopsis thaliana.   Kazama T, Ichihashi Y, Murata S, Tsukaya H.   Plant Cell Physiol. 2010 Jun;51(6):1046-54. Epub 2010 Apr 15.   PMID: 20395288   植物の葉の発生時に生じる arrest front に関して実験的、数理的な解析を組み合わせて研究した、風間博士のすばらしい研究   遺伝子組換えと時系列の画像処理を組み合わせることで、拡散方程式のパラメーターを求めることを可能にしている。

Jasmonate controls leaf growth by repressing cell proliferation and the onset of endoreduplication while maintaining a potential stand-by mode. Noir S, Bomer M, Takahashi N, Ishida T, Tsui TL, Balbi V, Shanahan H, Sugimoto K, Devoto A. Plant Physiol. 2013 Apr;161(4):1930-51. doi: 10.1104/pp.113.214908. Epub 2013 Feb 25. PMID: 23439917   

動画、画像以外の方法でも時系列でデータを大量に得られる時代が来れば生物学にも様々な変化が起きるだろう。むしろ生物に関わるデータ採取をすべて動画によって行うことを目標にした方がいいかもしれない。カメラを仕掛けておくことでデータがとれるのなら、きちんと準備さえすればデータ採取中は寝ていても問題ないので大変都合がよい。

生物に関わるデータ採取をすべて_Movie_動画によって行う方法を考える

「生物物理(生物物理学会会誌)」で、すばらしい研究が紹介されている。2011年1月号 細胞の力学知覚の物理メカニズム   014ページ   水野 大介, 中益 朗子 両博士の研究   細胞にコロイド粒子を接着させ、そのコロイド粒子の動き、揺らぎを計測することで時系列のデータ(右の粒子と左の粒子で二種類)を得ている。それらの時系列データを分析することで細胞の力学知覚に関する成果が上げられている。二種類の時系列があると、両者の相関を調べることができる。それが重要な情報を含んでいることがあるらしい。これは時系列でなくてもマイクロアレイデータでもすでに多くのすばらしい研究によって示されている。

応用物理、第80巻、第02号(2011)で、「先端医療を支える応用物理」という特集が組まれている。MRI 装置に関して解説されている。単に画像を得るだけでなく、組織に含まれる分子種、力学的な性状に関しても情報が同時に得られるようになってきているそうである。CSI (chemical shift imaging), MR elastography (the imaging of mechanical characteristics)などの方法が開発されている。測定装置の値段、設置の容易さ(持ち運びできると便利である)、測定にかかる時間がさらに改良されれば、いままで生物学では考えられなかったようなデータが時系列の画像で得られるのだろう。

相関係数が非常に有効なことは既に優れたデータベースによって実証されている。

(Rで)マイクロアレイデータ解析 by 門田幸二 博士 のページで解説して頂いている、GSEA (Gene Set Enrichment Analysis 遺伝子セットの濃縮度解析) は、比較的簡単に計算できるがマイクロアレイデータの分析に大変役立つ。この方法は、遺伝子一つ一つが持つ値よりも、一群の遺伝子(共通した性質を持つ遺伝子グループ)が形成する分布の違いに注目するという点で、マイクロアレイの利点を生かした情報が得られる。

時系列データでパワースペクトルを計算する(周期性によってデータを分解する)ことに相当するものが、時系列でないデータでは主成分分析(分散によってデータを分解する)になるような気がする。行列があればとりあえず分解してみるものらしい。様々な分解法がある。 

数理モデルで変数、パラメーターが多数あるとパラメーターを適当に選べばどんな実験結果にも合わせることができてしまう。 そのせいで予測力がなくなり価値が下がる。モデルはできるだけシンプルで本質を表現でき、予測力が高いものがよいらしい。任意に決められるパラメーターが全くないのに様々なことをうまく予測できるモデルは大変高く評価されるらしい。 対照的に生物学では、パラメーターとなる因子、遺伝子を次々と発見し増やすことに大きな価値がある。パラメータの数に対する価値観に違いが見られる。 生物学では、必ずしも「時間発展」を求めようとするわけではない。生物学には「時間生物学」という分野があるが、「時間物理学」とか「時間工学」とわざわざ言うことはない。生物学で「時間発展」という言葉が出てくる方が特殊なことである。研究分野が違うと、異なることがいろいろある。そういうことは今後の発展の糸口になるかもしれない。

時系列のデータから、それを説明するシステムを考えてみる。システムが安定になる条件を求めることは、重要な問題である。 安定する状態(点)が一つだけで、その点の位置が連続的に変わりうるシステム、オンとオフの二つの極端な状態しかとらないシステムなど様々なものがあり得る。 それらのシステムに外力を加えたときの応答を予想し、その予想を実験によって検証してモデルを修正することができる。 植物が持ついくつかの遺伝子のネットワークをそういう形でモデル化して、そこに温度変化を外力として加えた時の時間的な応答を計算する、さらにそれを実際に植物を育成した実験結果と照合するというすばらしい研究が行われていた。 あるモデルでは温度変化がおきた瞬間に、それに対応する安定な状態に遷移する。しかし別のモデルでは温度変化によって別の状態に遷移するのに一定の時間がかかる。それが「植物の温度記憶」「春化処理」の仕組みに相当する。 2012年植物生理学会 S03-6 季節を生きる植物:繁殖ダイナミクスと資源輸送ネットワークモデル 佐竹先生ら  植物生理学でも、そういうモデル化による有用知見の抽出が行われている。佐竹先生らの研究はかなり生態学に近い。生態学には数理生態学という分野もあり、普通の生物学よりずっと数理モデルをうまく取り入れる研究が進んでいる。

時系列データは、データを時間軸に載せることができる。一次元のデータ集団と考えることができる。データは時間に従って順番がついている。時系列では「時間発展」を考える。ある時刻の状態から次の時刻に移る際の状態変化を演算と考える。繰り返し適用することで、時間発展の様子を再現し、予測することができる。またそうなるように式を組み立てていく。

マイクロアレイデータは、それぞれのデータは二次元平面上に散らばっているようなイメージがある。データ間の距離は、データ同士の類似性に相当する。マイクロアレイデータでも時系列データがあるが、そういうものは時間軸に載せられる。しかし時間間隔を細かくすることは難しく、異なる条件で採取したデータがあると一本の時間軸だけでは足りない。「時間発展」に相当するものが「状態変化」になる。

生態学では数理的な研究が進んでいる。点過程解析(L 関数)という方法で、平面上(にかぎらず,任意の次元の空間でもよい)に 散らばっている点のパターンを解析することができるそうである。   http://takenaka-akio.org/etc/ppa/index.html   竹中先生による解説   

植物の生活環を考えると、種子の状態が時間の原点と考えることができる。発芽すると時間が開始する。生育に従って時間軸も進むが、環境要因によって時間軸と異なる方向に状態が進む。一本の時間軸に乗らなくなる。最終的には、また種子が形成されて状態が収束する。または枯れてしまう。一つの輪を一周する(何ヶ月もかけて)というイメージを考えることができるが、その輪にはたくさんの枝分かれがついていて、枝の先は切れていたり元の輪につながったりどうなっているのかよくわからない。

一つの輪を考える。ある点が原点とする。そこから時間が開始し、状態が変化していく。時間の進行が角度に相当する。周期性のある、素直な物事なら、ある時間で一周して元に戻り、また同じことが何回も繰り返される。生物なら、培養細胞の場合はDNA複製、細胞分裂が起きて一周して元に戻り、同じことが繰り返される。個体の場合でも、リズムがある現象の場合、一周期過ぎると元の状態に戻り同じことが繰り返される。そういう系を対象にすれば、生物でもかなり理屈っぽい研究がやりやすくなる。数理生物学の分野が発展している。

時系列データでは、時間軸に対する値の変化、特に周期性が重要になる。分散の時間的な変化が重要な分野もある。時間のないデータ、時間軸に単純に並べることができにくいデータ群では、時間軸の代わりに他の軸を見るようにすれば、その軸に対しての周期性を調べることができる。点、または何らかの物体が軸上に分布している様子を観測し、データとして得る。時間軸の代わりにその軸を用いて分析すれば、分布に不均一性や周期性があること等を検出できる。

主成分分析というのは「分散最大方向に軸を引く」ことであるから、その軸が時間の代わりにうまく使えても、あまりおかしくないのかもしれない。時間軸というのは常に最も重要な軸だが、それが使えなければ分散最大方向に軸を引くのが有効になるのかもしれない。

銀河の研究の場合、観測によって銀河の分布を調べることができる。宇宙は三次元空間なので空間の軸が三つになる。実際の銀河がランダムな分布からどれくらいずれている(不均一)かと言うことが重要な統計量になる。様々な分野で、構成因子一つ一つの状態ではなく、 「分布」に注目することが大切 なことになっている。 マイクロアレイのデータなら、遺伝子の発現量(から導かれる様々な値)の分布を軸にして分析すれば、それらの量の分布に、予想される分布(正規分布、対数正規分布、指数分布がよく出てきて扱いやすいのでいろいろな解析法で使われる。しかしもちろんそれ以外の分布も出てくる)からのずれがあるかどうかを分析できることになる。

遺伝子の場合そんなものが大切なのだろうか。なにか大きな刺激を受けた組織由来のデータでは、その刺激で発現が変動する遺伝子群のせいで分布がずれることはあり得る。ずれ方の度合いを何かの指標にできるかもしれない。刺激を受けた組織由来のデータと、対照の組織由来のデータ間で倍率を取る。倍率の対数のヒストグラムを書く。 ほとんどの遺伝子の発現量は刺激の影響を受けないので、遺伝子全体では0を中心とした対称な分布に近くなる。しかし何らかの事前に得られた知識によって恣意的に選択した少数の遺伝子の集合(遺伝子セット)では全く異なる分布になることがよくある。そのことはすでに「遺伝子セットの濃縮度解析 (Gene Set Enrichment Analysis, GSEA)」に有効に使われている。 「分布に注目」 することは、遺伝子発現の場合でも重要であることがわかった。

これはマイクロアレイデータ、メタボロームデータのような多種類の構成要素を含むデータでないとできないし、その利点を生かすことができる。メタボロームの結果では、あまり分析されずに「こういう変化でした」で終わっている論文がたまにある。「化合物セットの濃縮度解析」をすれば、もっと有用な情報を取り出せるかもしれない。

生物由来のデータを分析するには、「エンリッチメント(分布の偏り)」に注目することが有用であることが多いらしい。

そもそも「分布」の方が実体、本体であり、一回の実験で取得される値は、その分布から取り出した一つの値に過ぎない。だから値一つでは物を言うことはできないのが当たり前で、複数の値を集めて得られる分布や相関が有効なのは理屈にかなっている。生物学での様々な測定も、「精密な値が得られるがとても手間がかかる」方法よりも「ある程度偶然による誤差が出てしまうが、たくさんのサンプルをハイスループットで測定できる方法」の方が好まれる場合が多くなってきた。

さらに銀河の研究を見習えば、そういう分析で見いだされた実測データの特徴をうまく説明し、有用なことを予測できるモデル、理論を考えないといけない。

最近では、「遺伝子発現の周期的な振動」が重要であることが示されるようになった。遺伝子発現でも「時系列解析」「時空間解析」が重要になるのだろう。それだけ大量のデータを、高い精度で、手間をかけずに得ることが必須になる。しかも分析に100万円もかかるのではやっていられない。せいぜい10万円にしてもらいたい。 どうやってそれを成し遂げればよいのか、研究拠点の機関、大学には頑張って頂きたい。私はそういうところにサンプルを持って行って分析をお願いすることになるだろう。複数の遺伝子の、それぞれの量に由来するシグナル(パラレル)を発光などにエンコード(シリアル、圧縮)し、それを時系列で観測した値を取得し、デコードしてそれぞれの遺伝子に相当する値に分離するというような感じになるだろう。生きた細胞にそういう仕組みを組み込むのはとても難しいだろう。

vim: set ts=8 sts=2 sw=2 et ft=a111_modified_flexwiki textwidth=0 lsp=12: