表紙(FrontPage) | 編集(管理者用) | 差分 | 新規作成 | 一覧 | RSS | 検索 | 更新履歴

生命研究からデータを絶対化する原理を見つける方法を考える -

目次

前置き

和田昭允先生が、次のようなことを書かれている。   http://www.ati.or.jp/pdf/ATINews-03.pdf   2006年5月

そういう方法が見つかると生物学者は失業するかどうかは疑問がある。なぜなら物理学者や化学者は失業していない(または失業した人はすでに去って優秀な人だけが残っているのでそう見えるのかもしれない)。しかし確かに生物学者もそういう方法を取り入れることを目指すべきだろう。優秀な先生方は独創的な方法を0から考える(破壊的なイノベーション:そのためには数学の力が求められているらしい「数学イノベーション」)のだろうが、私には難しいのでまず他の第一原理をうまく研究の基盤としている分野の成果に学ぶことにする。

科学にとって破壊的イノベーションとはどんなものだろうか。例えば、生物学者が多大な労働力と時間と資金をつぎ込んでやっとのことで調べていた物事が、数学の力によってあっという間に計算でき、得られた結果もその方がずっと正確というようになれば、それは破壊的なイノベーションだろう。 生物学では細胞、環境中に含まれる化合物を網羅的解析することによって、これまでわからなかった物事が解明されようとしている。メタボロミクスと呼ばれる。この際に質量分析が必須の手法として用いられる。 分子を正しく同定するには純粋な化合物を多種類用意して、それらから生じるフラグメントの質量スペクトルを測定しデータベースにしなければならない。とても大変な作業になる。 数学や人工知能システムの活用が期待されているし、それらの威力が発揮されやすい課題に思える。「化学とメタボロミクス・質量分析におけるフラグメンテーションの重要性」有田、津川両先生による解説 「化学」2017 年 2 月号 26 ページ において解説されている。「McLafferty転位」で検索すると、資料が出てくる。 すでに、「計算化学」というページで、「計算化学での MS スペクトルの予測 」という優れた解説が公開されている。   http://computational-chemistry.com/blog/2017/11/08/ms-prediction/    Quantum chemical electron impact mass spectrum prediction for de novo structure elucidation: Assessment against experimental reference data and comparison to competitive fragmentation modeling   Peter R. Spackman, Bjorn Bohman, Amir Karton, Dylan Jayatilaka   Int. J. Quant. Chem. 2017;e25460., DOI: 10.1002/qua.25460    という論文について解説されている。 2024 年に当大学の機器分析センターに入ったガスクロマトグラフ-飛行時間型質量分析装置では、人工知能を活用した検索エンジンによって質量スペクトルから候補分子を高精度で絞り込むことが可能なソフトウェアがシステムの一部として使えるようになっていた。

2006 年では「そのうち出てくるでしょう」と言っていられる余裕があったが、2014 年以降では様々な事件、問題によって「生命研究のデーターを絶対化する第一原理」を確立することは絶対に必要な、それができないと生物学に優秀な若い人が一人も入ってこなくなるような重要課題になった。

計算主導型戦略

化学の世界では複雑な分子について分子軌道や様々な分子の性質を計算する手法が進んでいる。そういった方法は理論化学を専門とする保木博士によってコンピューター将棋に応用された。   https://www.jstage.jst.go.jp/article/molsci/6/1/6_A0050/_pdf   適切な手を選び出すための評価関数を構成する一千万以上のパラメーターについて、プロ棋士の判断を再現できる最適な値のセットを、莫大な組み合わせから選び出すことができるようになった(最適化問題)。

2013年のノーベル化学賞は、Martin Karplus, Michael Levitt and Arieh Warshel の三氏に与えられた。計算化学が進歩してタンパク質のような高分子も計算の対象になっている。それが製薬などに役立っていることを反映している。

レアメタルを使わない第3世代の有機EL発光材料開発の成功 ― 低コストで、100%の内部量子効率を達成   http://www.natureasia.com/ja-jp/nature/interview/contents/11   魚山 大樹博士のすばらしい研究   分子設計、分子軌道のシミュレーションによって150種類の候補から10種類の分子種を選び出し、それらを実際に合成したと書かれている。もしシミュレーション、計算ができなければ150種類を全部合成せざるを得ず、いつまでたっても成功しなかったかもしれない。

こういう方法が生物学に適用できるようになれば、生物学者はもっと高度なことができるようになるかもしれない。それについていけなければ、コンピューターに負けたプロ棋士のようになるかもしれない。

例えば「A という遺伝子が変異することで、B という興味深い性質が生じた。その仕組みを解明したい」という問題を解こうとする。生物は複雑なので、考えられる仕組みは非常にたくさんある。それらから本当に起きていることを選び出すために、今の段階では、様々な実験を行い手がかりを得る。網羅的解析がとても有効なことがある。それによって可能性を絞り込んでいき、最終的に一番もっともらしいことについて確証を得る実験を行う。 これも「一番もっともらしい仮説を選ぶ」わけだから「生物学的な知見によって主観的に、その場しのぎ ad hoc に決められたもっともらしさ関数」の最適化問題を解いていることになるが、解くのにやたらと手間がかかる。出てきた仮説が間違いなく正しいことを証明することはきわめて難しいことが多い。「こんなことを解明しようと思ったのが間違いだった」ということになる。いつまでもこんなことをしていてはいけない。 こういうことを効率よく行うために、計算を取り入れることができるようになったら、いろいろなことが変わるだろう。

生物学における問題を、「なにかを評価する関数を構成するパラメーター(たくさんあってもよい)を、その関数の値が最小になるように最適化する」ことで解決の手がかりが得られるように書き換えることができればよいのかもしれない。 言い換えると、「化学の世界のすばらしい研究成果を応用して強い将棋ソフトが完成した。将棋にしか応用しないのではもったいない。生物学の研究にも役に立てられないか」ということになる。プロの将棋指しに勝てるくらいなら、生物学者に勝てないわけがない。

いろいろな方法があるだろうが、「生物で起きている、注目している物事を化学の言葉に書き換える」ということが一つの策である。これは生物化学そのものだから、既にすばらしい成果があり方法論も確立している。実験をしなくても、ある程度関連している・重要な役割を果たしている化学物質を推定することが可能な場合がある。マイクロアレイなどの網羅的解析の結果を基に推測し絞り込むこともできる。その成果から出てきた化学物質について、なにか価値のある計算をしたい。化学というのは電子の学問だから、電子を計算する手法は化学に近い部分の生物学にも使えることはわかりきっている。

たとえば活性酸素というものは、やたらと「〜には活性酸素が関わっている」という具合に重要な働きをしていることになっている。しかしそれが本当なのかどうか、案外怪しいこともあるのではないか。ある物事に活性酸素が関わっているかどうか(たとえば、あるタンパク質の活性中心が、活性酸素と反応することがあるのかないのか)を、分子軌道計算で判定できないだろうか。 それによって生物学において必要な実験の数を少しでも減らしたい。生物学者も、他分野ですでに進んでいる手法を眺めておいた方がよいのかもしれない。SOD やカタラーゼは酵素と活性酸素が直接相互作用する酵素で、よく知られた重要な酵素である。それらの反応機構を計算で研究している例を参考にすればよいのかもしれない。低分子でSOD やカタラーゼ様の触媒作用を示す物質がある。そういう分子を酵素の活性中心のモデル系にすることが考えられる。

転写因子と DNA の結合について: 今のところ転写因子がどんな DNA 配列を認識して結合するかは、実験によって調べることが必要である。これまでに調べられ決められている転写因子の高次構造とその認識配列をデータベースとして「プロ棋士の棋譜のデータベース」のように使い、任意の転写因子についてその一次構造、高次構造からそれが認識する DNA 配列を計算で推定することが可能にならないだろうか。

DNA は、二本鎖の状態と一本鎖の状態を取ることができる。二本鎖のDNAを含む溶液の温度が上昇すると、一本鎖の状態に変化する。これを DNA の融解という。融解温度は実験的に測定できる。 また塩基の組成による融解温度の経験的な推定式もある。 特許庁 標準技術集(データベース)の「核酸の増幅および検出」   http://www.jpo.go.jp/shiryou/s_sonota/hyoujun_gijutsu/kakusan/0001.html   で、資料が公開されている。 GC 含量だけ、または GC 含量と核酸の長さから求める方法がある。塩濃度も影響するので、それを取り入れた経験式もある。

「最近接塩基対モデル」というモデルから計算する方法もある。これは第一原理である熱力学に基づいているので、他の方法よりも確実な理論的根拠がある。   http://www.sigmaaldrich.com/japan/lifescience/custom-products/custom-dna/oligo-learning-center.html       エクセルで計算できる。東洋紡のウェブサイトで公開されている。

RNA の塩基配列から、その RNA が二次構造を取る際の自由エネルギー変化などを計算するプログラムが開発、公開されている。   http://www.ncrna.org/ ncRNA のページの、Bioinformatics tools: Rentropy などのプログラムが公開されている。


生化学:構造とゲノムの文脈を用いることによる新規な酵素と代謝経路の発見    Suwen Zhao, Ritesh Kumar, Ayano Sakai, Matthew P. Jacobson   Nature 502, 698;702 (31 October 2013)  「三次元構造への メタボライト(代謝物)ドッキング法 によって機能を発見するための計算主導戦略を開発中である」と書かれている。 この 計算主導戦略 というのが魅力的である。化学の分野ではすでに計算主導戦略が主流らしいから、生物学にも取り入れたい。

第一原理計算は、なぜ第一原理計算と呼ばれるのか。電子や原子の運動を表現する方程式はすべての物事の根本になっている。熱力学のエネルギー保存則、熱力学第2法則もそうである。これらの法則は地球上のどこでも、宇宙の果てでもどんなところでも全く同じように成り立つ。宇宙の始まりと終わりは別として、それ以外ではどんな時刻でも成り立つ。 そういう根本的な規則、法則を第一原理と言い、それらのみに基づいて計算することで有用な結果を得るかららしい。 「いかにも生物学」というような問題の解明に第一原理計算を使うことはいまのところ簡単ではない。熱力学を用いている例は少しはあるが、生物学の主要な分野、論文に出てくることは少ない。

しかしどんな物質も温度によって影響を受ける。特に高分子はそうである。生物の温度に対する影響を見ているつもりが、培養に使っている高分子(当たり前だが寒天は温度の影響を受ける)や薬剤の温度による変化のせいだったりすることもあるので注意しないといけない。

以前ネットワークの考え方が生物学でも出てくるようになった当初は、「スケールフリーとかべき分布とか言っていても、それが生物学の問題を解くのに何か役に立つのか」と思われていた。しかし今では、「いかにも生物学」な問題がごく普通にネットワークの考え方で考察され、それに基づく計算と実験が組み合わされるようになっている。今後「いかにも生物学」というような問題の解明に第一原理計算を使うことも普通になるのではないか。そのためには、うまく適用できる問題を見つけるためにいろいろなことを試して検索しなければならない。

「似ている」ことは生物学の基本:「似ている」ことの数学

生物学の第一原理:親と子は似ている

考えてみると、「親と子は似ている」ということは生物において例外がない規則・第一原理ではないか。「似ている」ということは生物学にとってきわめて重要なことだと考えるようになった(当たり前だが)。

例えば「発現様式に高い相関がある複数の遺伝子は、お互いに機能的にも関係があることが多い」という経験的な規則がある。この規則はとても強力である。 化学の世界でも、「類似した化学構造の分子は、同じような生物学的な性質を持つことが多い」という規則が成り立つことが知られており、情報化学では類似性原理(Similar property principle)と呼ばれているそうである。 

参考にした文献: 生物物理(生物物理学会の和文誌)vol. 54-3 「KCOMBUを用いた低分子構造比較と予測」川端 猛 先生   http://www.biophys.jp/journal/journal_vollist.php

こういう規則、原理に基づいた計算はすでに盛んに行われて優れた成果、データベースがたくさんある。

細胞内の複雑な仕組みは、ネットワークという形で記述、モデル化されている。低分子の構造を比較する際にも、原子と原子のつながり方がネットワークに見立てられる。 川端先生の成果を参考に、低分子だけでなく他のネットワークで表現できる物事についても類似度を計算できるかもしれない。

物理や化学は、第一原理にその基本を置いている。

生物学と、生物に関わる化学の一部分は、今のところ類似性原理にその基本を置いている。

バイオインフォマティクスというものも、今のところ「類似性原理」に基本を置いている。例えば、「病気の人と病気でない人を判別する」場合、「病気の人からのデータには、ほとんどの病気の人に共通する類似点がある・その類似点は病気でない人にはめったに見られない」ことを基本的な仮定としている。「類似性原理」だけでなく、熱力学の法則などを基本に持ってくることができたら面白いのではないか。

「似ている」ということは数学でも定式化されていて、二項関係(二つの集合の間の関係)の一つとしての「同値関係」という関係で表される。

「似ている」ということを数学ではどう扱っているのか、どんな研究があるのか、それらはどのように応用されるのか、調べてみる。

ピアソンの相関係数

生物学のデータ分析では相関係数が非常によく用いられ、とても有用である。数学的にはきわめて初歩的なのだろうが、とにかく生物学のデータに対して相性がよい。 余計なパラメーターがないので、一対のデータに対して相関係数も一通りに決まる。 重みや順位を取り入れてよりよいものにする工夫も行われている。あまりにも相関係数が有効すぎて、他の方法を開発する余地がなくなりそうなくらいである。 なぜそうなるのか、それは生物学のデータに何か特徴があってそれが原因なのではないか。その特徴とは何かを考えないといけない。

例えば遺伝子発現量のデータで、遺伝子が2万種類(行)、生育条件が1000種類(列)の行列になったデータがあるとする。この規模のデータでも一研究グループだけで揃えることはむずかしい(技術が進んで、一流の研究室ならそれぐらいのデータを取ることはできるようになった)。しかし類似性を計算するためには列が1000個のオーダーでも十分ではないらしい。 列の数が増えるほど真の類似度に近づいていく。実際にはそんなに大きなデータを用意することは難しい。

ある条件における遺伝子発現量を測定して結果を得る。それと同じことを他の研究室で行うと全く同じ値が得られることはあり得ない。変化を「増えた」「減った」「変化しない」にまとめたとしても完全に同じ結果にはなることはない。同じ研究室で同じ人物が同じように測定を行っても、結果にいくらかの違いは必ず生じる。 「データ量が大きくなりにくい」「結果が変化しやすい」ので、難しい巧妙な計算方法を適用しても効果がなく、一番基本的な相関係数で十分用が足りるのではないか。

熱力学に出てくる量には状態量、非状態量という区別がある。生物学のデータはどちらなのか考えてみる。

ゲノムの配列は、生物の種と系統が指定されていれば実験生物の場合一通りに決まる。だから実験生物ではゲノムの配列は状態量になり様々な理論、計算の対象として優れた成果が大量に発表されている。

遺伝子発現データは、同じ生物を同じように育成しても同じ値にはならない。様々な制御できない、見ることができない因子が影響してしまう。だから非状態量に相当する。 非状態量は測定しやすいことが多いが理論には使いにくい。

誤差、距離を評価する

データ A と B があるとする。A を正解として、B との違いを誤差として定量化する。A と B が似ていれば誤差は小さくなる。誤差を評価することは似ているかどうかを評価することに等しい(たぶん)。

距離というものはデータ分析、数学では何種類も存在する。擬距離というものも存在する。似ているということは距離が小さいことに対応させられる。

誤差、距離の評価法について調べてみる。

ランダムでない

数学ではランダムさに関する研究の方が多いらしい。似ていると言うことを、ランダムであることから離れていることに置き換えると、そういう研究の成果に学べるかもしれない。「ランダム性・規則性・類似性の概念を統一的に議論することができる」ことが、渡辺 治先生によって解説されている。    統計数理 第54巻第2号(2006) http://www.ism.ac.jp/editsec/toukei/pdf/54-2-511.pdf    「Kolmogorov 記述量に基づく類似度」 というものが紹介されている。谷 聖一博士 によって、「似ていることの数学的定式化とその応用」 という講演が行われていた。   http://lab.twcu.ac.jp/ohyama/topsem07.html    「非可逆圧縮を用いた画像類似性指標に関する研究」    http://jairo.nii.ac.jp/0085/00035737   坂内氏による研究  

「データが圧縮可能かどうか」ということは、そのデータの性質を反映する一つの指標になる。 例えば生物から抽出した多種多様な代謝産物を含む抽出物を GC-MS に打って結果のデータを得る。 手順がうまくいって多数のピークが出ると、データのファイルサイズは大きくなる。 何か失敗してほとんどピークが出ないと、データに 0 がずっと続いた箇所が多くなり、圧縮されやすくなりデータのファイルサイズは小さくなる。 単に一つのデータについて圧縮するだけでなく、データ A の内容を手がかりにしてデータ B の内容を圧縮することができる。その場合、A と B の内容に類似性が高いほど、圧縮率を高くすることができる。 このことを元にして類似性を評価できる。数学的には「類似度としてふさわしい性質(値が固まらずデータに応じてうまく分散する、A と B を入れ替えても値が同じ、など)」を持つことを証明する必要がありもっと難しいが、簡単に解釈するとこうなる。

Kolmogorov 記述量に基づく類似度を実際に計算可能にするために汎用の圧縮プログラムが用いられることがある。 常にそれでうまくいくわけではないらしい。これを、分析したいそれぞれのデータ、問題に適したものに取り替えてみるということが考えられる。 その場合、標的になる問題に対する知識、経験が生かせるはずなので数学者でない研究者にも貢献する余地が出てくるかもしれない。しかしそういうことが何かよいことにつながるかどうかはやってみないとわからない。また汎用性がなくなるので数学的には価値が下がるのだろう。しかし生物学のデータに存在する特徴にあわせることも必要だろう。

生物学のデータに存在する特徴

これを考えないといけない。手がかりとして、他のタイプのデータの特徴を考え、比較してみる。

測定にかかるコストが高いので、データのサイズが他の分野よりも小さいことが多い

時系列で測定することが面倒なことが多い 例外は動画撮影・細胞電位の測定など 

精密な測定ができにくい


実験、観測で得られたデータは、それらの値を点の位置として平面、空間に配置することができる。 生態学では生物が存在している場所を点の位置として、それらがどのように(ランダム、集中する、お互いに離れる)分布しているかが重要になる。その解析には点過程解析という方法が用いられる。 銀河の分布の解析にも同じ方法が使われる。   http://takenaka-akio.org/etc/pair_cor/index.html   竹中先生による解説 


http://first.lifesciencedb.jp/archives/7744 において、酒井博士による、「 酵素と基質との相互作用に対するシミュレーションをオペロンに適用することによるタンパク質の機能および代謝経路の解明」という日本語の解説文が公開されている。メタボライトドッキング法ができるのなら、活性酸素ドッキング法もできるのではないか。

「in silico docking experiment」を有効に用いた論文があった。しかしこの論文では生物学的な方法で見いだされたタンパク質と基質の関係を計算で確かめているだけで、計算主導型ではない。2008年の論文だからそれは仕方ないだろう。今後は、まず計算で「このタンパク質の活性部位にはこういう化合物がうまくはまり込む」ことを出しておいて、それを実験で検証するようになるのだろう。

Rapid synthesis of auxin via a new tryptophan-dependent pathway is required for shade avoidance in plants.   Tao Y, Ferrer JL, Ljung K, Pojer F, Hong F, Long JA, Li L, Moreno JE, Bowman ME, Ivans LJ, Cheng Y, Lim J, Zhao Y, Ballare CL, Sandberg G, Noel JP, Chory J.   Cell. 2008 Apr 4;133(1):164-76. doi: 10.1016/j.cell.2008.01.049.   PMID: 18394996

現在では化合物とタンパク質のドッキングに関する計算はもっと進んでいるだろうから、「ある化合物が引き起こす遺伝子発現、タンパク質蓄積量の変化を網羅的に調べる → それらのデータをうまく分析し(どうやって?)、化合物の標的となっている可能性がある遺伝子のリストを作る → それらの候補遺伝子にコードされているタンパク質と化合物のドッキング計算を行い、結合しうる標的(複数存在するだろう)を見つける」というような方法が可能になっているだろう。そういう研究が進んでいるらしい。


保木博士の解説には、「系の特徴を決定するような配置を重点的にサンプリングすることの重要性は,ゲームでも同じようである。」と書かれている。生物学でも、ある実験系において重要な役割を果たしている分子、遺伝子を見つけることがとても重要で研究目的となることが多い。そういうことがある程度計算で見積もることができる(例えば「この分子は候補となり得ない」という判断をつけられる)ようになれば生物学者は無駄な実験をせずにすむようになり、とても有意義だろう。すでにそれに近いことが実現している。

望月敦史博士によって、細胞内のネットワークを数理的に理解し生物学者に対しても極めて有用な予測を提供する理論が開発されている。望月博士は「パリティ」という雑誌の2013年7月号に「生命の複雑ネットワークの数理的理解」という一般向けの解説を書かれている。「人間が見ても理解できないようなネットワーク」でも、それをグラフとして捉え正しく分析することによって、決定節となる重要な頂点(分子、遺伝子の重要性のランキングを作った場合に、一番上の方にくるもの)を見いだすことができる。

望月博士の理論では、「生物学において使われる論理、規則」を数学的に表現し、それらに基づいて理論が組み立てられている。 「第一原理計算」というと「電子、原子の運動を解く」と決めつけてしまいがちだが、生物学においては望月博士の理論のようなものが第一原理計算に相当するのかもしれない。和田昭允先生が書かれている「生物のデーターを絶対化する第一原理」が、もう近くなってきたのかもしれない。

論文として表現されている膨大な学術知識をデータベースに取り入れて、事前知識、事前分布として人工知能による推論に用いる

生物学の研究で得られた物事は、ほとんどの場合文章、図面で表現される。以前はそれらの量が、専門の分野なら一人の人間でも把握できる範囲だったのでそれでもよかった。 しかし今では、自分の専門、研究していることでも「こんないい論文があったのか」と、その論文が出版されてから何年もたって見つけたりすることが頻繁に起きる。マイナーな分野でさえ、把握できる範囲をはるかに超えてしまう。 こういうことは研究成果の価値を大きく損ねる、望ましくないことである。

例:

こういう二つの、文章による生物学的知識が得られているとする。両方を知っていて、さらに「実は A と B にはこういう関係があった」ということに何かのきっかけで気がつくことができれば、 「A 遺伝子が変異すると、化合物 B が増加するのではないか」という推論ができる。 しかし B と A に一見何の関係もない場合、大量のストレスに関する論文に埋もれてしまって、A と B の関係に気がつくことが難しくなる。

最近の人工知能システムの発展で、医学の分野では膨大な論文、報告のデータベースを元に人間の能力を超えた、正しい診断、判断を行うシステムが開発されたという報道があった。雑誌「化学」2018年2月号に、「科学技術ビックデータで未来を予測する」という、坂田一郎先生による記事があった。 Nature に「計算材料科学:テキストマイニングが材料発見を促進する」2019年7月4日 Nature 571, 7763 doi: 10.1038/d41586-019-01978-x   「教師なし単語埋め込みによる材料科学文献からの潜在的知識の獲得」   Unsupervised word embeddings capture latent knowledge from materials science literature p95   doi: 10.1038/s41586-019-1335-8   という記事が掲載されていた。人間の能力ではまったく追いつかないことを示している。「世界の研究論文発掘計画」The plan to mine the world’s research papers p316 という記事も Nature Volume 571 Number 7765 にあった。

日本経済新聞 2022年12月20日 14面に、「フロンテオ 論文探索 AI 開発」という記事があった。PubMed ではキーワード検索ができるが、それだけではなく複数のキーワードを結びつける、連想させる仮説を示唆する論文を検索できるようにしている。対象とする論文を PubMed だけでなくシュプリンガーネイチャーの論文誌に拡大したことを発表していた。

膨大な論文データは科学史の研究にも用いることができ、成果が上げられている。   https://doi.org/10.1016/j.jtbi.2018.11.017   「過去50年間の約90万件の生物学関連論文のタイトルと要旨のテキスト解析により,現代生物学史が3つの時期に区分されることと,一番新しいゲノム時期には「役割」や「機能」という言葉が極めて多用されることを明らかにしました。」 佐藤直樹先生 http://nsato4.sakura.ne.jp/

膨大な論文の洪水に対処する方法について記事が書かれている。   New tools aim to tame pandemic paper tsunami   Jeffrey Brainard   Science 29 May 2020: Vol. 368, Issue 6494, pp. 924-925   DOI: 10.1126/science.368.6494.924

「特定分野の学術論文をピンポイントで抽出し,いかに検索するか? Defect dat@baseの実践例」という解説を、筑波大学大学院の梅田先生らが発表されている。 情報管理 51(9):653-666(2008年) 2008 年の段階でも、論文の大量生産時代に対応することが大きな問題になっている。

このことは、人工知能の高性能化・大規模化によって克服されようとしている。 

AI に基づいた科学研究が始められている

文部科学省が開催している基礎研究振興部会では科学研究に関する興味深い発表・審議が行われ議事録と資料が公開されている。科学技術、科学研究に人工知能を生かすことが現実的になり、成果を上げている先生方が作成された発表資料を読むことができる。

第11回【開催日時:令和5年6月21日   https://www.mext.go.jp/b_menu/shingi/gijyutu/gijyutu27/siryo/mext_00007.html  「【資料1−3】基盤モデルとAI・ロボット駆動科学」「【資料1−4】AIがノーベル賞を取る日 」 などが公開されている。議事録にもためになることがたくさん書かれている。

AI は生物と似ている

どちらも中身がどうなっているのかすっきりと理解することはできない。複雑になることに価値がある。

AI と AI を交配する

2024年3月22日(金曜日)の日本経済新聞 第二面に、「Sakana AI 社は複数の AI間で交配を繰り返すことによって AI の進化を促し優れた AI を開発することに成功した」という記事があった。

生物に薬を与えるように、AI にもその性質を変える・改善する薬のようなものを与えることができるのではないか

追加学習というのはそういうことに近いらしい。今後勉強してみたい。


測定法

一つの目標: 測定法を「相対定量」から「絶対値の定量」に進化させることがまず目標になるだろう。既に研究が進んでいる。

細胞1個あたりのmRNA数、タンパク質数、代謝産物数の簡易同定法の開発 広島大学 島田博士らの研究  核ゲノムDNA量が基準となっている。   http://www.mls.sci.hiroshima-u.ac.jp/jp/seminars/h22.html   

特許「遺伝子の絶対発現量測定方法」http://www.j-tokkyo.com/2005/C12Q/JP2005-080588.shtml   菅野 純博士らの特許   

mRNA絶対定量法によって明らかにされた長期記憶時の転写調節因子CREBの増減   定本 久世, 伊藤 悦朗両博士   生物物理 Vol. 51 (2011) , No. 1 18ページ

定本博士らは、以下のように書かれている。「なおこれらの研究は,定量性リアルタイムPCR 法の開発によってはじめて可能となった.しかも,われわれはあくまでも「1 つの細胞」での「絶対定量」にこだわった」 まったく量が変化しないコントロール遺伝子やコントロール分子は存在しないので、比較(相対的な)定量法では非常に大きな量的変化しか評価できないという問題を、「ニューロン一つを単離し、そこに含まれるmRNA量を絶対量として計測する」ことで克服されている。

理化学研究所の成果   http://www.riken.go.jp/r-world/info/release/press/2011/110519/detail.html   遺伝子発現量の測定で、がん細胞がピタリと分かる ―1分子シーケンサーの遺伝子発現解析法「HeliScopeCAGE法」を開発―   微量の RNA を元にして、全遺伝子の発現量を精度よく解析できるようになった。細胞一つから抽出した RNA で行えるようになれば、全遺伝子について遺伝子発現量を「細胞一個あたり」で定量することができる。 測定基準が「細胞一個あたり」に進歩するだけでも、今まで誤差に埋もれてわからなかった変化がわかるようになり、大きな変化をもたらすだろう。また、いままで多数の細胞の平均としてしか得られなかった様々な数値が細胞一個あたりになることで、生物学の基本的な考え方が変わるような進歩につながるかもしれないのだろう。

http://www.riken.jp/~/media/riken/pr/publications/news/2015/rn201501.pdf  「細胞1個のすべてのmRNAを解析し、細胞の個性を知る」  理化学研究所 二階堂先生の研究紹介 

メタボロームでは、一細胞に含まれる分子を直接質量分析することで、細胞に含まれる分子の時間的な揺らぎを測定 することが成功している。今までの方法では多数の細胞の平均値しか測れなかっ た。また細かい時系列で測定することも難しかった。それらが克服された。    http://www.riken.jp/r-world/info/release/press/2012/120425/detail.html    升島努先生 (理化学研究所)のグループのすばらしい成果

次々と、一細胞に含まれるmRNAや様々な低分子の量を精度よく測定する方法が開発されているようである。そうなると、細胞一つを正確に切り出す方法や、サンプルに含まれる細胞数を正確に数える方法が必要になる。 サンプルをセットすると「このサンプルは***個の細胞を含みます」と答えを出すような機械を作ることができれば都合がよい。「全自動セルカウンター」という機械がすでに売られている。サンプルが10μlあればよいと書かれている。赤血球、白血球やバラバラにしやすい培養細胞ならうまくいくのだろう。細胞をバラバラにできない組織では難しい。

他の学問と同じように、生物学でも温度はとても重要である。最近、生物学においても温度に注目した研究が注目され始めている。細胞がもつ温度センサーの研究が進んでいる。最近、細胞一つ一つ、また一つの細胞内のオルガネラの温度を測定する方法が開発されている。こういう技術が進むことによって、細胞が行う物事を熱力学を確かな基盤としてうまく説明することにつながるかもしれない。細胞一個の温度がうまく測定できれば、細胞一つの熱容量の測定にもつながるだろう。その値は、その細胞の性質を反映したよい指標になるかもしれない。

化学と生物(日本農芸化学会機関誌)2014年6月号に、「酵母の細胞内温度を測る」という、 辻先生による解説が掲載されている。


https://bio.nikkeibp.co.jp/article/news/20120730/162440/   で、「Stanford大学、細菌の完全なコンピュータモデルを世界で初めて確立」という紹介記事があった。   A whole-cell computational model predicts phenotype from genotype.   Karr JR, Sanghvi JC, Macklin DN, Gutschow MV, Jacobs JM, Bolival B Jr, Assad-Garcia N, Glass JI, Covert MW. Cell. 2012 Jul 20;150(2):389-401. PMID: 2281789   http://science.slashdot.jp/story/12/07/26/0224255/%E3%80%8C%E7%B4%B0%E8%8F%8C%E3%81%AE%E4%B8%80%E7%94%9F%E3%80%8D%E3%81%AE%E5%AE%8C%E5%85%A8%E3%82%B7%E3%83%9F%E3%83%A5%E3%83%AC%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E3%81%AB%E6%88%90%E5%8A%9F  に、kaho 氏による、簡潔で明快な説明が投稿されている。

qPCR で mRNA 量を測定する場合、ある基準とする遺伝子の発現量と比較し相対定量を行う。その基準となる遺伝子の発現量について絶対値が求まれば、すべての遺伝子についても換算できることになる。

「基準遺伝子をどんなものにするか」については、既に論文が報告されている。

シロイヌナズナの場合:   Genome-wide identification and testing of superior reference genes for transcript normalization in Arabidopsis.   Czechowski T, Stitt M, Altmann T, Udvardi MK, Scheible WR.   Plant Physiol. 2005 Sep;139(1):5-17.   http://www.ncbi.nlm.nih.gov/pubmed/16166256

もう一つ: 
Identification and testing of superior reference genes for a starting pool of transcript normalization in Arabidopsis.   Hong SM, Bahn SC, Lyu A, Jung HS, Ahn JH.   Plant Cell Physiol. 2010 Oct;51(10):1694-706. Epub 2010 Aug 26. 「基準遺伝子」として選び出されるような遺伝子は、何らかの特別な性質を持っている可能性がある(天体におけるセファイドのような)。

変光星までの絶対的な距離の測定

サイモン・シン(青木薫 訳) 「宇宙創成」新潮文庫 というすばらしい本がある。ある先生が紹介されていたので読んでみたが、「科学的な考え方」の手本として参考になる。

変光星までの絶対的な距離を決定できるようになるまでの研究の進展がわかりやすく紹介されている。リーヴィッド博士は、セファイドと呼ばれる変光星の性質をしらべ、明るさの変化の周期の対数と固有の明るさ(距離の影響を差し引いた明るさ)に直線関係があることに気がついた。明るさの変化の周期と、見かけの明るさを観測することで、セファイド同士の相対的な距離を求めることができるようになった。さらに、ある一つのセファイドまでの絶対的な距離を視差などを用い求めることで、すべてのセファイドまでの距離を測ることができるようになった。

遺伝子なら、「基準遺伝子」だけでもいいから、何かうまい方法を考えればいいことになる。「核ゲノムDNA量」と mRNA 量が常に比例しているような基準遺伝子が存在していれば、都合がいいかもしれない。二万も遺伝子があるのだから、もしかしたらあるかもしれない。

いくつかの遺伝子の mRNA 量を組み合わせて、細胞当たりのゲノムサイズと一致するように回帰式を作ることができるかもしれない。しかしそういうことが出来ても、それに本当に意味があるのか、もっともらしい説明が出来なければ意味がないだろう。遺伝子はたくさんあるので、単なる偶然でそういう結果になる組み合わせが出てくる可能性は高い。

Ia型超新星と呼ばれる天体が、宇宙の距離を測る指標「標準光源」として重用されている。Nature 著者インタビュー 前田啓一博士   http://www.natureasia.com/japan/nature/authors/interview/interview-6.php

天体を時間を追って観測することで時系列のデータが得られる。それを分析し周期を発見することで変光星の性質を調べられる。変光星から「光の強さ」と「変動周期」という二つの性質がデータとして得られることになる。超新星の場合は「減光率」を調べる。

マイクロアレイの場合、時系列のデータはあるが、1時間おきに5点とか、大きな時間間隔で少ないデータ数のことが多い。周期を分析するのは難しいことが多い。「発現の減衰率」なら調べられるかもしれないが、それが意味を持つようにするのはむずかしい。 異なる研究者が異なる条件で分析したデータは、時系列に並べることは出来ない。

周期の代わりになりそうなものとして、分散がある。「基準遺伝子」として選び出されるような遺伝子は、発現量データの分散が小さい。そのことにどんな意味があるのかは、考えなければならない。

「基準遺伝子」は、どうして様々な条件変化によって発現量が変化しにくいのか? その原因を考えることは重要だろう。変光星の場合、光度変化の規則性から、「二つの天体が連星を形成し、周囲を回ることで光度変化が起きる」というモデル、「重力によって周期的に核反応の強さが変化する」というモデルが推測された。それとおなじように、「基準遺伝子」の発現量を一定のレベルに保つ仕組みを考えないといけない。

Genome-wide identification and testing of superior reference genes for transcript normalization in Arabidopsis.   Czechowski T, Stitt M, Altmann T, Udvardi MK, Scheible WR.   Plant Physiol. 2005 Sep;139(1):5-17.   http://www.ncbi.nlm.nih.gov/pubmed/16166256   という論文で、シロイヌナズナの基準遺伝子候補がリストされている。そのリストにある、Polypyrimidine tract-binding protein (PTB) という遺伝子に関する論文が発表された。複雑な「制御回路」を構成している。発現量の分散が小さいことと関係がある可能性が高い。

Polypyrimidine tract-binding protein は mRNA 前駆体に結合してスプライシングを阻害する。RNA 量を安定化するために都合がよい性質かもしれない。単純に考えれば、「PTB をコードする mRNA の蓄積量が増える→タンパク質に翻訳される→自分自身の mRNA に結合→ スプライシングが変化→分解しやすい form の mRNA が増加する→mRNAの蓄積量が減る」のようになる。

Polypyrimidine tract-binding protein homologues from Arabidopsis underlie regulatory circuits based on alternative splicing and downstream control   Stauffer E, Westermann A, Wagner G, Wachter A. Plant J. 2010 Jul 31. doi: 10.1111/j.1365-313X.2010.04321.x.    

タイトルに "regulatory circuits" と言う語句が入っている。細胞、器官、生物個体に内在する regulatory circuits を解明し、さらに人為的に有用な circuits を設計構築することがこれからの生命研究の主要な課題になることは、コンセンサスといえるだろう。そういう成果から「生命に関するデーターを絶対化する第一原理」が出てくるかもしれない。

http://www.natureasia.com/japan/biotechnology/highlights/article.php?i=72208   モジュール式人工遺伝子ネットワーク   Nature Biotechnology 27 (5), May 2009

Polypyrimidine tract-binding protein に関しては、動物細胞でも研究が進んでいる。Alternative splicing と関係がある

微生物学:イントロンを介した表現型不均一性の誘導 2022年5月5日 Nature 605, 7908 doi: 10.1038/s41586-022-04633-0 という記事があった。集団が多様化することによって、普通の環境では繁殖力が低くても様々なストレスにさらされる環境では適応度が高くなる個体が出現する可能性が生じる。


分散はデータの分析においてとても重要である。タンパク質同士が形成する反応ネットワークの構造が、robustness に関わっているという話があった。

Structural Sources of Robustness in Biochemical Reaction Networks  Science 12 March 2010: Vol. 327. no. 5971, pp. 1389 - 1391      Guy Shinar1 and Martin Feinberg2,*

この論文では、ある細胞内反応(EnvZ-OmpR system)のネットワークをグラフ理論で分析している。それを robustness と結びつけている。

以下のような論文もあった。

A General Mechanism for Network-Dosage Compensation in Gene Circuits   Science 24 September 2010:Vol. 329. no. 5999, pp. 1656 - 1660   Murat Acar,1,*,{dagger} Bernardo F. Pando,2,* Frances H. Arnold,3 Michael B. Elowitz,1,4 Alexander van Oudenaarden2,5

Compensation という語句がタイトルに入っている。

「複数の遺伝子が形成するネットワーク回路の構造が、恒常性の維持、その他の様々な生物らしい性質をもたらす源泉になっている」と言うことなのかもしれない。こういう考えは一般的になっているようである。

Weight Agnostic Neural Networks (WANN) 重みのパラメータを調整しなくても、つながり方が適切ならば正しい学習、動作、応答を実現できる

細胞内には多数の分子が存在してネットワークを構成している。それらのネットワークは様々な外界からの刺激、内在するプログラムに対応して適切に応答しなくてはいけない。ネットワークでは単に「A と B がつながっている」というだけでなく、つながり方の重み、パラメータが重要なこともある。 しかし細胞内ではそういう量を精密に制御できているのだろうかとずっと疑問に思っていた。生物は常に外界の変動しやすい環境にさらされている。他の生物からの攻撃を受け競争している。そういう条件の下でパラメータの値を精密に制御し維持することはとても難しいだろう。もしそうしようと思えばそのためだけに大量のエネルギーを消費してしまうだろう。

(しかし 2023 年の論文で、「安定に振動することで中間の状態になるように制御されている」ということもありうる」ということを勉強したので上に書いたことは間違いかもしれない)

Weight Agnostic Neural Networks (WANN) というものの研究が進んでいて、重みのパラメータを調整しなくても、つながり方が適切ならば正しい学習、動作、応答を実現できるということを勉強した。

https://weightagnostic.github.io/

http://cympfh.cc/paper/weightanogstic.html   cympfh 氏による解説

つながり方がうまくできていれば十分であるならば、細胞に加えられるさまざまなストレスによって重みが攪乱されても細胞のシステムは異常になりにくくなる。それはストレスに強いということで、生きていくうえでとても有利な性質だろう。

細胞内のネットワークは WANN によって形成された学習結果である

こんな具合に考えられないだろうか。考えるだけでは何も意味はなく、考えを元にしてなにか社会的に意義のあることに結びつけないといけない。

細胞内のネットワークはどのように進化するか。遺伝子の重複などによって新しく生じた遺伝子が他の遺伝子と新たな相互作用を形成してネットワークが複雑になっていく。このしくみを計算機で真似ることができる。WANN に関する解説を見るとそういうことが書いてある。  「NEATでCartPole問題を解く 」 https://tech.morikatron.ai/entry/2020/09/18/124537  https://tech.morikatron.ai/entry/2020/02/26/100000  「ニューラルネットと遺伝的アルゴリズムを組み合わせる」と書かれている。細胞の研究なら、ある物事を支配するネットワークの要素とつながり方をまず確定して、そのネットワークの内で影響力が強い因子はどれかを調べる・それを計算機で再現して WANN らしい性質があるかを見る・同じ生物であるストレスに強い品種と弱い品種を用意して、それぞれの細胞内のネットワークのつながり方を比較・分析することなどが考えられる。

・WANN をものすごく複雑にすると性能はよくなるのか?

WANN を計算機で実現するとネットワークは一方的に複雑になっていき多数の組み合わせが生じてそれらについて一つずつ計算するのに大変長い時間がかかる(全部の組み合わせを並行して一度に評価できれば早くできる)。ネットワークが複雑になると性質が改良されにくくなる。しかし細胞では複雑になることによるペナルティーは全くない。現実に細胞の中身は驚くほど複雑でどうしようもない。かえって病原菌や寄生生物、人間に攻略されにくくなって都合がよいかもしれない。内部のネットワークが少しずつ異なる子孫を大量に作って後は淘汰に任せれば改良されたものが生き残るかもしれない(すべての組み合わせを並行して評価できる)。計算機でもものすごく複雑なネットワークを十分なスピードで扱えるようになれば複雑になることで性能がよくなるかを実験できるようになるかもしれない。実験でなく理論で調べられたら都合がよい。

リザーバーコンピューティングと生物

リザーバーコンピューティングという、ニューラルネットワークの特殊なモデルから発展した手法が注目されている。リザーバーとしてソフトウェアで構成した再帰的ネットワーク(細胞内の分子ネットワークと似ている)だけでなく、生物を含む様々な「入力 -> 出力」システムを用いることができる。

植物をリザーバーとして用いたという論文があった。  Leveraging plant physiological dynamics using physical reservoir computing.  Pieters O, De Swaef T, Stock M, Wyffels F.  Sci Rep. 2022 Jul 22;12(1):12594. doi: 10.1038/s41598-022-16874-0.  PMID: 35869238

酵素を用いたニューラルネットワーク

酵素を用いたニューラルネットワークによる非線形意思決定  2022年10月20日 Nature 610, 7932 doi: 10.1038/s41586-022-05218-7 という論文があった。

生物の細胞内でネットワークが進化するしくみを解明して、WANN の学習法に適用する

生物の細胞内でネットワーク構造が進化するしくみを解明できれば、WANN の研究にも役立つかもしれない。どうすればネットワーク構造の進化を解明できるだろうか。微生物では人為的に加えた化合物に対する適応力が進化する様子を観測できるというようなことを見た覚えがある。その際にどのように新たなネットワークが形成されていくかがわかるかもしれない。

植物の自然免疫のしくみはとても複雑である。入力層として病原菌から供給される分子に対するたくさんの種類の受容体がある。中間層にたくさんの因子がネットワークを作っている。出力としてサリチル酸などのホルモンや抗菌成分、抗菌性タンパク質などが作られる。また病原菌によって乱された細胞の状態が安定化する。ずっと以前から植物の自然免疫のしくみをネットワークとして捉えるという研究例はあった。  Network modeling reveals prevalent negative regulatory relationships between signaling sectors in Arabidopsis immune signaling.   Sato M, Tsuda K, Wang L, Coller J, Watanabe Y, Glazebrook J, Katagiri F. PLoS Pathog. 2010 Jul 22;6(7):e1001011. doi: 10.1371/journal.ppat.1001011. PMID: 20661428   進化的な研究も進んでいる。  Pathogen-driven coevolution across the CBP60 plant immune regulator subfamilies confers resilience on the regulator module.  Zheng Q, Majsec K, Katagiri F. New Phytol. 2022 Jan;233(1):479-495. doi: 10.1111/nph.17769. Epub 2021 Oct 20. PMID: 34610150    

ソフトウェアも開発されている。   BMC Bioinformatics. 2019 Oct 21;20(1):508.  doi: 10.1186/s12859-019-3094-9.   PlantSimLab - a modeling and simulation web tool for plant biologists   S Ha など  PMID: 31638901 PMCID: PMC6805577

生物の細胞内のネットワークは、状態は「大きい」「小さい」、つながり方は「促進する」「抑制する」の二通り(二値)だけでないといけない?

増田先生による解説 「エネルギー地形解析」数理科学(特集/データサイエンスの数理),672, 51-57, June (2019)  を読ませていただいた。エネルギー地形解析では、生物由来の時系列のデータを「大きい」「小さい」にまず二値化する。「大きい」と「小さい」の数が均等になるようにしきい値を設定する。 二値化してもそれらのデータに含まれる情報(それぞれの時刻におけるエネルギーの状態、それらの状態が形成する地形、今その地形のどこにいるのか、その状態からはどこに動きやすいか)をうまく取り出すことができる。江崎博士によるソフトウェアも GitHub で公開されている。増田先生の解説と合わせて読むことで素人でも理解しやすいように書かれている。グラフを書くところ以外は Octave でもそのまま実行できる部分が多い。Oct2py というライブラリーで python から呼び出せる。単純なグラフなら python でも書ける。

二値化してもうまくいくのは、もともと細胞がそういう仕組みで動いているからではないか。

1ビットLLM

1ビットLLM という情報処理の仕組みが開発された。  https://arxiv.org/abs/2402.17764  重みに相当する値を +1, 0, -1 に整数化することで少ない資源、コストで学習を行いやすくしている。

何らかの処理によって生物、細胞内でパターン形成が起きる状態に持ち込む → ネットワークの形を限定

細胞内の様々な因子がどのようにつながってネットワークを形成しているかを見抜き、その証拠をつかむことは難しい。もし注目している現象に「二安定状態」や「振動」が生じていたり、ふだんはそういうものがなくても何かの処理をした際に振動が生じることを観測できれば、 そこに存在するネットワークには「(特定の条件で)二安定状態、振動を実現するつながり方でなければならない」という制限が生じ、ネットワークの形を限定することが可能になる。

「何かの処理をしたら二安定状態が生じる・振動する(どちらもパターン形成と考えられる)」ということを見つけるには多くの場合実験が必要になるので生物学者が貢献する余地が出てくる。一見パターンとは何の関係もなさそうでも、様々な刺激を与えることでパターン形成が起きる状態に持ち込めることは案外ありうるのではないか(そうでないと困る)。そういう刺激、条件を発見することは生物学者が成し遂げるべき目標の一つになるのではないか。

私の経験では「二安定状態」は出てきやすいが「自律的振動」を作ることはできていない。植物にストレスをかけるとその結果は「二安定状態」になりやすい。ストレス下で何かの弾みで根がある程度伸びたとする。根が伸びると栄養を吸収しやすい。栄養を吸収できるとストレスにも耐えやすくなるのでますます根がよく伸び、地上部もよく成長する。その逆に根がよく伸びないと栄養を吸収できにくく、ストレスに弱くなりさらにダメージを受け成長しなくなる。これは当たり前のことである。

葉の「斑入り」はクロロフィルのあり・なしがモザイク状に分布した二安定状態である。斑入りに関しては観葉植物との関係もあり、生物学的な研究が進んでいる。


関係するかもしれない成果が出ている。  Engineering longevity—design of a synthetic gene oscillator to slow cellular aging   ZHEN ZHOU  など  SCIENCE 27 Apr 2023 Vol 380, Issue 6643 pp. 376-381 DOI: 10.1126/science.add7631

酵母を実験材料にして Sir2, HAP という二つの因子が形成する遺伝子回路を扱っている。Sir2 はリボソーム RNA をコードする遺伝子を不活性化(サイレンシング)する。HAP はヘム合成を活性化する。リボソーム RNA、ヘムはどちらも細胞増殖に必須な重要成分である。本来の回路では安定する状態が 3 つある。活性を二値化して H, L と表すと

Sir2HAP増殖
HLしにくい
LLしにくい
LHしにくい

の三状態になる。「どちらも中程度」という状態にもなりうる(その方がよく増殖する)が、その状態は遺伝子回路的には不安定であり外力で状態が揺らぐと上に書いた三状態のどれかに移行してしまう。別のしくみで安定化しないといけない。

酵母を培養した初期の状態では Sir2, HAP はどちらもほとんどの細胞で H, L の間の量に収まって「どちらも中程度」になっている。これが「若い状態」に相当する。 長時間培養すると細胞は二通りの状態に分かれる。一つは H, L に相当して、もう一つは L, H に相当する。どちらも細胞が老化していることに相当する。

遺伝子回路を作り替えて、Sir2 と HAP が組み合わさった負のフィードバックループを作るようにした。負のフィードバックループは状態を安定化することができるが、細胞内のタンパク質の合成・分解のように時間がかかる・時間遅れがあると振動を生じる元になる。「時間遅れのある微分方程式」「時間遅れのあるフィードバックループ」のようなキーワードで検索すると様々な研究成果が発表されている。細胞内でうまく Sir2 の量が振動するようにできた。その活性は時間的に平均すると H と L の中間になるので若い状態に似た状態にできる。そしてその振動状態は単なる振動ではなく安定になるように設計されている(リミットサイクル)ので余計なエネルギーを使わなくても長時間続く。「余計なエネルギーを使わなくても中間の値に制御できる」ということが大切なのだろう。その結果、酵母の寿命が延びることを確認することができた。

こういうことを遺伝子組み換えを使わずに何か化合物を与えることで実現できたら面白いかもしれない。

リミットサイクルとはどういうものか

細胞内にリミットサイクルをどのようにして形成したのか

リミットサイクルのしくみを用いて、少ないエネルギーで状態の制御が可能になる?

温度やモーターの回転を制御するのに PID制御というしくみが用いられる。細胞内の代謝では「生成物阻害」によって負のフィードバックがかかる。上に書いた ZHEN ZHOU らの論文から想像すると、リミットサイクルのしくみを用いると少ないエネルギーで状態の制御が可能になるのかもしれない(特に細胞内では)。

生物の細胞内の状態は「大きい」「小さい」だけでなく、「リミットサイクルのしくみで安定に振動することで中間の状態になるように制御されている」ということもある?

また細胞内の状態は「大きい」「小さい」だけかと思っていたがそれは間違いで、「安定に振動することで中間の状態になるように制御されている」ということもあるのだろう。そういうタイプの遺伝子の発現量を測定するとどうなるか。残念ながら測定回数は少なく、細かい時間間隔のタイムコースで見ることはできないとする。その場合得られる発現量は、全く同じ条件で育成しても低い値、中間の値、高い値にばらつきやすくなると予想される。遺伝子発現データにおいて、同じ条件でも発現量がばらつきやすい遺伝子を見つけることで「振動型」の遺伝子を区別できるかもしれない。そういうことに使えるかもしれないデータは既に公開されている。  Broad distribution spectrum from Gaussian to power law appears in stochastic variations in RNA-seq data.   Awazu A, Tanabe T, Kamitani M, Tezuka A, Nagano AJ.   Sci Rep. 2018 May 29;8(1):8339. doi: 10.1038/s41598-018-26735-4.   PMID: 29844539    粟津先生、永野先生らのグループによるこの論文では、標準的な条件で生育しているシロイヌナズナの遺伝子発現データを時系列で、各時間ごとに約 20 サンプルを RNA-seq によって分析している。 発現量のヒストグラムは、遺伝子ごとに特徴がある。同じ条件で育成していても発現量に大きな揺らぎ・外れ値が観測される遺伝子もあれば、そうでない遺伝子もある。似た特徴を持つ遺伝子をクラスタリングでグループにすることで平均を取れるようにしてノイズを打ち消し、分布を表現する関数を推定している。どのようなメカニズムで分布関数が成立しているかについてモデルが立てられている。RNA-seq の結果を使いやすくまとめたデータが論文に添付されている。

ある遺伝子がリミットサイクルを構成しているとして、それをどんなデータからどのようにすれば検出できるか

生態学で、状態がノイズ的に変化しやすくなる仕組みについて研究されている。   Statistical inference for noisy nonlinear ecological dynamic systems   Simon N.    Nature Volume:466 ,Pages: 1102 1104 doi:10.1038/nature09319

尾崎博士の解説によれば、振動、二安定状態はネットワークのつながり方、パラメーターの正負を適切に設定すれば実現できる。   リンク 


「ものすごく発現量が安定化される、しかもその発現量が細胞当たりで見ると常に一定になっている遺伝子ネットワーク、代謝経路」を設計し、それを遺伝子導入で細胞内に構築する。そういう細工をした生物を実験材料として測定を行う。そういうことができたら、測定の基準となって便利かもしれない。どうやって実現するかは、今後の課題である。

「基準遺伝子」を制御するネットワーク回路の構造は、発現量の安定性を高めるような仕組みになっていると言うことを推測できる。

農水省の研究所では、野外で生育しているイネの生活環全体にわたって、マイクロアレイのデータを網羅的、組織的に採取することが行われている。同時に温度変化、日照時間、降水量の変化、花が咲く時期、収穫日、収量などのデータも得られる。それらによって得られた膨大なデータをうまく分析すると、イネの遺伝子発現と様々なデータの関係を見いだし予測することが可能になる。 永野惇先生が、植物の生長調節2014年第2号(植物化学調節学会会誌)に、「野外でのトランスクリプトーム解析から見えること」というすばらしい解説を書かれている。イネのトランスクリプトームの野外環境応答の研究成果について解説されている。

Deciphering and prediction of transcriptome dynamics under fluctuating field conditions.   Nagano AJ, Sato Y, Mihara M, Antonio BA, Motoyama R, Itoh H, Nagamura Y, Izawa T.   Cell. 2012 Dec 7;151(6):1358-69. doi: 10.1016/j.cell.2012.10.048.   PMID: 23217716

データベース FiT-DB: http:////fitdb.dna.affrc.go.jp/ によってデータも公開されている。

「細胞分化のモデル」を研究されている先生の講演で、「細胞は状態空間を周期運動しながら増殖する(波の性質がある)・数が増えるとその軌道が混雑し、細胞同士の相互作用が生じて軌道から落っこちる細胞が出てきて、それが分化に見立てられる」 というようなお話があった。分化に関わる重要な遺伝子で周期変化するものがあることが示されていた。    リンク   

圏論

現代思想 2020年7月号 特集=圏論の世界 ― 現代数学の最前線 という特集記事が出版されている。圏論と、様々な分野に対する適用に関して解説が書かれている。

vim: set ts=8 sts=2 sw=2 et ft=a111_modified_flexwiki textwidth=0 lsp=12: