表紙(FrontPage) | 新規作成 | 一覧 | RSS | 検索 | 更新履歴

AlphaFold -

差分表示



*AlphaFold は、生物学に新時代をもたらした

2021年分子生物学会 フォーラム1F-03 で、森脇先生らによって議論がされている。

 AlphaFold がもたらす分子生物学への影響	オーガナイザー:森脇 由隆(東京大学)
 2021年7月中旬に GitHub 上で無償公開された DeepMind 社によるソフトウェア "AlphaFold"
 version 2 はタンパク質の立体構造をこれまでにないほど正確に予測することを可能にし
 た。加えて別の有志のグループによってインターネットブラウザからも簡単に構造予測が
 できるよう整備されたことで、誰でも簡単に任意のアミノ酸配列からタンパク質構造を
 予測できるようになった。これら2つのことにより、すべての生命科学研究者は
 AlphaFold を取り入れたタンパク質の研究を行う新しい時代が始まったと言える。
 本フォーラムでは、これまでタンパク質構造に馴染みがない分子生物学研究者向けに
 AlphaFold の使い方とその驚くべき予測精度を紹介しながら、これによる医学・創薬
 研究方面への応用と、ポスト AlphaFold 時代の生命科学の将来の展望について議論する。

Alphafold に関してすばらしい解説がいくつも公開されている。

&link2(タンパク質構造予測AIによる革命と「その先」  Nature ダイジェスト Vol. 19 No. 7 | doi : 10.1038/ndigest.2022.220724%%%https://www.natureasia.com/ja-jp/ndigest/v19/n7/%E3%82%BF%E3%83%B3%E3%83%91%E3%82%AF%E8%B3%AA%E6%A7%8B%E9%80%A0%E4%BA%88%E6%B8%ACAI%E3%81%AB%E3%82%88%E3%82%8B%E9%9D%A9%E5%91%BD%E3%81%A8%E3%80%8C%E3%81%9D%E3%81%AE%E5%85%88%E3%80%8D/114759)

神戸大学計算科学教育研究センターから、「計算生命科学の基礎」遠隔インタラクティブ講義が開催、公開されている。  http://www.eccse.kobe-u.ac.jp/distance_learning/life_science9/   計算生命科学の基礎9、第三回では森脇先生による講義「タンパク質の立体構造予測−AlphaFold以前と以後−」が行われている。

**AI に基づいた科学研究が始められている

文部科学省が開催している基礎研究振興部会では科学研究に関する興味深い発表・審議が行われ議事録と資料が公開されている。科学技術、科学研究に人工知能を生かすことが現実的になり、すでに成果を上げている先生方が作成された発表資料を読むことができる。

第11回【開催日時:令和5年6月21日   https://www.mext.go.jp/b_menu/shingi/gijyutu/gijyutu27/siryo/mext_00007.html  「【資料1−3】基盤モデルとAI・ロボット駆動科学」 では、大規模深層学習モデルを科学研究に役立てる試みに関して説明されている。AlphaFold などのタンパク質立体構造予測に関しても解説が行われている。議事録にもためになることがたくさん書かれている。



----

私も、この新時代に適応するために立体構造のデータを使ってどんなことができるかを考えたい。もちろん自分の力だけでは何もできないので、様々な研究者が公開している研究成果を調べて活用することを目標にする。

*生物学の第一原理:親と子は似ている

考えてみると、「親と子は似ている」ということは生物において例外がない規則・第一原理ではないか。「似ている」ということは生物学にとってきわめて重要なことだと考えるようになった(当たり前だが)。AlphaFold でも計算したいアミノ酸配列に対する類縁配列を膨大なゲノム配列データから多数取得して予測に用いているそうである。森脇先生による講義では「タンパク質構造の共進化原理」というキーワードが紹介されていた。 

*マルチプル配列アラインメント(MSA)、プロフィールの作成

マルチプル配列アラインメント(MSA) を作ることはゲノム DNA 配列を元にした計算を行う基本になる。AlphaFold にも取り入れられている。 計算生命科学の基礎9、第四回では川端先生による「Webを用いた生体高分子の立体構造モデリング」という講義が公開された。

立体構造モデリングの手法としてホモロジー・モデリング法が有用に使われている。立体構造を推定したいタンパク質のアミノ酸配列と似たアミノ酸配列を持つタンパク質を多数集め、適切に並べた(アラインメント 位置を合わせる)ものがマルチプル配列アラインメント(MSA) である。
まずアミノ酸配列を元に相同性が比較的高いものの間でマルチプル配列アラインメントを作成し、それを元にプロフィール; 位置特異的スコア行列 (PSSM; Position Specific Score Matrix) を作成する。さらにプロフィールを query クエリ(問い合わせ配列データ)にしてデータベースを検索することで、相同性が低いタンパク質もうまく検出できるようになる。それによって新たに検出されたタンパク質の配列をプロフィールの作成に追加していくことを繰り返すことで精度を高めていくことができる。PST-BLAST (Position specific iterative BLAST)ではそういった計算を行って普通の BLAST よりも精度が高い検索を行うことができる。プロフィールは HMM (Hidden Markov Model;隠れマルコフモデル) というモデルで記述することもでき、その方が使いやすくなる。多数の立体構造既知のタンパク質のプロフィールについて HMM モデルの作成が行われ、データベースになっている。それを元にした HH-suite 等のソフトウェアが利用できる。

**Colabfoldプロジェクトの計算結果ファイルから MSA を得られる

計算生命科学の基礎9、第三回の森脇先生による講義で Colabfoldプロジェクトについて紹介されていた。 https://colabfold.com を開くと、「Colabfold: Alphafold2 using MMSeqs2」 のページに進む。このページを使わせていただくことで、 Alphafold2 の計算を誰でも試せるようになった。あらかじめセットされているアミノ酸配列で試しに計算するには、上部メニューの[ランタイム]から[すべてのセルを実行]する を行う。5 分くらいすると結果がまとめられた zip ファイルが自動的にダウンロードされた。そのファイルを開くと何種類かのファイルがある。a3m という拡張子がついたファイルに、MSA のデータがテキストとして入っている。エディタで開くと約 15000 行もある。それだけ多くのゲノム配列データからサーチしていることを示している。アラインメントを見やすくするには、エディタで開いて一部をコピーして NCBI Multiple Sequence Alignment Viewer https://www.ncbi.nlm.nih.gov/projects/msaviewer/?appname=ncbi_msav&openuploaddialog  に貼り付ける。アラインメントが行われた図面が出てくる。

*立体構造の相同性、クラスタリング

計算によって得られた多数の構造をクラスタリングによって分類することで、今まで見落とされていた関連性が見えてきたという記事が Nature に掲載されていた。

Nature 13 September 2023 ‘A Pandora’s box’: map of protein-structure families delights scientists

データベースが https://cluster.foldseek.com/  AlphaFold Clusters で公開されている。

''AlphaFoldの予測構造データベースから得られた新知見'' という記事が、Nature ダイジェストで公開されていた。  &link2(リンク%%%https://www.natureasia.com/ja-jp/ndigest/v20/n12/AlphaFold%E3%81%AE%E4%BA%88%E6%B8%AC%E6%A7%8B%E9%80%A0%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%81%8B%E3%82%89%E5%BE%97%E3%82%89%E3%82%8C%E3%81%9F%E6%96%B0%E7%9F%A5%E8%A6%8B/123777?utm_source=Ndigest&utm_medium=202312&utm_campaign=Newsletter&sap-outbound-id=9B795FDE636562593A42821D620F54759FD9C39D)


塩基配列の相同性は BLAST などのプログラムで計算され、公開サーバーで調べることができる。立体構造のデータでも BLAST に相当するものはあるだろう。素人でも使えるものはあるだろうか。

「立体構造データベースとその利用」東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット 寺田先生が公開されている資料に立体構造比較について説明がある。寺田先生による資料は何種類もあるので、全部取り込んでおく。

資料を見ると、RCSB PDB の Web ページの「Compare Structure」という機能が紹介されている。これは二つの構造を指定して相同性を計算する。それ以外にも

- VAST (http://www.ncbi.nlm.nih.gov/Structure/VAST/)
- Dali (http://ekhidna.biocenter.helsinki.fi/dali_server/)
- CE (http://cl.sdsc.edu/ce.html)
- FATCAT (http://fatcat.burnham.org/)
- RPS-BLAST(Reverse PSI-BLAST)  http://spock.genes.nig.ac.jp/~genome/grpsblt.html

が紹介されている。アミノ酸配列が相同でなくても立体構造が似ている例が、図面で紹介されている。

その他にも優れたシステムが開発されている。
- タンパク質立体構造比較プログラム MATRAS https://pdbj.org/matras/  解説が http://biokids.org/925c07.html に書かれている。



*Docking 実験

酵素の活性中心の高次構造に阻害剤がうまくはまり込むことで阻害作用が発揮される。これも立体構造における相同性、相補性と考えられる。
森脇先生による講義では Diffdock https://arxiv.org/abs/2210.01776 に関して紹介されていた。

タンパク質と低分子だけでなく、タンパク質とタンパク質の相互作用、結合も計算可能になるらしい。   AIがタンパク質複合体の構造を解明 Robert F. Service https://www.science.org/doi/10.1126/science.acx9610   これまで単なる夢だったことが計算可能になりつつある。森脇先生による講義では AlphaFold が計算による複合体の検出にも有効であることが紹介されていた。

Nature に ''「AlphaFold」を創薬にすぐに使えるかどうかについては疑問の声が。''   AlphaFold touted as next big thing for drug discovery — but is it? doi: 10.1038/d41586-023-02984-w という記事が掲載されていた。

*酵素の Km 値と、細胞内における基質濃度に関連がある

酵素の Km 値は、その基質の細胞内濃度と一致していることが多く、その濃度で最も効率がよくなるという成果が発表されている。 ''100年前の数式を見直し、酵素の働きを最大に | 理化学研究所 (riken.jp)''    https://www.riken.jp/pr/closeup/2023/20231212_1/index.html

高次構造を元にして酵素の Km 値を予測することはできるのだろうか。うまく予測できれば、その酵素の基質分子の、平均的な細胞内濃度を見積もることができることになる。

*基質がわからない酵素をコードする遺伝子産物の分析

酵素をコードする遺伝子がゲノムデータベースから見つかり、それが変異すると興味深い性質が出ることもわかっているのに、その酵素の基質がわからないことがある。立体構造の相同性検索などから基質を推定できないだろうか。

''生化学:構造とゲノムの文脈を用いることによる新規な酵素と代謝経路の発見''    Suwen Zhao, Ritesh Kumar, Ayano Sakai, Matthew P. Jacobson   Nature 502, 698;702 (31 October 2013)  「三次元構造への メタボライト(代謝物)ドッキング法 によって機能を発見するための計算主導戦略を開発中である」と書かれている。

*他のデータと組み合わせる

例えば遺伝子発現データでは、遺伝子間での発現様式の相関を計算することで、遺伝子の機能に関する重要な情報が得られる。しかし遺伝子発現データだけでは限界があるかもしれない。他のデータと組み合わせることで今までにない分析ができるかもしれないし、すでにそういう例がある。
立体構造のデータは、そういうことに使えるだろうか。発現相関があってもほとんどの場合立体構造は異なるだろう。

ある転写因子の配下に2つの遺伝子 A, B があるとする。A と B は発現に相関があるが一次構造は似ていないとする。それでも高次構造は似ているという場合があるかもしれない。

転写因子の立体構造と、その因子が認識する塩基配列に関連を見いだせるかもしれない。転写因子でなくても塩基配列を特異的に認識するタンパク質なら立体構造から何かを見いだせるかもしれない。