自動車工場のように論文を量産する方法 -

表紙(FrontPage) | 編集(管理者用) | 差分 | 新規作成 | 一覧 | RSS | 検索 | 更新履歴

データを大量生産する方法
手間、時間が掛かる研究をしない
被引用数を増やすにはどうすればよいか
いかにして論文を時間を掛けずに仕上げるか
同じ手法で実験材料だけ変えた論文をいくつも作る
銅鉄主義から網羅的解析主義へ

昨今は論文をたくさん作成し、その数を被引用数で掛け算した値を大きくするように努力することが世間から求められている。それならば、それに対応しなければ失業することは目に見えている。「トヨタ式生産方式」を見習って「論文量産方式」を編み出すことも生き残るために必要になるかもしれない。そのために必要なことはどんなことか考えてみたい。

データを大量生産する方法

なにか適当な物質（なるべく量が多く､測定法が確立しているもの）の量を、測定対象や処理方法を変えながらとにかく測定する。そのデータをエクセルに打ち込んで表とグラフを作り､適当に理屈を後からつける。これはデータを量産する方法としてはかなり有効だろう。例えば、シロイヌナズナではゲノム配列が決まっているので、どんな遺伝子に対しても特異的な DNA プローブを作るのは容易である。それをつかって RT-定量PCR で発現を見てデータを増やすことができる。 RNA さえとっておけば、どんな機能を持つ遺伝子でも全く同じ手順で結果が得られるので比較的楽で確実で経済的である。

しかし、そこからどのような有用知見(規則性の発見など)が得られるか、それがどの程度評価されるかは､また別である。また技術、学問分野全体の進歩により、すぐに全く通用しなくなる。

たとえば RNA-seq が安く手軽に何回もできるようになれば、面倒な RT-定量PCR をしなくても一度に全遺伝子について発現パターンに関する情報が得られる。RNA-seq はスプライシングの変化なども検出できて大変都合がよい。新しい手法によって生物学は新しい時代に入りつつある。データを増やすための生理学的な実験として「タイムコースをとる」「薬品やホルモンで処理するなら、その濃度を変えて dose response を見る」「生育途中で処理条件を変化させ（シフト実験）その刺激にどう応答するかを見る」などがある。しかしこれらは何にせよ必ず調べなければならない、様々な情報を得られる重要なことである。とはいっても、単にデータを増やすだけでは、やはりありきたりのことしか言えずに終わる。網羅的解析を行う場合にも、そういうことになってしまう危険性が出てくる。「たくさんデータが出たけど、それで何がわかったんですか」と聞かれて困るのではしょうがない。データを見て、あるいはデータをとっていく過程でなにか独自の価値のあることに気がつくことが必要になる。その場合、データの質がよくなければ何を考えても無駄になる。よいデータを得ること、よくないデータとよいデータの違いを見分けることが大切になる。

手間、時間が掛かる研究をしない

植物は種をまいても実験に使うまでに、芽生えでも少なくとも二、三日はかかる。種子形成の研究なら、早くても二ヶ月はかかる。しかし微生物なら、一晩か二、三日で十分に生えてくるものが多い（最近は非常に培養しにくい微生物の研究が注目されているが）。大腸菌にプラスミドを入れると、次の日にはもうプラスミドが入った菌が生えてくるが、植物に遺伝子を入れて、遺伝子の入った種子を形成させるには何ヶ月もかかる。私は植物を材料にしているが、考えてみると損な話である。わたしも大変な思いをして変異が起きている遺伝子を見つけることができ予想もしなかった新しいことを見つけられたが、このままでは植物生理学者は他の分野に比べて論文数が減ってしまい、この分野全体が寂れてしまうかもしれない（実際にはそんなことはなかった。しかしそういう問題を克服できる一流グループと、そうでないグループの差は果てしなく広がっている）。シロイヌナズナのゲノム全部の配列が簡単に決まれば楽になる。何回か戻し交配して性質を確認し染色体上の変異遺伝子の大体の位置を決めて、その変異体のゲノム全部を配列決定して、それらしい位置で変異を起こしている遺伝子を見つければよくなる。実際にそうなった。

Identification of EMS-Induced Mutations in Drosophila melanogaster by Whole-Genome Sequencing.　　　Blumenstiel JP, Noll AC, Griffiths JA, Perera AG, Walton KN, Gilliland WD, Hawley RS, Staehling-Hampton K.　　　Genetics. 2009 May;182(1):25-32. 　　　　　http://www.nibb.ac.jp/event/seminar_detail.php?no=818　　　澤進一郎博士によって、シロイヌナズナでの成功例が紹介されている。

こんなことを書いている間にも、新しい超高速シーケンスの方法が開発されている。初期の例が蛋白質核酸酵素2005年12月号　2001ページに紹介されている。今ではゲノムのリシーケンス、RNA-seq はあたりまえのことになった。それらのデータの一部はすでに公開されているので、データ分析法を勉強すれば私も恩恵にあずかることができる。　　　RNA-seqデータの分析について勉強する

「実験を何回も繰り返す必要性が比較的小さい分野、目的を選ぶ」というのも有効かもしれない。「ある刺激による遺伝子発現、物質量の小さな変化を測定、実証し、そのことから何らかの命題の正しさを示す」のなら、その変化が有意であることを示すためには複数の標的に対する、複数回の測定が必ず必要になる。それだけ時間、手間がかかる。そういう命題をいくつか積み重ねようとすると、もっと時間がかかることになる。「ある酵素、生理活性物質を精製単離する」「ある変異遺伝子を単離する」という研究なら、一度うまくいって十分な量が取れたらそれを繰り返す必要はない。しかしどちらにしろ、うまい話が只で転がっていることはないだろう。本人の性格と研究環境によって、どういうタイプの研究が合っているかは変わっていくのだろう。

被引用数を増やすにはどうすればよいか

なんといっても、研究者人口が多い分野の研究をするしかないだろう。自分で引用するのはもちろんである。「たくさんの人が研究している分野に、異なる角度から目新しい発見をもたらす」という方針でいきたい。

というように思っていたが、物性理論学者の萱沼先生によって、研究者人口と被引用数が比例すると考えるのは間違いであることが指摘されている。研究者人口が多ければそれだけ発表される論文も比例して多くなり引用されるチャンスは増える。しかし、その分野の大量の論文の中から自分の論文が選び出され、新規の論文に引用される確率は発表された論文の総数が増えるに従って低下する。結局研究者人口の影響は確率の低下により打ち消されて小さくなる。人口数そのものではなく、人口の増加率が重要であることが指摘されている。数年先に大流行する（大量の論文が発表される）分野に関する論文を、流行に先んじて（論文数が少ないうちに）出すことが重要だという教えが示されている。目から鱗が落ちるような気がした。しかし有力大物研究者の場合は出版される論文数が増加しても被引用率はあまり低下しないだろうから、被引用数は研究者人口と比例するかもしれない。

無名弱小研究者が被引用数を高めるには、よほど内容的に傑出した論文を出版するか、それとも他の研究者から時間的に傑出する(先行する)かを出来なければならないということになる。どちらが可能性があるかというと、時間的に先行する方が確かに可能性は圧倒的に高い。「異なる角度から目新しい発見をもたらす」という方針は、それほど間違っていないような気がする。しかしあまり流行に先んじすぎると引用されるようになるまでに何年間もかかるだろう。任期職に就いている場合は、たくさん引用されるようになった時には任期が切れ無職になっていて何の意味もないということも考えられる。「研究人口がとても少ない分野」から、「研究人口がとても多い流行の分野」に影響を与え、引用する気にさせる論文を出せればよいのかもしれない。

別の手段として「一つの論文から引用される論文の数が平均的に大きい（論文の中で被引用文献のリストが占める面積が大きい）分野を選んで論文を出す」という方法はどうだろうか。それによって引用されやすくなるかもしれない。一つの論文で引用される文献数が平均して１や２という分野がもしあれば、その分野で高い被引用数を求めるのは難しい。「一つの論文から引用される、被引用論文の数の大小」も、その分野の平均的な被引用数に影響を与えるらしい。

総説 Review はそれまでの研究をまとめるものであるから、引用される論文数がかなり大きくなるのが普通である。普通の論文で引用文献がむやみと多いと「多すぎる」と指摘される。Review なら引用文献が多くてもおかしくない。「Review がめったやたらと頻繁に出版される研究分野」では、その分野の論文の「平均的な被引用回数」が高くなりやすい。しかし実際にはごく一部の論文が「超高被引用論文」として褒め称えられると言うことになるのだろう。

研究分野に「階層構造」があると被引用数に影響が出るかもしれない。例えばある研究分野が「ごく少数の基礎研究グループ」と「極めて多数の応用研究グループ」で構成されていたとする。応用研究グループが基礎研究について言及する場合、ごく少数の基礎研究グループからの論文を引用せざるを得なくなる。多数の応用グループが少数の基礎研究論文を引用することになるので、その分野の基礎研究論文は平均的な被引用回数が増加する可能性が考えられる。医学の分野には基礎と臨床という二つの階層がある。医学の基礎分野の論文は引用される回数が増えやすいのかもしれない。

被引用数というのは、既存の論文に対する人気投票（選挙）の結果（得票数）のようなものだと考えることも出来る。既存の論文一つが「立候補者」一人に相当する。新しく論文を出すことが立候補することに相当する。この選挙では、いつでも立候補者を受け付けている。一回立候補することで一回の投票権を得ることができ、既存の立候補者から何人かを選び一票ずつ投票することができる(たくさん選ぶ分野では、得票総数が増えやすい)。「壺モデル」と言うものが研究されているが、それがよく当てはまる。それぞれの立候補者には「人気度」という属性がある。人気度の分布の形が、被引用数の分布の形にも影響を与えるだろう。「一般的に被引用数の分布は極端に偏るものである」と国際情報企業「トムソン・ロイター」が報告書で公表している。

http://www.econ.kyoto-u.ac.jp/~ida/4Hoka/21coe/COEsummary2.pdf#page=03 「21世紀COEプログラム　論文数・被引用数の分野ごとの分布状況」京都大学大学院経済学研究科　教授　　　　依田　高典、京都大学大学院経済学研究科　博士課程　福澤　尚美　両氏による発表　　　　http://www.nii.ac.jp/sparc/event/2008/pdf/090208/RIMS080902-oda.pdf　　　　小田忠雄先生

どういう論文に人気がある(引用されやすい)か　というと、

「大家が発表した権威ある総説」 それを引用すれば自分の論文にも権威が付くような気がするので、大家が発表した権威ある総説は引用されやすい。一流雑誌に掲載されたものならさらに都合がよい。総説を多く載せる雑誌はインパクトファクターが高くなりやすいことが知られている。　
「一流雑誌に掲載された論文」 それを引用すれば自分の論文も一流になるような気がするので、一流雑誌に掲載された論文は引用されやすい。一流雑誌は世界中の大学や研究機関で購読されているので多くの研究者の目に触れ引用されやすいという効果もある。　
「知人、お世話になっている人の出した論文」 引用しておけば喜んでもらえるかもしれない。少なくとも悪い気はしないだろう。　
「すでに何回も引用されている論文」 すでに何回も引用されている論文は、引用されればされるほど多くの人の目に触れる機会が増えるのでますます引用されやすくなる。"The rich get richer" ということは、様々な分野でよくみられる。　
「比較的最近出版された論文」 比較的最近出版された論文のほうが引用されやすい。特に生物系はこの効果が大きい。少し前の論文でも「こんなのはもう役に立たん」ということになりがちである。インパクトファクターというのはごく最近の論文しか対象にされないので、学問分野によって高くなりやすい分野と低くなる分野が出てくる。このことはよく指摘されている。　　　http://mathsoc.jp/proclaim/gyousekihyouka.pdf　　　日本数学会の提言　　　学術雑誌の印刷出版で有名な中西印刷のホームページで、インパクトファクターや、新指標であるEigenFactorアイゲンファクターに関して説明されている。　
「タイトルが人の関心を引きつつ内容をよく表現し、しかも abstract がよく書けている論文」　これだけ優れた論文が次から次へと発表される時代では、タイトル、アブストラクトがよくできていないと内容を読んでもらえないし引用もしてもらえない。　
「他の研究者が論文を出すのに役立つ成果を載せた論文」 実験法、データ解析法の論文では非常に被引用数が大きいものがあったりする。それだけ他の研究者の研究を助けているわけで、それは評価すべきことである。一見不可解、超複雑な大量の実験結果を美しく単純に解釈、解明する理論を論文として提出できれば高い被引用数が得られるだろう。ある重要な問題を解決すると同時に、新しい重要課題をいくつも指摘、提出する論文は価値が高いだろう。　
「共著者の数が多い論文」 共著者の数が多い論文は被引用数が大きくなりやすい。例えばある論文A の共著者が100人だったとする（論文の1ページ目は名前で埋め尽くされる）。PubMed で PMID: 21230962の論文などがある。それらの人々の 1/5 が次の年に論文を出し、自分の名前が入っている論文A を引用したとする。それだけで論文A の被引用数は 20 増加する。数学だと著者が単独であることが多いのでこんなことは起こりえないらしい。

上に書いた条件に当てはまらない論文は引用されにくい。大家でも知り合いでもないのに引用してもらおうと思えば、多くの先生方がおっしゃっているようにその分野の論文数が少ないうちに自分の論文を出しておく(先駆的な研究をする)しかないわけである。　

https://www.science.org/content/article/citation-cartels-help-some-mathematicians-and-their-universities-climb-rankings　　　「引用カルテルは、一部の数学者とその大学がランキングを上げるのに役立っています」という記事があった。

すべての論文はそれ以前に発表された論文の影響を受けている。ある研究分野に関わる論文を集めて、論文間の関係を系統樹のような形で表すことが出来るかもしれない。他の研究者より時間的に先行できれば、その系統樹の根本に近い論文を出せて被引用数が高くなる可能性が増えると思われる。また自分でさらに後継となる論文を発表することも非常に大切である。自分でも後継になる論文が出せないなら他の人は尚更顧みてくれないだろう。三中信宏先生が「系統樹思考の世界－すべてはツリーとともに」(講談社現代新書)という本を出版されている。論文の系統樹を正確に推定することが出来れば研究業績の評価にも役立つかもしれない。

被引用数を上げるもう一つの方法としては、「複数の分野に影響を与える結果を出す」という方法も考えられる。ある論文が学問分野AとBの両方にとって大切な内容を含んでいれば、被引用数は（分野Aから + 分野Bから）になりうる。これが「A + B」ではなく「A * B」や「A の B乗」　になればもっと増えるはずである。しかしそうなる方法は思いつかない。その論文により分野A, Bの両方が活性化され、相互の交流が始まれば A * B に近づくかもしれない。そんな論文はめったにないだろう。物理と数学にはそういう関係があるらしい。生物学でも数学の力を借りようという試みが成されている。数学の先生からも生物学などの他分野に近づこうという動きがある。　　　http://www.math.jst.go.jp/　　　http://www.nistep.go.jp/archives/22085　　　「数学は世界を変えられるか？～｢忘れられた科学－数学｣から10年　数学イノベーションの現状と未来」講演録303の公表について　

「数学イノベーション」や「数学協働プログラム」という、すばらしい活動が盛んになってきており今後の発展が期待されている。特に高度な数学を様々な物事の理解に応用することにはきわめて広い分野の産業への波及効果があることが、多くの企業からも注目されている。　　　http://www.mext.go.jp/b_menu/shingi/gijyutu/gijyutu23/002/index.htm　　　http://coop-math.ism.ac.jp/info/coop-math-life　　　

合原先生の FIRST プログラムでは、数理科学の方法によって医学を含む様々な広い分野にすぐれた波及効果を与える成果が上げられている。　　　http://www.mext.go.jp/b_menu/shingi/gijyutu/gijyutu23/002/gijiroku/1338118.htm 合原先生は「個々の分野に入り込んで泥臭いところをやった上で理論を再構築しないと、本当に役に立つ数学研究にならない」と話されている。そういう部分で何か貢献できる余地が少しでもあるなら、是非そうしたい。泥臭いものを扱うことにかけては、生物学者は数学者よりも手慣れているだろう。

生物学ではどんなことでもできるかぎり「一目でわかる」ようにしようとすることが多い。しかし一目でわかるのなら数学はいらない。ゆえに数学との相性が悪い。遺伝子ネットワークなどでも、できる限り人間が見てわかりやすいように表現する工夫がなされている。逆に「人間が見ても絶対に理解できないような結び目、穴だらけのネットワーク」として表現できたら、かえって数学の先生には受けるかもしれない。

すでに、望月敦史博士によって、細胞内のネットワークを数理的に理解し生物学者に対しても極めて有用な予測を提供する理論が開発されている。　　望月博士は「パリティ」という雑誌の2013年7月号に「生命の複雑ネットワークの数理的理解」という一般向けの解説を書かれている。「人間が見ても理解できないようなネットワーク」でも、それをグラフとして捉え数理的に分析することによって、決定節となる重要な頂点（分子、遺伝子）を見いだすことができる。生物学者の直観、無意識的な思考法、推論法、言葉と図面によって表現されたモデルを数学の言葉を用いて書き直すことが、数学に対しても新しい発想と展開を作り出そうとしている。

http://www.sat.t.u-tokyo.ac.jp/first/　　FIRST 合原最先端数理モデルプロジェクト研究成果冊子を眺めてみると、ネットワークに関する先端的研究が数多く行われている。しかもその成果が生物学や工学を含む様々な事象、産業の分析と改善につながっている。「遺伝子工学（分子遺伝学という方が適切だろう）にヒントを得たネットワークの数理的分析法」というのも紹介されていた。人工知能の研究が進んでいる。問題点として「人工知能を正しい判断を行うように構築・学習させることはできるが、なぜその結果が出るのかをわかりやすく説明することが難しい」ということがあるらしい。細胞内の複雑なネットワークを数理的に分析する理論、手法は、人工知能内部に構築された複雑なネットワークを分析するのにも役立つのではないか。

「最先端研究開発支援プログラム「複雑系数理モデル学の基礎理論構築とその分野横断的科学技術応用」（FIRST合原最先端数理モデルプロジェクト）で扱われてきた複雑系数理モデル、複雑系数理モデル学の理論プラットホームに関する研究、さらにはその応用研究を含めた成果を検索可能な形で分類・整理し、相互にリンクした形で提示するためのデータベース」　も公開されている。

ネットワークの考え方は物理学でもすぐれた研究が行われているらしい。統計物理学：複雑ネットワークにおける影響力の大きいノードを見つける　　　Nature 524, 7563　　　2015年8月6日

Nature Volume 528 Number 7583 pp435-592　に、「化学:ネットワーク解析を用いた複雑分子の合成戦略」という紹介記事があった。

「分野AとBの両方に影響を与える結果を出す」ことによって新しい分野 AB を発生させることが出来れば被引用数は（分野Aから + 分野Bから + 分野ABから）に増やせる可能性がある。そういう論文は価値が高いだろう。被引用数は単に回数を数えるだけでなく、どのような分野に影響を与えたかを分析すれば論文の評価に有用かもしれない。

いかにして論文を時間を掛けずに仕上げるか

テンプレートがあって、「そこにデータをはめ込めば完成」というようなしくみも、できなくはないかもしれない。

SCIgen - An Automatic CS Paper Generator　http://pdos.csail.mit.edu/scigen/ という興味深いホームページがある。

特許の世界では「特許明細書作成支援ソフト」が売られている。一度使ってみたいが、どれも非常に高価なのでそうはいかない。様々なソフトウェアを組み合わせて、自分で工夫する必要がある。

ソフトウェア、システムの開発のために UML (Unified Modeling Language) が使われている。これはソフトウェアの世界にとどまるものではなく、ビジネスの構造を捕らえることなどの広い範囲に活用されている。これを用いて、「抽象化、構造化された学術論文のモデル、ひな形」を構築する。それに具体的な問題、データを適用していくという方法が考えられる。

技術評論社　gihyo.jp のページで、高橋康介氏による「R Markdownで楽々レポートづくり」と言う記事が公開されている。この記事に従って、Markdown.R を使えるようにしてみた。エクセルにインポートして整形することで作成した、実験結果の数値ファイルを R で読み込みグラフを書くようにすれば、そのグラフを自動的に挿入したレポートを作成できる。実験結果とレポートをうまく連携させることができる。とてもよくできている。Rmarkdownを使ってみた

日本機械学会から、ワード用の英文ジャーナルのテンプレートが公開されている。　　　http://www.i-product.biz/jsme/index.html　　　

JabRef というソフトウェアでは、PubMed から PMID によってインポートができる。取り込んだ論文リストを、File -> Export で、MS office xml 型式でセーブする。それを、ワードの「参考資料」->「資料文献の管理」にある「参照」で、読み込むことができる。

このページは YukiWiki で書かれている。自動的に目次を作成したり簡単にリンクを作成できる。このような仕組みを取り入れた「論文作成統合開発環境」を組むことも可能かもしれない。情報系の研究者などの分野ではとっくに存在しているのだろう。

ウィキペディア（Wikipedia）:ソフトウェアの統合開発環境
論文は表紙、abstract、本文、図表、acknowledgement, references 等で構成される。図表はすべて電子ファイルにされている。最近は 'supplemental figures' がつくことが多くなり、必要なファイルの数が増大する一方である。実験データもエクセルに入れることが多い。多数のファイルを適切に管理しないと、自分で行った実験データがどこにあるかさえわからなくなってしまう。実際にそういうことが原因と思われる論文の取り消しが最近よく起きるようになっているらしい。ソフトウェアの統合開発環境を参考にして、効率を良くすることが必須だろう。　論文の統合開発環境を考える　

ウィキペディアに「実験ノート」と言う項目があり、ためになることが書かれている。　　　http://ja.wikipedia.org/wiki/%E5%AE%9F%E9%A8%93%E3%83%8E%E3%83%BC%E3%83%88　　　「実験ノートの電子化」というセクションで、轟眞市　先生らによる「ブログベースの実験ノート」について紹介されている。物質、材料科学の専門誌である Appl. Surface Sci. 誌に論文として掲載されているそうである。轟先生はその論文を日本語化したものを公開されている。

同じ手法で実験材料だけ変えた論文をいくつも作る

「銅鉄主義」「銅鉄研究」という話を昔よく聞いたが、現代ではどう呼べばよいだろうか。問題は、「銅鉄研究」を何年も続ける気力が持続できるかどうかにあるかもしれない。銅鉄研究だけで研究者として評価されるほどの成果が何年も上げられるなら、それはかえって凄いことかもしれない。検索：銅鉄主義

銅鉄主義は実験科学においては、必ずしも否定されるようなものではない。複数の対象を同じ手法で研究するならば、必要な測定器や薬品類は同じものを使い回せば済む。すなわち研究資金、スペースの節約につながる。また「銅と鉄を同時に研究」することができれば、単位時間あたりの研究成果の生産量は2倍になる可能性がある。どんな分野にも効率化が求められる昨今の社会情勢に合っている。さらに一部の分野では「銅鉄 (n = 2)」から「網羅的解析主義 (n = max)」に進化し強力な手法となっている。

私としては、いつも同じような手法で研究を進めているのに、なぜか次々と異なる興味深い知見が得られるというような状況を生み出したい。単に「銅の次は鉄だ」というのではなく、いろいろと考え工夫して独自の価値の高い実験材料を見いだす、作り出すことができれば、手法は同じでも新しい研究の進展を作り出せるのではないか。そういうことを目標にしたい。

具体的には、何とかして独自の方法でおもしろい変異体を見つける（今までにない独自のスクリーニングの方法を考えるのも大変だし、運が良くないといけない）と言うことになるだろう（もちろんそれ以外にもあるだろうが、私の場合は）。その方法はそれぞれの研究者の経験、興味、持ち合わせている技術、設備、資金力によって全く別なものになるだろう。

しかし次々と開発される新しい技術を取り入れていかなければあっという間に研究の前線からおいて行かれてしまう。新しい技術を勉強して自分でも出来るようになるのは大切だし面白いことである。結局新しいことを徐々に取り入れていくことになる。私のような者の場合は、新技術の開発後しばらくしてある程度誰でも出来るようになってから取り組むことになる。最近は「研究拠点」の整備が行われて、自分の力のみでは到底導入できない新技術による測定を代わりに行って頂けることもある。もちろんお願いするからには、それなりの予備的な結果を出しておいて、測定する価値があることを認めてもらわなければならない。天文学の世界では、高性能な望遠鏡や観測施設の数は限られている。高度な観測をしたければ、そういう施設に申請書を提出し、審査にパスした上で限られた時間だけ使わせてもらうことになるそうである。

このようなことができればよいのかもしれない。

1) 怪しい生理活性物質、怪しい培地、自作した怪しい測定装置などを用いて、変異体をスクリーニングして見つけ出す。生物学よりも先行して発展している、有機化学や応用物理の成果を取り入れるとおもしろいのではないか。「おもしろいものをスクリーニングによって見つける」というのは、一種の才能であって研究者の実力を試すことでもある。
The Art and Design of Genetic Screens というタイトルの review もNature Reviews Genetics　に連載されている。
Genetic screens が Art という語句で修飾されているのは興味深い。（Genetic）スクリーニングは、研究者のアイデアや個人的な思い入れが反映できる数少ない研究分野なのかもしれない。スクリーニングというものは「変異体の単離」に限られるわけではない。数万ある候補遺伝子から、「体細胞を未分化な細胞へ変化させる少数の遺伝子の組み合わせ」を見いだすこともスクリーニングである。ある化学反応を効率よく引き起こす反応条件と触媒の組み合わせを見いだすこともスクリーニングである。ある生物現象を説明するためにいくらでも考えられる仮説から、本当に細胞内で起きているものを選び出すこともスクリーニングである。ほとんど無限に考えられる数式の群れから、ある現象の本質を捉え、実験で得られているデータをうまく説明し、様々なことを正しく予測できる数式を選び出すこともスクリーニングと言えるのではないか。

2) それらの変異体を育成、戻し交配、詳細に観察し、様々な生理学的な性質を調べていく。予想外の興味深い性質をもつものが見つかれば幸運である。

1 と 2 をうまくやり遂げられれば、後はどの変異体の場合でも銅鉄科学的に同じ手法を適用できる（そんなにうまくいくわけはないだろうが）。

3) マイクロアレイ分析、メタボローム分析、プロテオーム分析（いわゆる網羅的解析）を行う：　研究資金が十分にあれば研究受託サービスの会社に依頼ことも可能である。「自分の実力では出来ない解析技術を、代行してもらえる」ということで大変価値があることである。植物バイオの研究受託会社としては、インプランタイノベーション　http://www.inplanta.jp/index.html　、グリーンゴールドバイオシステム　http://www.greengold-bs.com　などがある。

網羅的解析は、特に変異体の分析を行う際に有効だということがわかった。以前は「この変異体はこの遺伝子に変異があるから、関連があると予想されるこれらの遺伝子群について調べてみよう」と、常識的な考えに基づいて研究を進めていた。これを hypothesis-driven approach と呼ぶ人もいる。　　　Cancer. Systems biology, metabolomics, and cancer metabolism.　　　Tomita M, Kami K.　　　Science. 2012 May 25;336(6084):990-1. No abstract available. PMID: 22628644

しかし変異体では、常識的には予想できないようなことが起きていてそれが極めて重要だったと言うことも起こりうる。遺伝子に変異が起きているのだから、変異のない正常な個体では起きえないことが起きてもおかしくない。それを前もって見抜くことはとても難しい。常識、先入観に邪魔されてしまう。様々なことを試すために多大な時間を費やしてもわからないと言うことになる。

余計なことを考えずにまず網羅的に分析し、それによって得られたデータをよく分析することから始めるほうが、興味深いことを見いだすことがかえって簡単にできる。これを hypothesis-driven approach と対比して data-driven approach と呼ぶ人もいる。データの分析も先入観に影響を受けるが、データを取ろうとも思わないのに比べればずっとましである。問題としては、網羅的解析は多額の研究資金を必要とすることがある。しかしそれによって短時間で重要なことを見抜くことができるのなら、時間を節約できることで元が十分取れる。特にマイクロアレイは改良が進み信頼性、定量性が高くなっている。安物の定量PCRの機械を使うよりよっぽど定量的かもしれない。網羅的で質のよいデータはきわめて価値が高い。

とはいっても、「オーナーは博愛主義者で気前よく資金を提供した」という時代は終わった。「新しいオーナーは金を使いたがらなかった。これはビジネスなんだと明言していた」という時代がきている。http://scienceportal.jp/reports/england/1101.html　　　「サイエンスポータル」で山田直氏により、イギリスの例が紹介されている。　　　「イギリス大学予算削減」　　　研究の効率化、コストパフォーマンスも求められるかもしれない。しかし研究はよい人材無しでは成り立たない。人件費を最大限確保するために、それ以外の部分を工夫することが必要かもしれない。すでに私の分野でも、そういうしくみが作られて、その恩恵を受けている。　　　http://www.psr-net.riken.jp/index.html

4) 変異遺伝子のクローニングを行う：　マッピングの受託サービスはすでにある。インプランタイノベーションのホームページ　http://www.inplanta.jp/index.html　

5) とれてきた遺伝子に関連するデータをさらに採取する

6) それらの結果をまとめる

植物には様々な環境に適応し、独自の多様な形質を示す種類が存在する。この多様性を生かすことも大切だろう。植物遺伝資源の研究、リソース拠点整備などが行われ、すばらしい研究基盤として提供されている。静岡大学の増沢教授が、「極限に生きる植物」（中公新書　１６５４　2002年）というすばらしい本を出版されている。

銅鉄主義から網羅的解析主義へ

和田昭允博士が、「物理学では「銅鉄主義」といって軽蔑されるものが、生命研究では必要なのです。」と書かれている。　http://www.ati.or.jp/pdf/ATINews-03.pdf　生物学では「A と B を比較して何らかの結論を導く」ということが非常に多い(比較法)ので、そういうことになる。A という生物で研究して全然うまくいかなかったことが、B という生物を材料にすることで可能になったという例もたくさんある。最近の有名な例ではジベレリン受容体の研究がある。

生物学では「風が吹けば桶屋が儲かる」的な考察がよく現れるのも特徴といえるかもしれない。「風が吹けば桶屋が儲かる」の話では、風、土ぼこり、目に悪い、三味線、猫、ネズミ、桶、桶屋が直線的に連結されている。これが、途中で枝分かれしネットワークのように連結されたりすると、単に「風が吹けば桶屋が儲かる」というわけにはいかずもっと複雑な挙動を示すようになるだろう。生物の細胞で起きていることは、「風、土ぼこり、目に悪い、三味線、猫、ネズミ、桶、桶屋がネットワーク図のようにつながっている」というモデルで表現できることが多い。ICAR2010で、そういうたぐいの発表がいくつかあった。現在では　Gene Regulatory Networks (GRNs) と呼ばれ、当たり前の考え方になっている。　　　https://en.wikipedia.org/wiki/Gene_regulatory_network　　　http://eglab.osu.edu/　　　http://www.plantcell.org/content/26/12/4656.long　　　生物のモデルとして「すきまが少しぐらいあっても良いタイル張り」というのもある。普通タイル張りには「すきまがあってはいけない」という絶対的な強い制限がある。その強い制限から様々なパターン、規則性、法則が派生してくる。生物も様々な制限を受けているがそれはあまり強くない。だから生物においてはパターン、規則性、法則があったとしても見えにくくなっている。こういう問題は「ルール＋ランダム」という考え方で一般化でき、研究が進んでいると物理の先生の一般向け講演で聞く機会があった。

「風が吹けば桶屋が儲かる」の話では、風が吹いてから桶屋が儲かるまでにだいぶ時間がかかるはずである。しかしそのことが考察されているわけではない。儲かる金額もわからない。生物学者が言うこととよく似ている。

「銅鉄主義」を極限まで拡張した(すべての対象を分析し、一つたりとも分析せずに済ませることがない）ものが、「網羅的解析主義」といえるかもしれない。網羅的解析が生物学で特に発展し、様々なすばらしい成果に結びついているのは偶然ではないのかもしれない。「銅と鉄 (n = 2)」では値を比較するくらいしかできないが、網羅的解析ではデータ数が増えることで統計的な手法を使うことが可能になる。「網羅的解析主義」によって、すべての「銅鉄主義」研究はその価値を失うことになった。

学問分野によって基本的な考え方が違ってくるのは面白いことである。

物理学者の青木秀夫博士が、「銅鉄主義を発見法的に使えば、思いがけないことが出てくる例がある。埋もれた宝をサーチするという意味で面白い」と、おっしゃっている。　　　　ttp://www.jps.or.jp/books/gakkaishi/2001/09/zadankai0109.html#top

生物に関連した研究を行う学者は様々な行動を行っている。そのうちのかなりの部分は「埋もれた宝をサーチする」ことである。生物の細胞、ゲノムにはたくさんの宝が埋もれている。それを掘り出してくることが大きな仕事になる。「網羅的解析主義を発見法的に使う」というのは生物に関連する学問にとって強力な手法になる。生物学以外でもそうらしい。

雑誌「化学」２０１０年４月号に島川博士が「銅と鉄に見る新物質探索の鍵」という記事を書かれている。生物学だけでなく、化学や物理学でも網羅的解析主義は強力な手法になるような気がする。例えば銅と鉄の合金を2万種類くらい用意してそれぞれの性質を全部測定する。人間の遺伝子が2万種類くらいなので、それくらい調べればよいのではないか。それらのデータを解析することで今までわからなかったことがわかるかもしれない。実際にそれに近いことが行われ成果を上げている。また他分野では実際に何万種類も化合物を作るだけでなく、計算による高精度な推定が行えるそうである。

生物学とは異なり、材料科学の分野では高精度な第一原理計算によって実験をしなくても多種類の無機化合物の様々な性質を計算して推定することができる。それらの結果は遺伝子発現のデータベースと同じように、使いやすいデータベースにされている。蓄積された多量のデータの解析によって、材料の性質を決定する因子の推定や材料の改良が可能になっている。「マテリアルズ・インフォマティクス」と呼ばれている。まだ歴史が浅い分野だが急速に進んでいる。京都大学大学院工学研究科材料工学専攻量子材料学分野田中研究室のページ　　　http://cms.mtl.kyoto-u.ac.jp/index.html　　　すでにリチウム電池の改良という実用的な成果にも役立っている。　　　http://www.kyoto-u.ac.jp/ja/news_data/h/h1/news6/2014/documents/140730_1/01.pdf　　　

http://www.jst.go.jp/crds/pdf/2013/WR/CRDS-FY2013-WR-03.pdf　　　マテリアルズインフォマティクスに関するワークショップの講演録　　　製薬のインフォマティクス技術に関する講演もある。バイオインフォマティクスとの比較もされている。マテリアルズインフォマティクスの方が、予測しやすくてよく当たるらしい。

材料化学では80種類くらいの元素を扱う。それだけだと遺伝子より種類が少ないが、2元、3元、4元、5元･･･と組み合わせると膨大な数になる。また同じ組成でも結晶構造は複数安定に存在できるのでもっと組み合わせが大きくなる。だから全部合成したり計算することで網羅するのは無理だそうである。ターゲットをある程度絞り込まないといけない。考え方としては生物学で発展したことと共通部分がある。複雑なものを扱う生物学で発展した方法は、他の分野でも複雑な対象を扱う際に役に立つのだろう。以前は「遺伝子は2万種類もあって大変だ」と思っていたが、「遺伝子が2万種類しかなくてよかった」と思わないといけなかった。しかし生物学でも実験条件や時間の違いを考えに入れるとすべてを網羅することはできない。それぞれの研究者の感性と経験と技術力、資金力、時間的な制約によって対象は絞り込まれる。その時に遺伝子、代謝、文献のデータベース、優れたバイオリソースを必ず参照する。材料の分野でも、必ずデータベースを見て考えるそうである。優れたデータベースの必要性が講演録にも書かれている。

細胞を構成する低分子同士の相互作用、低分子と高分子の相互作用を計算で把握できれば生物学者にとってとても価値が高い。タンパク質や DNA は高分子で精度が高い計算が難しいらしいが、そのうちそういう物質でも高精度な計算ができて様々な性質が実験せずにわかるようになるだろう。そうなればマテリアルズ・インフォマティクスの成果がバイオインフォマティクスにすぐに適用され、生物学にも威力を発揮するだろう。そうなったとき（案外すぐ数年先にそうなるのではないか・これは私の願望である）には、生物学も計算主導型に大きく変わるかもしれない。

こんなことを書いている間にも、囲碁ソフトウェアがトップレベルの棋士に勝つようになった。囲碁は白と黒の石を二次元平面に配置し、石に取り囲まれた空間を数えて最大になるような手順を探す。タンパク質や低分子の高次構造を計算する場合、原子が石に見立てられて炭素、酸素、水素、窒素など種類が増える。配置されるのは三次元の空間になる。配置が変化すると分子全体のエネルギーが変化し、最低になるような配置を探す。囲碁より複雑で難しいだろうが、理屈的には似ている。囲碁のために大金を投じて研究するはずはないから、本当の目的は分子の計算にあるだろう。それを応用したら囲碁もできたのだろう。分子計算の方も成果が公開されはじめた。

「Alpha Goの衝撃再び — タンパク質構造予測でAlpha Foldが今までのモデルに圧勝」　　　https://note.mu/zhubo/n/n00675c5ae7c7　　　袁博氏による解説、王青波氏による日本語訳　　　

Alphafold に関してすばらしい解説がいくつも公開されている。

タンパク質構造予測AIによる革命と「その先」　　Nature ダイジェスト Vol. 19 No. 7 | doi : 10.1038/ndigest.2022.220724

神戸大学計算科学教育研究センターから、「計算生命科学の基礎」遠隔インタラクティブ講義が開催、公開されている。　　http://www.eccse.kobe-u.ac.jp/distance_learning/life_science9/　　　計算生命科学の基礎9、第三回では森脇先生による講義「タンパク質の立体構造予測－AlphaFold以前と以後－」が行われている。

ワインなどの飲料に、鉄系超伝導物質の性質を変化させる能力があることが物質・材料研究機構（NIMS）のグループにより明らかにされている。ワインに含まれる化合物を網羅的解析し、超伝導の性質変化に寄与する化合物と、その作用機構を解明した研究成果が報告されている。「有機化学美術館・分館」で、わかりやすく紹介されている。　　　http://blog.livedoor.jp/route408/archives/52036545.html　　　 http://www.spc.jst.go.jp/hottopics/0902super/r0902_hosono.html　　　http://www8.cao.go.jp/cstp/sentan/chukan/c-giji24.pdf　　　

低分子有機化合物の場合、化合物ライブラリーを構築して、そこから有用物質を網羅的に探索することが行われている。化合物ライブラリーの多様性を高め、「ケミカルスペースを満たす」ことを目指した研究が進んでいる。化学の世界でも、網羅的解析主義は有効なのだろう（生物学と融合した分野が目立っているけれど）。原子の種類とそれぞれの数を組成として指定すると、その組成を満たす構造をもつ化合物の種類は有限になる。「炭素原子１個、水素原子４個」ならメタンしかない。大きい分子になると種類が増えるが、無限と言うことはないので理屈的には網羅することができる（10の60乗あるそうなので実際には無理だが）。薬を開発することが目的になる場合、「薬としてよく効く低分子が一般的に保持している構造、性質のルール、法則」がわかっているので組み合わせを限定することができる。

Science 25 November 2011:　Vol. 334 no. 6059 pp. 1114-1117　DOI: 10.1126/science.1213920　Discovery of an α-Amino C H Arylation Reaction Using the Strategy of Accelerated Serendipity　　　Andrew McNally, Christopher K. Prier, David W. C. MacMillan　　　という論文があった。有機化学でも網羅的解析に近いことが行われている。「By using a high-throughput, automated workflow and evaluating a large number of random reactions, 」と書いてある。

理論家の場合、「すべての対象を網羅する」のは統一理論という形で成就される。つまり理論は一つだけ（最小の数を目指す）ですむようになる。またパラメーターは少なければ少ないほどよいらしい。「オッカムの剃刀」という言葉で説明されている。実験科学者の「網羅的解析（最大の数を目指すことで網羅する）」とは逆になるが、すべてを網羅することを目指すことは共通している。どちらにせよ、統一する・網羅することには価値がある。

時代が進みビッグデータ、データベースに基づいた科学研究が主流になった。「オッカムの剃刀」も古い考え方になってきている。　　''Inverse Occam's razor''　　https://arxiv.org/abs/2204.08284　　Igor I. Mazin　　という論文がある。また深層学習ではきわめて大規模なネットワークで大量のデータを学習する。パラメータの数が何十億にもなる（もっと増えるらしい）。このように理論においても考え方・パラダイムが変化することがある。

網羅的解析の場合も、その後膨大なデータからどのような興味深い知見を取り出すかということが重要になってくる。そこで「剃刀」が必要になる。多変量解析などの手法が用いられている。例えば主成分分析をすると主成分が１，２，３，・・・と出てくる。それらが何を意味しているかは、人間が考えなければならない。

技術の進歩により、細胞、生体から様々な数値データを大量に得ることが容易になってきた。それができなければ研究社会から取り残されてしまう（恐ろしいほどの早さで）のだから、できる限りのことをしなければならない。しかしいくらデータを取っても、それらを単に羅列するだけではきりがない。生物由来のデータから規則、法則を見いだすことができなければ、いつまでも測定を行わなければならなくなってしまう。規則性を見つけることができれば、研究を「データから見いだされた規則性、法則らしきものを検証する」という方向にまとめる、収束させることができる。さらにそれらの規則性からよりもっともらしい一般化された理論、法則を導ければ、それに基づいてデータを補正したり必要なデータ量を限定できる。

上にも出てきた　http://www.ati.or.jp/pdf/ATINews-03.pdf　で「生命研究をしていると、データーを絶対化する第一原理が欲しくなるわけです。」と書かれている。生命研究からデータを絶対化する原理を見つけることは大変難しいだろうが、どんなに小さな、たいしたことでなくても、自分が出した結果から何らかの法則、規則性に気づく、発見することができることには価値がある。

「生命研究からデータを絶対化する原理を見つける」ことは、今後の生物学においてとても重要な目標になるだろう。　　　生命研究からデータを絶対化する原理を見つける方法を考える

vim: set ts=8 sts=2 sw=2 et ft=a111_modified_flexwiki textwidth=0 lsp=12: