ChloroSeq -

表紙(FrontPage) | 編集(管理者用) | 差分 | 新規作成 | 一覧 | RSS | 検索 | 更新履歴

Smith DR 博士らによって、オルガネラ転写産物を分析するためのソフトウェア　Chloroseq が開発された。　　　http://github.com/BenoitCastandet/chloroseq　　　

論文としても発表されている。　　　https://www.ncbi.nlm.nih.gov/pubmed?linkname=pubmed_pubmed&from_uid=27402360　　　 ChloroSeq, an Optimized Chloroplast RNA-Seq Bioinformatic Pipeline, Reveals Remodeling of the Organellar Transcriptome Under Heat Stress.　　　Castandet B, Hotto AM, Strickler SR, Stern DB.　　　G3 (Bethesda). 2016 Sep 8;6(9):2817-27. doi: 10.1534/g3.116.030783.　　　PMID: 27402360 　　

この論文に、ソフトウェアの入手先、他にインストールしておく必要のあるソフトウェア、解析の手順が書かれている。実際に分析した結果が掲載されている。

BIOCONDA https://bioconda.github.io/　という便利なソフトウェアセンターが公開されている。ソフトウェアを一つずつばらばらに入れていると管理しにくい。スマートフォンでアプリを入れるのと同じように、ソフトウェアセンターから入れる方が管理しやすい。 BIOCONDA は、Miniconda, Anaconda という管理システムを使って、生物学関連のソフトウェアを集めて簡単にインストールできるようになっている。

Ubuntu 16.04 をインストールした PC を用意した。それに BIOCONDA から生物学関連のソフトウェアをインストールする。こちらの方が、最新のソフトウェアに簡単に確実に更新することができる。

論文に書いてあるとおりに、Bowtie2, SRA-tools, SAMtools, tophat, Cufflinks, BEDtools を conda install でインストールした。しかし、tophat というソフトウェアを使おうとしたら、BIOCONDA に入っていたものではうまく動かず、tophat のホームページから取ってきたもので動いた（python2 で動かすように修正が必要だった）。

Chloroseq を動かすには、その前に用意することがいくつかある。それらについて忘れないように、ここに書いておく。

RNAseq のデータを用意

例として SRR929000 という番号がついたデータを分析する。これは E-GEOD-48661　　The Arabidopsis Zinc Finger Protein 3 integrates ABA and light signaling in seed germination and plant development　の、Col-0/control　929001 は Col-0/ABA　929002 は　ZFP3ox/control 929003 は ZFP3ox/ABA

これは ABI のマシンからのデータで、rRNA を、RiboMinus Plant Kit　というのもので取り除いている。SOLID 5500xl　というマシンで分析している。この場合、オルガネラゲノムからの転写産物も分析されやすいので、Chloroseq に適している。

SRA Toolkit には、機種それぞれに適合させたソフトウェアが用意されている。 ABI のマシンからのデータの場合、abi-dump というツールが用意されている。

 abi-dump -o 出力するディレクトリ　SRR929000

と打つと、SRR929000_F3.csfasta　というファイルと、SRR929000_F3_QV.qual　という2つのファイルがダウンロードされた。.qual の方は quality data を含んでいる。 ABI のマシンからのデータを分析する場合、この 2 つのデータを必要とする場合があるので、こちらを使わないといけない。外付け HDD を用意して、そこを -o で指定する。

質の悪いデータは fastq-mcf というプログラムで trim すると書かれていた。それは今回省略した。

tophat を用いて accepted_hits.bam ファイルを作る

tophat を動かすためには、ゲノムのインデックスファイルが必要になる。 Chloroseq にはシロイヌナズナのプラスチドゲノムのインデックスファイルが付属している。しかし SOLID のデータでは専用のインデックスファイルが必要になるので、bowtie-build というプログラムで作る。

その元になるデータとして、fasta 形式のゲノムデータを用いる。オルガネラゲノムなら、サイズが小さく扱いやすい。TAIR, Araport, NCBI で公開されている。

大切なこと：　入手した fasta 形式のファイルを editor で開いて、一行目の先頭の > に続けて、そのゲノムの名前として用いる文字列を書く必要がある。 Chloroseq のプラスチドゲノムデータ TAIR10_ChrC.fa では、　>ChrC 　とまず書かれている。だからその後の処理で ChrC という文字列を指定することになる。ここに書かれた文字列は bowtie-build や tophat の出力に記録され、後で Chloroseq を動かすときに必要になる。それが合っていないとうまくいかなくなる。

 bowtie-build -C ゲノム配列をもつ fasta ファイル　インデックスファイルの名前

指定した「インデックスファイルの名前」に、～.ebwt と付加された名前のファイルが 6 つ生成する。適当なディレクトリに移しておく。

これで tophat を実行できる。ABI マシンのデータを分析する際は、--color --quals というオプションをつける。

 tophat --color --quals -o 結果を出力するディレクトリ　インデックスファイルがあるディレクトリ/インデックスファイルの名前　csfasta ファイルの名前　qual ファイルの名前

今回の例では 36 分かかった。余計な計算をしないオプションをつける必要がある。

実行すると、-o で指定したディレクトリに accepted_hits.bam ファイルができる。これが一番重要なファイルである。ディレクトリの名前は「ゲノム名＿データの名前」のようにつける。その他に bed ファイルなどが複数生じる。align_summary.txt ファイルを見ると、どれくらいのリードがゲノムに align されたかがわかる。ChrC_SRR929000 では 4.7 % が align されていた。

ここまでできたら、やっと Chloroseq を実行できる。

vim: set ts=8 sts=2 sw=2 et ft=a111_modified_flexwiki textwidth=0 lsp=12: