プロトコル

[bioinfo]Finderを使って新規ゲノムにアノテーションを付ける

最近発表されたFinder (Banerjee et al., 2021)を使う。

Finderのインストールは基本的にgitにある説明のとおりに行うのだが、説明不足や間違いがあるので注意が必要である。

gitからソフトウェアをダウンロードし、パスを通す

git clone https://github.com/sagnikbanerjee15/Finder.git
cd Finder
echo "export PATH=\$PATH:$(pwd)" >> ~/.bashrc
source ~/.bashrc

Braker2の実行に必要なGeneMark-ETとそのライセンスをダウンロードする。
http://topaz.gatech.edu/GeneMark/license_download.cgiをブラウザで開いて、上から二段目にある”GeneMark-ES/ET/EP ver 4.62_lic“、”LINUX 64“を選択し、必要な情報を記入した上で、”I agree to the terms of this license agreement”のボタンを押す。
プログラム本体のリンクとライセンスのダウンロード用リンクが現れるので、どちらもダウンロードして、Finderのフォルダの直下に展開する(gitにはwget後にコマンドで展開するようになっているが、それだと個別のフォルダができてスクリプトが走らない)。

Finderで使うRNAseqの情報をmetadata.csvのファイルに書き込む。注意点として、ファイル名に大文字を含めない、拡張子をfastqにする、ファイルの置き場としてプログラムからアクセスできる場所にするなどがある。

Column NameColumn DescriptionMandatory
BioProjectプロジェクト名。De Novoゲノムの場合はダミーのプロジェクト名にする。YES
SRA AccessionSRAアクセションだが、De Novoゲノムの場合はRNAseqのファイル名にする。ペアエンドデータの場合、例えば”data_1.fastq”、”data_2.fastq”というファイル名の場合は、”data”でOK(fowardとreveseのファイル名の最後は”_1″と”_2″。ファイル名の拡張子はfastqにする。YES
TissuesRNAseqデータの由来について記述、組織やコンディションを記述しておけば組織ごとのカウントデータも取得してくれる。YES
Descriptionデータについての記述。finderでは使わない。NO
DateRNAseqデータの取得日。finderでは使わない。NO
Read Length (bp)リード長の情報。finderでは使わない。NO
EndedPEかSEを記述。YES
RNA-Seqとりあえず1と記述YES
processとりあえず1と記述。0を入力するとそのファイルは無視される。YES
LocationRNAseqのファイルが格納されているフォルダの絶対パスを入力。YES

finderを実行する。CPU 56コア、1TB RAMのマシンを稼働させて完了まで一晩はかかる。

run_finder -mf {metadata.csvの絶対パス} -n {cpu数} -out_dir {outputフォルダの絶対パス} -g {リファレンスゲノムファイルの絶対パス} -gm {genemakerの絶対パス} -gml {genemakerのライセンスの絶対パス} -om VERT -fm singularity 1>run.out 2>run.error

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です