[bioinfo]Finderを使って新規ゲノムにアノテーションを付ける
最近発表されたFinder (Banerjee et al., 2021)を使う。
Finderのインストールは基本的にgitにある説明のとおりに行うのだが、説明不足や間違いがあるので注意が必要である。
gitからソフトウェアをダウンロードし、パスを通す
git clone https://github.com/sagnikbanerjee15/Finder.git cd Finder echo "export PATH=\$PATH:$(pwd)" >> ~/.bashrc source ~/.bashrc
Braker2の実行に必要なGeneMark-ETとそのライセンスをダウンロードする。
http://topaz.gatech.edu/GeneMark/license_download.cgiをブラウザで開いて、上から二段目にある”GeneMark-ES/ET/EP ver 4.62_lic“、”LINUX 64“を選択し、必要な情報を記入した上で、”I agree to the terms of this license agreement”のボタンを押す。
プログラム本体のリンクとライセンスのダウンロード用リンクが現れるので、どちらもダウンロードして、Finderのフォルダの直下に展開する(gitにはwget後にコマンドで展開するようになっているが、それだと個別のフォルダができてスクリプトが走らない)。
Finderで使うRNAseqの情報をmetadata.csvのファイルに書き込む。注意点として、ファイル名に大文字を含めない、拡張子をfastqにする、ファイルの置き場としてプログラムからアクセスできる場所にするなどがある。
Column Name | Column Description | Mandatory |
---|---|---|
BioProject | プロジェクト名。De Novoゲノムの場合はダミーのプロジェクト名にする。 | YES |
SRA Accession | SRAアクセションだが、De Novoゲノムの場合はRNAseqのファイル名にする。ペアエンドデータの場合、例えば”data_1.fastq”、”data_2.fastq”というファイル名の場合は、”data”でOK(fowardとreveseのファイル名の最後は”_1″と”_2″。ファイル名の拡張子はfastqにする。 | YES |
Tissues | RNAseqデータの由来について記述、組織やコンディションを記述しておけば組織ごとのカウントデータも取得してくれる。 | YES |
Description | データについての記述。finderでは使わない。 | NO |
Date | RNAseqデータの取得日。finderでは使わない。 | NO |
Read Length (bp) | リード長の情報。finderでは使わない。 | NO |
Ended | PEかSEを記述。 | YES |
RNA-Seq | とりあえず1と記述 | YES |
process | とりあえず1と記述。0を入力するとそのファイルは無視される。 | YES |
Location | RNAseqのファイルが格納されているフォルダの絶対パスを入力。 | YES |
finderを実行する。CPU 56コア、1TB RAMのマシンを稼働させて完了まで一晩はかかる。
run_finder -mf {metadata.csvの絶対パス} -n {cpu数} -out_dir {outputフォルダの絶対パス} -g {リファレンスゲノムファイルの絶対パス} -gm {genemakerの絶対パス} -gml {genemakerのライセンスの絶対パス} -om VERT -fm singularity 1>run.out 2>run.error
Windows、powershellから遺伝研スパコンを使用しています。
GeneMarkを使用したく、ダウンロードしたいのですが、Windowsではできないのでしょうか。
状況が良く分かりませんが、遺伝研スパコンのユーザー権限の範疇であり、使用ルールでアプリケーションインストールが許可されているのであれば使用可能だと思います。