プロトコル

[bioinfo]RepeatModelerでゲノム中のリピート配列を同定してRepeatMaskerでマスク

RepeatModeler、RepeatMaskerはcondaでインストール

conda install -c bioconda repeatmodeler repeatmasker

ゲノムデータを検索用のデータベースとして構築

BuildDatabase -name genome_name genome.fasta

RepeatModerを実行する。blast検索の際に一つの並列実行について4つのcpuを使用するので、-paの値は「総コア数÷4」にしておく。56コアの場合は14。

RepeatModeler -database genome_name -pa 14

RepeatMaskerを実行する。RepeatMaskerはfastaファイルのIDが50文字を越えると受け付けないので、処置しておく。自分の場合、”:”(コロン)で区切ってたくさんの文字が入っていたので、それらを削った。このときファイル名に”+”を付けると、RepeatMaskerのoutput fileがすべて消えてしまうので注意。
RepeatMaskerのライブラリにはRepeatMaskerで得られたconsensi.faを使う。

sed -e 's/:.*//' genome.fasta > genome_idfixed.fasta
RepeatMasker -pa 56 -html -gff -small -lib RepeatModeler_out/consensi.fa genome_idfixed.fasta -dir RM_out

-dirで指定したフォルダに結果が出てくる。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です