[bioinfo]RepeatModelerでゲノム中のリピート配列を同定してRepeatMaskerでマスク
RepeatModeler、RepeatMaskerはcondaでインストール
conda install -c bioconda repeatmodeler repeatmasker
ゲノムデータを検索用のデータベースとして構築
BuildDatabase -name genome_name genome.fasta
RepeatModerを実行する。blast検索の際に一つの並列実行について4つのcpuを使用するので、-paの値は「総コア数÷4」にしておく。56コアの場合は14。
RepeatModeler -database genome_name -pa 14
RepeatMaskerを実行する。RepeatMaskerはfastaファイルのIDが50文字を越えると受け付けないので、処置しておく。自分の場合、”:”(コロン)で区切ってたくさんの文字が入っていたので、それらを削った。このときファイル名に”+”を付けると、RepeatMaskerのoutput fileがすべて消えてしまうので注意。
RepeatMaskerのライブラリにはRepeatMaskerで得られたconsensi.faを使う。
sed -e 's/:.*//' genome.fasta > genome_idfixed.fasta RepeatMasker -pa 56 -html -gff -small -lib RepeatModeler_out/consensi.fa genome_idfixed.fasta -dir RM_out
-dirで指定したフォルダに結果が出てくる。