プロトコル

[bioinfo]P_RNA_Scaffolderを使ってScaffold長を改善する

Zhu et al., P_RNA_Scaffolder: a fast and accurate genome scaffolder using paired-end RNA-sequencing reads (2018) BMC Genomics

https://github.com/CAFS-bioinformatics/P_RNA_scaffolder
からダウンロード。blat等の実行権限が付いていないので付加する。また、RNAseqのデータは複数ある場合が多いので、あらかじめcatしておく。

hisat2でRNAseqのデータをすでにアセンブルしてあるゲノムデータにマッピング

#初期ゲノムデータについてのhisat2のインデックスを構築
hisat2-build genome.fa genome
#マッピング
hisat2 -x genome -1 concat_rnaseq_1.fq -2 concat_rnaseq_2.fq -k3 -p32 --pen-noncansplice 1000000 -S input.sam

P_RNA_scaffolderを実行。Ubuntuの場合にはshではなくbashでないとエラが―出る。また、プレコンパイルされているCで書かれたプログラムは上記のとおり、実行権限を与えておく。

bash /path_to_P_RNA_scaffoder/P_RNA_scaffolder.sh -d /path_to_P_RNA_scaffoder -i input.sam -j genome.fa -f concat_rnaseq_1.fq -r concat_rnaseq_2.fq -o out -t 32

 数時間で完了する。劇的に改善するというほどではないが、scaffold N50=1Mbのゲノムに対して、100Gb程度のRNAseqデータを使った場合、N50=1.2Mb程度に伸びる。また、遺伝子全長もある程度補完できるようになるようである。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です