[bioinfo]P_RNA_Scaffolderを使ってScaffold長を改善する
https://github.com/CAFS-bioinformatics/P_RNA_scaffolder
からダウンロード。blat等の実行権限が付いていないので付加する。また、RNAseqのデータは複数ある場合が多いので、あらかじめcatしておく。
hisat2でRNAseqのデータをすでにアセンブルしてあるゲノムデータにマッピング
#初期ゲノムデータについてのhisat2のインデックスを構築
hisat2-build genome.fa genome
#マッピング
hisat2 -x genome -1 concat_rnaseq_1.fq -2 concat_rnaseq_2.fq -k3 -p32 --pen-noncansplice 1000000 -S input.sam
P_RNA_scaffolderを実行。Ubuntuの場合にはshではなくbashでないとエラが―出る。また、プレコンパイルされているCで書かれたプログラムは上記のとおり、実行権限を与えておく。
bash /path_to_P_RNA_scaffoder/P_RNA_scaffolder.sh -d /path_to_P_RNA_scaffoder -i input.sam -j genome.fa -f concat_rnaseq_1.fq -r concat_rnaseq_2.fq -o out -t 32
数時間で完了する。劇的に改善するというほどではないが、scaffold N50=1Mbのゲノムに対して、100Gb程度のRNAseqデータを使った場合、N50=1.2Mb程度に伸びる。また、遺伝子全長もある程度補完できるようになるようである。