[bioinfo] fosmid 位置をゲノムブラウザ(jbrowse2)に実装する
大量データの時代が来ても実験生物学における、ゲノムライブラリの重要性は変わらない。fosmidライブラリは遺伝子レベルの解析には重宝するサイズのゲノムライブラリなのだが、fosmid-endのシークエンス情報のみなので、ゲノム上の欲しい位置のクローンが分かるようにしてほしいというリクエストを受けて、ゲノムライブラリに実装してみた。
fosmid-end sequenceをRepeatMaskerで処理。RepeatMaskerはcondaで導入。
conda create -n repeatmasker python=3.7
conda activate repeatmasker
conda install -c bioconda repeatmasker
RepeatMasker -e hmmer -pa 48 fosmid-end.fasta
処理したfosmid-end sequenceの情報をクエリとしてゲノム上で検索。
blastn -query fosmid-end.fasta.masked -db genome.fa -max_target_seq 1 -num_threads 48 -outfmt 7 -out fosmid-end.fasta.masked.blastn.out
besthitのデータだけにしたいので、次のワンライナーで処理。
cat fosmid-end.fasta.masked.blastn.out | awk '/hits found/{getline;print}' | grep -v "#" > fosmid-end.fasta.masked.blastn.out.besthit.txt
gffに変換する。いろいろ工夫する必要があるので、エクセルで行った。もしかしたらblast2gffなるスクリプトがいろいろ転がっているのでそれらを使えば良いのかもしれない。基本的なgff3のカラムは以下。
- seqid: 染色体の位置など
- source: ライブラリやプロジェクトの情報
- type: “mRNA”、”exon”などのfeature情報
- start: アノテーションの開始位置
- end: アノテーションの終了位置
- score: 信頼度などの数値
- strand: 配列の向き
- phase: コドンの開始位置
- attributes: ID、Name、Parentなどの情報。実はここが一番重要
作製したgffファイルをソートし、gzip圧縮、tabix処理。
gt gff3 -sourtlines -tidy -retainids fosmid.gff > fosmid.sorted.gff
bgzip fosmid.sorted.gff
tabix fosmid.sorted.gff.gz
jbrowse2に実装。
jbrowse add-track fosmid.sorted.gff.gz --out usr/bin/jbrowse2 --name fosmid_library --assemblyNames genome --load copy