プロトコル

[bioinfo]amplicon_sorterでnanopore amplicon sequenceのデータをde novoアセンブルする

インストール方法については、上坂さんの情報に従った。

mamba create -n amplicon_sorter python=3.9 -y
conda activate amplicon_sorter
python3 -m pip install python-Levenshtein
python3 -m pip install edlib
python3 -m pip install biopython
python3 -m pip install matplotlib

#本体
git clone https://github.com/avierstr/amplicon_sorter.git
cdamplicon_sorter/

Nanopore R10.4.1のフローセル上でLSK-SQK114で作ったライブラリを読む場合、下記のように結構クオリティは高い。

が、qscore > 12が推奨されているので、NanoFiltでqscore > 12でfiltorateする。pirmer annealing sitesを確認したいのでcropはしない。

cat concat.fastq | NanoFilt -q 12 > filtered_concat.fastq

amplicon_sorterの手順として、まずヒストグラムでリード長の分布を確認する。ampliconの場合、目的産物のピークが存在するはずである。今回のamplicon sequencingの場合は、二つの産物を混ぜているので二つのピークが存在する。まず短い方は4.8 kbから5.6 kbあたりにピークが収まる。-minと-maxを調整して、何度かヒストグラムを描かせて赤点線がピークを包含するようにする。

python3 amplicon_sorter.py -i filtered_concat.fastq -o amplicon_sorter_out -min 4800 -max 5600 -ho

これが確認出来たら、実際にランを行う。デフォルトでは抽出するリード数が10000となっている。total evidence信奉者はこの範囲のすべてのデータを使いたいので”-maxr 20000″として、すべてのリードを使ってランを行う。”-np 20″として、core i7 12700KFをフルに回して10分程度かかる。

python3 amplicon_sorter.py -i filtered_concat.fastq -o amplicon_sorter_out -min 4800 -max 5600 -np 20 -maxr 20000

リードがいくつかのグループに分けられ、目的のampliconは、0.groupに振り分けられて8302を使ってconsensus配列が出力される。おそらく正確性に関しては十分すぎるぐらい十分。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です