プロトコル

[bioinfo]SRAデータを効率的にダウンロードする。

SRRのリストを作り、parallelにパイプで渡してsratoolkitのprefetchを並列処理でラン。

sort -u srr_list | parallel -j 4 "prefetch --max-size 30g {}"

そのあとpfastq-dumpでfastq.gzに変換

parallel-fastq-dump --threads 8 *.sra --gzip --split-files

後から思ったが、下記のコマンドで最初からgzipとしてダウンロードしてくればよかったのかもしれない。

sort -u srr_list | parallel -j 4 "fastq-dump --gzip --split-files {}"

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です