Flye軟件簡介
Flye是美國加利福尼亞大學圣迭戈分校開發(fā)的針對三代測序數(shù)據(jù)的基因組de novo組裝的生信軟件勤哗,于2019年發(fā)表在Nature Biotechnology上癞尚,該軟件支持Pacbio和Nanopore數(shù)據(jù)好啰,同時也可以對宏基因組和質(zhì)粒進行組裝。
Flye官網(wǎng):
https://github.com/fenderglass/Flye
Flye軟件安裝:
#conda安裝flye
conda install -y flye
#編譯安裝flye
wget https://github.com/fenderglass/Flye/archive/refs/heads/flye.zip
#解壓文件
unzip flye.zip
#安裝軟件
cd Flye-flye
make
#將軟件添加到環(huán)境變量(根據(jù)自己的安裝路徑進行添加)
vim ~/.bashrc
PATH=/opt/biosoft/GENOME/Flye-flye/bin/:$PATH
source ~/.bashrc
Flye示例數(shù)據(jù)下載:
#pacbio示例數(shù)據(jù)下載
wget \
-O pacbio.sra \
https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR8494912/SRR8494912
#nanopore示例數(shù)據(jù)下載
wget \
-O nanopore.sra \
https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR8494939/SRR8494939
Flye示例數(shù)據(jù)處理(sra轉(zhuǎn)fastq):
#pacbio示例數(shù)據(jù)處理(sra轉(zhuǎn)fastq)
fastq-dump --gzip --split-3 pacbio.sra
#nanopore示例數(shù)據(jù)處理(sra轉(zhuǎn)fastq)
fastq-dump --gzip --split-3 nanopore.sra
fastq-dump會將sra格式轉(zhuǎn)化成fastq格式,同時--gzip參數(shù)會對fastq進行壓縮,示例pacbio.sra最終會被轉(zhuǎn)化為pacbio.fastq.gz
Flye常用選項參數(shù):
--pacbio-raw :設(shè)置 pacbio 原始數(shù)據(jù)所在路徑
--pacbio-corr :設(shè)置糾錯后 pacbio 數(shù)據(jù)所在路徑
--nano-raw :設(shè)置 nanopore 原始數(shù)據(jù)所在路徑
--nano-corr :設(shè)置糾錯后的 nanopore 數(shù)據(jù)所在路徑
--genome-size :預(yù)估基因組大小宏浩,評估覆蓋深度
--out-dir :輸出結(jié)果文件路徑
--threads :線程數(shù)
--min-overlap :最小 overlap 連接大小
PS:校正需要的時間較長,且效果也不明顯靠瞎,一般建議直接輸入原始數(shù)據(jù)
Flye使用案例:
flye \
--pacbio-raw pacbio.fastq.gz \
--genome-size 5.4m \
--out-dir pacbio_flye_out
Flye主要結(jié)果輸出文件:
00-assembly #構(gòu)建基因組草圖
10-consensus #基于基因組草圖對數(shù)據(jù)進行糾錯
20-repeat #對重復(fù)序列進行處理
30-contigger #構(gòu)建contig
40-polishing #對結(jié)果進行校準
assembly.fasta #最終組裝結(jié)果文件比庄,用于下游分析