hifiasm
如果你基因組是簡(jiǎn)單的二倍體,不復(fù)雜畔濒,不是高重復(fù)或者高雜合剩晴,測(cè)序數(shù)據(jù)還是PicBio HiFi數(shù)據(jù),選擇hifiasm進(jìn)行組裝是個(gè)不錯(cuò)的選擇,對(duì)于處理PicBio HiFi數(shù)據(jù)赞弥,hifiasm有快毅整、準(zhǔn)、質(zhì)量高的特點(diǎn)绽左,還能分單倍型悼嫉!
整體的流程
1.從安裝開(kāi)始說(shuō)起
# Install hifiasm (requiring g++ and zlib)
git clone https://github.com/chhylp123/hifiasm
cd hifiasm && make
記得添加環(huán)境變量就可以直接調(diào)用了。
2.使用(有多種模式可選擇拼窥,提供三種常用模式)
1)在只有PicBio HiFi數(shù)據(jù)的情況下戏蔑,也是最簡(jiǎn)單的
# Assemble inbred/homozygous genomes (-l0 disables duplication purging)
hifiasm -o CHM13.asm -t32 -l0 CHM13-HiFi.fa.gz 2> CHM13.asm.log
# Assemble heterozygous genomes with built-in duplication purging
hifiasm -o HG002.asm -t32 HG002-file1.fq.gz HG002-file2.fq.gz
-o 輸出文件的前綴
-t 運(yùn)行程序設(shè)置的線程
-l0 不進(jìn)行purge
CHM13-HiFi.fa.gz hifi數(shù)據(jù)
模式不同,輸出文件的后綴也會(huì)有所不同
在這個(gè)模式下輸出的文件以前綴.bp.后綴
的形式輸出鲁纠。
#用awk轉(zhuǎn)化gfa格式為fa格式辛臊,即得到組裝的contig文件
#主文件
awk '/^S/{print ">"$2;print $3}' prefix.bp.p_ctg.gfa >prefix.bp.p_ctg.fa 2>2.log
#hap1文件,一型文件
awk '/^S/{print ">"$2;print $3}' prefix..bp.hap1.p_ctg.gfa > prefix..bp.hap1.p_ctg.fa 2>2.log
#hap2文件房交,二型文件
awk '/^S/{print ">"$2;print $3}' prefix..bp.hap2.p_ctg.gfa > prefix.bp.hap2.p_ctg.fa 2>2.log
2)有PicBio HiFi數(shù)據(jù)和HiC數(shù)據(jù)的情況
# Hi-C phasing with paired-end short reads in two FASTQ files
hifiasm -o HG002.asm --h1 read1.fq.gz --h2 read2.fq.gz HG002-HiFi.fq.gz
-h1 HiC一端的數(shù)據(jù)
-h2 HiC另一端的數(shù)據(jù)
在這個(gè)模式下輸出的文件以前綴.hic.后綴
的形式輸出
#同樣的彻舰,用awk進(jìn)行格式的轉(zhuǎn)換
awk '/^S/{print ">"$2;print $3}' prefix.hic.p_ctg.gfa >prefix.hic.p_ctg.fa 2>2.log
3)有PicBio HiFi數(shù)據(jù)、HiC數(shù)據(jù)和ONT數(shù)據(jù)的情況候味,也是最容易達(dá)到T2T級(jí)別組裝的模式
# Single-sample telomere-to-telomere assembly with HiFi, ultralong and Hi-C reads
hifiasm -o HG002.asm --h1 read1.fq.gz --h2 read2.fq.gz --ul ul.fq.gz HG002-HiFi.fq.gz
--ul ONT測(cè)序數(shù)據(jù)
3.還有其他復(fù)雜的參數(shù)刃唤,可以去學(xué)習(xí),簡(jiǎn)單說(shuō)幾個(gè)
--hom-cov
--hom-cov INT homozygous read coverage [auto]
這個(gè)參數(shù)的使用白群,首先是你的基因組是一個(gè)雜合或者高重復(fù)的基因組尚胞,在進(jìn)行上述的組裝后,得到的組裝結(jié)果比實(shí)際的偏大帜慢,或者分型結(jié)果笼裳,即hap1和hap2的結(jié)果相差較大。你可以看看日志文件粱玲,即*.log文件躬柬。在log文件中有一行[M::purge_dups] homozygous read coverage threshold: X.
的描述,這個(gè)X的值即可設(shè)置為--hom-cov X
-s
-s FLOAT similarity threshold for duplicate haplotigs in read-level [0.75 for -l1/-l2, 0.55 for -l3]
這個(gè)參數(shù)的使用抽减,和--hom-cov
類(lèi)似允青,在你得到的組裝結(jié)果比實(shí)際的偏大的情況下,可以調(diào)整-s
,程序默認(rèn)為0.5
,偏大的情況下可以往下調(diào)卵沉。
-n-hap
--n-hap INT number of haplotypes [2]
這個(gè)參數(shù)可以調(diào)整你需要分型的個(gè)數(shù)颠锉,即如果是四倍體材料,就有4個(gè)單倍型的基因組史汗,可以試試--n-hap 4
,反正我組裝三倍體的材料琼掠,設(shè)置了--n-hap 3
并沒(méi)有成功。
--hg-size
--hg-size INT(k, m or g) estimated haploid genome size used for inferring read coverage [auto]
這個(gè)參數(shù)可以輸入停撞,預(yù)估的基因組大小瓷蛙,例如:--hg-size 500m
大多數(shù)的情況下,用默認(rèn)的參數(shù)就是足夠了的。
參考連接
https://hifiasm.readthedocs.io/en/latest/index.html
https://github.com/chhylp123/hifiasm