hifiasm(高質(zhì)量組裝PicBio HiFi數(shù)據(jù)缰贝,同樣也是可以組裝T2T級(jí)別)

hifiasm

如果你基因組是簡(jiǎn)單的二倍體,不復(fù)雜畔濒,不是高重復(fù)或者高雜合剩晴,測(cè)序數(shù)據(jù)還是PicBio HiFi數(shù)據(jù),選擇hifiasm進(jìn)行組裝是個(gè)不錯(cuò)的選擇,對(duì)于處理PicBio HiFi數(shù)據(jù)赞弥,hifiasm有快毅整、準(zhǔn)、質(zhì)量高的特點(diǎn)绽左,還能分單倍型悼嫉!

整體的流程

hifiasm.png

1.從安裝開(kāi)始說(shuō)起

# Install hifiasm (requiring g++ and zlib)
git clone https://github.com/chhylp123/hifiasm
cd hifiasm && make

記得添加環(huán)境變量就可以直接調(diào)用了。

2.使用(有多種模式可選擇拼窥,提供三種常用模式)

1)在只有PicBio HiFi數(shù)據(jù)的情況下戏蔑,也是最簡(jiǎn)單的

# Assemble inbred/homozygous genomes (-l0 disables duplication purging)
hifiasm -o CHM13.asm -t32 -l0 CHM13-HiFi.fa.gz 2> CHM13.asm.log
# Assemble heterozygous genomes with built-in duplication purging
hifiasm -o HG002.asm -t32 HG002-file1.fq.gz HG002-file2.fq.gz
-o  輸出文件的前綴
-t  運(yùn)行程序設(shè)置的線程
-l0  不進(jìn)行purge 
CHM13-HiFi.fa.gz  hifi數(shù)據(jù)

模式不同,輸出文件的后綴也會(huì)有所不同
在這個(gè)模式下輸出的文件以前綴.bp.后綴的形式輸出鲁纠。

#用awk轉(zhuǎn)化gfa格式為fa格式辛臊,即得到組裝的contig文件
#主文件
awk '/^S/{print ">"$2;print $3}' prefix.bp.p_ctg.gfa >prefix.bp.p_ctg.fa 2>2.log
#hap1文件,一型文件
awk '/^S/{print ">"$2;print $3}' prefix..bp.hap1.p_ctg.gfa > prefix..bp.hap1.p_ctg.fa 2>2.log
#hap2文件房交,二型文件
awk '/^S/{print ">"$2;print $3}' prefix..bp.hap2.p_ctg.gfa > prefix.bp.hap2.p_ctg.fa 2>2.log

2)有PicBio HiFi數(shù)據(jù)和HiC數(shù)據(jù)的情況

# Hi-C phasing with paired-end short reads in two FASTQ files
hifiasm -o HG002.asm --h1 read1.fq.gz --h2 read2.fq.gz HG002-HiFi.fq.gz
-h1  HiC一端的數(shù)據(jù) 
-h2  HiC另一端的數(shù)據(jù)

在這個(gè)模式下輸出的文件以前綴.hic.后綴的形式輸出

#同樣的彻舰,用awk進(jìn)行格式的轉(zhuǎn)換
awk '/^S/{print ">"$2;print $3}' prefix.hic.p_ctg.gfa >prefix.hic.p_ctg.fa 2>2.log

3)有PicBio HiFi數(shù)據(jù)、HiC數(shù)據(jù)和ONT數(shù)據(jù)的情況候味,也是最容易達(dá)到T2T級(jí)別組裝的模式

# Single-sample telomere-to-telomere assembly with HiFi, ultralong and Hi-C reads
hifiasm -o HG002.asm --h1 read1.fq.gz --h2 read2.fq.gz --ul ul.fq.gz HG002-HiFi.fq.gz
--ul  ONT測(cè)序數(shù)據(jù)

3.還有其他復(fù)雜的參數(shù)刃唤,可以去學(xué)習(xí),簡(jiǎn)單說(shuō)幾個(gè)

--hom-cov

--hom-cov    INT    homozygous read coverage [auto]

這個(gè)參數(shù)的使用白群,首先是你的基因組是一個(gè)雜合或者高重復(fù)的基因組尚胞,在進(jìn)行上述的組裝后,得到的組裝結(jié)果比實(shí)際的偏大帜慢,或者分型結(jié)果笼裳,即hap1和hap2的結(jié)果相差較大。你可以看看日志文件粱玲,即*.log文件躬柬。在log文件中有一行[M::purge_dups] homozygous read coverage threshold: X.的描述,這個(gè)X的值即可設(shè)置為--hom-cov X

-s

 -s FLOAT     similarity threshold for duplicate haplotigs in read-level [0.75 for -l1/-l2, 0.55 for -l3]

這個(gè)參數(shù)的使用抽减,和--hom-cov類(lèi)似允青,在你得到的組裝結(jié)果比實(shí)際的偏大的情況下,可以調(diào)整-s,程序默認(rèn)為0.5,偏大的情況下可以往下調(diào)卵沉。

-n-hap

 --n-hap      INT      number of haplotypes [2]

這個(gè)參數(shù)可以調(diào)整你需要分型的個(gè)數(shù)颠锉,即如果是四倍體材料,就有4個(gè)單倍型的基因組史汗,可以試試--n-hap 4,反正我組裝三倍體的材料琼掠,設(shè)置了--n-hap 3并沒(méi)有成功。

--hg-size

--hg-size    INT(k, m or g)    estimated haploid genome size used for inferring read coverage [auto]

這個(gè)參數(shù)可以輸入停撞,預(yù)估的基因組大小瓷蛙,例如:--hg-size 500m

大多數(shù)的情況下,用默認(rèn)的參數(shù)就是足夠了的。

參考連接

https://hifiasm.readthedocs.io/en/latest/index.html
https://github.com/chhylp123/hifiasm

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載速挑,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者谤牡。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市姥宝,隨后出現(xiàn)的幾起案子翅萤,更是在濱河造成了極大的恐慌,老刑警劉巖腊满,帶你破解...
    沈念sama閱讀 217,185評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件套么,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡碳蛋,警方通過(guò)查閱死者的電腦和手機(jī)胚泌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)肃弟,“玉大人玷室,你說(shuō)我怎么就攤上這事◇允埽” “怎么了穷缤?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,524評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)箩兽。 經(jīng)常有香客問(wèn)我津肛,道長(zhǎng),這世上最難降的妖魔是什么汗贫? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,339評(píng)論 1 293
  • 正文 為了忘掉前任身坐,我火速辦了婚禮,結(jié)果婚禮上落包,老公的妹妹穿的比我還像新娘部蛇。我一直安慰自己,他們只是感情好妥色,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評(píng)論 6 391
  • 文/花漫 我一把揭開(kāi)白布搪花。 她就那樣靜靜地躺著遏片,像睡著了一般嘹害。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上吮便,一...
    開(kāi)封第一講書(shū)人閱讀 51,287評(píng)論 1 301
  • 那天笔呀,我揣著相機(jī)與錄音,去河邊找鬼髓需。 笑死许师,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播微渠,決...
    沈念sama閱讀 40,130評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼搭幻,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了逞盆?” 一聲冷哼從身側(cè)響起檀蹋,我...
    開(kāi)封第一講書(shū)人閱讀 38,985評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎云芦,沒(méi)想到半個(gè)月后俯逾,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,420評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡舅逸,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評(píng)論 3 334
  • 正文 我和宋清朗相戀三年桌肴,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片琉历。...
    茶點(diǎn)故事閱讀 39,779評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡坠七,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出旗笔,到底是詐尸還是另有隱情灼捂,我是刑警寧澤,帶...
    沈念sama閱讀 35,477評(píng)論 5 345
  • 正文 年R本政府宣布换团,位于F島的核電站悉稠,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏艘包。R本人自食惡果不足惜的猛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望想虎。 院中可真熱鬧卦尊,春花似錦、人聲如沸舌厨。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,716評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)裙椭。三九已至躏哩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間揉燃,已是汗流浹背扫尺。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,857評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留炊汤,地道東北人正驻。 一個(gè)月前我還...
    沈念sama閱讀 47,876評(píng)論 2 370
  • 正文 我出身青樓弊攘,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親姑曙。 傳聞我的和親對(duì)象是個(gè)殘疾皇子襟交,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容