hifiasm（高質(zhì)量組裝PicBio HiFi數(shù)據(jù)缰贝，同樣也是可以組裝T2T級(jí)別）

hifiasm

如果你基因組是簡(jiǎn)單的二倍體，不復(fù)雜畔濒，不是高重復(fù)或者高雜合剩晴，測(cè)序數(shù)據(jù)還是PicBio HiFi數(shù)據(jù)，選擇hifiasm進(jìn)行組裝是個(gè)不錯(cuò)的選擇，對(duì)于處理PicBio HiFi數(shù)據(jù)赞弥，hifiasm有快毅整、準(zhǔn)、質(zhì)量高的特點(diǎn)绽左，還能分單倍型悼嫉！

整體的流程

hifiasm.png

1.從安裝開(kāi)始說(shuō)起

# Install hifiasm (requiring g++ and zlib)
git clone https://github.com/chhylp123/hifiasm
cd hifiasm && make

記得添加環(huán)境變量就可以直接調(diào)用了。

2.使用(有多種模式可選擇拼窥，提供三種常用模式)

1)在只有PicBio HiFi數(shù)據(jù)的情況下戏蔑，也是最簡(jiǎn)單的

# Assemble inbred/homozygous genomes (-l0 disables duplication purging)
hifiasm -o CHM13.asm -t32 -l0 CHM13-HiFi.fa.gz 2> CHM13.asm.log
# Assemble heterozygous genomes with built-in duplication purging
hifiasm -o HG002.asm -t32 HG002-file1.fq.gz HG002-file2.fq.gz
-o  輸出文件的前綴
-t  運(yùn)行程序設(shè)置的線程
-l0  不進(jìn)行purge 
CHM13-HiFi.fa.gz  hifi數(shù)據(jù)

模式不同，輸出文件的后綴也會(huì)有所不同
在這個(gè)模式下輸出的文件以前綴.bp.后綴的形式輸出鲁纠。

#用awk轉(zhuǎn)化gfa格式為fa格式辛臊，即得到組裝的contig文件
#主文件
awk '/^S/{print ">"$2;print $3}' prefix.bp.p_ctg.gfa >prefix.bp.p_ctg.fa 2>2.log
#hap1文件，一型文件
awk '/^S/{print ">"$2;print $3}' prefix..bp.hap1.p_ctg.gfa > prefix..bp.hap1.p_ctg.fa 2>2.log
#hap2文件房交，二型文件
awk '/^S/{print ">"$2;print $3}' prefix..bp.hap2.p_ctg.gfa > prefix.bp.hap2.p_ctg.fa 2>2.log

2)有PicBio HiFi數(shù)據(jù)和HiC數(shù)據(jù)的情況

# Hi-C phasing with paired-end short reads in two FASTQ files
hifiasm -o HG002.asm --h1 read1.fq.gz --h2 read2.fq.gz HG002-HiFi.fq.gz
-h1  HiC一端的數(shù)據(jù) 
-h2  HiC另一端的數(shù)據(jù)

在這個(gè)模式下輸出的文件以前綴.hic.后綴的形式輸出

#同樣的彻舰，用awk進(jìn)行格式的轉(zhuǎn)換
awk '/^S/{print ">"$2;print $3}' prefix.hic.p_ctg.gfa >prefix.hic.p_ctg.fa 2>2.log

3)有PicBio HiFi數(shù)據(jù)、HiC數(shù)據(jù)和ONT數(shù)據(jù)的情況候味，也是最容易達(dá)到T2T級(jí)別組裝的模式

# Single-sample telomere-to-telomere assembly with HiFi, ultralong and Hi-C reads
hifiasm -o HG002.asm --h1 read1.fq.gz --h2 read2.fq.gz --ul ul.fq.gz HG002-HiFi.fq.gz
--ul  ONT測(cè)序數(shù)據(jù)

3.還有其他復(fù)雜的參數(shù)刃唤，可以去學(xué)習(xí)，簡(jiǎn)單說(shuō)幾個(gè)

--hom-cov

--hom-cov    INT    homozygous read coverage [auto]

這個(gè)參數(shù)的使用白群，首先是你的基因組是一個(gè)雜合或者高重復(fù)的基因組尚胞，在進(jìn)行上述的組裝后，得到的組裝結(jié)果比實(shí)際的偏大帜慢，或者分型結(jié)果笼裳，即hap1和hap2的結(jié)果相差較大。你可以看看日志文件粱玲，即*.log文件躬柬。在log文件中有一行[M::purge_dups] homozygous read coverage threshold: X.的描述，這個(gè)X的值即可設(shè)置為--hom-cov X

-s

 -s FLOAT     similarity threshold for duplicate haplotigs in read-level [0.75 for -l1/-l2, 0.55 for -l3]

這個(gè)參數(shù)的使用抽减，和--hom-cov類(lèi)似允青，在你得到的組裝結(jié)果比實(shí)際的偏大的情況下，可以調(diào)整-s,程序默認(rèn)為0.5,偏大的情況下可以往下調(diào)卵沉。

-n-hap

 --n-hap      INT      number of haplotypes [2]

這個(gè)參數(shù)可以調(diào)整你需要分型的個(gè)數(shù)颠锉，即如果是四倍體材料，就有4個(gè)單倍型的基因組史汗，可以試試--n-hap 4,反正我組裝三倍體的材料琼掠，設(shè)置了--n-hap 3并沒(méi)有成功。

--hg-size

--hg-size    INT(k, m or g)    estimated haploid genome size used for inferring read coverage [auto]

這個(gè)參數(shù)可以輸入停撞，預(yù)估的基因組大小瓷蛙，例如:--hg-size 500m

大多數(shù)的情況下，用默認(rèn)的參數(shù)就是足夠了的。

參考連接

https://hifiasm.readthedocs.io/en/latest/index.html
https://github.com/chhylp123/hifiasm

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

禁止轉(zhuǎn)載速挑，如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者谤牡。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市姥宝，隨后出現(xiàn)的幾起案子翅萤，更是在濱河造成了極大的恐慌，老刑警劉巖腊满，帶你破解...
沈念sama閱讀 217,185評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件套么，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡碳蛋，警方通過(guò)查閱死者的電腦和手機(jī)胚泌，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)肃弟，“玉大人玷室，你說(shuō)我怎么就攤上這事◇允埽” “怎么了穷缤？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,524評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)箩兽。經(jīng)常有香客問(wèn)我津肛，道長(zhǎng)，這世上最難降的妖魔是什么汗贫？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,339評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任身坐，我火速辦了婚禮，結(jié)果婚禮上落包，老公的妹妹穿的比我還像新娘部蛇。我一直安慰自己，他們只是感情好妥色，可當(dāng)我...
茶點(diǎn)故事閱讀 67,387評(píng)論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布搪花。她就那樣靜靜地躺著遏片，像睡著了一般嘹害。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上吮便，一...
開(kāi)封第一講書(shū)人閱讀 51,287評(píng)論 1贊 301
城市分裂傳說(shuō)
那天笔呀，我揣著相機(jī)與錄音，去河邊找鬼髓需。笑死许师，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播微渠，決...
沈念sama閱讀 40,130評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼搭幻，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了逞盆？” 一聲冷哼從身側(cè)響起檀蹋，我...
開(kāi)封第一講書(shū)人閱讀 38,985評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎云芦，沒(méi)想到半個(gè)月后俯逾，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,420評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡舅逸，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,617評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年桌肴，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片琉历。...
茶點(diǎn)故事閱讀 39,779評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡坠七，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出旗笔，到底是詐尸還是另有隱情灼捂，我是刑警寧澤，帶...
沈念sama閱讀 35,477評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布换团，位于F島的核電站悉稠，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏艘包。R本人自食惡果不足惜的猛，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,088評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望想虎。院中可真熱鬧卦尊，春花似錦、人聲如沸舌厨。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,716評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)裙椭。三九已至躏哩，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間揉燃，已是汗流浹背扫尺。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,857評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留炊汤，地道東北人正驻。一個(gè)月前我還...
沈念sama閱讀 47,876評(píng)論 2贊 370
代替公主和親
正文我出身青樓弊攘，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親姑曙。傳聞我的和親對(duì)象是個(gè)殘疾皇子襟交，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,700評(píng)論 2贊 354

hifiasm（高質(zhì)量組裝PicBio HiFi數(shù)據(jù)被芳，同樣也是可以組裝T2T級(jí)別）