單倍體組裝工具Hifiasm簡(jiǎn)介及基本運(yùn)行命令(一)

隨著測(cè)序技術(shù)的發(fā)展及新的組裝工具的不斷開(kāi)發(fā)應(yīng)用，基因組denovo測(cè)序及組裝進(jìn)入了Genomic2.0時(shí)代舍悯，我認(rèn)為Genomic2.0時(shí)代的標(biāo)志有兩點(diǎn)：1. 三代長(zhǎng)讀長(zhǎng)測(cè)序及Hi-C測(cè)序技術(shù)在基因組denovo測(cè)序上的用；2.組裝方法上睡雇，Canu和Hifisam等工具不斷被開(kāi)發(fā)應(yīng)用出來(lái)萌衬，有的工具極大的降低了算力要求，有的工具能夠?qū)⒒蚪M組裝到單體型水平它抱，也就是將同源或非同源的兩套多套染色體分別組裝出來(lái)秕豫，因此，最近幾年，不僅很多物種的基因組被公布混移，而早些年間即使被公布了的基因組祠墅，也都利用新的測(cè)序及組裝策略進(jìn)行了更新。今天我先學(xué)習(xí)Hifiasm工具歌径。

一.Hifiasm工具簡(jiǎn)介:

Hifiasm是哈佛大學(xué)李恒團(tuán)隊(duì)提出的一種全新的單倍體基因組組裝算法, 2021年2月份發(fā)表在Nature Methods上[ref1]毁嗦。它可以多線程運(yùn)行，對(duì)計(jì)算資源消耗教少回铛，組裝快狗准，結(jié)果準(zhǔn)確性和連續(xù)性較高。Hifiasm (Hi-C) 針對(duì)PacBio HiFi (High-Fidelity) 長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)和Hi-C (High-Throughput Chromatin Confirmation Capture) 測(cè)序技術(shù)進(jìn)行了全新的設(shè)計(jì)勺届。該算法結(jié)合了HiFi數(shù)據(jù)中精確的局部單倍型信息和Hi-C數(shù)據(jù)中的長(zhǎng)距離互作用信息以達(dá)到全局定相 (phasing)，從而獲得不依賴(lài)親本信息的染色體級(jí)別的單倍型組裝結(jié)果娶耍。為了進(jìn)一步提高組裝質(zhì)量免姿，作者充分利用了組裝圖中的結(jié)構(gòu)信息，以及其前期研究中的Graph-binning等策略榕酒。

二．算法簡(jiǎn)介

Hifiasm組裝主要分為三步胚膊。

Step1: 測(cè)序錯(cuò)誤堿基糾錯(cuò)

盡管Hifi reads準(zhǔn)確性已經(jīng)很高了，但仍然會(huì)有部分測(cè)序(<1%)錯(cuò)誤想鹰，Hifiasm會(huì)先通過(guò)所有序列的相互比對(duì)(all vs all)紊婉，對(duì)測(cè)序錯(cuò)誤進(jìn)行糾正。在比對(duì)中辑舷，基于reads間的overlap關(guān)系喻犁，如果同一個(gè)位置的reads出現(xiàn)兩種堿基類(lèi)型，且每個(gè)堿基類(lèi)型至少有3條reads支持何缓，那么這個(gè)位置會(huì)被當(dāng)作雜合位點(diǎn)肢础，即一個(gè)SNP被保留，否則碌廓，視作測(cè)序錯(cuò)誤传轰，將被糾正（默認(rèn)三輪糾錯(cuò)）。值得注意的是谷婆，Hifiasm只使用相同單倍型的數(shù)據(jù)進(jìn)行糾錯(cuò)慨蛙，從而避免過(guò)度校正，保留來(lái)自不同單倍型的雜合變異信息纪挎。在這一步期贫，Hifiasm可以對(duì)雜合SNP進(jìn)行定相（phasing）。

Step2: 構(gòu)建分型字符串圖（phased string graph）

根據(jù)序列之間的重疊關(guān)系异袄，構(gòu)建分型字符串圖string-graph唯灵。Hifiasm以reads作為頂點(diǎn)，一致的overlap重疊區(qū)域作為邊隙轻，保留全部的氣泡(bubble)即保留了所有的雜合位點(diǎn)（圖1）埠帕，因而可以保留下來(lái)基因組上全部的單倍型信息垢揩，以便后續(xù)對(duì)于單倍型的處理。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖1. Hifiasm組裝算法示意圖

Step3: 單倍體分型組裝

如果沒(méi)有額外的信息敛瓷，Hifiasm在輸出序列時(shí)會(huì)任意選擇氣泡的一側(cè)構(gòu)建初級(jí)組裝叁巨，刪除多余的單倍體，輸出結(jié)果類(lèi)似Falcon unzip和HiCanu的主要組裝結(jié)果（primary contigs）呐籽。優(yōu)于HiCanu需要依賴(lài)第三方工具去除dups序列锋勺，Hifiasm內(nèi)部實(shí)現(xiàn)了去除dups的算法優(yōu)化，簡(jiǎn)化了流程狡蝶。如果有來(lái)自父母本的測(cè)序數(shù)據(jù)庶橱，Hifiasam可以利用親本特有的Kmer在圖上識(shí)別出了父母本的序列，從而得到來(lái)自父母本的單倍體基因組序列贪惹。

在基于父母本特有Kmer時(shí)苏章，區(qū)別于TrioCanu軟件的trio-binning策略，先將三代reads區(qū)分為來(lái)自父本奏瞬、母本以及部分無(wú)法區(qū)分的reads后對(duì)區(qū)分后的reads分別組裝獲得了子代的兩套單倍體序列枫绅，Hifiasm使用了graph-binning的策略對(duì)此進(jìn)行了改進(jìn)。它不預(yù)先劃分reads硼端，而是在string-graph中對(duì)reads進(jìn)行標(biāo)記并淋。因此在一個(gè)較長(zhǎng)的bubble中，即使只有一小部分reads被正確標(biāo)記珍昨，hifiasm也可以正確地將其定相县耽。通過(guò)這種方式，可以避免因?yàn)閞eads劃分錯(cuò)誤而引入的錯(cuò)誤位點(diǎn)和組裝斷裂镣典，從而獲得更完整和更準(zhǔn)確的單倍體組裝結(jié)果[ref2]酬诀。

三．軟件使用

1.軟件及測(cè)試數(shù)據(jù)下載

Github鏈接：https://github.com/chhylp123/hifiasm；

下載后make編譯骆撇；

下載測(cè)試數(shù)據(jù)：

wget https://github.com/chhylp123/hifiasm/releases/download/v0.7/chr11-2M.fa.gz

2.運(yùn)行程序瞒御；

hifiasm使用時(shí)根據(jù)已有的數(shù)據(jù)分為三種模式: 2.1.只有HiFi數(shù)據(jù)(基本)模式； 2.2.有Hi-C數(shù)據(jù)的Hi-C模式神郊；2.3.有雙親二代測(cè)序的Trio-binning模式肴裙。

2.1# Run on test data，基本模式,

./hifiasm -o test -t4 -f0 chr11-2M.fa.gz 2> test.log

awk '/^S/{print ">"$2;print $3}' test.bp.p_ctg.gfa > test.p_ctg.fa? # get primary contigs in FASTA

參數(shù)解釋?zhuān)?o 輸出文件前綴涌乳， -f0 小數(shù)據(jù)使用蜻懦，-t 線程數(shù)

awk提取主要的contig,這句話(huà)意思是對(duì)S開(kāi)頭行處理，提取序列名稱(chēng)$2和序列$3,獲得超長(zhǎng)的contig序列夕晓；

可選參數(shù)--primary: 不組裝分型,只有primary和alternate的組裝結(jié)果

運(yùn)行完成后需要關(guān)注的結(jié)果?(prefix表示前綴）：

test.bp.hap1.p_ctg.gfa: haplotype1的部分分型的contig graph;

test.bp.hap2.p_ctg.gfa: haplotype2的部分分型的contig graph;

test.bp.p_ctg.gfa (Primary assembly contig graph):主要contig的assembly graph, 對(duì)于低雜合度物種來(lái)說(shuō)宛乃，優(yōu)先選擇該文件；對(duì)于高雜合度物種，該結(jié)果代表其中一個(gè)單倍型征炼；

test.bp.p_utg.gfa(Haplotype-resolved processed unitig graph without small bubbles): 無(wú)小氣泡的單倍型解析, 在raw unitig graph基礎(chǔ)上過(guò)濾小的bubble析既，去掉由于體細(xì)胞突變和數(shù)據(jù)背景噪音引起的small bubbles（這個(gè)并不是真正的單體型信息），對(duì)于高度雜合基因組物種優(yōu)先選擇這個(gè)結(jié)果;

test.bp.r_utg.gfa(haplotype-resolved raw unitig graph in GFA format): 保留了所有的單倍型信息谆奥，包括體細(xì)胞突變和重復(fù)測(cè)序錯(cuò)誤眼坏；

*.bin文件：運(yùn)行時(shí)的糾錯(cuò)和相互比對(duì)的結(jié)果；

其它結(jié)果：有的網(wǎng)友還提到了一個(gè)結(jié)果酸些，我這次沒(méi)有生成：

prefix.a_ctg.gfa(Alternate assembly contig graph)：組裝出來(lái)的另一套單體型基因組結(jié)果宰译。

對(duì)于2.2.有Hi-C數(shù)據(jù)的Hi-C模式；2.3.有雙親二代測(cè)序的Trio-binning模式魄懂，過(guò)段時(shí)間我再跑沿侈。

四.日志信息及參數(shù)調(diào)整

通常使用默認(rèn)參數(shù)就可以，要根據(jù)日志信息判斷是否需要進(jìn)行參數(shù)調(diào)整市栗，最主要的日志信息是Kmer圖缀拭，從而判斷hifiasm是否能夠正確的找到純合峰，雜合峰的所在位置肃廓。如果hifiasm沒(méi)有找對(duì)純合峰所在的位置智厌，會(huì)導(dǎo)致基因組大小不符合預(yù)期诲泌，

對(duì)于雜合率高的樣本盲赊，一個(gè)常見(jiàn)的問(wèn)題是分型的結(jié)果兩套基因組差別較大，需要為-s設(shè)置更小的值(默認(rèn)值:0.55)敷扫。

還有其它參數(shù)引用ref3哀蘑，xuzhougeng的分享:

如果序列不夠長(zhǎng)，片段化明顯葵第，則可以嘗試增加 -D 和 -N, 雖然會(huì)增加運(yùn)行時(shí)間绘迁，但是會(huì)提高重復(fù)區(qū)域的分辨率。如果后續(xù)的Hi-C卒密，或者BioNano發(fā)現(xiàn)hifiasm組裝結(jié)果有比較多錯(cuò)誤組裝缀台，則可以適當(dāng)降低 --purge-max, -s和 -O∠妫或者設(shè)置 -u 關(guān)閉post-join 步驟膛腐，hifiasm通過(guò)該步驟提高組裝的連續(xù)性。

五．參考：

Ref1:Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm

Ref2: https://zhuanlan.zhihu.com/p/283131167

Ref3：http://www.reibang.com/p/6d79690dce5d?ivk_sa=1025883j

Ref4: https://hifiasm.readthedocs.io/en/latest/trio-assembly.html

本文使用文章同步助手同步

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末鼎俘，一起剝皮案震驚了整個(gè)濱河市哲身，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌贸伐，老刑警劉巖勘天，帶你破解...
沈念sama閱讀 211,123評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡脯丝，警方通過(guò)查閱死者的電腦和手機(jī)商膊，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,031評(píng)論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)巾钉，“玉大人翘狱，你說(shuō)我怎么就攤上這事∨椴裕” “怎么了潦匈？”我有些...
開(kāi)封第一講書(shū)人閱讀 156,723評(píng)論 0贊 345
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)赚导。經(jīng)常有香客問(wèn)我茬缩，道長(zhǎng)，這世上最難降的妖魔是什么吼旧？我笑而不...
開(kāi)封第一講書(shū)人閱讀 56,357評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任凰锡，我火速辦了婚禮，結(jié)果婚禮上圈暗，老公的妹妹穿的比我還像新娘掂为。我一直安慰自己，他們只是感情好员串，可當(dāng)我...
茶點(diǎn)故事閱讀 65,412評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布勇哗。她就那樣靜靜地躺著，像睡著了一般寸齐。火紅的嫁衣襯著肌膚如雪欲诺。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 49,760評(píng)論 1贊 289
城市分裂傳說(shuō)
那天渺鹦，我揣著相機(jī)與錄音扰法，去河邊找鬼。笑死毅厚，一個(gè)胖子當(dāng)著我的面吹牛塞颁，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播吸耿，決...
沈念sama閱讀 38,904評(píng)論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼祠锣，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了珍语？” 一聲冷哼從身側(cè)響起锤岸，我...
開(kāi)封第一講書(shū)人閱讀 37,672評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎板乙，沒(méi)想到半個(gè)月后是偷，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體拳氢，經(jīng)...
沈念sama閱讀 44,118評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,456評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年蛋铆，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了馋评。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,599評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡刺啦，死狀恐怖留特，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情玛瘸，我是刑警寧澤蜕青，帶...
沈念sama閱讀 34,264評(píng)論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站糊渊，受9級(jí)特大地震影響右核，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜渺绒，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,857評(píng)論 3贊 312
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一贺喝、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧宗兼，春花似錦躏鱼、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,731評(píng)論 0贊 21
一樁弒父案染苛，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至篡帕，卻和暖如春殖侵，著一層夾襖步出監(jiān)牢的瞬間贸呢，已是汗流浹背镰烧。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,956評(píng)論 1贊 264
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留楞陷，地道東北人怔鳖。一個(gè)月前我還...
沈念sama閱讀 46,286評(píng)論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像固蛾，于是被迫代替她去往敵國(guó)和親结执。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,465評(píng)論 2贊 348

單倍體組裝工具Hifiasm簡(jiǎn)介及基本運(yùn)行命令(一)

推薦閱讀更多精彩內(nèi)容