單倍體組裝工具Hifiasm簡(jiǎn)介及基本運(yùn)行命令(一)

隨著測(cè)序技術(shù)的發(fā)展及新的組裝工具的不斷開(kāi)發(fā)應(yīng)用,基因組denovo測(cè)序及組裝進(jìn)入了Genomic2.0時(shí)代舍悯,我認(rèn)為Genomic2.0時(shí)代的標(biāo)志有兩點(diǎn):1. 三代長(zhǎng)讀長(zhǎng)測(cè)序及Hi-C測(cè)序技術(shù)在基因組denovo測(cè)序上的用;2.組裝方法上睡雇,Canu和Hifisam等工具不斷被開(kāi)發(fā)應(yīng)用出來(lái)萌衬,有的工具極大的降低了算力要求,有的工具能夠?qū)⒒蚪M組裝到單體型水平它抱,也就是將同源或非同源的兩套多套染色體分別組裝出來(lái)秕豫,因此,最近幾年,不僅很多物種的基因組被公布混移,而早些年間即使被公布了的基因組祠墅,也都利用新的測(cè)序及組裝策略進(jìn)行了更新。今天我先學(xué)習(xí)Hifiasm工具歌径。

一.Hifiasm工具簡(jiǎn)介:

Hifiasm是哈佛大學(xué)李恒團(tuán)隊(duì)提出的一種全新的單倍體基因組組裝算法, 2021年2月份發(fā)表在Nature Methods上[ref1]毁嗦。它可以多線程運(yùn)行,對(duì)計(jì)算資源消耗教少回铛,組裝快狗准,結(jié)果準(zhǔn)確性和連續(xù)性較高。Hifiasm (Hi-C) 針對(duì)PacBio HiFi (High-Fidelity) 長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)和Hi-C (High-Throughput Chromatin Confirmation Capture) 測(cè)序技術(shù)進(jìn)行了全新的設(shè)計(jì)勺届。該算法結(jié)合了HiFi數(shù)據(jù)中精確的局部單倍型信息和Hi-C數(shù)據(jù)中的長(zhǎng)距離互作用信息以達(dá)到全局定相 (phasing),從而獲得不依賴(lài)親本信息的染色體級(jí)別的單倍型組裝結(jié)果娶耍。為了進(jìn)一步提高組裝質(zhì)量免姿,作者充分利用了組裝圖中的結(jié)構(gòu)信息,以及其前期研究中的Graph-binning等策略榕酒。

二.算法簡(jiǎn)介

Hifiasm組裝主要分為三步胚膊。

Step1: 測(cè)序錯(cuò)誤堿基糾錯(cuò)

盡管Hifi reads準(zhǔn)確性已經(jīng)很高了,但仍然會(huì)有部分測(cè)序(<1%)錯(cuò)誤想鹰,Hifiasm會(huì)先通過(guò)所有序列的相互比對(duì)(all vs all)紊婉,對(duì)測(cè)序錯(cuò)誤進(jìn)行糾正。在比對(duì)中辑舷,基于reads間的overlap關(guān)系喻犁,如果同一個(gè)位置的reads出現(xiàn)兩種堿基類(lèi)型,且每個(gè)堿基類(lèi)型至少有3條reads支持何缓,那么這個(gè)位置會(huì)被當(dāng)作雜合位點(diǎn)肢础,即一個(gè)SNP被保留,否則碌廓,視作測(cè)序錯(cuò)誤传轰,將被糾正(默認(rèn)三輪糾錯(cuò))。值得注意的是谷婆,Hifiasm只使用相同單倍型的數(shù)據(jù)進(jìn)行糾錯(cuò)慨蛙,從而避免過(guò)度校正,保留來(lái)自不同單倍型的雜合變異信息纪挎。在這一步期贫,Hifiasm可以對(duì)雜合SNP進(jìn)行定相(phasing)。

Step2: 構(gòu)建分型字符串圖(phased string graph)

根據(jù)序列之間的重疊關(guān)系异袄,構(gòu)建分型字符串圖string-graph唯灵。Hifiasm以reads作為頂點(diǎn),一致的overlap重疊區(qū)域作為邊隙轻,保留全部的氣泡(bubble)即保留了所有的雜合位點(diǎn)(圖1)埠帕,因而可以保留下來(lái)基因組上全部的單倍型信息垢揩,以便后續(xù)對(duì)于單倍型的處理。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖1. Hifiasm組裝算法示意圖

Step3: 單倍體分型組裝

如果沒(méi)有額外的信息敛瓷,Hifiasm在輸出序列時(shí)會(huì)任意選擇氣泡的一側(cè)構(gòu)建初級(jí)組裝叁巨,刪除多余的單倍體,輸出結(jié)果類(lèi)似Falcon unzip和HiCanu的主要組裝結(jié)果(primary contigs)呐籽。優(yōu)于HiCanu需要依賴(lài)第三方工具去除dups序列锋勺,Hifiasm內(nèi)部實(shí)現(xiàn)了去除dups的算法優(yōu)化,簡(jiǎn)化了流程狡蝶。如果有來(lái)自父母本的測(cè)序數(shù)據(jù)庶橱,Hifiasam可以利用親本特有的Kmer在圖上識(shí)別出了父母本的序列,從而得到來(lái)自父母本的單倍體基因組序列贪惹。

在基于父母本特有Kmer時(shí)苏章,區(qū)別于TrioCanu軟件的trio-binning策略,先將三代reads區(qū)分為來(lái)自父本奏瞬、母本以及部分無(wú)法區(qū)分的reads后對(duì)區(qū)分后的reads分別組裝獲得了子代的兩套單倍體序列枫绅,Hifiasm使用了graph-binning的策略對(duì)此進(jìn)行了改進(jìn)。它不預(yù)先劃分reads硼端,而是在string-graph中對(duì)reads進(jìn)行標(biāo)記并淋。因此在一個(gè)較長(zhǎng)的bubble中,即使只有一小部分reads被正確標(biāo)記珍昨,hifiasm也可以正確地將其定相县耽。通過(guò)這種方式,可以避免因?yàn)閞eads劃分錯(cuò)誤而引入的錯(cuò)誤位點(diǎn)和組裝斷裂镣典,從而獲得更完整和更準(zhǔn)確的單倍體組裝結(jié)果[ref2]酬诀。

三.軟件使用

1.軟件及測(cè)試數(shù)據(jù)下載

Github鏈接:https://github.com/chhylp123/hifiasm;

下載后make編譯骆撇;

下載測(cè)試數(shù)據(jù):

wget https://github.com/chhylp123/hifiasm/releases/download/v0.7/chr11-2M.fa.gz

2.運(yùn)行程序瞒御;

hifiasm使用時(shí)根據(jù)已有的數(shù)據(jù)分為三種模式: 2.1.只有HiFi數(shù)據(jù)(基本)模式; 2.2.有Hi-C數(shù)據(jù)的Hi-C模式神郊;2.3.有雙親二代測(cè)序的Trio-binning模式肴裙。

2.1# Run on test data,基本模式,

./hifiasm -o test -t4 -f0 chr11-2M.fa.gz 2> test.log

awk '/^S/{print ">"$2;print $3}' test.bp.p_ctg.gfa > test.p_ctg.fa? # get primary contigs in FASTA

參數(shù)解釋?zhuān)?o 輸出文件前綴涌乳, -f0 小數(shù)據(jù)使用蜻懦,-t 線程數(shù)

awk提取主要的contig,這句話(huà)意思是對(duì)S開(kāi)頭行處理,提取序列名稱(chēng)$2和序列$3,獲得超長(zhǎng)的contig序列夕晓;

可選參數(shù)--primary: 不組裝分型,只有primary和alternate的組裝結(jié)果

運(yùn)行完成后需要關(guān)注的結(jié)果?(prefix表示前綴):

test.bp.hap1.p_ctg.gfa: haplotype1的部分分型的contig graph;

test.bp.hap2.p_ctg.gfa: haplotype2的部分分型的contig graph;

test.bp.p_ctg.gfa (Primary assembly contig graph):主要contig的assembly graph, 對(duì)于低雜合度物種來(lái)說(shuō)宛乃,優(yōu)先選擇該文件;對(duì)于高雜合度物種,該結(jié)果代表其中一個(gè)單倍型征炼;

test.bp.p_utg.gfa(Haplotype-resolved processed unitig graph without small bubbles): 無(wú)小氣泡的單倍型解析, 在raw unitig graph基礎(chǔ)上過(guò)濾小的bubble析既,去掉由于體細(xì)胞突變和數(shù)據(jù)背景噪音引起的small bubbles(這個(gè)并不是真正的單體型信息),對(duì)于高度雜合基因組物種優(yōu)先選擇這個(gè)結(jié)果;

test.bp.r_utg.gfa(haplotype-resolved raw unitig graph in GFA format): 保留了所有的單倍型信息谆奥,包括體細(xì)胞突變和重復(fù)測(cè)序錯(cuò)誤眼坏;

*.bin文件:運(yùn)行時(shí)的糾錯(cuò)和相互比對(duì)的結(jié)果;

其它結(jié)果:有的網(wǎng)友還提到了一個(gè)結(jié)果酸些,我這次沒(méi)有生成:

prefix.a_ctg.gfa(Alternate assembly contig graph):組裝出來(lái)的另一套單體型基因組結(jié)果宰译。

對(duì)于2.2.有Hi-C數(shù)據(jù)的Hi-C模式;2.3.有雙親二代測(cè)序的Trio-binning模式魄懂,過(guò)段時(shí)間我再跑沿侈。

四.日志信息及參數(shù)調(diào)整

通常使用默認(rèn)參數(shù)就可以,要根據(jù)日志信息判斷是否需要進(jìn)行參數(shù)調(diào)整市栗,最主要的日志信息是Kmer圖缀拭,從而判斷hifiasm是否能夠正確的找到純合峰,雜合峰的所在位置肃廓。如果hifiasm沒(méi)有找對(duì)純合峰所在的位置智厌,會(huì)導(dǎo)致基因組大小不符合預(yù)期诲泌,

對(duì)于雜合率高的樣本盲赊,一個(gè)常見(jiàn)的問(wèn)題是分型的結(jié)果兩套基因組差別較大,需要為-s設(shè)置更小的值(默認(rèn)值:0.55)敷扫。

還有其它參數(shù)引用ref3哀蘑,xuzhougeng的分享:

如果序列不夠長(zhǎng),片段化明顯葵第,則可以嘗試增加 -D 和 -N, 雖然會(huì)增加運(yùn)行時(shí)間绘迁,但是會(huì)提高重復(fù)區(qū)域的分辨率。如果后續(xù)的Hi-C卒密,或者BioNano發(fā)現(xiàn)hifiasm組裝結(jié)果有比較多錯(cuò)誤組裝缀台,則可以適當(dāng)降低 --purge-max, -s和 -O∠妫或者設(shè)置 -u 關(guān)閉post-join 步驟膛腐,hifiasm通過(guò)該步驟提高組裝的連續(xù)性。

五.參考:

Ref1:Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm

Ref2: https://zhuanlan.zhihu.com/p/283131167

Ref3:http://www.reibang.com/p/6d79690dce5d?ivk_sa=1025883j

Ref4: https://hifiasm.readthedocs.io/en/latest/trio-assembly.html

本文使用 文章同步助手 同步

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末鼎俘,一起剝皮案震驚了整個(gè)濱河市哲身,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌贸伐,老刑警劉巖勘天,帶你破解...
    沈念sama閱讀 211,123評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡脯丝,警方通過(guò)查閱死者的電腦和手機(jī)商膊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)巾钉,“玉大人翘狱,你說(shuō)我怎么就攤上這事∨椴裕” “怎么了潦匈?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,723評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)赚导。 經(jīng)常有香客問(wèn)我茬缩,道長(zhǎng),這世上最難降的妖魔是什么吼旧? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,357評(píng)論 1 283
  • 正文 為了忘掉前任凰锡,我火速辦了婚禮,結(jié)果婚禮上圈暗,老公的妹妹穿的比我還像新娘掂为。我一直安慰自己,他們只是感情好员串,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布勇哗。 她就那樣靜靜地躺著,像睡著了一般寸齐。 火紅的嫁衣襯著肌膚如雪欲诺。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,760評(píng)論 1 289
  • 那天渺鹦,我揣著相機(jī)與錄音扰法,去河邊找鬼。 笑死毅厚,一個(gè)胖子當(dāng)著我的面吹牛塞颁,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播吸耿,決...
    沈念sama閱讀 38,904評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼祠锣,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了珍语?” 一聲冷哼從身側(cè)響起锤岸,我...
    開(kāi)封第一講書(shū)人閱讀 37,672評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎板乙,沒(méi)想到半個(gè)月后是偷,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體拳氢,經(jīng)...
    沈念sama閱讀 44,118評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評(píng)論 2 325
  • 正文 我和宋清朗相戀三年蛋铆,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了馋评。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,599評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡刺啦,死狀恐怖留特,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情玛瘸,我是刑警寧澤蜕青,帶...
    沈念sama閱讀 34,264評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站糊渊,受9級(jí)特大地震影響右核,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜渺绒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評(píng)論 3 312
  • 文/蒙蒙 一贺喝、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧宗兼,春花似錦躏鱼、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,731評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至篡帕,卻和暖如春殖侵,著一層夾襖步出監(jiān)牢的瞬間贸呢,已是汗流浹背镰烧。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,956評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留楞陷,地道東北人怔鳖。 一個(gè)月前我還...
    沈念sama閱讀 46,286評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像固蛾,于是被迫代替她去往敵國(guó)和親结执。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容