隨著測(cè)序技術(shù)的發(fā)展及新的組裝工具的不斷開(kāi)發(fā)應(yīng)用,基因組denovo測(cè)序及組裝進(jìn)入了Genomic2.0時(shí)代舍悯,我認(rèn)為Genomic2.0時(shí)代的標(biāo)志有兩點(diǎn):1. 三代長(zhǎng)讀長(zhǎng)測(cè)序及Hi-C測(cè)序技術(shù)在基因組denovo測(cè)序上的用;2.組裝方法上睡雇,Canu和Hifisam等工具不斷被開(kāi)發(fā)應(yīng)用出來(lái)萌衬,有的工具極大的降低了算力要求,有的工具能夠?qū)⒒蚪M組裝到單體型水平它抱,也就是將同源或非同源的兩套多套染色體分別組裝出來(lái)秕豫,因此,最近幾年,不僅很多物種的基因組被公布混移,而早些年間即使被公布了的基因組祠墅,也都利用新的測(cè)序及組裝策略進(jìn)行了更新。今天我先學(xué)習(xí)Hifiasm工具歌径。
一.Hifiasm工具簡(jiǎn)介:
Hifiasm是哈佛大學(xué)李恒團(tuán)隊(duì)提出的一種全新的單倍體基因組組裝算法, 2021年2月份發(fā)表在Nature Methods上[ref1]毁嗦。它可以多線程運(yùn)行,對(duì)計(jì)算資源消耗教少回铛,組裝快狗准,結(jié)果準(zhǔn)確性和連續(xù)性較高。Hifiasm (Hi-C) 針對(duì)PacBio HiFi (High-Fidelity) 長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)和Hi-C (High-Throughput Chromatin Confirmation Capture) 測(cè)序技術(shù)進(jìn)行了全新的設(shè)計(jì)勺届。該算法結(jié)合了HiFi數(shù)據(jù)中精確的局部單倍型信息和Hi-C數(shù)據(jù)中的長(zhǎng)距離互作用信息以達(dá)到全局定相 (phasing),從而獲得不依賴(lài)親本信息的染色體級(jí)別的單倍型組裝結(jié)果娶耍。為了進(jìn)一步提高組裝質(zhì)量免姿,作者充分利用了組裝圖中的結(jié)構(gòu)信息,以及其前期研究中的Graph-binning等策略榕酒。
二.算法簡(jiǎn)介
Hifiasm組裝主要分為三步胚膊。
Step1: 測(cè)序錯(cuò)誤堿基糾錯(cuò)
盡管Hifi reads準(zhǔn)確性已經(jīng)很高了,但仍然會(huì)有部分測(cè)序(<1%)錯(cuò)誤想鹰,Hifiasm會(huì)先通過(guò)所有序列的相互比對(duì)(all vs all)紊婉,對(duì)測(cè)序錯(cuò)誤進(jìn)行糾正。在比對(duì)中辑舷,基于reads間的overlap關(guān)系喻犁,如果同一個(gè)位置的reads出現(xiàn)兩種堿基類(lèi)型,且每個(gè)堿基類(lèi)型至少有3條reads支持何缓,那么這個(gè)位置會(huì)被當(dāng)作雜合位點(diǎn)肢础,即一個(gè)SNP被保留,否則碌廓,視作測(cè)序錯(cuò)誤传轰,將被糾正(默認(rèn)三輪糾錯(cuò))。值得注意的是谷婆,Hifiasm只使用相同單倍型的數(shù)據(jù)進(jìn)行糾錯(cuò)慨蛙,從而避免過(guò)度校正,保留來(lái)自不同單倍型的雜合變異信息纪挎。在這一步期贫,Hifiasm可以對(duì)雜合SNP進(jìn)行定相(phasing)。
Step2: 構(gòu)建分型字符串圖(phased string graph)
根據(jù)序列之間的重疊關(guān)系异袄,構(gòu)建分型字符串圖string-graph唯灵。Hifiasm以reads作為頂點(diǎn),一致的overlap重疊區(qū)域作為邊隙轻,保留全部的氣泡(bubble)即保留了所有的雜合位點(diǎn)(圖1)埠帕,因而可以保留下來(lái)基因組上全部的單倍型信息垢揩,以便后續(xù)對(duì)于單倍型的處理。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖1. Hifiasm組裝算法示意圖
Step3: 單倍體分型組裝
如果沒(méi)有額外的信息敛瓷,Hifiasm在輸出序列時(shí)會(huì)任意選擇氣泡的一側(cè)構(gòu)建初級(jí)組裝叁巨,刪除多余的單倍體,輸出結(jié)果類(lèi)似Falcon unzip和HiCanu的主要組裝結(jié)果(primary contigs)呐籽。優(yōu)于HiCanu需要依賴(lài)第三方工具去除dups序列锋勺,Hifiasm內(nèi)部實(shí)現(xiàn)了去除dups的算法優(yōu)化,簡(jiǎn)化了流程狡蝶。如果有來(lái)自父母本的測(cè)序數(shù)據(jù)庶橱,Hifiasam可以利用親本特有的Kmer在圖上識(shí)別出了父母本的序列,從而得到來(lái)自父母本的單倍體基因組序列贪惹。
在基于父母本特有Kmer時(shí)苏章,區(qū)別于TrioCanu軟件的trio-binning策略,先將三代reads區(qū)分為來(lái)自父本奏瞬、母本以及部分無(wú)法區(qū)分的reads后對(duì)區(qū)分后的reads分別組裝獲得了子代的兩套單倍體序列枫绅,Hifiasm使用了graph-binning的策略對(duì)此進(jìn)行了改進(jìn)。它不預(yù)先劃分reads硼端,而是在string-graph中對(duì)reads進(jìn)行標(biāo)記并淋。因此在一個(gè)較長(zhǎng)的bubble中,即使只有一小部分reads被正確標(biāo)記珍昨,hifiasm也可以正確地將其定相县耽。通過(guò)這種方式,可以避免因?yàn)閞eads劃分錯(cuò)誤而引入的錯(cuò)誤位點(diǎn)和組裝斷裂镣典,從而獲得更完整和更準(zhǔn)確的單倍體組裝結(jié)果[ref2]酬诀。
三.軟件使用
1.軟件及測(cè)試數(shù)據(jù)下載
Github鏈接:https://github.com/chhylp123/hifiasm;
下載后make編譯骆撇;
下載測(cè)試數(shù)據(jù):
wget https://github.com/chhylp123/hifiasm/releases/download/v0.7/chr11-2M.fa.gz
2.運(yùn)行程序瞒御;
hifiasm使用時(shí)根據(jù)已有的數(shù)據(jù)分為三種模式: 2.1.只有HiFi數(shù)據(jù)(基本)模式; 2.2.有Hi-C數(shù)據(jù)的Hi-C模式神郊;2.3.有雙親二代測(cè)序的Trio-binning模式肴裙。
2.1# Run on test data,基本模式,
./hifiasm -o test -t4 -f0 chr11-2M.fa.gz 2> test.log
awk '/^S/{print ">"$2;print $3}' test.bp.p_ctg.gfa > test.p_ctg.fa? # get primary contigs in FASTA
參數(shù)解釋?zhuān)?o 輸出文件前綴涌乳, -f0 小數(shù)據(jù)使用蜻懦,-t 線程數(shù)
awk提取主要的contig,這句話(huà)意思是對(duì)S開(kāi)頭行處理,提取序列名稱(chēng)$2和序列$3,獲得超長(zhǎng)的contig序列夕晓;
可選參數(shù)--primary: 不組裝分型,只有primary和alternate的組裝結(jié)果
運(yùn)行完成后需要關(guān)注的結(jié)果?(prefix表示前綴):
test.bp.hap1.p_ctg.gfa: haplotype1的部分分型的contig graph;
test.bp.hap2.p_ctg.gfa: haplotype2的部分分型的contig graph;
test.bp.p_ctg.gfa (Primary assembly contig graph):主要contig的assembly graph, 對(duì)于低雜合度物種來(lái)說(shuō)宛乃,優(yōu)先選擇該文件;對(duì)于高雜合度物種,該結(jié)果代表其中一個(gè)單倍型征炼;
test.bp.p_utg.gfa(Haplotype-resolved processed unitig graph without small bubbles): 無(wú)小氣泡的單倍型解析, 在raw unitig graph基礎(chǔ)上過(guò)濾小的bubble析既,去掉由于體細(xì)胞突變和數(shù)據(jù)背景噪音引起的small bubbles(這個(gè)并不是真正的單體型信息),對(duì)于高度雜合基因組物種優(yōu)先選擇這個(gè)結(jié)果;
test.bp.r_utg.gfa(haplotype-resolved raw unitig graph in GFA format): 保留了所有的單倍型信息谆奥,包括體細(xì)胞突變和重復(fù)測(cè)序錯(cuò)誤眼坏;
*.bin文件:運(yùn)行時(shí)的糾錯(cuò)和相互比對(duì)的結(jié)果;
其它結(jié)果:有的網(wǎng)友還提到了一個(gè)結(jié)果酸些,我這次沒(méi)有生成:
prefix.a_ctg.gfa(Alternate assembly contig graph):組裝出來(lái)的另一套單體型基因組結(jié)果宰译。
對(duì)于2.2.有Hi-C數(shù)據(jù)的Hi-C模式;2.3.有雙親二代測(cè)序的Trio-binning模式魄懂,過(guò)段時(shí)間我再跑沿侈。
四.日志信息及參數(shù)調(diào)整
通常使用默認(rèn)參數(shù)就可以,要根據(jù)日志信息判斷是否需要進(jìn)行參數(shù)調(diào)整市栗,最主要的日志信息是Kmer圖缀拭,從而判斷hifiasm是否能夠正確的找到純合峰,雜合峰的所在位置肃廓。如果hifiasm沒(méi)有找對(duì)純合峰所在的位置智厌,會(huì)導(dǎo)致基因組大小不符合預(yù)期诲泌,
對(duì)于雜合率高的樣本盲赊,一個(gè)常見(jiàn)的問(wèn)題是分型的結(jié)果兩套基因組差別較大,需要為-s設(shè)置更小的值(默認(rèn)值:0.55)敷扫。
還有其它參數(shù)引用ref3哀蘑,xuzhougeng的分享:
如果序列不夠長(zhǎng),片段化明顯葵第,則可以嘗試增加 -D 和 -N, 雖然會(huì)增加運(yùn)行時(shí)間绘迁,但是會(huì)提高重復(fù)區(qū)域的分辨率。如果后續(xù)的Hi-C卒密,或者BioNano發(fā)現(xiàn)hifiasm組裝結(jié)果有比較多錯(cuò)誤組裝缀台,則可以適當(dāng)降低 --purge-max, -s和 -O∠妫或者設(shè)置 -u 關(guān)閉post-join 步驟膛腐,hifiasm通過(guò)該步驟提高組裝的連續(xù)性。
五.參考:
Ref1:Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm
Ref2: https://zhuanlan.zhihu.com/p/283131167
Ref3:http://www.reibang.com/p/6d79690dce5d?ivk_sa=1025883j
Ref4: https://hifiasm.readthedocs.io/en/latest/trio-assembly.html
本文使用 文章同步助手 同步