全基因組測序的前世今生

作者:Arno
審稿:童蒙
編輯:Amethyst

基因組代表了遺傳研究的起點溢吻。自從發(fā)現(xiàn)DNA結構以來展箱,科學家們一直致力于以精確的方式確定堿基的排列順序沼溜。從1965年開始第一個酵母的片段測序到現(xiàn)在漏麦,測序的讀長依然不足以覆蓋大多數(shù)物種整個基因組的大小,因此基因組組裝技術也一直是不斷研發(fā)改進的關鍵技術艘策。本文系統(tǒng)的回顧了整個基因組測序相關的重要技術蹈胡、主要里程碑以及當前三代測序技術的優(yōu)勢和挑戰(zhàn)。

基因組測序回顧

下圖展示了基因組組裝的各個重要的里程碑朋蔫。不同的顏色背景分別展示了從最早基于核苷酸的早期測序到基于Sanger的鳥槍法測序罚渐,到大規(guī)模的二代NGS測序,再到現(xiàn)在的三代TGS測序的主要組裝成就驯妄。歷時13年(1990-2003)耗資30億美元的人類基因組計劃(HGP)毫無疑問加速了基因組組裝的進程荷并,NGS衍生了一系列新穎的應用,包括全外顯子組測序青扔、RNA-seq源织、ChIp-seq、WGBS-seq等等微猖,極大的促進了基因組測序的應用谈息。2010年之后,全新的技術開啟了第三代測序TGS—長讀長測序的時代凛剥,長讀長測序極大的增加了基因組組裝的優(yōu)勢侠仇,基因組組裝的連續(xù)性大大提高。

基因組組裝里程牌

三代測序技術及組裝

1.三代測序技術及優(yōu)勢

TGS的定義可能會有所不同,通常是指無需擴增直接對單個DNA分子進行測序的技術逻炊。這些技術產(chǎn)生比NGS更長的reads互亮,每個reads可以跨越幾到幾百kbps的長度。10X Genomics linked reads 以及Hi-C等NGS的技術可以使得基因組組裝連續(xù)度有一定的提升余素,但是TGS的出現(xiàn)豹休,使得組裝連續(xù)度的提升變得更加容易。

目前應用比較多的三代測序技術溺森,一種是Pacific Biosciences(PaciBio)公司完善和商業(yè)化的單分子實時測序技術(SMRT),另一種是Oxford Nanopore Technologies(ONT)公司商業(yè)化的納米孔測序技術(Nanopore)慕爬。SMRT測序技術應用了邊合成邊測序的原理,以SMRT芯片為測序載體屏积,載體上分布上百萬個納米級的零模波導孔(ZMW),每個ZMW中聚合酶捕獲文庫DNA序列磅甩,通過熒光激發(fā)dNTP炊林,從而根據(jù)捕獲熒光信號的長短,進行邊合成邊測序卷要。目前SMRT測序有兩種模式渣聚,一種是Continuous Long Read(CLR)模式,一種是Circular Consensus Sequences(CCS)模式僧叉。CLR的讀長更長奕枝,但是堿基測序的錯誤率較高(準確率90%遠低于NGS的99.9%),但是測序錯誤是完全隨機的瓶堕,CCS模式即利用這種特性隘道,通過自我校正的方法將測序的錯誤率降低到了NGS的水平,與此同時相比CLR犧牲了測序讀長郎笆。

PacBio SMRT測序原理

納米孔測序使用插入人工脂質雙層的轉基因細菌納米孔谭梗,放置在幾十微米寬的單個微孔中并排列在傳感器芯片上, 當每條單鏈 DNA 穿過一個通道時宛蚓,它會擾亂流過孔的電流激捏,并由半導體傳感器測量變化。不同的堿基以略微不同的方式破壞電場凄吏,記錄的電流變化可以轉化為 DNA 序列远舅。ONT可以讀取的長度更長,取決于制備的DNA文庫的大小痕钢,但是其堿基的準確率難以校正图柏,測序的錯誤率也較高。

ONT測序

三代測序技術盖喷,由于其超長的讀長爆办,可以有效的跨越基因組中復雜的區(qū)域,從而顯著提高基因組組裝的質量课梳。此外距辆,在二倍體(多倍體)基因組中余佃,TGS可以更容易的生成單倍型的長定相塊,區(qū)分來源于父母本的遺傳信息跨算,避免嵌合的基因組爆土,有助于準確的進行包括高度重復區(qū)域的長變異、大型的插入缺失诸蚕、重復步势、倒位和易位等結構變異(SV)檢測。同時三代測序還可以通過PacBio的酶動力學反應或Nanopore中的離子電流信號來實現(xiàn)表觀遺傳的測序背犯。

2.三代測序組裝軟件

FALCON是PacBio直接開發(fā)并于2013年發(fā)布的基于三代數(shù)據(jù)的De novo組裝軟件坏瘩,它繼承于分級基因組裝配(HGAP)流程,首先進行序列自身的比對漠魏,以校正三代測序的reads準確度倔矾,然后使用de Brujin圖(DBG)構建重疊群,如下圖所示柱锹。FALCON可以識別二倍體序列哪自,可以輸出包含位點變異信息的等位基因序列(alternative contigs / a-contigs)和主要的基因組序列(primary contig / p-contig)。FALCON-Unzip是FALCON的升級版禁熏,可以利用初始組裝中鑒定的雜合SNP來獲得高度定相的單倍型壤巷,再利用Hi-C數(shù)據(jù)映射到組裝中,利用haplotigs和共有序列瞧毙,將兩個單倍體完全組裝出來胧华。

染色體級別的基因組組裝

Canu是起源于Celera Assember的三代組裝軟件,可以用于PacBio和Nanopore兩家公司得到的測序結果升筏,其采用Overlap-Layout-Consensus(OLC)的方式進行組裝撑柔,即利用長序列與序列之間的交疊進行組裝,主要分為糾錯您访、修剪和組裝三大步铅忿。對于FALCON來說,雖然經(jīng)過組裝之前的糾錯灵汪,相比短讀長有比較大的改進檀训,但其組裝出來的單倍型仍然是嵌合的,重復序列經(jīng)常被折疊到一個序列中享言,為了解決這個問題峻凫,2018年發(fā)布的新版本的軟件TrioCanu可以利用親本信息來完全定相單倍型,其利用父母本的二代illumina數(shù)據(jù)在組裝之前根據(jù)不同的SNP對組裝樣本的序列進行分類览露,然后進行獨立組裝出兩套來源于親本的單倍型荧琼,因此TrioCanu尤其適合于高雜合的基因組組裝。

Canu的計算是比較慢的,HiFiasm是近兩年開發(fā)的一個用于PacBio HiFi reads的快速單倍型解析從頭組裝軟件命锄,它可以在單個機器上多線程運行堰乔,在較少的資源消耗下快速完成基因組的組裝,同時也可以在給定親本數(shù)據(jù)的情況下脐恩,實現(xiàn)子代來自不同親本的單倍體組裝镐侯。但是其單倍型分型的準確性略差于TrioCanu。

組裝結果的準確性驶冒,計算工作的優(yōu)化都是組裝需要考慮的方面苟翻,目前已開發(fā)出多種從頭組裝的軟件,除以上介紹的軟件外骗污,還有Wtdbg2崇猫、Flye、Peregrine需忿、Shasta等等邓尤,這幾個軟件的速度都比較快,但是其組裝質量可能沒那么準確贴谎。所有的基因組組裝方法和軟件都有優(yōu)點和缺點,實際應用中可以考慮實際組裝物種的情況季稳,以及測序策略擅这、組裝目標,綜合考量選取準確優(yōu)秀的組裝軟件景鼠。

基因組組裝掛載

對于大基因組來說仲翎,即便長讀長的reads也不能跨越整條染色體序列,需要其它連鎖信息來定位和排序組裝的重疊群铛漓,以將基因組組裝提升到支架(Scanfold)水平溯香。Bionano光學圖譜是一種單分子DNA技術,該方法基于DNA標記浓恶,生成遺傳光學圖譜玫坛,然后結合初始組裝的重疊群,可以進一步對重疊群進行定相和排序包晰,產(chǎn)生更長的支架湿镀。除此之外,Bionano光學圖譜還可以用于SV和甲基化的分析伐憾。

另外一種定向和排序重疊群的技術是基于染色體構象捕獲(3C)的技術(Hi-C)勉痴。Hi-C技術首先使用甲醛將染色體空間構象固定之后,再利用限制性內切酶處理DNA树肃,并重新連接空間上臨近的DNA分子蒸矛,該技術利用基因組的空間信息,組合重疊群以及支架將其分配到染色體水平。Hi-C目前是在大基因組中實現(xiàn)染色體水平支架的唯一方法雏掠,但往往不如Bionano支架那么保守斩祭,染色質不可預測的折疊導致染色體遠處區(qū)域的相互作用,可能導致組裝錯誤磁玉,例如人工倒位停忿、同一染色體內的支架錯位或不同染色體的支架錯配。綜合利用不同的技術可以更好地糾正這些錯誤蚊伞,甚至可以獲得整個染色體的端粒到端粒組裝 席赂。

總結

基因組組裝的方式一直在不斷創(chuàng)新、優(yōu)化时迫。通過不斷改進現(xiàn)有技術并引入全新的 DNA 測序方法和生物信息學工具颅停,組裝的質量一直在提升。NGS 引入的高通量能力和 TGS 提供的更高質量序列掠拳,最終使復雜的基因組也可用于全基因組研究癞揉。人類遺傳學研究,包括人口基因組學溺欧、遺傳疾病定位和診斷喊熟、個性化醫(yī)療計劃、癌癥研究和產(chǎn)前檢測姐刁,已經(jīng)受益于過去十年基因組測序和組裝的進步芥牌。同樣,這些方法越來越多地用于非模式生物以了解生態(tài)和進化過程聂使。對參考基因組測序和組裝的承諾現(xiàn)已從單一物種項目擴大到多物種協(xié)調工作壁拉,旨在使用 NGS 和 TGS 方法組合為大多數(shù)生物體產(chǎn)生高質量基因組的項目目前正在進行中。

參考文獻

Giani AM, Gallo GR, Gianfranceschi L, Formenti G. Long walk to genomics: History and current approaches to genome sequencing and assembly. Comput Struct Biotechnol J. 2019 Nov 17;18:9-19. doi: 10.1016/j.csbj.2019.11.002. PMID: 31890139; PMCID: PMC6926122.

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末柏靶,一起剝皮案震驚了整個濱河市弃理,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌屎蜓,老刑警劉巖痘昌,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異梆靖,居然都是意外死亡控汉,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門返吻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來姑子,“玉大人,你說我怎么就攤上這事测僵〗钟樱” “怎么了谢翎?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵,是天一觀的道長沐旨。 經(jīng)常有香客問我森逮,道長,這世上最難降的妖魔是什么磁携? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任褒侧,我火速辦了婚禮,結果婚禮上谊迄,老公的妹妹穿的比我還像新娘闷供。我一直安慰自己,他們只是感情好统诺,可當我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布歪脏。 她就那樣靜靜地躺著,像睡著了一般粮呢。 火紅的嫁衣襯著肌膚如雪婿失。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天啄寡,我揣著相機與錄音豪硅,去河邊找鬼。 笑死挺物,一個胖子當著我的面吹牛舟误,可吹牛的內容都是我干的。 我是一名探鬼主播姻乓,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼眯牧!你這毒婦竟也來了蹋岩?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤学少,失蹤者是張志新(化名)和其女友劉穎剪个,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體版确,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡扣囊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了绒疗。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片侵歇。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖吓蘑,靈堂內的尸體忽然破棺而出惕虑,到底是詐尸還是另有隱情坟冲,我是刑警寧澤,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布溃蔫,位于F島的核電站健提,受9級特大地震影響,放射性物質發(fā)生泄漏伟叛。R本人自食惡果不足惜私痹,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望统刮。 院中可真熱鬧紊遵,春花似錦、人聲如沸网沾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽辉哥。三九已至桦山,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間醋旦,已是汗流浹背恒水。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留饲齐,地道東北人钉凌。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像捂人,于是被迫代替她去往敵國和親御雕。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內容