作者:hony
審稿:童蒙
編輯:angelica
引言
轉(zhuǎn)眼間肮雨,從事生信工作已數(shù)年有余。在這期間箱玷,一直專注于基因組方面怨规。項目經(jīng)驗較多陌宿,涉及的物種也從微生物擴展到動植物,但其中不乏有各種奇怪的項目波丰,遇到各樣匪夷所思的問題壳坪,也難免有不甚理想的結(jié)果。從中既是體會到了成長的痛苦掰烟,也感受過更多開花結(jié)果的喜悅爽蝴。
猛然間,從內(nèi)心流露出一絲希冀纫骑,想要證明自己在所愛的路上蝎亚,曾經(jīng)努力過,也終有所得先馆。隨后我將記錄生信道路上的點滴发框。給眾多想要做好這方面工作的人一個“彎道超車”的機會,希望大家能從中收獲很多磨隘。
今天將介紹一下組裝分析的整體框架缤底,后續(xù)會逐步細化。
對于還未做過基因組組裝的老師番捂,肯定會有幾個問題要問:
目前基因組都是怎么做的个唧,我的材料要怎么做。
組裝完成后设预,怎么判斷基因組版本的好壞徙歼。
是不是現(xiàn)在腦瓜子嗡嗡的?淡定鳖枕,我來幫你解答心中疑問魄梯。
問題1:目前基因組都是怎么做的,我的材料要怎么做宾符?
-
開啟基因組項目之前的準(zhǔn)備工作
正所謂“知知己知彼酿秸,百戰(zhàn)不殆”。做項目如同作戰(zhàn)一般魏烫,要提前做好功課辣苏。第一個要解決的問題就是材料的基因組多大,復(fù)雜度如何哄褒?因此稀蟋,做基因組之前強烈推薦做survey和流式,確定一下基因組大小和復(fù)雜度呐赡。
在正式進行基因組組裝之前退客,都會進行survey評估,以此衡量基因組的大小、復(fù)雜度和雜合度萌狂。
那么有很多老師問档玻,可不可以不做流式呢?答案是不做也行粥脚,做了更好窃肠。如果基因組不是特別復(fù)雜,survey分析所用的測序數(shù)據(jù)量足夠刷允,結(jié)果理想冤留、準(zhǔn)確。那恭喜您树灶!而一旦出現(xiàn)問題纤怒,在有流式結(jié)果的情況下,就可以用來驗證天通,特別是在survey結(jié)果出現(xiàn)多峰情況泊窘,無法判定主峰之時,流式的結(jié)果顯得尤為重要像寒。
-
該如何選擇測序方案
截至2020年1月份烘豹,目前針對基因組的組裝可采用多種技術(shù)(如下圖)。
圖1 目前各種測序技術(shù)對基因組組裝的貢獻
技術(shù)紛繁復(fù)雜诺祸,為了獲得染色體級別組裝的基因組(基因組Plus版)携悯,如下操作。
1.技術(shù)選擇
- 第一步筷笨,構(gòu)建contig
目前常用的技術(shù)是使用Pacbio和Nanopore技術(shù)進行基因組的contig構(gòu)建憔鬼。
- 第二步, scaffold的構(gòu)建胃夏,可選項
一般采用的技術(shù)都是10X genomics和Bionano技術(shù)轴或。這兩種技術(shù)為可選,究其原因為10X和Bionano是一種將contig連接成scaffold的過程仰禀,簡單理解成將組裝好的contig進行排序和定向照雁,中間加入預(yù)計長度的N。此外答恶,Bionano可預(yù)測gap的長度囊榜,同時兼具對組裝的contig糾錯功能,發(fā)現(xiàn)組裝過程中的錯誤亥宿,從而打開錯誤的位置,以備后續(xù)的正確排序和定向砂沛。
另外要提及的是烫扼,在基因組組裝方面,10X技術(shù)不僅可以用來構(gòu)建scaffold碍庵,同時測序深度足夠的話映企,可以直接進行基因組組裝悟狱,功能很強大的喲。
- 第三步堰氓,Hi-C技術(shù)挤渐,必選項
該技術(shù)稱為染色質(zhì)構(gòu)象捕獲技術(shù),準(zhǔn)確度可以媲美早期的遺傳圖譜双絮。一般而言該技術(shù)98%的材料都需要糾錯浴麻,因此一定要注意選擇合適的合作伙伴,該技術(shù)用在組裝上說囤攀,可謂是省時软免、省心、省錢焚挠。
2.策略選擇
目前是Pacbio或ONT選擇其一膏萧,10X或者Bionano可選也可不選,主要目的是糾錯和把部分contig以gap的形式進行初步連接蝌衔。Hi-C技術(shù)則為必選項榛泛,將contig/scaffold連接成染色體級別。
至此噩斟,目前常用組裝技術(shù)已簡要介紹曹锨。那組裝結(jié)果,是“合格品”還是“殘次品”呢亩冬?我們接著往下看艘希。
問題2:如何評估組裝結(jié)果的好壞?
一般而言硅急,我們關(guān)注以下幾個指標(biāo):1. 基因組大懈蚕怼;2.contig N50营袜;3.回帖率和覆蓋度撒顿;4.BUSCO評估;5.單堿基準(zhǔn)確度荚板。
1.基因組大小
基因組大小一般會跟survey和流式預(yù)估相差不大凤壁,但并非一定如此。這兩種技術(shù)只是一種預(yù)測基因組大小的方法跪另,所以與真實基因組大小可能會存在一定的差異拧抖。最終組裝的基因組大小還會受到材料的雜合度和重復(fù)度的影響。雜合過高免绿,可能把雜合的區(qū)域也一并組裝出唧席,一般組裝結(jié)果會可能偏大。重復(fù)度則需要考慮到測序手段,如果測序的長度能夠跨過重復(fù)區(qū)域淌哟,組裝出的基因組大小不會有很大差異迹卢,如果跨不過去,那很大程度上會組裝的少些徒仓,重復(fù)區(qū)域只能組裝出一部分腐碱。
2.contig N50
contig N50,是組裝結(jié)果最直觀的體現(xiàn)掉弛。以蘋果的基因組文章為例[zhang, et al., 2019]症见,利用Pacbio+Hic的技術(shù),大大提高了基因組的組裝質(zhì)量狰晚,其中一個重要指標(biāo)就是contig N50,比10年發(fā)表在NG上基因組提高了近460倍(contig N50從13k到6.99Mb)筒饰,享受了技術(shù)帶來的福利。
N50是一個值得關(guān)注的指標(biāo)壁晒。下表是桃的基因組文章中統(tǒng)計了部分物種的組裝質(zhì)量瓷们,比較了多個物種的N50的指標(biāo)。
表1 各植物基因組質(zhì)量統(tǒng)計表[Verde, et al., 2013]
那是不是所有材料都會達到如此高水平的組裝效果呢秒咐?
就目前技術(shù)谬晕,針對不是特別復(fù)雜的基因組,contig N50都可以達到Mb級別携取。這種Mb級別的contig長度攒钳,針對基因組組裝后的注釋分析而言,就準(zhǔn)確度和完整度方面足以雷滋。因為對于基因組當(dāng)中不撑,這些contig連接不起來的區(qū)域,一般情況下都是基因組的復(fù)雜區(qū)域晤斩,而該區(qū)域包含基因的概率很低焕檬,因此對基因注釋的影響一般不會很大。
但是澳泵,需要注意的是实愚,并非所有物種組裝后的contig N50都會很高,所以對這個值要理性看待兔辅。在這幾年的實踐中腊敲,我們遇到過同樣的技術(shù)、同樣的數(shù)據(jù)量维苔、同樣的算法碰辅、不同的材料背景,簡單的基因組就是比復(fù)雜基因組裝得好介时。因此基因組的重復(fù)度和雜合度乎赴,都會對基因組的這個指標(biāo)造成或大或小的影響忍法。
因此,需要以“盡信值則不如無值“的理念看到這個問題榕吼。當(dāng)出現(xiàn)異常的時候,積極地去排查勉失,從而才能得到想要的結(jié)果羹蚣。
3.回帖率和覆蓋度
回帖率指的是將同一材料進行二代測序,將二代數(shù)據(jù)比對至組裝出的基因組乱凿,看有多少數(shù)據(jù)可以比對回去顽素。一般情況都能高于90%以上(95%屬于平均水平),覆蓋度也會在90%以上徒蟆。在這里胁出,我們會思考這個數(shù)據(jù)受什么影響呢?
1.基因組中雜合區(qū)域的存在段审。組裝時雜合的區(qū)域被去掉了全蝶,或者沒有裝出來,這個值就會有所降低寺枉。目前都是只裝一套基因組的抑淫。因此只要不是特別低,一般情況下說明雜合區(qū)域的組裝都沒有問題姥闪。
2.二始苇、三代測序技術(shù)本身的缺陷。一般來說筐喳,二代數(shù)據(jù)對基因組的覆蓋度可達95%以上催式,那為啥不是100%呢?由于二代測序技術(shù)本身的缺陷避归,在建庫過程中荣月,經(jīng)過了PCR過程,那么PCR的缺點就需要接受槐脏。高GC喉童、高重復(fù)區(qū)域不容易被擴增出來,那么基因組中的這部分就很大程度上以未覆蓋的區(qū)域存在顿天,所以回帖率不可能達到100%堂氯。
3.技術(shù)的差異。組裝基因組的框架是采用Pacbio技術(shù)牌废,拋開組裝錯誤來說咽白,一般都不會到100%。因為該技術(shù)在測序過程中不經(jīng)歷PCR鸟缕,因而不會像二代測序一般受到PCR的局限晶框,故而可能會測到二代測不到的區(qū)域排抬。由此回帖率也不會達到100%。
4.BUSCO評估
BUSCO是一個核心單拷貝基因庫授段,根據(jù)物種進化關(guān)系(界蹲蒲,門,綱等)構(gòu)建各種單拷貝基因的數(shù)據(jù)庫侵贵。該庫可以用來評估基因組的核心基因是否均組裝出届搁。如下圖所示,已發(fā)表物種都在85%以上窍育。
圖2 基因組和基因的BUSCO評估 [Waterhouse, et al., 2017]
一般情況下卡睦,基因組評估均能達到90%以上。所以這個值的含金量就會降低漱抓,但是就當(dāng)前現(xiàn)狀來說并未有其他更理想的可替代的評估策略表锻。因此,目前大家還都作為組裝后例行評估而采用乞娄。
然而組裝出的基因組效果是層次不齊瞬逊。可能讀者會有疑問补胚,如果我的評估結(jié)果很低的時候該怎么辦呢码耐?不要急,我們來分析一下可能的原因溶其。
物種原因骚腥。BUSCO是根據(jù)目前發(fā)表物種依據(jù)序列相似度而整理出的一些核心基因集。若研究材料已知信息較少瓶逃,那么該分析則會存在偏差束铭,參考意義較小。
如果出現(xiàn)上述情況厢绝,怎么辦呢契沫?可將該物種表達的基因測出,比對到基因組上昔汉,看有多少基因序列能夠以高覆蓋度的形式存在懈万。如果95%以上的EST都可以90%的覆蓋度比對回去,那組裝結(jié)果一定程度上是可信的靶病。
第二種則是組裝結(jié)果不良会通。如果二代數(shù)據(jù)回帖率評估不過關(guān)、比對率較低娄周,側(cè)面說明有很多區(qū)域沒有組裝出來而導(dǎo)致組裝效果差涕侈。
5.單堿基準(zhǔn)確度
一般這種方法針對二倍體材料可以采用。將在糾錯階段未使用的另一批二代數(shù)據(jù)比對回基因組煤辨,進行SNP calling裳涛。對于二倍體而言木张,某些位點應(yīng)該最多有兩種堿基型,如果鑒定到的變異位點ref的類型沒有數(shù)據(jù)支持端三,或者該位點有多種堿基類型舷礼,那該位點很大概率上是有問題的。
結(jié)語
上述長篇大論相信大家對于組裝整體框架有了一個感官的了解和認識郊闯,在此恭喜大家且轨,入門了。此時是否有更多的疑惑溢出虚婿,比如 Pacbio和Nanopore如何選擇呢?如何構(gòu)建染色體級別的染色體呢泳挥?別急然痊,欲知后事如何,且看下回分解屉符。
參考:
Verde I, Abbott A G, Scalabrin S, et al. The high-quality draft genome of peach (Prunus persica) identifies unique patterns of genetic diversity, domestication and genome evolution[J]. Nature genetics, 2013, 45(5): 487.
Waterhouse R M, Seppey M, Sim?o F A, et al. BUSCO applications from quality assessments to gene prediction and phylogenomics[J]. Molecular biology and evolution, 2017, 35(3): 543-548.
Zhang L, Hu J, Han X, et al. A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour[J]. Nature communications, 2019, 10(1): 1494.
作者:hony
審稿:童蒙
編輯:angelica