一粒蜈、什么是泛基因組?
2005年旗国,Tettelin等人提出了微生物泛基因組概念(pangenome枯怖,pan源自希臘語‘παν’,全部的意思)能曾,泛基因組即度硝。2009 年,Li等人首次采用新全基因組組裝方法對多個(gè)人類個(gè)體基因組進(jìn)行拼接寿冕,發(fā)現(xiàn)了個(gè)體獨(dú)有的DNA序列和功能基因蕊程,并首次提出了“人類泛基因組”的概念,即人類群體基因序列的總和驼唱。2009 年泛基因組測序首次應(yīng)用于人類基因組學(xué)研究藻茂;2013 年泛基因組測序應(yīng)用于動植物研究領(lǐng)域。
結(jié)構(gòu)變異中的存在/缺失變化(PAVs: Present/absent variations)是泛基因組的重點(diǎn)研究對象曙蒸。
泛基因組進(jìn)而可以分為捌治,(core genes)和
(variable genes)岗钩。
核心基因:指的是纽窟,在所有動植物個(gè)體或者菌株中都同時(shí)存在的基因。
可變基因:是指兼吓,在一個(gè)或者一個(gè)以上的動植物個(gè)體或者菌株中存在的基因臂港,它們不是固定的,是多變的。如果某個(gè)基因审孽,僅存在某一個(gè)動植物個(gè)體或者菌株中县袱,該基因還可以細(xì)分為品系或者菌株特有基因。
功能上的差異:
核心基因:一般控制著生命體基本新陳代謝的功能佑力,因?yàn)樗鼈儚V泛存在所有個(gè)體中式散,是不可缺少的。
可變基因:往往只存在于一部分個(gè)體中打颤,可能就是導(dǎo)致個(gè)體產(chǎn)生特異性的性狀(抗病性暴拄,抗寒性等重要農(nóng)藝性狀)的原因。
二编饺、為什么要開展泛基因組研究乖篷?
在漫長的進(jìn)化過程中,由于地域因素透且,環(huán)境因素等的影響撕蔼,每個(gè)個(gè)體都形成了極其特別的遺傳性狀,單一個(gè)體的參考基因組已經(jīng)不能涵蓋這個(gè)物種的所有遺傳信息秽誊,換句話來說鲸沮,就是如果只使用單一的參考基因組進(jìn)行遺傳馴化變異的研究,你可能會丟失掉很多有意義的基因內(nèi)容锅论,因?yàn)楹芏嗒?dú)特的序列都不在參考基因組上诉探。
另外,由于基因測序的價(jià)格變得更加廉價(jià)棍厌,為近年來火爆的泛基因組的研究提供了可能性肾胯。
三、技術(shù)路線
目前比較流行的研究方法有三種:
1. 不基于參考基因組的重頭組裝
這是構(gòu)建泛基因組或者參考基因組最經(jīng)典的方法耘纱,分別對多個(gè)個(gè)體分別進(jìn)行從頭組裝并且注釋敬肚,然后將所得的每個(gè)個(gè)體的組裝好的序列與參考序列基因組進(jìn)行互相比對,找出比對不上的區(qū)域或者基因束析,這些個(gè)體獨(dú)特的基因就是可變基因艳馒。
優(yōu)點(diǎn):不基于參考基因組,可以避免基于基因組方法中由于比對所產(chǎn)生的誤差员寇。另外因?yàn)槭菍γ總€(gè)個(gè)體進(jìn)行重頭組裝弄慰,所以該方法可以進(jìn)一步用于個(gè)體之間CNV的研究。
缺點(diǎn):因?yàn)樾枰獙γ恳粋€(gè)個(gè)體進(jìn)行de novo assembly蝶锋,然后還需要全基因組比對陆爽,所以該方法需要比較大的計(jì)算資源,需要比較高的測序深度(50X>)或者M(jìn)ate-pair序列進(jìn)而增加了預(yù)算扳缕,以確保重頭組裝的準(zhǔn)確性慌闭。這方法需要對每個(gè)個(gè)體進(jìn)行組裝并且注釋别威,對于含有上百個(gè)個(gè)體的泛基因組研究不太適合對于植物基因組的從頭組裝,這種方法對于小麥這種大型復(fù)雜的植物也不太適合驴剔。
2. 基于參考基因組的迭代組裝
相當(dāng)于一種迭代的方式省古,分別將每一個(gè)個(gè)體的reads先比對到參考基因組中,然后找出沒有比對上的部分進(jìn)行組裝丧失,得到新的基因序列進(jìn)而擴(kuò)展原有的參考序列豺妓。一步一步這樣迭代,直到所有的個(gè)體都處理完布讹,最后建立起泛基因組科侈,再進(jìn)行注釋。另外這種方法需要的測序深度較低炒事,因?yàn)檫@種迭代的方法還可以將遺傳類型較接近的個(gè)體pool在一起進(jìn)行迭代組裝臀栈,進(jìn)而增加組裝的深度。
優(yōu)點(diǎn):因?yàn)橹皇墙M裝沒有比對上的部分挠乳,相對需要更少電腦資源权薯,比較適合構(gòu)建群體個(gè)體數(shù)目比較多的,基因組相對較大的植物基因組睡扬。
缺點(diǎn):這種方法可能會產(chǎn)生更多的小片段盟蚣,并且無法探究每個(gè)個(gè)體的CNV。
3. 基于參考基因組的重頭組裝
這種方法又被稱為"map to pan"方法卖怜,這種方法是先進(jìn)行de novo組裝屎开,然后將組裝好的每個(gè)個(gè)體的基因序列比對到參考基因組中,找出沒有比對上的序列马靠,進(jìn)而將所有沒有比對上的序列找出并構(gòu)建出泛基因組奄抽。這種方法也比較適合大規(guī)模的群體,但是如果你所研究的物種基因組很大的話甩鳄,該方法也需要耗費(fèi)大量的計(jì)算機(jī)資源逞度。
四、應(yīng)用
泛基因組測序是運(yùn)用高通量測序及生物信息分析手段妙啃,針對不同亞種/個(gè)體材料進(jìn)行測序及泛基因組組裝档泽,構(gòu)建泛基因組圖譜,豐富該物種的遺傳信息揖赴。泛基因組測序不僅可以獲得多個(gè)基因組馆匿,完善該物種的基因集,還可以獲得種群甚至個(gè)體特有的DNA序列和功能基因信息燥滑,為系統(tǒng)進(jìn)化分析及功能生物學(xué)研究奠定基礎(chǔ)渐北。
泛基因組也可以看作是對重測序數(shù)據(jù)的一種挖掘,挖掘發(fā)現(xiàn)每一個(gè)個(gè)體中獨(dú)特的基因突倍,特別是如果你構(gòu)建的泛基因組中含有野生種腔稀,這能夠對野生種的種質(zhì)資源進(jìn)行進(jìn)一步挖掘和分析盆昙。
選擇不同亞種材料進(jìn)行泛基因組測序羽历,可以研究物種的起源及演化等重要生物學(xué)問題焊虏,特別近年來發(fā)現(xiàn)PAVs也能看作為其中一種marker,基于PAVs也能對物種進(jìn)行遺傳進(jìn)化的關(guān)聯(lián)分析秕磷;選擇野生種和栽培種等不同特性的種質(zhì)資源進(jìn)行泛基因組測序诵闭,可以發(fā)掘重要性狀相關(guān)的基因資源,為科學(xué)育種提供指導(dǎo)澎嚣;選擇不同生態(tài)地理類型的種質(zhì)資源進(jìn)行泛基因組測序疏尿,可以開展物種的適應(yīng)性進(jìn)化,外來物種入侵性等熱門科學(xué)問題的研究易桃,為分子生態(tài)學(xué)等學(xué)科提供新的研究手段褥琐。
- 泛基因組還可以應(yīng)用到尋找snps。
(1)對比單一的reference基因晤郑,可以有效提高可發(fā)現(xiàn)的snps數(shù)量
(2)用泛基因組去calling snps 意味著你可以節(jié)省很多電腦資源和分析時(shí)間敌呈。(正常snap calling需要比對到不同的個(gè)體上,但如果通過泛基因組去calling snps造寝,就可以一步到位磕洪,因?yàn)檫@個(gè)pangenome 相當(dāng)于所有個(gè)體的集合。另外诫龙,這也意味著析显,你得出的snps 組不需要整合(傳統(tǒng)的snp calling需要整合,因?yàn)樾枰葘Φ讲煌瑐€(gè)體上)
(3)還有一個(gè)好處就是签赃,因?yàn)閜angenome 包括了一步presence/absence variations 的分析谷异,我們可以區(qū)別出這種snp是屬于核心基因的,還是屬于可變基因的锦聊。然后晰绎,再結(jié)合你表現(xiàn)型的數(shù)據(jù),這對利用snp提高農(nóng)作物產(chǎn)量是很有意義的括丁。
五荞下、局限性
1. 技術(shù)的局限性
目前,大多數(shù)的植物泛基因組分析中使用的都是基于短讀長的二代測序數(shù)據(jù)史飞。但是尖昏,短讀長序列的一個(gè)缺點(diǎn)是對重復(fù)序列區(qū)域的組裝并不理想。而現(xiàn)有的植物泛基因組分析結(jié)果表明构资,非參考基因組序列很大一部分是由重復(fù)序列組成抽诉。所以,目前的泛基因組序列大都是一些長度較短的吐绵,高度碎片化的序列構(gòu)成迹淌。一方面河绽,這些重復(fù)序列的組裝結(jié)果并不準(zhǔn)確,另外一方面唉窃,組裝出來的序列中的基因都是片段化的耙饰。非完整的基因序列為下游的基因有無變異分析帶來偏差,無法得到正確的基因有無變異圖譜纹份。
相比之下苟跪,基于單分子實(shí)時(shí)的第三代測序技術(shù)能夠產(chǎn)生較長的讀長,能夠跨過某些重復(fù)序列蔓涧,從而在一定程度上解決泛基因組分析中的重復(fù)序列問題件已,從而產(chǎn)生更加精準(zhǔn)的基因有無變異圖譜。但是元暴,目前來講篷扩,三代測序技術(shù)測序錯(cuò)誤率較高,通量較低茉盏,價(jià)格較貴鉴未,還無法應(yīng)用于大規(guī)模的群體遺傳學(xué)研究中。隨著技術(shù)的不斷發(fā)展援岩,一些技術(shù)壁壘被突破歼狼,如目前的CCS長讀長序列的測序準(zhǔn)確度已經(jīng)超過99.8%(Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome,2019享怀,NBT)羽峰,這為準(zhǔn)確獲取個(gè)體基因組的序列提供了技術(shù)的支持。相信隨著三代測序技術(shù)的發(fā)展和普及添瓷,我們可以構(gòu)建更加完整的植物泛基因組序列梅屉。
2. 應(yīng)用的局限性
泛基因組分析包括兩個(gè)主要的內(nèi)容,一是構(gòu)建泛基因組序列鳞贷,二是基于泛基因組的基因有無變異分析坯汤,建立泛基因組序列的基因數(shù)據(jù)庫,及后續(xù)的應(yīng)用研究搀愧。目前惰聂,大多數(shù)的植物泛基因組研究的重點(diǎn)放在第一部分。
在第二部分中咱筛,目前大多泛基因組的應(yīng)用就是構(gòu)建一個(gè)泛基因的數(shù)據(jù)庫搓幌。數(shù)據(jù)庫里面主要是包含了新發(fā)現(xiàn)的基因的基本信息,還有這些基因與RNA-seq比對的信息迅箩,在不同群體中基因出現(xiàn)的頻率等相關(guān)信息溉愁。泛基因組中,新發(fā)現(xiàn)(新組裝出來參考序列沒有)的基因可以進(jìn)一步用于功能分析饲趋,下游的濕實(shí)驗(yàn)通路研究拐揭,基因選擇育種等一些的應(yīng)用中撤蟆。
但實(shí)際上建立數(shù)據(jù)庫只是泛基因最基本的應(yīng)用,對于實(shí)際的育種幫助還是處于很基礎(chǔ)的階段堂污。 為什么這樣說呢家肯?在上次番茄泛基因組發(fā)表之后,各路植物基因?qū)W術(shù)界的大牛都在推特上議論一 番敷鸦。其中有大牛一針見血的提出了目前植物泛基因研究最大的局限息楔。他說道“他所認(rèn)同的泛基因組寝贡,并不是單純的將成百上千個(gè)個(gè)體進(jìn)行測序比對扒披,然后將所有比對不上參考基因組的 reads組裝成一推新的contigs,然后將其和參考基因組拼接成泛基因組圃泡。這些新的contigs既不能準(zhǔn)確的放回到參考基因組中碟案,進(jìn)而進(jìn)行基因定位克隆,更下游的分析颇蜡,并且運(yùn)用于育種中价说。也不能很準(zhǔn)確的代表該物種所有個(gè)體的基因多樣性。他理想中的泛基因組是類似一個(gè)圖譜型的基因組风秤,在每個(gè)變異位點(diǎn)上展示鳖目,所有個(gè)體的基因(各種突變)序列信息$拖遥”
3. 無標(biāo)準(zhǔn)化分析流程
不同泛基因組研究中使用到的樣本數(shù)量(>3)领迈,測序(>110X),構(gòu)建泛基因組的策略碍沐,序列注釋方法以及判斷基因有無變異(PAV)的方法都有很大的差別狸捅。這導(dǎo)致了即使對同一種物種來講确虱,不同實(shí)驗(yàn)室構(gòu)建的泛基因組序列及基因有無變異結(jié)果不能進(jìn)行直接的比較顽馋;在不同物種之間,也無法從系統(tǒng)進(jìn)化的角度分析基因在植物進(jìn)化及農(nóng)作物馴化等生物過程中的基因流失或基因復(fù)制等現(xiàn)象送滞。所以斋陪,植物的泛基因組分析亟需建立一套操作方便朽褪,結(jié)果精確,可移植性強(qiáng)的流程无虚,包括樣本量的選擇缔赠,基因組的測序、組裝骑科,泛基因組的構(gòu)建橡淑,序列注釋等一系列生物信息學(xué)標(biāo)準(zhǔn)化分析流程。