泛基因組 | 簡介

一粒蜈、什么是泛基因組？

2005年旗国，Tettelin等人提出了微生物泛基因組概念（pangenome枯怖，pan源自希臘語‘παν’，全部的意思）能曾，泛基因組即 $\color{red}{某一物種全部基因的總稱}$ 度硝。2009 年，Li等人首次采用新全基因組組裝方法對多個(gè)人類個(gè)體基因組進(jìn)行拼接寿冕，發(fā)現(xiàn)了個(gè)體獨(dú)有的DNA序列和功能基因蕊程，并首次提出了“人類泛基因組”的概念，即人類群體基因序列的總和驼唱。2009 年泛基因組測序首次應(yīng)用于人類基因組學(xué)研究藻茂；2013 年泛基因組測序應(yīng)用于動植物研究領(lǐng)域。

結(jié)構(gòu)變異中的存在/缺失變化(PAVs: Present/absent variations)是泛基因組的重點(diǎn)研究對象曙蒸。

泛基因組進(jìn)而可以分為捌治， $\color{#00FF00}{核心基因}$ （core genes）和 $\color{#00FF00}{可變基因}$ (variable genes)岗钩。

核心基因：指的是纽窟，在所有動植物個(gè)體或者菌株中都同時(shí)存在的基因。
可變基因：是指兼吓，在一個(gè)或者一個(gè)以上的動植物個(gè)體或者菌株中存在的基因臂港，它們不是固定的，是多變的。如果某個(gè)基因审孽，僅存在某一個(gè)動植物個(gè)體或者菌株中县袱，該基因還可以細(xì)分為品系或者菌株特有基因。

image.png

功能上的差異：

核心基因：一般控制著生命體基本新陳代謝的功能佑力，因?yàn)樗鼈儚V泛存在所有個(gè)體中式散，是不可缺少的。
可變基因：往往只存在于一部分個(gè)體中打颤，可能就是導(dǎo)致個(gè)體產(chǎn)生特異性的性狀（抗病性暴拄，抗寒性等重要農(nóng)藝性狀）的原因。

二编饺、為什么要開展泛基因組研究乖篷？

在漫長的進(jìn)化過程中，由于地域因素透且，環(huán)境因素等的影響撕蔼，每個(gè)個(gè)體都形成了極其特別的遺傳性狀，單一個(gè)體的參考基因組已經(jīng)不能涵蓋這個(gè)物種的所有遺傳信息秽誊，換句話來說鲸沮，就是如果只使用單一的參考基因組進(jìn)行遺傳馴化變異的研究，你可能會丟失掉很多有意義的基因內(nèi)容锅论，因?yàn)楹芏嗒?dú)特的序列都不在參考基因組上诉探。
另外，由于基因測序的價(jià)格變得更加廉價(jià)棍厌，為近年來火爆的泛基因組的研究提供了可能性肾胯。

三、技術(shù)路線

目前比較流行的研究方法有三種：

1. 不基于參考基因組的重頭組裝

這是構(gòu)建泛基因組或者參考基因組最經(jīng)典的方法耘纱，分別對多個(gè)個(gè)體分別進(jìn)行從頭組裝并且注釋敬肚，然后將所得的每個(gè)個(gè)體的組裝好的序列與參考序列基因組進(jìn)行互相比對，找出比對不上的區(qū)域或者基因束析，這些個(gè)體獨(dú)特的基因就是可變基因艳馒。

優(yōu)點(diǎn)：不基于參考基因組，可以避免基于基因組方法中由于比對所產(chǎn)生的誤差员寇。另外因?yàn)槭菍γ總€(gè)個(gè)體進(jìn)行重頭組裝弄慰，所以該方法可以進(jìn)一步用于個(gè)體之間CNV的研究。

缺點(diǎn)：因?yàn)樾枰獙γ恳粋€(gè)個(gè)體進(jìn)行de novo assembly蝶锋，然后還需要全基因組比對陆爽，所以該方法需要比較大的計(jì)算資源，需要比較高的測序深度（50X>）或者M(jìn)ate-pair序列進(jìn)而增加了預(yù)算扳缕，以確保重頭組裝的準(zhǔn)確性慌闭。這方法需要對每個(gè)個(gè)體進(jìn)行組裝并且注釋别威，對于含有上百個(gè)個(gè)體的泛基因組研究不太適合對于植物基因組的從頭組裝，這種方法對于小麥這種大型復(fù)雜的植物也不太適合驴剔。

2. 基于參考基因組的迭代組裝

相當(dāng)于一種迭代的方式省古，分別將每一個(gè)個(gè)體的reads先比對到參考基因組中，然后找出沒有比對上的部分進(jìn)行組裝丧失，得到新的基因序列進(jìn)而擴(kuò)展原有的參考序列豺妓。一步一步這樣迭代，直到所有的個(gè)體都處理完布讹，最后建立起泛基因組科侈，再進(jìn)行注釋。另外這種方法需要的測序深度較低炒事，因?yàn)檫@種迭代的方法還可以將遺傳類型較接近的個(gè)體pool在一起進(jìn)行迭代組裝臀栈，進(jìn)而增加組裝的深度。

優(yōu)點(diǎn)：因?yàn)橹皇墙M裝沒有比對上的部分挠乳，相對需要更少電腦資源权薯，比較適合構(gòu)建群體個(gè)體數(shù)目比較多的，基因組相對較大的植物基因組睡扬。

缺點(diǎn)：這種方法可能會產(chǎn)生更多的小片段盟蚣，并且無法探究每個(gè)個(gè)體的CNV。

3. 基于參考基因組的重頭組裝

這種方法又被稱為"map to pan"方法卖怜，這種方法是先進(jìn)行de novo組裝屎开，然后將組裝好的每個(gè)個(gè)體的基因序列比對到參考基因組中，找出沒有比對上的序列马靠，進(jìn)而將所有沒有比對上的序列找出并構(gòu)建出泛基因組奄抽。這種方法也比較適合大規(guī)模的群體，但是如果你所研究的物種基因組很大的話甩鳄，該方法也需要耗費(fèi)大量的計(jì)算機(jī)資源逞度。

image.png

四、應(yīng)用

泛基因組測序是運(yùn)用高通量測序及生物信息分析手段妙啃，針對不同亞種/個(gè)體材料進(jìn)行測序及泛基因組組裝档泽，構(gòu)建泛基因組圖譜，豐富該物種的遺傳信息揖赴。泛基因組測序不僅可以獲得多個(gè)基因組馆匿，完善該物種的基因集，還可以獲得種群甚至個(gè)體特有的DNA序列和功能基因信息燥滑，為系統(tǒng)進(jìn)化分析及功能生物學(xué)研究奠定基礎(chǔ)渐北。
泛基因組也可以看作是對重測序數(shù)據(jù)的一種挖掘，挖掘發(fā)現(xiàn)每一個(gè)個(gè)體中獨(dú)特的基因突倍，特別是如果你構(gòu)建的泛基因組中含有野生種腔稀，這能夠對野生種的種質(zhì)資源進(jìn)行進(jìn)一步挖掘和分析盆昙。
選擇不同亞種材料進(jìn)行泛基因組測序羽历，可以研究物種的起源及演化等重要生物學(xué)問題焊虏，特別近年來發(fā)現(xiàn)PAVs也能看作為其中一種marker，基于PAVs也能對物種進(jìn)行遺傳進(jìn)化的關(guān)聯(lián)分析秕磷；選擇野生種和栽培種等不同特性的種質(zhì)資源進(jìn)行泛基因組測序诵闭，可以發(fā)掘重要性狀相關(guān)的基因資源，為科學(xué)育種提供指導(dǎo)澎嚣；選擇不同生態(tài)地理類型的種質(zhì)資源進(jìn)行泛基因組測序疏尿，可以開展物種的適應(yīng)性進(jìn)化，外來物種入侵性等熱門科學(xué)問題的研究易桃，為分子生態(tài)學(xué)等學(xué)科提供新的研究手段褥琐。

泛基因組還可以應(yīng)用到尋找snps。
（1）對比單一的reference基因晤郑，可以有效提高可發(fā)現(xiàn)的snps數(shù)量
（2）用泛基因組去calling snps 意味著你可以節(jié)省很多電腦資源和分析時(shí)間敌呈。（正常snap calling需要比對到不同的個(gè)體上，但如果通過泛基因組去calling snps造寝，就可以一步到位磕洪，因?yàn)檫@個(gè)pangenome 相當(dāng)于所有個(gè)體的集合。另外诫龙，這也意味著析显，你得出的snps 組不需要整合（傳統(tǒng)的snp calling需要整合，因?yàn)樾枰葘Φ讲煌瑐€(gè)體上）
（3）還有一個(gè)好處就是签赃，因?yàn)閜angenome 包括了一步presence/absence variations 的分析谷异，我們可以區(qū)別出這種snp是屬于核心基因的，還是屬于可變基因的锦聊。然后晰绎，再結(jié)合你表現(xiàn)型的數(shù)據(jù)，這對利用snp提高農(nóng)作物產(chǎn)量是很有意義的括丁。

此處輸入圖片的描述

五荞下、局限性

1. 技術(shù)的局限性

目前，大多數(shù)的植物泛基因組分析中使用的都是基于短讀長的二代測序數(shù)據(jù)史飞。但是尖昏，短讀長序列的一個(gè)缺點(diǎn)是對重復(fù)序列區(qū)域的組裝并不理想。而現(xiàn)有的植物泛基因組分析結(jié)果表明构资，非參考基因組序列很大一部分是由重復(fù)序列組成抽诉。所以，目前的泛基因組序列大都是一些長度較短的吐绵，高度碎片化的序列構(gòu)成迹淌。一方面河绽，這些重復(fù)序列的組裝結(jié)果并不準(zhǔn)確，另外一方面唉窃，組裝出來的序列中的基因都是片段化的耙饰。非完整的基因序列為下游的基因有無變異分析帶來偏差，無法得到正確的基因有無變異圖譜纹份。

相比之下苟跪，基于單分子實(shí)時(shí)的第三代測序技術(shù)能夠產(chǎn)生較長的讀長，能夠跨過某些重復(fù)序列蔓涧，從而在一定程度上解決泛基因組分析中的重復(fù)序列問題件已，從而產(chǎn)生更加精準(zhǔn)的基因有無變異圖譜。但是元暴，目前來講篷扩，三代測序技術(shù)測序錯(cuò)誤率較高，通量較低茉盏，價(jià)格較貴鉴未，還無法應(yīng)用于大規(guī)模的群體遺傳學(xué)研究中。隨著技術(shù)的不斷發(fā)展援岩，一些技術(shù)壁壘被突破歼狼，如目前的CCS長讀長序列的測序準(zhǔn)確度已經(jīng)超過99.8%（Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome，2019享怀，NBT）羽峰，這為準(zhǔn)確獲取個(gè)體基因組的序列提供了技術(shù)的支持。相信隨著三代測序技術(shù)的發(fā)展和普及添瓷，我們可以構(gòu)建更加完整的植物泛基因組序列梅屉。

2. 應(yīng)用的局限性

泛基因組分析包括兩個(gè)主要的內(nèi)容，一是構(gòu)建泛基因組序列鳞贷，二是基于泛基因組的基因有無變異分析坯汤，建立泛基因組序列的基因數(shù)據(jù)庫，及后續(xù)的應(yīng)用研究搀愧。目前惰聂，大多數(shù)的植物泛基因組研究的重點(diǎn)放在第一部分。

在第二部分中咱筛，目前大多泛基因組的應(yīng)用就是構(gòu)建一個(gè)泛基因的數(shù)據(jù)庫搓幌。數(shù)據(jù)庫里面主要是包含了新發(fā)現(xiàn)的基因的基本信息，還有這些基因與RNA-seq比對的信息迅箩，在不同群體中基因出現(xiàn)的頻率等相關(guān)信息溉愁。泛基因組中，新發(fā)現(xiàn)(新組裝出來參考序列沒有)的基因可以進(jìn)一步用于功能分析饲趋，下游的濕實(shí)驗(yàn)通路研究拐揭，基因選擇育種等一些的應(yīng)用中撤蟆。

但實(shí)際上建立數(shù)據(jù)庫只是泛基因最基本的應(yīng)用，對于實(shí)際的育種幫助還是處于很基礎(chǔ)的階段堂污。為什么這樣說呢家肯？在上次番茄泛基因組發(fā)表之后，各路植物基因?qū)W術(shù)界的大牛都在推特上議論一番敷鸦。其中有大牛一針見血的提出了目前植物泛基因研究最大的局限息楔。他說道“他所認(rèn)同的泛基因組寝贡，并不是單純的將成百上千個(gè)個(gè)體進(jìn)行測序比對扒披，然后將所有比對不上參考基因組的 reads組裝成一推新的contigs，然后將其和參考基因組拼接成泛基因組圃泡。這些新的contigs既不能準(zhǔn)確的放回到參考基因組中碟案，進(jìn)而進(jìn)行基因定位克隆，更下游的分析颇蜡，并且運(yùn)用于育種中价说。也不能很準(zhǔn)確的代表該物種所有個(gè)體的基因多樣性。他理想中的泛基因組是類似一個(gè)圖譜型的基因組风秤，在每個(gè)變異位點(diǎn)上展示鳖目，所有個(gè)體的基因（各種突變）序列信息＄拖遥”

3. 無標(biāo)準(zhǔn)化分析流程

不同泛基因組研究中使用到的樣本數(shù)量（>3）领迈，測序(>110X），構(gòu)建泛基因組的策略碍沐，序列注釋方法以及判斷基因有無變異（PAV）的方法都有很大的差別狸捅。這導(dǎo)致了即使對同一種物種來講确虱，不同實(shí)驗(yàn)室構(gòu)建的泛基因組序列及基因有無變異結(jié)果不能進(jìn)行直接的比較顽馋；在不同物種之間，也無法從系統(tǒng)進(jìn)化的角度分析基因在植物進(jìn)化及農(nóng)作物馴化等生物過程中的基因流失或基因復(fù)制等現(xiàn)象送滞。所以斋陪，植物的泛基因組分析亟需建立一套操作方便朽褪，結(jié)果精確，可移植性強(qiáng)的流程无虚，包括樣本量的選擇缔赠，基因組的測序、組裝骑科，泛基因組的構(gòu)建橡淑，序列注釋等一系列生物信息學(xué)標(biāo)準(zhǔn)化分析流程。

http://www.reibang.com/p/7e07ce1c7d10