泛基因組 | 簡介

一粒蜈、什么是泛基因組?

2005年旗国,Tettelin等人提出了微生物泛基因組概念(pangenome枯怖,pan源自希臘語‘παν’,全部的意思)能曾,泛基因組即\color{red}{某一物種全部基因的總稱}度硝。2009 年,Li等人首次采用新全基因組組裝方法對多個(gè)人類個(gè)體基因組進(jìn)行拼接寿冕,發(fā)現(xiàn)了個(gè)體獨(dú)有的DNA序列和功能基因蕊程,并首次提出了“人類泛基因組”的概念,即人類群體基因序列的總和驼唱。2009 年泛基因組測序首次應(yīng)用于人類基因組學(xué)研究藻茂;2013 年泛基因組測序應(yīng)用于動植物研究領(lǐng)域。

結(jié)構(gòu)變異中的存在/缺失變化(PAVs: Present/absent variations)是泛基因組的重點(diǎn)研究對象曙蒸。

泛基因組進(jìn)而可以分為捌治,\color{#00FF00}{核心基因}(core genes)\color{#00FF00}{可變基因} (variable genes)岗钩。

  • 核心基因:指的是纽窟,在所有動植物個(gè)體或者菌株中都同時(shí)存在的基因。

  • 可變基因:是指兼吓,在一個(gè)或者一個(gè)以上的動植物個(gè)體或者菌株中存在的基因臂港,它們不是固定的,是多變的。如果某個(gè)基因审孽,僅存在某一個(gè)動植物個(gè)體或者菌株中县袱,該基因還可以細(xì)分為品系或者菌株特有基因。

image.png

功能上的差異:

  • 核心基因:一般控制著生命體基本新陳代謝的功能佑力,因?yàn)樗鼈儚V泛存在所有個(gè)體中式散,是不可缺少的。

  • 可變基因:往往只存在于一部分個(gè)體中打颤,可能就是導(dǎo)致個(gè)體產(chǎn)生特異性的性狀(抗病性暴拄,抗寒性等重要農(nóng)藝性狀)的原因。

二编饺、為什么要開展泛基因組研究乖篷?

  • 在漫長的進(jìn)化過程中,由于地域因素透且,環(huán)境因素等的影響撕蔼,每個(gè)個(gè)體都形成了極其特別的遺傳性狀,單一個(gè)體的參考基因組已經(jīng)不能涵蓋這個(gè)物種的所有遺傳信息秽誊,換句話來說鲸沮,就是如果只使用單一的參考基因組進(jìn)行遺傳馴化變異的研究,你可能會丟失掉很多有意義的基因內(nèi)容锅论,因?yàn)楹芏嗒?dú)特的序列都不在參考基因組上诉探。

  • 另外,由于基因測序的價(jià)格變得更加廉價(jià)棍厌,為近年來火爆的泛基因組的研究提供了可能性肾胯。

三、技術(shù)路線

目前比較流行的研究方法有三種:

1. 不基于參考基因組的重頭組裝

這是構(gòu)建泛基因組或者參考基因組最經(jīng)典的方法耘纱,分別對多個(gè)個(gè)體分別進(jìn)行從頭組裝并且注釋敬肚,然后將所得的每個(gè)個(gè)體的組裝好的序列與參考序列基因組進(jìn)行互相比對,找出比對不上的區(qū)域或者基因束析,這些個(gè)體獨(dú)特的基因就是可變基因艳馒。

優(yōu)點(diǎn):不基于參考基因組,可以避免基于基因組方法中由于比對所產(chǎn)生的誤差员寇。另外因?yàn)槭菍γ總€(gè)個(gè)體進(jìn)行重頭組裝弄慰,所以該方法可以進(jìn)一步用于個(gè)體之間CNV的研究。

缺點(diǎn):因?yàn)樾枰獙γ恳粋€(gè)個(gè)體進(jìn)行de novo assembly蝶锋,然后還需要全基因組比對陆爽,所以該方法需要比較大的計(jì)算資源,需要比較高的測序深度(50X>)或者M(jìn)ate-pair序列進(jìn)而增加了預(yù)算扳缕,以確保重頭組裝的準(zhǔn)確性慌闭。這方法需要對每個(gè)個(gè)體進(jìn)行組裝并且注釋别威,對于含有上百個(gè)個(gè)體的泛基因組研究不太適合對于植物基因組的從頭組裝,這種方法對于小麥這種大型復(fù)雜的植物也不太適合驴剔。

2. 基于參考基因組的迭代組裝

相當(dāng)于一種迭代的方式省古,分別將每一個(gè)個(gè)體的reads先比對到參考基因組中,然后找出沒有比對上的部分進(jìn)行組裝丧失,得到新的基因序列進(jìn)而擴(kuò)展原有的參考序列豺妓。一步一步這樣迭代,直到所有的個(gè)體都處理完布讹,最后建立起泛基因組科侈,再進(jìn)行注釋。另外這種方法需要的測序深度較低炒事,因?yàn)檫@種迭代的方法還可以將遺傳類型較接近的個(gè)體pool在一起進(jìn)行迭代組裝臀栈,進(jìn)而增加組裝的深度。

優(yōu)點(diǎn):因?yàn)橹皇墙M裝沒有比對上的部分挠乳,相對需要更少電腦資源权薯,比較適合構(gòu)建群體個(gè)體數(shù)目比較多的,基因組相對較大的植物基因組睡扬。

缺點(diǎn):這種方法可能會產(chǎn)生更多的小片段盟蚣,并且無法探究每個(gè)個(gè)體的CNV。

3. 基于參考基因組的重頭組裝

這種方法又被稱為"map to pan"方法卖怜,這種方法是先進(jìn)行de novo組裝屎开,然后將組裝好的每個(gè)個(gè)體的基因序列比對到參考基因組中,找出沒有比對上的序列马靠,進(jìn)而將所有沒有比對上的序列找出并構(gòu)建出泛基因組奄抽。這種方法也比較適合大規(guī)模的群體,但是如果你所研究的物種基因組很大的話甩鳄,該方法也需要耗費(fèi)大量的計(jì)算機(jī)資源逞度。


image.png

四、應(yīng)用

  • 泛基因組測序是運(yùn)用高通量測序及生物信息分析手段妙啃,針對不同亞種/個(gè)體材料進(jìn)行測序及泛基因組組裝档泽,構(gòu)建泛基因組圖譜,豐富該物種的遺傳信息揖赴。泛基因組測序不僅可以獲得多個(gè)基因組馆匿,完善該物種的基因集,還可以獲得種群甚至個(gè)體特有的DNA序列和功能基因信息燥滑,為系統(tǒng)進(jìn)化分析及功能生物學(xué)研究奠定基礎(chǔ)渐北。

  • 泛基因組也可以看作是對重測序數(shù)據(jù)的一種挖掘,挖掘發(fā)現(xiàn)每一個(gè)個(gè)體中獨(dú)特的基因突倍,特別是如果你構(gòu)建的泛基因組中含有野生種腔稀,這能夠對野生種的種質(zhì)資源進(jìn)行進(jìn)一步挖掘和分析盆昙。

  • 選擇不同亞種材料進(jìn)行泛基因組測序羽历,可以研究物種的起源及演化等重要生物學(xué)問題焊虏,特別近年來發(fā)現(xiàn)PAVs也能看作為其中一種marker,基于PAVs也能對物種進(jìn)行遺傳進(jìn)化的關(guān)聯(lián)分析秕磷;選擇野生種和栽培種等不同特性的種質(zhì)資源進(jìn)行泛基因組測序诵闭,可以發(fā)掘重要性狀相關(guān)的基因資源,為科學(xué)育種提供指導(dǎo)澎嚣;選擇不同生態(tài)地理類型的種質(zhì)資源進(jìn)行泛基因組測序疏尿,可以開展物種的適應(yīng)性進(jìn)化,外來物種入侵性等熱門科學(xué)問題的研究易桃,為分子生態(tài)學(xué)等學(xué)科提供新的研究手段褥琐。

  • 泛基因組還可以應(yīng)用到尋找snps。
    (1)對比單一的reference基因晤郑,可以有效提高可發(fā)現(xiàn)的snps數(shù)量
    (2)用泛基因組去calling snps 意味著你可以節(jié)省很多電腦資源和分析時(shí)間敌呈。(正常snap calling需要比對到不同的個(gè)體上,但如果通過泛基因組去calling snps造寝,就可以一步到位磕洪,因?yàn)檫@個(gè)pangenome 相當(dāng)于所有個(gè)體的集合。另外诫龙,這也意味著析显,你得出的snps 組不需要整合(傳統(tǒng)的snp calling需要整合,因?yàn)樾枰葘Φ讲煌瑐€(gè)體上)
    (3)還有一個(gè)好處就是签赃,因?yàn)閜angenome 包括了一步presence/absence variations 的分析谷异,我們可以區(qū)別出這種snp是屬于核心基因的,還是屬于可變基因的锦聊。然后晰绎,再結(jié)合你表現(xiàn)型的數(shù)據(jù),這對利用snp提高農(nóng)作物產(chǎn)量是很有意義的括丁。
此處輸入圖片的描述

五荞下、局限性

1. 技術(shù)的局限性

目前,大多數(shù)的植物泛基因組分析中使用的都是基于短讀長的二代測序數(shù)據(jù)史飞。但是尖昏,短讀長序列的一個(gè)缺點(diǎn)是對重復(fù)序列區(qū)域的組裝并不理想。而現(xiàn)有的植物泛基因組分析結(jié)果表明构资,非參考基因組序列很大一部分是由重復(fù)序列組成抽诉。所以,目前的泛基因組序列大都是一些長度較短的吐绵,高度碎片化的序列構(gòu)成迹淌。一方面河绽,這些重復(fù)序列的組裝結(jié)果并不準(zhǔn)確,另外一方面唉窃,組裝出來的序列中的基因都是片段化的耙饰。非完整的基因序列為下游的基因有無變異分析帶來偏差,無法得到正確的基因有無變異圖譜纹份。

相比之下苟跪,基于單分子實(shí)時(shí)的第三代測序技術(shù)能夠產(chǎn)生較長的讀長,能夠跨過某些重復(fù)序列蔓涧,從而在一定程度上解決泛基因組分析中的重復(fù)序列問題件已,從而產(chǎn)生更加精準(zhǔn)的基因有無變異圖譜。但是元暴,目前來講篷扩,三代測序技術(shù)測序錯(cuò)誤率較高,通量較低茉盏,價(jià)格較貴鉴未,還無法應(yīng)用于大規(guī)模的群體遺傳學(xué)研究中。隨著技術(shù)的不斷發(fā)展援岩,一些技術(shù)壁壘被突破歼狼,如目前的CCS長讀長序列的測序準(zhǔn)確度已經(jīng)超過99.8%(Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome,2019享怀,NBT)羽峰,這為準(zhǔn)確獲取個(gè)體基因組的序列提供了技術(shù)的支持。相信隨著三代測序技術(shù)的發(fā)展和普及添瓷,我們可以構(gòu)建更加完整的植物泛基因組序列梅屉。

2. 應(yīng)用的局限性

泛基因組分析包括兩個(gè)主要的內(nèi)容,一是構(gòu)建泛基因組序列鳞贷,二是基于泛基因組的基因有無變異分析坯汤,建立泛基因組序列的基因數(shù)據(jù)庫,及后續(xù)的應(yīng)用研究搀愧。目前惰聂,大多數(shù)的植物泛基因組研究的重點(diǎn)放在第一部分。

在第二部分中咱筛,目前大多泛基因組的應(yīng)用就是構(gòu)建一個(gè)泛基因的數(shù)據(jù)庫搓幌。數(shù)據(jù)庫里面主要是包含了新發(fā)現(xiàn)的基因的基本信息,還有這些基因與RNA-seq比對的信息迅箩,在不同群體中基因出現(xiàn)的頻率等相關(guān)信息溉愁。泛基因組中,新發(fā)現(xiàn)(新組裝出來參考序列沒有)的基因可以進(jìn)一步用于功能分析饲趋,下游的濕實(shí)驗(yàn)通路研究拐揭,基因選擇育種等一些的應(yīng)用中撤蟆。

但實(shí)際上建立數(shù)據(jù)庫只是泛基因最基本的應(yīng)用,對于實(shí)際的育種幫助還是處于很基礎(chǔ)的階段堂污。 為什么這樣說呢家肯?在上次番茄泛基因組發(fā)表之后,各路植物基因?qū)W術(shù)界的大牛都在推特上議論一 番敷鸦。其中有大牛一針見血的提出了目前植物泛基因研究最大的局限息楔。他說道“他所認(rèn)同的泛基因組寝贡,并不是單純的將成百上千個(gè)個(gè)體進(jìn)行測序比對扒披,然后將所有比對不上參考基因組的 reads組裝成一推新的contigs,然后將其和參考基因組拼接成泛基因組圃泡。這些新的contigs既不能準(zhǔn)確的放回到參考基因組中碟案,進(jìn)而進(jìn)行基因定位克隆,更下游的分析颇蜡,并且運(yùn)用于育種中价说。也不能很準(zhǔn)確的代表該物種所有個(gè)體的基因多樣性。他理想中的泛基因組是類似一個(gè)圖譜型的基因組风秤,在每個(gè)變異位點(diǎn)上展示鳖目,所有個(gè)體的基因(各種突變)序列信息$拖遥”

3. 無標(biāo)準(zhǔn)化分析流程

不同泛基因組研究中使用到的樣本數(shù)量(>3)领迈,測序(>110X),構(gòu)建泛基因組的策略碍沐,序列注釋方法以及判斷基因有無變異(PAV)的方法都有很大的差別狸捅。這導(dǎo)致了即使對同一種物種來講确虱,不同實(shí)驗(yàn)室構(gòu)建的泛基因組序列及基因有無變異結(jié)果不能進(jìn)行直接的比較顽馋;在不同物種之間,也無法從系統(tǒng)進(jìn)化的角度分析基因在植物進(jìn)化及農(nóng)作物馴化等生物過程中的基因流失或基因復(fù)制等現(xiàn)象送滞。所以斋陪,植物的泛基因組分析亟需建立一套操作方便朽褪,結(jié)果精確,可移植性強(qiáng)的流程无虚,包括樣本量的選擇缔赠,基因組的測序、組裝骑科,泛基因組的構(gòu)建橡淑,序列注釋等一系列生物信息學(xué)標(biāo)準(zhǔn)化分析流程。

http://www.reibang.com/p/7e07ce1c7d10

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末咆爽,一起剝皮案震驚了整個(gè)濱河市梁棠,隨后出現(xiàn)的幾起案子置森,更是在濱河造成了極大的恐慌,老刑警劉巖符糊,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件凫海,死亡現(xiàn)場離奇詭異,居然都是意外死亡男娄,警方通過查閱死者的電腦和手機(jī)行贪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來模闲,“玉大人建瘫,你說我怎么就攤上這事∈郏” “怎么了啰脚?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長实夹。 經(jīng)常有香客問我橄浓,道長,這世上最難降的妖魔是什么亮航? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任荸实,我火速辦了婚禮,結(jié)果婚禮上缴淋,老公的妹妹穿的比我還像新娘准给。我一直安慰自己,他們只是感情好宴猾,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布圆存。 她就那樣靜靜地躺著,像睡著了一般仇哆。 火紅的嫁衣襯著肌膚如雪沦辙。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天讹剔,我揣著相機(jī)與錄音油讯,去河邊找鬼。 笑死延欠,一個(gè)胖子當(dāng)著我的面吹牛陌兑,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播由捎,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼兔综,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起软驰,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤涧窒,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后锭亏,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體纠吴,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年慧瘤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了戴已。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,488評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡锅减,死狀恐怖糖儡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情上煤,我是刑警寧澤休玩,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布著淆,位于F島的核電站劫狠,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏永部。R本人自食惡果不足惜独泞,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望苔埋。 院中可真熱鬧懦砂,春花似錦、人聲如沸组橄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽玉工。三九已至羽资,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間遵班,已是汗流浹背屠升。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留狭郑,地道東北人腹暖。 一個(gè)月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像翰萨,于是被迫代替她去往敵國和親脏答。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評論 2 359