泛基因組是最近比較熱門的一個研究方向堡僻,基本上可以發(fā)到至少6分以上或者甚至高分的期刊上。這次推文就和大家認(rèn)識一下泛基因組,并且快速了解一下該領(lǐng)域的最新進(jìn)展常挚。
什么是泛基因組?
2005年稽物,Tettelin等人提出了微生物泛基因組概念(pangenome奄毡,pan源自希臘語‘παν’,全部的意思)贝或,泛基因組即某一物種全部基因的總稱吼过。2009 年锐秦,Li等人首次采用新全基因組組裝方法對多個人類個體基因組進(jìn)行拼接,發(fā)現(xiàn)了個體獨有的DNA序列和功能基因盗忱,并首次提出了“人類泛基因組”的概念酱床,即人類群體基因序列的總和。2009 年泛基因組測序首次應(yīng)用于人類基因組學(xué)研究趟佃;2013 年泛基因組測序應(yīng)用于動植物研究領(lǐng)域扇谣。
結(jié)構(gòu)變異中的存在/缺失變化(PAVs: Present/absent variations)是泛基因組的重點研究對象。如上圖闲昭,泛基因組進(jìn)而可以分為罐寨,核心基因(core genes)和可變基因 (variable genes)。核心基因指的是序矩,在所有動植物個體或者菌株中都同時存在的基因鸯绿。可變基因是指,在一個或者一個以上的動植物個體或者菌株中存在的基因簸淀,它們不是固定的瓶蝴,是多變的。如果某個基因啃擦,僅存在某一個動植物個體或者菌株中囊蓝,該基因還可以細(xì)分為品系或者菌株特有基因。一般來說令蛉,核心基因一般控制著生命體基本新陳代謝的功能聚霜,因為它們廣泛存在所有個體中,是不可缺少的珠叔。可變基因蝎宇,往往只存在于一部分個體中,可能就是導(dǎo)致個體產(chǎn)生特異性的性狀(抗病性祷安,抗寒性等重要農(nóng)藝性狀)的原因姥芥。
為什么我們要開展泛基因組研究?
在漫長的進(jìn)化過程中汇鞭,由于地域因素凉唐,環(huán)境因素等的影響,每個個體都形成了極其特別的遺傳性狀霍骄,單一個體的參考基因組已經(jīng)不能涵蓋這個物種的所有遺傳信息台囱,換句話來說,就是如果只使用單一的參考基因組進(jìn)行遺傳馴化變異的研究读整,你可能會丟失掉很多有意義的基因內(nèi)容簿训,因為很多獨特的序列都不在參考基因組上。另外一個原因,由于基因測序的價格變得更加廉價强品,為近年來火爆的泛基因組的研究提供了可能性膘侮。
技術(shù)路線
組裝技術(shù)對比
目前比較流行的研究方法有三種:不基于參考基因組的重頭組裝和基于參考基因組的迭代組裝和"map to pan"),下面簡單和大家介紹一下這幾種方法:
不基于參考基因組的重頭組裝
這是構(gòu)建泛基因組或者參考基因組最經(jīng)典的方法的榛,分別對多個個體分別進(jìn)行從頭組裝并且注釋琼了,然后將所得的每個個體的組裝好的序列與參考序列基因組進(jìn)行互相比對,找出比對不上的區(qū)域或者基因困曙,這些個體獨特的基因就是可變基因表伦。該方法不基于參考基因組,可以避免基于基因組方法中由于比對所產(chǎn)生的誤差慷丽。另外因為是對每個個體進(jìn)行重頭組裝蹦哼,所以該方法可以進(jìn)一步用于個體之間CNV的研究。但是該方法需要比較大的計算資源要糊,需要比較高的測序深度(50X>)或者M(jìn)ate-pair序列進(jìn)而增加了預(yù)算纲熏,以確保重頭組裝的準(zhǔn)確性。這方法需要對每個個體進(jìn)行組裝并且注釋锄俄,對于含有上百個個體的泛基因組研究不太適合對于植物基因組的從頭組裝局劲,這種方法對于小麥這種大型復(fù)雜的植物也不太適合。
基于參考基因組的迭代組裝
相當(dāng)于一種迭代的方式奶赠,分別將每一個個體的reads先比對到參考基因組中鱼填,然后找出沒有比對上的部分進(jìn)行組裝,得到新的基因序列進(jìn)而擴(kuò)展原有的參考序列毅戈。一步一步這樣迭代苹丸,直到所有的個體都處理完,最后建立起泛基因組苇经,再進(jìn)行注釋赘理。另外這種方法需要的測序深度較低,因為這種迭代的方法還可以將遺傳類型較接近的個體pool在一起進(jìn)行迭代組裝扇单,進(jìn)而增加組裝的深度商模。這種方法,因為只是組裝沒有比對上的部分蜘澜,相對需要更少電腦資源施流,比較適合構(gòu)建群體個體數(shù)目比較多的,基因組相對較大的植物基因組鄙信。但是這種方法可能會產(chǎn)生更多的小片段瞪醋,并且無法探究每個個體的CNV。
基于參考基因組的重頭組裝
這種方法又被稱為"map to pan"方法趟章,這種方法是先進(jìn)行de novo組裝,然后將組裝好的每個個體的基因序列比對到參考基因組中蚓土,找出沒有比對上的序列,進(jìn)而將所有沒有比對上的序列找出并構(gòu)建出泛基因組蜀漆。這種方法也比較適合大規(guī)模的群體,但是如果你所研究的物種基因組很大的話咱旱,該方法也需要耗費大量的計算機(jī)資源确丢。
泛基因組近年來的研究
物種 | 泛基因組建立方法 | 來源 | 期刊 |
---|---|---|---|
Cultivated and wild rice | De novo assembly | Zhao, Feng et al. 2018 | Nature genetics |
Brachypodim distachyon | De novo assembly | Gordon, Contreras-Moreira et al. 2017 | Nature communication |
Hexaploid bread wheat | Itrearitve mapping and assembly | Montenegro, Golicz et al. 2017 | PBJ |
Brassica oleracea | Itrearitve mapping and assembly | Golicz, Bayer et al. 2016 | Nature Communication |
Brassica napus | Itrearitve mapping and assembly | Hurgobin, Golicz et al. 2017 | PBJ |
Wild type soybean (Glycine soja) | De novo assembly | Li, Zhou et al. 2014 | Nature Biotechonology |
Maize | Novel Transcript Assembly | Hirsch, Foerster et al. 2014 | The plant cwell |
3010 Cultivated rice | map to pan | Wang, Mauleonet al. 2018 | Nature |
Tomato | map to pan | Gao, Gonda et al. 2019 | Nature Genetics |
Sunflower | map to pan | Hübner, Bercovich et al. 2018 | Nature Plants |
應(yīng)用
泛基因組測序是運用高通量測序及生物信息分析手段吐限,針對不同亞種/個體材料進(jìn)行測序及泛基因組組裝,構(gòu)建泛基因組圖譜诸典,豐富該物種的遺傳信息描函。泛基因組測序不僅可以獲得多個基因組,完善該物種的基因集狐粱,還可以獲得種群甚至個體特有的DNA序列和功能基因信息舀寓,為系統(tǒng)進(jìn)化分析及功能生物學(xué)研究奠定基礎(chǔ)肌蜻。泛基因組也可以看作是對重測序數(shù)據(jù)的一種挖掘互墓,挖掘發(fā)現(xiàn)每一個個體中獨特的基因蒋搜,特別是如果你構(gòu)建的泛基因組中含有野生種,這能夠?qū)σ吧N的種質(zhì)資源進(jìn)行進(jìn)一步挖掘和分析齿诞。
選擇不同亞種材料進(jìn)行泛基因組測序,可以研究物種的起源及演化等重要生物學(xué)問題祷杈,特別近年來發(fā)現(xiàn)PAVs也能看作為其中一種marker,基于PAVs也能對物種進(jìn)行遺傳進(jìn)化的關(guān)聯(lián)分析但汞;選擇野生種和栽培種等不同特性的種質(zhì)資源進(jìn)行泛基因組測序,可以發(fā)掘重要性狀相關(guān)的基因資源僵缺,為科學(xué)育種提供指導(dǎo);選擇不同生態(tài)地理類型的種質(zhì)資源進(jìn)行泛基因組測序磕潮,可以開展物種的適應(yīng)性進(jìn)化,外來物種入侵性等熱門科學(xué)問題的研究自脯,為分子生態(tài)學(xué)等學(xué)科提供新的研究手段。
下期預(yù)告
在本次推文主要是介紹泛基因組并且簡單的提及了它的應(yīng)用膏潮,但是在目前的植物泛基因組研究中還存在不少的局限性,這里留到第二期來慢慢講述焕参,敬請大家持續(xù)關(guān)注。
參考文獻(xiàn):
- Golicz, Agnieszka A., Jacqueline Batley, and David Edwards. "Towards plant pangenomics." Plant biotechnology journal 14.4 (2016): 1099-1105.
- Golicz, Agnieszka A., et al. "The pangenome of an agronomically important crop plant Brassica oleracea." Nature communications 7 (2016): 13390.
- Hurgobin, Bhavna, and David Edwards. "SNP Discovery Using a Pangenome: Has the Single Reference Approach Become Obsolete?." Biology 6.1 (2017): 21.
- Li, Ying-hui, et al. "De novo assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits." Nature Biotechnology32.10 (2014): 1045-1052.
- Maretty, Lasse, et al. "Sequencing and de novo assembly of 150 genomes from Denmark as a population reference." Nature (2017).