繼上次介紹完泛基因的基本概念潭兽,構(gòu)建泛基因組序列的不同策略和最近發(fā)表的一系列高分文章后,本次推文主要來談?wù)勀壳爸参锓夯蚪M研究中的一些局限斗遏。 (如果還沒有看過上期文章的小伙伴山卦,歡迎點擊下面鏈接進(jìn)行一下回顧)。
無標(biāo)準(zhǔn)化分析流程
在Tao等人的有關(guān)植物泛基因組分析的綜述論文中诵次,作者從不同角度比較了目前植物泛基因組分析的特點(見下表)账蓉。從中可以看出,不同研究中使用到的樣本數(shù)量(3>3000)逾一,測序(1X>110X)铸本,構(gòu)建泛基因組的策略,序列注釋方法以及判斷基因有無變異(PAV)的方法都有很大的差別遵堵。這導(dǎo)致了即使對同一種物種來講箱玷,不同實驗室構(gòu)建的泛基因組序列及基因有無變異結(jié)果不能進(jìn)行直接的比較怨规;在不同物種之間,也無法從系統(tǒng)進(jìn)化的角度分析基因在植物進(jìn)化及農(nóng)作物馴化等生物過程中的基因流失或基因復(fù)制等現(xiàn)象锡足。所以波丰,植物的泛基因組分析亟需建立一套操作方便,結(jié)果精確舶得,可移植性強的流程呀舔,包括樣本量的選擇,基因組的測序扩灯、組裝,泛基因組的構(gòu)建霜瘪,序列注釋等一系列生物信息學(xué)標(biāo)準(zhǔn)化分析流程珠插。
技術(shù)的局限性
目前,大多數(shù)的植物泛基因組分析中使用的都是基于短讀長的二代測序數(shù)據(jù)颖对。但是捻撑,短讀長序列的一個缺點是對重復(fù)序列區(qū)域的組裝并不理想。而現(xiàn)有的植物泛基因組分析結(jié)果表明缤底,非參考基因組序列很大一部分是有重復(fù)序列組成顾患。所以,目前的泛基因組序列大都是一些長度較短的个唧,高度碎片化的序列構(gòu)成江解。一方面,這些重復(fù)序列的組裝結(jié)果并不準(zhǔn)確徙歼,另外一方面犁河,組裝出來的序列中的基因都是片段化的。非完整的基因序列為下游的基因有無變異分析帶來偏差魄梯,無法得到正確的基因有無變異圖譜桨螺。
相比之下,基于單分子實時的第三代測序技術(shù)能夠產(chǎn)生較長的讀長酿秸,能夠跨過某些重復(fù)序列灭翔,從而在一定程度上解決泛基因組分析中的重復(fù)序列問題,從而產(chǎn)生更加精準(zhǔn)的基因有無變異圖譜辣苏。但是肝箱,目前來講,三代測序技術(shù)測序錯誤率較高稀蟋,通量較低狭园,價格較貴,還無法應(yīng)用于大規(guī)模的群體遺傳學(xué)研究中糊治。隨著技術(shù)的不斷發(fā)展唱矛,一些技術(shù)壁壘被突破,如目前的CCS長讀長序列的測序準(zhǔn)確度已經(jīng)超過99.8%(Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome,2019绎谦,NBT)管闷,這為準(zhǔn)確獲取個體基因組的序列提供了技術(shù)的支持。相信隨著三代測序技術(shù)的發(fā)展和普及窃肠,我們可以構(gòu)建更加完整的植物泛基因組序列包个。
應(yīng)用的局限性
泛基因組分析分析包括兩個主要的內(nèi)容,一是構(gòu)建泛基因組序列冤留,二是基于泛基因組的基因有無變異分析碧囊,建立泛基因組序列的基因瀏覽器,及后續(xù)的應(yīng)用研究纤怒。目前糯而,大多數(shù)的植物泛基因組研究的重點放在第一部分。
在第二部分中泊窘,目前大多泛基因組的應(yīng)用就是構(gòu)建一個泛基因的數(shù)據(jù)庫熄驼。數(shù)據(jù)庫里面主要是包含了新發(fā)現(xiàn)的基因的基本信息,還有這些基因與RNA-seq比對的信息烘豹,在不同群體中基因出現(xiàn)的頻率等相關(guān)信息瓜贾。泛基因組中,新發(fā)現(xiàn)(新組裝出來參考序列沒有)的基因可以進(jìn)一步用于功能分析携悯,下游的濕實驗通路研究祭芦,基因選擇育種等一些的應(yīng)用中。目前在建立泛基因數(shù)據(jù)庫這一塊憔鬼,做的最好的有數(shù)实束,RPAN: Rice Pan-genome Browser。
但實際上建立數(shù)據(jù)庫只是泛基因最基本的應(yīng)用逊彭,對于實際的育種幫助還是處于很基礎(chǔ)的階段咸灿。 為什么這樣說呢?在上次番茄泛基因組發(fā)表之后侮叮,各路植物基因?qū)W術(shù)界的大牛都在推特上議論一 番避矢。其中有大牛一針見血的提出了目前植物泛基因研究最大的局限。他說道“他所認(rèn)同的泛基因組囊榜,并不是單純的將成百上千個個體進(jìn)行測序比對审胸,然后將所有比對不上參考基因組的 reads組裝成一推新的contigs,然后將其和參考基因組拼接成泛基因組卸勺。這些新的contigs既不能準(zhǔn)確的放回到參考基因組中砂沛,進(jìn)而進(jìn)行基因定位克隆,更下游的分析曙求,并且運用于育種中碍庵。也不能很準(zhǔn)確的代表該物種所有個體的基因多樣性映企。他理想中的泛基因組是類似一個圖譜型的基因組,在每個變異位點上展示静浴,所有個體的基因(各種突變)序列信息堰氓。”
推特上的討論很準(zhǔn)確的總結(jié)了苹享,目前泛基因組在農(nóng)業(yè)育種方法應(yīng)用的最大阻礙双絮。盡管如此,八月份在自然—生物技術(shù)發(fā)表的一篇文章"HISAT2和HISAT基因型的基于圖譜型基因組比對和基因分型"為圖譜型泛基因組的出現(xiàn)帶來了曙光得问,隨著數(shù)據(jù)的結(jié)構(gòu)與分析流程的改進(jìn)囤攀,未來泛基因組定會更好的運用于育種當(dāng)中。
另外關(guān)于泛基因組未來的一些分析的思路宫纬,可以參kaolvLi Heng博客中的想法焚挠,這里就不深入具體探討了:
http://lh3.github.io/2019/07/08/on-a-reference-pan-genome-model
http://lh3.github.io/2019/07/12/on-a-reference-pan-genome-model-part-ii
小結(jié)
由于當(dāng)前技術(shù)或者其它因素的影響,當(dāng)前泛基因組的研究在農(nóng)業(yè)育種應(yīng)用具有一定的局限性哪怔,也欠缺相對可比性。但隨著三代技術(shù)的發(fā)展向抢,和圖譜型基因組的普及认境,植物泛基因組定會在未來迎來更快的發(fā)展,繼續(xù)成為測序研究的熱點話題挟鸠。
最后感謝上海交通大學(xué)的段博士的修改與潤色
參考文獻(xiàn)
- Tao, Yongfu, et al. "Exploring and exploiting pan-genomics for crop improvement." Molecular plant (2018).
- Kim, Daehwan, et al. "Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype." Nature biotechnology 37.8 (2019): 907-915.
- Wenger, Aaron M., et al. "Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome." Nature biotechnology (2019): 1-8.