備注:本文主要來源于知乎《全新的泛基因組解決方案》登舞。關于大豆泛基因組文章解讀咨堤,請看往期記錄《大豆(Soybean, Glycine max)泛基因組2020Cell》呆馁。
一、研究內(nèi)容
泛基因組產(chǎn)品采用從頭組裝的策略進行泛基因組構(gòu)建,分析內(nèi)容包括比較基因組分析、核心基因和非必需基因分析雹有、結(jié)構(gòu)變異(SVs)分析和圖形結(jié)構(gòu)基因組的構(gòu)建。具體內(nèi)容如下:
1.比較基因組分析
泛基因組包含多個材料的基因組數(shù)據(jù)臼寄,非常適合進行材料間的比較基因組分析霸奕,挖掘群體/個體材料的特有基因,從而在全基因組水平上了解不同材料間的共性與特性吉拳,進而了解其基因組結(jié)構(gòu)质帅、基因功能,探究特有基因與特殊生物學性狀的關系留攒,推斷物種進化地位及適應性機制煤惩。
例如,大豆泛基因組研究[1]中稼跳,研究者通過WGD(Whole genome duplication,全基因組復制)分析盟庞,發(fā)現(xiàn)WGD區(qū)域包含較高比例的核心基因和次核心基因吃沪,而非WGD區(qū)域包含較高比例的非必需基因和特有基因汤善。比較WGD和non-WGD之間的核苷酸多樣性,發(fā)現(xiàn)WGD區(qū)域基因核苷酸多樣性顯著低于非WGD區(qū)域。同時红淡,在非WGD區(qū)域發(fā)現(xiàn)了更多的SVs不狮,且與非WGD區(qū)域相比,WGD區(qū)域擁有較少特有SVs在旱。研究結(jié)果表明基因組復制可以作為一種重要的遺傳力來影響SVs的進化摇零。
圖1 大豆WGD與非WGD區(qū)域之間的基因和結(jié)構(gòu)變異特征的比較(圖片引自文獻[1]),A:WGD與非WGD區(qū)域之間的基因密度比較桶蝎。B:WGD和非WGD區(qū)域之間重復DNA比例的比較驻仅。C:WGD和非WGD區(qū)域之間核苷酸多樣性的比較。D:WGD和非WGD區(qū)域中的基因組成情況登渣。E:WGD和非WGD區(qū)域中的結(jié)構(gòu)變化組成情況噪服。F:WGD和非WGD區(qū)域之間PAV驅(qū)動的單核苷酸突變率比較。
2. 核心基因/非必需基因分析
泛基因組中的基因分為核心基因和非必需基因胜茧,不同類型基因在特征和功能上具有明顯差異粘优,通過對不同類型基因集的比較,可以進一步揭示物種的基因組變化和適應性機制呻顽。
泛基因組大小模擬
通過泛基因集的大小模擬(即泛基因和核心基因累計分析)雹顺,可以預測該物種泛基集的理論大小、挖掘個體特有基因廊遍、了解個體基因組成嬉愧、明確物種核心基因和非必需基因的占比等。
例如喉前,大豆泛基因組研究[1]中英染,研究者對核心基因和非必需基因數(shù)目進行模擬,發(fā)現(xiàn)總基因隨著新基因組的加入而增加被饿,并在n=25時接近平緩四康,表明這27份大豆材料非常具有代表性,已包含絕大多數(shù)的大豆基因信息狭握。此外闪金,短柄草[2]和番茄[3]等泛基因組研究也做了類似的分析。
圖2 大豆核心基因和非必需基因分析 A:泛基因組和核心基因組中基因家族數(shù)目隨大豆基因組數(shù)目增加的變化情況论颅。B:泛基因組和個體基因組的基因家族組成哎垦。(圖片引自文獻[1])
核心基因/非必需基因功能富集
通過功能富集分析,可以直觀了解不同類型基因集的功能恃疯,有助于挖掘影響特殊生物學性狀形成的特有基因資源漏设。
例如,大豆泛基因組研究[1]中今妄,Pfam富集分析和GO富集分析顯示郑口,核心基因在與生長鸳碧、免疫、生殖犬性、細胞發(fā)生等相關的生物學過程中富集瞻离,而非必需和特有基因在生物和非生物脅迫響應過程中富集。KEGG通路分析表明乒裆,核心基因富含與基礎代謝和次生代謝產(chǎn)物生物合成有關的途徑套利,非必需基因在特定代謝相關的途徑富集。
此外鹤耍,短柄草[2]肉迫、番茄[3]、甘藍[4]等泛基因組研究均有類似發(fā)現(xiàn)稿黄。
圖3 大豆核心基因和非必需基因功能富集分析A:核心和非必需基因的Pfam富集昂拂。B:核心和非必需基因的GO分析。C:核心和非必需基因的KEGG分析抛猖。(圖片引自文獻[1])
核心基因/非必需基因保守性分析
對不同類型基因集進行保守性分析格侯,有助于挖掘適應性進化或馴化中發(fā)揮關鍵作用的基因。
例如财著,大豆泛基因組研究[1]中联四,對不同類型的基因進行保守性比較,結(jié)果表明含有InterPro結(jié)構(gòu)域的核心基因和次核心基因遠遠高于非必需基因和特有基因撑教,非必需基因的核苷酸多樣性(π)和dN / dS (非同義替換率與同義替換率的的比值)均高于核心基因朝墩,這些結(jié)果表明核心基因比非必需基因在功能上更保守。短柄草泛基因組研究[2]也有類似的發(fā)現(xiàn)伟姐。
圖4 大豆核心基因和非必需基因保守性比較左圖:核心基因和非必需基因中具有InterPro結(jié)構(gòu)域的基因比例收苏。中間圖及右圖:核心基因和非必需基因的核苷酸多樣性(π)和dN / dS 比較。(圖片引自文獻[1])
核心基因/非必需基因與重復序列相關性分析
研究表明愤兵,非必需基因更可能在重復序列區(qū)域富集鹿霸。對不同類型基因集所在的重復區(qū)域進行統(tǒng)計。
例如秆乳,短柄草泛基因組研究[2]中懦鼠,研究者發(fā)現(xiàn)染色體上非必需基因與核心基因的比率與種內(nèi)TE活性高度相關,在染色體的著絲粒周圍區(qū)域屹堰,非必需基因與核心基因的比率更高肛冶。甘藍泛基因組研究[4]中也有類似的發(fā)現(xiàn),與核心基因相比扯键,非必需基因周圍具有較高TE密度睦袖。
圖5 核心基因和非必需基因與重復序列相關性左圖:短柄草染色體的著絲粒周圍區(qū)域,核心基因與非必需基因的分布情況荣刑。右圖:甘藍核心和非必需基因TE含量比較馅笙。(圖片引自文獻[2伦乔,4])</figcaption>
核心基因/非必需基因表達水平分析
核心基因與非必需基因功能不同,表達量也有差異延蟹。
例如,短柄草泛基因組研究[2]中叶堆,研究者發(fā)現(xiàn)與非必需基因相比阱飘,核心基因通常有更高表達水平,并且在組織中更廣泛地表達虱颗。番茄泛基因組研究[3]也做有類似的發(fā)現(xiàn)沥匈。
圖6 短柄草核心基因和非必需基因表達比較 左圖:核心基因與Shell基因的表達水平比較。右圖:核心基因在與Shell基因的在多種組織中的表達情況忘渔。(圖片引自文獻[2])
3.結(jié)構(gòu)變異分析
相比于原核生物基因組主要由基因序列組成高帖,真核生物基因組中有超過50%的基因組可能是基因間的,并且基因序列本身還包含內(nèi)含子畦粮。因此散址,真核生物泛基因組除了要關注基因外,也應該關注序列的變異宣赔。根據(jù)泛基因組進行結(jié)構(gòu)變異分析预麸,可以深入挖掘重要性狀的調(diào)控基因,解析表型多樣性形成的遺傳基礎儒将。
SVs特征分析
基于基因組序列比對進行基因組SVs的檢測吏祸,可以對SVs特征進行分析,如對SVs類型钩蚊、長度分布贡翘、基因組分布、重復含量進行比較等砰逻。番茄結(jié)構(gòu)變異研究[5]中鸣驱,研究者構(gòu)建了最全面的pan-SV基因組,并對SVs的特征進行詳細分析蝠咆,結(jié)果表明大多數(shù)SVs相對較小丐巫,SVs通常由轉(zhuǎn)座子和相關重復序列組成或產(chǎn)生。大豆泛基因組研究[1]也有類似內(nèi)容勺美。
圖7 SVs的特征分布左圖:番茄不同大小SVs的檢測頻率分布圖及不同類型SVs的長度分布圖递胧。右圖:番茄不同類型SVs的重復含量分布。(圖片引自文獻[5])
核心/非必需SVs累計分析
將所有基因組中整合得到的非冗余SVs赡茸,同樣基于核心基因和非必須基因類似的策略進行核心和非必需SVs劃分和比較缎脾。通過核心和非必需SVs累計曲線,可以預測該物種泛基組的理論大小占卧、挖掘個體特有結(jié)構(gòu)變異遗菠。
例如联喘,大豆泛基因組研究[1]中,研究者根據(jù)SVs的等位基因頻率辙纬,將SVs分為4類:核心SVs豁遭、次核心SVs、非必需SVs或特有SVs贺拣。與核心基因和非必需基因的累計分布模式相似蓖谢,非冗余SVs集隨著樣本的加入而增長,并且趨于平緩譬涡。同時闪幽,核心SVs集逐漸減少,最終有130個SVs為所有樣本共有涡匀。番茄結(jié)構(gòu)變異研究[5]也有類似的SVs累計分布趨勢的發(fā)現(xiàn)盯腌。
圖8 核心和非必需SVs累計分析 左圖:大豆核心和非必需SVs累計分析。右圖:番茄核心和非必需SVs累計分析陨瘩。(圖片引自文獻[1腕够,5])
圖形結(jié)構(gòu)基因組構(gòu)建
在基因組從頭組裝的基礎上,把該物種的所有遺傳變異的信息都添加到參考基因組中舌劳,表示為含有替代路徑的圖形結(jié)構(gòu)燕少,從而進行圖形結(jié)構(gòu)泛基因構(gòu)建言缤,該泛基因組極大的涵蓋了個體間的差異信息审残,為物種研究提供更全面的遺傳信息稚疹。例如狸吞,大豆泛基因組研究[1]首次采用了圖形結(jié)構(gòu)的泛基因組構(gòu)建方法抒巢,打破了傳統(tǒng)線性基因組的存儲形式互亮,展示了物種更全面的遺傳信息寿烟,為后續(xù)基因組學的其他研究奠定良好的基礎淑际。
圖9 圖形結(jié)構(gòu)基因組構(gòu)建(圖片引自文獻[6])
SVs對基因結(jié)構(gòu)的影響
通過泛基因組序列及基因結(jié)構(gòu)分析脸侥,不僅可以檢測到先前報道的等位基因建邓,而且可以發(fā)現(xiàn)新的基因結(jié)構(gòu)變異,包括基因融合睁枕。
例如官边,大豆泛基因組研究[1]發(fā)現(xiàn)開花基因E3 基因結(jié)構(gòu)變異導致其自身移碼甚至與其他基因融合,從而影響大豆的開花外遇。
圖10 E3 在不同大豆材料中的結(jié)構(gòu)變異 A:E3 在基因組中的物理位置注簿。B:不同種質(zhì)中E3的單倍型。C:13.3 kb的缺失導致單倍型E3-tr 材料中SoyZH13_19G210500基因丟失和E3 (SoyZH13_19G210400)與其鄰近基因SoyZH13_19G210600的基因融合跳仿。(圖片引自文獻[1])
SVs對基因表達的影響
通過對SVs所在的區(qū)域進行分類展示诡渴,并結(jié)合轉(zhuǎn)錄組數(shù)據(jù)對基因表達進行分析,有助于挖掘影響基因表達的關鍵SVs菲语。
例如妄辩,番茄結(jié)構(gòu)變異研究[5]通過檢測有和無SVs時相關基因的差異表達程度惑灵,來檢測受SVs影響的表達基因。結(jié)果發(fā)現(xiàn)在21,156個SV-基因?qū)χ邪l(fā)現(xiàn)數(shù)百個顯著的表達改變眼耀。研究表明結(jié)構(gòu)變異通過改變基因劑量效應和表達水平英支,從而影響果實的風味,大小和產(chǎn)量哮伟。
圖11 番茄SVs對基因表達的影響 左圖:番茄材料中不同基因組特征SVs的百分比干花。右圖:受不同類型SVs影響的差異表達基因的數(shù)量情況。(圖片引自文獻[5])
二澈吨、技術策略
樣本選擇
為全面捕獲物種所有的基因組信息把敢,建議基于經(jīng)驗或群體結(jié)構(gòu)信息選擇最具代表性的個體進行泛基因組構(gòu)建寄摆,推薦樣本個數(shù)≥5個谅辣,具體可根據(jù)物種基因組大小、復雜度及群體復雜度進行調(diào)整婶恼。
大豆泛基因組研究[1]中桑阶,研究者通過2,898份大豆的重測序和進化樹構(gòu)建,選擇了26份在系統(tǒng)發(fā)育關系和地理分布方面最具代表性的材料進行泛基因組構(gòu)建勾邦。大麥泛基因組研究[7] 中蚣录,研究者通過19,778份大麥種質(zhì)的基因分型數(shù)據(jù)的PCA(包含不同地理來源、行類型眷篇、生長習性等材料)選擇了20份大麥來代表其遺傳多樣性萎河。
圖12 20份代表性大麥的材料選擇(圖片引自文獻[7])
測序策略
推薦采用PacBio HiFi測序,讀長長且準確蕉饼,測序深度≥15X/樣本虐杯。
HiFi組裝作為組裝界的新秀,具有組裝周期短昧港,準確性高擎椰,連續(xù)性好,簡單基因組和復雜基因組通吃的特點创肥,對于泛基因組這樣的大樣本量基因組組裝尤其合適达舒,大幅縮短組裝周期,提高組裝準確性和連續(xù)性叹侄。
缺點是貴巩搏。目前真正用HiFi來做泛基因組的還是很少,但二代和三代都有趾代,二代組裝相對來說比較碎塔猾,可能研究不了太深的問題。
圖13 HiFi測序深度與組裝連續(xù)性的關系(圖片引自文獻[8])
參考文獻:
1. Liu Yucheng, Du Huilong, Li Pengcheng et al. Pan-Genome of Wild and Cultivated Soybeans[J]. Cell, 2020.
2. Gordon Sean P, Contreras-Moreira Bruno, Woods Daniel P et al. Extensive Gene Content Variation in the Brachypodium distachyon Pan-Genome Correlates with Population Structure[J]. Nature Communications, 2017.
3. Gao Lei, Gonda Itay, Sun Honghe et al. The Tomato Pan-Genome Uncovers New Genes and a Rare Allele Regulating Fruit Flavor[J]. Nature Genetics, 2019.
4. Golicz Agnieszka A, Bayer Philipp E, Barker Guy C et al. The Pangenome of an Agronomically Important Crop Plant Brassica oleracea[J]. Nature Communications, 2016.
5. Alonge Michael, Wang Xingang, Benoit Matthias et al. Major Impacts of Widespread Structural Variation on Gene Expression and Crop Improvement in Tomato[J]. Cell, 2020.
6. Tao Yongfu, Jordan David R, Mace Emma S. A Graph-Based Pan-Genome Guides Biological Discovery[J]. Molecular Plant, 2020.
7. Jayakodi Murukarthick, Padmarasu Sudharsan, Haberer Georg et al. The Barley Pan-Genome Reveals the Hidden Legacy of Mutation Breeding[J]. Nature, 2020.
8. Wenger Aaron M, Peluso Paul, Rowell William J et al. Accurate Circular Consensus Long-Read Sequencing Improves Variant Detection and Assembly of a Human Genome[J]. Nature Biotechnology, 2019.