泛基因組分析方案

備注:本文主要來源于知乎《全新的泛基因組解決方案》登舞。關于大豆泛基因組文章解讀咨堤,請看往期記錄《大豆(Soybean, Glycine max)泛基因組2020Cell》呆馁。

一、研究內(nèi)容

泛基因組產(chǎn)品采用從頭組裝的策略進行泛基因組構(gòu)建,分析內(nèi)容包括比較基因組分析、核心基因和非必需基因分析雹有、結(jié)構(gòu)變異(SVs)分析和圖形結(jié)構(gòu)基因組的構(gòu)建。具體內(nèi)容如下:


image.png

1.比較基因組分析

泛基因組包含多個材料的基因組數(shù)據(jù)臼寄,非常適合進行材料間的比較基因組分析霸奕,挖掘群體/個體材料的特有基因,從而在全基因組水平上了解不同材料間的共性與特性吉拳,進而了解其基因組結(jié)構(gòu)质帅、基因功能,探究特有基因與特殊生物學性狀的關系留攒,推斷物種進化地位及適應性機制煤惩。

例如,大豆泛基因組研究[1]中稼跳,研究者通過WGD(Whole genome duplication,全基因組復制)分析盟庞,發(fā)現(xiàn)WGD區(qū)域包含較高比例的核心基因和次核心基因吃沪,而非WGD區(qū)域包含較高比例的非必需基因和特有基因汤善。比較WGD和non-WGD之間的核苷酸多樣性,發(fā)現(xiàn)WGD區(qū)域基因核苷酸多樣性顯著低于非WGD區(qū)域。同時红淡,在非WGD區(qū)域發(fā)現(xiàn)了更多的SVs不狮,且與非WGD區(qū)域相比,WGD區(qū)域擁有較少特有SVs在旱。研究結(jié)果表明基因組復制可以作為一種重要的遺傳力來影響SVs的進化摇零。

image

圖1 大豆WGD與非WGD區(qū)域之間的基因和結(jié)構(gòu)變異特征的比較(圖片引自文獻[1]),A:WGD與非WGD區(qū)域之間的基因密度比較桶蝎。B:WGD和非WGD區(qū)域之間重復DNA比例的比較驻仅。C:WGD和非WGD區(qū)域之間核苷酸多樣性的比較。D:WGD和非WGD區(qū)域中的基因組成情況登渣。E:WGD和非WGD區(qū)域中的結(jié)構(gòu)變化組成情況噪服。F:WGD和非WGD區(qū)域之間PAV驅(qū)動的單核苷酸突變率比較。

2. 核心基因/非必需基因分析

泛基因組中的基因分為核心基因和非必需基因胜茧,不同類型基因在特征和功能上具有明顯差異粘优,通過對不同類型基因集的比較,可以進一步揭示物種的基因組變化和適應性機制呻顽。

泛基因組大小模擬

通過泛基因集的大小模擬(即泛基因和核心基因累計分析)雹顺,可以預測該物種泛基集的理論大小、挖掘個體特有基因廊遍、了解個體基因組成嬉愧、明確物種核心基因和非必需基因的占比等。

例如喉前,大豆泛基因組研究[1]中英染,研究者對核心基因和非必需基因數(shù)目進行模擬,發(fā)現(xiàn)總基因隨著新基因組的加入而增加被饿,并在n=25時接近平緩四康,表明這27份大豆材料非常具有代表性,已包含絕大多數(shù)的大豆基因信息狭握。此外闪金,短柄草[2]和番茄[3]等泛基因組研究也做了類似的分析。

image.png

圖2 大豆核心基因和非必需基因分析 A:泛基因組和核心基因組中基因家族數(shù)目隨大豆基因組數(shù)目增加的變化情況论颅。B:泛基因組和個體基因組的基因家族組成哎垦。(圖片引自文獻[1])

核心基因/非必需基因功能富集

通過功能富集分析,可以直觀了解不同類型基因集的功能恃疯,有助于挖掘影響特殊生物學性狀形成的特有基因資源漏设。

例如,大豆泛基因組研究[1]中今妄,Pfam富集分析和GO富集分析顯示郑口,核心基因在與生長鸳碧、免疫、生殖犬性、細胞發(fā)生等相關的生物學過程中富集瞻离,而非必需和特有基因在生物和非生物脅迫響應過程中富集。KEGG通路分析表明乒裆,核心基因富含與基礎代謝和次生代謝產(chǎn)物生物合成有關的途徑套利,非必需基因在特定代謝相關的途徑富集。

此外鹤耍,短柄草[2]肉迫、番茄[3]、甘藍[4]等泛基因組研究均有類似發(fā)現(xiàn)稿黄。

image

圖3 大豆核心基因和非必需基因功能富集分析A:核心和非必需基因的Pfam富集昂拂。B:核心和非必需基因的GO分析。C:核心和非必需基因的KEGG分析抛猖。(圖片引自文獻[1])

核心基因/非必需基因保守性分析

對不同類型基因集進行保守性分析格侯,有助于挖掘適應性進化或馴化中發(fā)揮關鍵作用的基因。

例如财著,大豆泛基因組研究[1]中联四,對不同類型的基因進行保守性比較,結(jié)果表明含有InterPro結(jié)構(gòu)域的核心基因和次核心基因遠遠高于非必需基因和特有基因撑教,非必需基因的核苷酸多樣性(π)和dN / dS (非同義替換率與同義替換率的的比值)均高于核心基因朝墩,這些結(jié)果表明核心基因比非必需基因在功能上更保守。短柄草泛基因組研究[2]也有類似的發(fā)現(xiàn)伟姐。

image

圖4 大豆核心基因和非必需基因保守性比較左圖:核心基因和非必需基因中具有InterPro結(jié)構(gòu)域的基因比例收苏。中間圖及右圖:核心基因和非必需基因的核苷酸多樣性(π)和dN / dS 比較。(圖片引自文獻[1])

核心基因/非必需基因與重復序列相關性分析

研究表明愤兵,非必需基因更可能在重復序列區(qū)域富集鹿霸。對不同類型基因集所在的重復區(qū)域進行統(tǒng)計。

例如秆乳,短柄草泛基因組研究[2]中懦鼠,研究者發(fā)現(xiàn)染色體上非必需基因與核心基因的比率與種內(nèi)TE活性高度相關,在染色體的著絲粒周圍區(qū)域屹堰,非必需基因與核心基因的比率更高肛冶。甘藍泛基因組研究[4]中也有類似的發(fā)現(xiàn),與核心基因相比扯键,非必需基因周圍具有較高TE密度睦袖。

image.png

圖5 核心基因和非必需基因與重復序列相關性左圖:短柄草染色體的著絲粒周圍區(qū)域,核心基因與非必需基因的分布情況荣刑。右圖:甘藍核心和非必需基因TE含量比較馅笙。(圖片引自文獻[2伦乔,4])</figcaption>

核心基因/非必需基因表達水平分析

核心基因與非必需基因功能不同,表達量也有差異延蟹。

例如,短柄草泛基因組研究[2]中叶堆,研究者發(fā)現(xiàn)與非必需基因相比阱飘,核心基因通常有更高表達水平,并且在組織中更廣泛地表達虱颗。番茄泛基因組研究[3]也做有類似的發(fā)現(xiàn)沥匈。

image.png

圖6 短柄草核心基因和非必需基因表達比較 左圖:核心基因與Shell基因的表達水平比較。右圖:核心基因在與Shell基因的在多種組織中的表達情況忘渔。(圖片引自文獻[2])

3.結(jié)構(gòu)變異分析

相比于原核生物基因組主要由基因序列組成高帖,真核生物基因組中有超過50%的基因組可能是基因間的,并且基因序列本身還包含內(nèi)含子畦粮。因此散址,真核生物泛基因組除了要關注基因外,也應該關注序列的變異宣赔。根據(jù)泛基因組進行結(jié)構(gòu)變異分析预麸,可以深入挖掘重要性狀的調(diào)控基因,解析表型多樣性形成的遺傳基礎儒将。

SVs特征分析

基于基因組序列比對進行基因組SVs的檢測吏祸,可以對SVs特征進行分析,如對SVs類型钩蚊、長度分布贡翘、基因組分布、重復含量進行比較等砰逻。番茄結(jié)構(gòu)變異研究[5]中鸣驱,研究者構(gòu)建了最全面的pan-SV基因組,并對SVs的特征進行詳細分析蝠咆,結(jié)果表明大多數(shù)SVs相對較小丐巫,SVs通常由轉(zhuǎn)座子和相關重復序列組成或產(chǎn)生。大豆泛基因組研究[1]也有類似內(nèi)容勺美。

image

圖7 SVs的特征分布左圖:番茄不同大小SVs的檢測頻率分布圖及不同類型SVs的長度分布圖递胧。右圖:番茄不同類型SVs的重復含量分布。(圖片引自文獻[5])

核心/非必需SVs累計分析

將所有基因組中整合得到的非冗余SVs赡茸,同樣基于核心基因和非必須基因類似的策略進行核心和非必需SVs劃分和比較缎脾。通過核心和非必需SVs累計曲線,可以預測該物種泛基組的理論大小占卧、挖掘個體特有結(jié)構(gòu)變異遗菠。

例如联喘,大豆泛基因組研究[1]中,研究者根據(jù)SVs的等位基因頻率辙纬,將SVs分為4類:核心SVs豁遭、次核心SVs、非必需SVs或特有SVs贺拣。與核心基因和非必需基因的累計分布模式相似蓖谢,非冗余SVs集隨著樣本的加入而增長,并且趨于平緩譬涡。同時闪幽,核心SVs集逐漸減少,最終有130個SVs為所有樣本共有涡匀。番茄結(jié)構(gòu)變異研究[5]也有類似的SVs累計分布趨勢的發(fā)現(xiàn)盯腌。

image

圖8 核心和非必需SVs累計分析 左圖:大豆核心和非必需SVs累計分析。右圖:番茄核心和非必需SVs累計分析陨瘩。(圖片引自文獻[1腕够,5])

圖形結(jié)構(gòu)基因組構(gòu)建

在基因組從頭組裝的基礎上,把該物種的所有遺傳變異的信息都添加到參考基因組中舌劳,表示為含有替代路徑的圖形結(jié)構(gòu)燕少,從而進行圖形結(jié)構(gòu)泛基因構(gòu)建言缤,該泛基因組極大的涵蓋了個體間的差異信息审残,為物種研究提供更全面的遺傳信息稚疹。例如狸吞,大豆泛基因組研究[1]首次采用了圖形結(jié)構(gòu)的泛基因組構(gòu)建方法抒巢,打破了傳統(tǒng)線性基因組的存儲形式互亮,展示了物種更全面的遺傳信息寿烟,為后續(xù)基因組學的其他研究奠定良好的基礎淑际。

image

圖9 圖形結(jié)構(gòu)基因組構(gòu)建(圖片引自文獻[6])

SVs對基因結(jié)構(gòu)的影響

通過泛基因組序列及基因結(jié)構(gòu)分析脸侥,不僅可以檢測到先前報道的等位基因建邓,而且可以發(fā)現(xiàn)新的基因結(jié)構(gòu)變異,包括基因融合睁枕。

例如官边,大豆泛基因組研究[1]發(fā)現(xiàn)開花基因E3 基因結(jié)構(gòu)變異導致其自身移碼甚至與其他基因融合,從而影響大豆的開花外遇。

image

圖10 E3 在不同大豆材料中的結(jié)構(gòu)變異 A:E3 在基因組中的物理位置注簿。B:不同種質(zhì)中E3的單倍型。C:13.3 kb的缺失導致單倍型E3-tr 材料中SoyZH13_19G210500基因丟失和E3 (SoyZH13_19G210400)與其鄰近基因SoyZH13_19G210600的基因融合跳仿。(圖片引自文獻[1])

SVs對基因表達的影響

通過對SVs所在的區(qū)域進行分類展示诡渴,并結(jié)合轉(zhuǎn)錄組數(shù)據(jù)對基因表達進行分析,有助于挖掘影響基因表達的關鍵SVs菲语。

例如妄辩,番茄結(jié)構(gòu)變異研究[5]通過檢測有和無SVs時相關基因的差異表達程度惑灵,來檢測受SVs影響的表達基因。結(jié)果發(fā)現(xiàn)在21,156個SV-基因?qū)χ邪l(fā)現(xiàn)數(shù)百個顯著的表達改變眼耀。研究表明結(jié)構(gòu)變異通過改變基因劑量效應和表達水平英支,從而影響果實的風味,大小和產(chǎn)量哮伟。

image

圖11 番茄SVs對基因表達的影響 左圖:番茄材料中不同基因組特征SVs的百分比干花。右圖:受不同類型SVs影響的差異表達基因的數(shù)量情況。(圖片引自文獻[5])

二澈吨、技術策略

樣本選擇

為全面捕獲物種所有的基因組信息把敢,建議基于經(jīng)驗或群體結(jié)構(gòu)信息選擇最具代表性的個體進行泛基因組構(gòu)建寄摆,推薦樣本個數(shù)≥5個谅辣,具體可根據(jù)物種基因組大小、復雜度及群體復雜度進行調(diào)整婶恼。

大豆泛基因組研究[1]中桑阶,研究者通過2,898份大豆的重測序和進化樹構(gòu)建,選擇了26份在系統(tǒng)發(fā)育關系和地理分布方面最具代表性的材料進行泛基因組構(gòu)建勾邦。大麥泛基因組研究[7] 中蚣录,研究者通過19,778份大麥種質(zhì)的基因分型數(shù)據(jù)的PCA(包含不同地理來源、行類型眷篇、生長習性等材料)選擇了20份大麥來代表其遺傳多樣性萎河。

image

圖12 20份代表性大麥的材料選擇(圖片引自文獻[7])

測序策略

推薦采用PacBio HiFi測序,讀長長且準確蕉饼,測序深度≥15X/樣本虐杯。

HiFi組裝作為組裝界的新秀,具有組裝周期短昧港,準確性高擎椰,連續(xù)性好,簡單基因組和復雜基因組通吃的特點创肥,對于泛基因組這樣的大樣本量基因組組裝尤其合適达舒,大幅縮短組裝周期,提高組裝準確性和連續(xù)性叹侄。

缺點是貴巩搏。目前真正用HiFi來做泛基因組的還是很少,但二代和三代都有趾代,二代組裝相對來說比較碎塔猾,可能研究不了太深的問題。

image.png

圖13 HiFi測序深度與組裝連續(xù)性的關系(圖片引自文獻[8])

參考文獻:

1. Liu Yucheng, Du Huilong, Li Pengcheng et al. Pan-Genome of Wild and Cultivated Soybeans[J]. Cell, 2020.

2. Gordon Sean P, Contreras-Moreira Bruno, Woods Daniel P et al. Extensive Gene Content Variation in the Brachypodium distachyon Pan-Genome Correlates with Population Structure[J]. Nature Communications, 2017.

3. Gao Lei, Gonda Itay, Sun Honghe et al. The Tomato Pan-Genome Uncovers New Genes and a Rare Allele Regulating Fruit Flavor[J]. Nature Genetics, 2019.

4. Golicz Agnieszka A, Bayer Philipp E, Barker Guy C et al. The Pangenome of an Agronomically Important Crop Plant Brassica oleracea[J]. Nature Communications, 2016.

5. Alonge Michael, Wang Xingang, Benoit Matthias et al. Major Impacts of Widespread Structural Variation on Gene Expression and Crop Improvement in Tomato[J]. Cell, 2020.

6. Tao Yongfu, Jordan David R, Mace Emma S. A Graph-Based Pan-Genome Guides Biological Discovery[J]. Molecular Plant, 2020.

7. Jayakodi Murukarthick, Padmarasu Sudharsan, Haberer Georg et al. The Barley Pan-Genome Reveals the Hidden Legacy of Mutation Breeding[J]. Nature, 2020.

8. Wenger Aaron M, Peluso Paul, Rowell William J et al. Accurate Circular Consensus Long-Read Sequencing Improves Variant Detection and Assembly of a Human Genome[J]. Nature Biotechnology, 2019.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末稽坤,一起剝皮案震驚了整個濱河市丈甸,隨后出現(xiàn)的幾起案子糯俗,更是在濱河造成了極大的恐慌,老刑警劉巖睦擂,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件得湘,死亡現(xiàn)場離奇詭異,居然都是意外死亡顿仇,警方通過查閱死者的電腦和手機淘正,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來臼闻,“玉大人鸿吆,你說我怎么就攤上這事∈瞿牛” “怎么了惩淳?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長乓搬。 經(jīng)常有香客問我思犁,道長,這世上最難降的妖魔是什么进肯? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任激蹲,我火速辦了婚禮,結(jié)果婚禮上江掩,老公的妹妹穿的比我還像新娘学辱。我一直安慰自己,他們只是感情好环形,可當我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布策泣。 她就那樣靜靜地躺著,像睡著了一般斟赚。 火紅的嫁衣襯著肌膚如雪着降。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天拗军,我揣著相機與錄音任洞,去河邊找鬼。 笑死发侵,一個胖子當著我的面吹牛交掏,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播刃鳄,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼盅弛,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起挪鹏,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤见秽,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后讨盒,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體解取,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年返顺,在試婚紗的時候發(fā)現(xiàn)自己被綠了禀苦。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡遂鹊,死狀恐怖振乏,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情秉扑,我是刑警寧澤慧邮,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站邻储,受9級特大地震影響赋咽,放射性物質(zhì)發(fā)生泄漏旧噪。R本人自食惡果不足惜吨娜,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望淘钟。 院中可真熱鬧宦赠,春花似錦、人聲如沸米母。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽铁瞒。三九已至妙色,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間慧耍,已是汗流浹背身辨。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留芍碧,地道東北人煌珊。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像泌豆,于是被迫代替她去往敵國和親定庵。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 表情是什么,我認為表情就是表現(xiàn)出來的情緒蔬浙。表情可以傳達很多信息猪落。高興了當然就笑了,難過就哭了畴博。兩者是相互影響密不可...
    Persistenc_6aea閱讀 124,908評論 2 7
  • 16宿命:用概率思維提高你的勝算 以前的我是風險厭惡者许布,不喜歡去冒險,但是人生放棄了冒險绎晃,也就放棄了無數(shù)的可能蜜唾。 ...
    yichen大刀閱讀 6,046評論 0 4