對(duì)26份大豆進(jìn)行De Novo組裝并構(gòu)建大豆泛基因組


2020年6月17日田志喜老師等人的工作發(fā)表于Cell

1 Introduction

Pan-genome 相比傳統(tǒng)線性Reference genome具有的優(yōu)點(diǎn):

包含物種所有的基因隧饼,主要體現(xiàn)在可以檢測(cè)大量的基因組結(jié)構(gòu)變異(SVs)中的獲得/缺失突變(PAVs),可以挖掘利用更多的基因資源蹲姐。

包含物種所有的等位基因變異類型(alleles)疮薇。

目前耕挨,已有60000多種大豆品種分布在世界各地拥娄。2010年耸弄,Schmutz等發(fā)表了栽培大豆第一個(gè)reference genome Williams 82(Wm82)迄靠。2018年秒咨,田志喜老師等對(duì)我國(guó)栽培面積最廣的大豆品種“中黃13”(Zhonghuang 13,ZH13)進(jìn)行從頭組裝測(cè)序掌挚,并于2019年對(duì)ZH13基因組再次優(yōu)化雨席。2019年,Xie等發(fā)表了野生大豆W05基因組吠式。對(duì)這三個(gè)基因組進(jìn)行比較分析發(fā)現(xiàn)陡厘,在不同品種的基因組間存在大量的PAVs和CNVs,因此構(gòu)建大豆Pan-genome是至關(guān)重要的特占。

2014年糙置,邱麗娟老師等利用二代測(cè)序構(gòu)建了7個(gè)野生大豆的泛基因組。本文中是目,田老師等利用多種測(cè)序技術(shù)谤饭,對(duì)26份大豆材料進(jìn)從頭組裝,并結(jié)合已有的3個(gè)大豆參考基因組構(gòu)建了graph-based的大豆泛基因組。

2 Result

2.1 深度重測(cè)序2898份大豆重頭組裝26份大豆

2.1.1 2898份大豆重測(cè)序:

野生大豆:103份? ?地方品種:1048份? ?栽培品種:1747份揉抵,Illimina >13\times 宜岛,與ZH13基因組比對(duì),共發(fā)現(xiàn)31,870,983個(gè)SNPs功舀。利用全基因組的SNPs進(jìn)行系統(tǒng)發(fā)生分析,將2898份材料分為6組身弊,所有的野生大豆為一組辟汰,栽培大豆分為5組,發(fā)現(xiàn)材料系統(tǒng)發(fā)生分析結(jié)果與材料地理分布一致阱佛。

2.1.2 26份大豆從頭組裝:

Method and coverage depth:PacBio 單分子實(shí)時(shí)測(cè)序(SIngle-molecular real-time, SMRT)96\times ; Nanopore 光學(xué)圖譜測(cè)序(Optical mapping)277?\times ; Hi-C 136\times ; Illimina 68\times

組裝質(zhì)量:AVERAGE? ?Contig N50: 22.6Mb? ?Scafford N50: 51.2Mb? ?Genome: 1011.6Mb? Chr loading: ~99% contigs?

2.1.3 基因組注釋:

重復(fù)序列占到~54.4%帖汞,其中LTR比例最大。
對(duì)26份材料的根凑术、莖翩蘸、葉、花淮逊、不同發(fā)育時(shí)期種子進(jìn)行RNA-seq(8Gb/sample)和small RNA-seq(~278Mb/sample)催首。每個(gè)基因組平均鑒定到56,552個(gè)蛋白編碼基因,553個(gè)microRNA泄鹏,171個(gè)snRNA和439個(gè)rRNA基因郎任。BUSCO:~95.6% of the 1440 single copy Embryophyta genes。

2.2 Core and Dispensable genes

Pan-genome analysis: 26 de novo assembled genomes + ZH13 genome

Gene classification: all genes were classified into 57492 families

隨著基因組數(shù)目的增加备籽,Pan-genome中的基因數(shù)量也隨之增加舶治,當(dāng)基因組數(shù)目達(dá)到25個(gè)時(shí),基因數(shù)目增加到平臺(tái)期车猬,因此這27個(gè)基因組構(gòu)建的泛基因組基本可以涵蓋大豆所有的基因霉猛。

????Core genes:present in all 27 accessions, 20623? families
? ? Softcore genes: present in 25~26 accessions (>90% of the collection),8136 families
? ? Dispensable genes: present in 2~24 accessions, 28,670 families
? ? Private genes: present in??only one accession, 27? families
? ? Dispensable and private genes accounted for 49.9% of the total gene sets and accounted for an average of 19.1% of the genes in individual accessions.

Core and softcore genes(~77.5% and 72.1%) contain more InterPro domains than dispensable and private genes(49.0% and 38.5%).
The nucleotide diversity(π) and dN/dS are higher in dispensable genes than core genes.
說(shuō)明,Core genes比dispensable genes功能更加保守珠闰。

GO(Gene Ontology)Pfam enrichment分析發(fā)現(xiàn)惜浅,core genes主要富集在生長(zhǎng)、免疫伏嗜、生殖赡矢、細(xì)胞組成發(fā)生等生物過(guò)程,dispensable genes主要富集在響應(yīng)生物和非生物脅迫方面阅仔。Kyoto Encyclopedia of Genes and Genomes (KEGG) pathway analyses 發(fā)現(xiàn)core genes 主要富集在基本代謝和次級(jí)代謝通路中吹散,然而dispensable genes主要富集在脂肪酸合成等特定的代謝通路中。

2.3? Sequence variation identification in 29 soybean genomes

Comparative genomics analysis: 26 de novo assembled genomes + Wm82, ZH13, W05?

將28個(gè)基因組與ZH13基因組比對(duì):

2.3.1 SNPs and InDels

? ? Sequence variation in pan-genomes: 14,604,953 SNPs八酒; 12,716,823 InDels
? ? Sequence variation in 2898 accessions: 31,870,983 SNPs
? ? Though the SNP number is different, the SNP distributions are similar between pan-genome and 2898 accessions genome set.
? ? 比較29 genomes和2898份材料間的nucleotide diversity空民,dN/dS,結(jié)果高度一致,進(jìn)一步證明這29份材料具有充分的代表性界轩。

2.3.2 SVs

? ? PAVs:723,862, 1~2kb
? ? CNVs: 27,531, vary from 2~10, enrich between 2~3
? ? Translocation events: 21,886, including 6,801 intra--chromosome and 15,085 inter-chromosome translocations, 10~30kb
? ? Inversion events: 3,120, length: 100~200kb

? ? 平均每個(gè)基因組出現(xiàn)的PAVs數(shù)據(jù)量為167.09Mb画饥,約占基因組16%。PAVs是影響基因組大小的主要因素浊猾,約90%的基因組大小差異是由PAVs產(chǎn)生的抖甘。

2.4? Graph-based genome and SV characterization?

構(gòu)建由124,222個(gè)SVs組成的SV非冗余數(shù)據(jù)集,將由29個(gè)大豆de novo 基因組整合組裝成graph-based genome葫慎,并把從中鑒定到的776,399 個(gè)SVs 進(jìn)行merge衔彻,形成由124,222個(gè)SVs構(gòu)成的非冗余SVs數(shù)據(jù)集。與核心基因組組成結(jié)構(gòu)相似偷办,隨著SVs非冗余數(shù)據(jù)集的增大艰额,其規(guī)模也逐漸進(jìn)入一個(gè)平臺(tái)期,并鑒定到130個(gè)存在于所有材料中的SVs椒涯。

從29份材料中鑒定到124,222個(gè)非冗余SVs柄沮,只有130個(gè)SVs在所有的材料中出現(xiàn);將每個(gè)材料中鑒定的SVs分為四種類型

作者依據(jù)這些SVs在28份大豆中出現(xiàn)的頻率分為四類:
? ? Core SVs: present in all 28 samples
? ? Softcore SVs: present in >90% of samples but not all(26~27)
? ? Dispensable SVs: present in more than one but <90% of samples(2~25)
? ? Private SVs: present in only one sample
最終發(fā)現(xiàn)废岂,野生大豆中有更高比例(22.2%)的private SVs祖搓,而栽培大豆含有的private SVs只占到6.7%。然而湖苞,Wm82中有著更高比例的private SVs棕硫,這可能是由于該基因組組裝主要基于二代測(cè)序的原因。

SVs主要出現(xiàn)在重復(fù)序列區(qū)域袒啼;PAV也主要出現(xiàn)在重復(fù)區(qū)域

作者發(fā)現(xiàn)哈扮,SVs主要富集在DNA的重復(fù)區(qū)域,并發(fā)現(xiàn)了比以往更多的PAVs蚓再,其中78.5%的PAVs都分布在重復(fù)序列滑肉。這一發(fā)現(xiàn)支持了Kumar等人的理論,即認(rèn)為基因組的差異很大程度上來(lái)源于DNA重復(fù)序列的變異摘仅。

作者基于ZH13基因組靶庙,整合了DNA重復(fù)序列少于90%的PAVs組成了graph-based genome。然后將2898個(gè)大豆重測(cè)序數(shù)據(jù)比對(duì)到graph-genome上娃属,共鑒定到55,402個(gè)SVs六荒。從2898份材料中鑒定到3584個(gè)新的SVs,這些SVs在群體中出現(xiàn)的頻率較低矾端。野生大豆中鑒定到的SVs要明顯多于地方種和栽培種掏击。

野生大豆中鑒定到的SVs要明顯多于地方種和栽培種

過(guò)去的研究發(fā)現(xiàn),疏水蛋白(Hydrophobic protein from soybean, HSP)積累會(huì)影響大豆種皮光澤(Seed luster)秩铆。作者利用2898份大豆材料中鑒定到的SVs對(duì)種皮光澤性狀進(jìn)行全基因組關(guān)聯(lián)分析砚亭,在15號(hào)染色體上鑒定到一個(gè)顯著相關(guān)位點(diǎn)灯变,一個(gè)編碼疏水蛋白(HSP)的10kbPAV導(dǎo)致了種皮光澤的差異,存在10kb片段的大豆有光澤捅膘,缺失10kb的大豆沒(méi)有光澤添祸。

利用graph-genome進(jìn)行GWAS分析,發(fā)現(xiàn)在15號(hào)染色體上存在一個(gè)與種皮光澤相關(guān)的PAV


10kb的PAV導(dǎo)致種皮光澤差異寻仗,單倍型分析發(fā)現(xiàn)存在10kb的大豆中有光澤的比例更高

2.5 Sequence variations and paleopolyploid

前人對(duì)Wm82基因組研究發(fā)現(xiàn)刃泌,在~13 million years以前大豆發(fā)生了一次全基因組復(fù)制事件(Genome-wide duplication,WGD)署尤,導(dǎo)致大豆基因組中將近50%的基因存在多個(gè)拷貝耙替。作者對(duì)構(gòu)成graph-genome的基因組逐個(gè)進(jìn)行分析發(fā)現(xiàn),~54%的基因組是由WGD事件產(chǎn)生的沐寺。與Wm82基因組類似,WGD主要存在于DNA基因富集區(qū)域(Gene-rich region)盖奈,并與DNA重復(fù)區(qū)域距離較遠(yuǎn)混坞。

WGD主要發(fā)生在gene-rich region

前人提出存在duplications的區(qū)域進(jìn)化速度要低于單拷貝的區(qū)域的假說(shuō)。作者在29份基因組中發(fā)現(xiàn)钢坦,WGD regions的核苷酸多態(tài)性要顯著低于non-WGD regions究孕。

non-WGD regions的核苷酸多態(tài)性要高于WGD regions

此外,WGD regions有更高比例的core 和 softcore genes爹凹,non-WGD區(qū)有更高比例的dispensable 和 private genes厨诸。

non-WGD區(qū)域發(fā)生的 SVs數(shù)量也少于WGD區(qū)(46% versus 54%)。WGD區(qū)域比non-WGD區(qū)含有更少的private SVs禾酱。意味著全基因復(fù)制事件不僅限制了基因組的進(jìn)化速率微酬,并作為重要的遺傳因素作用于SVs的進(jìn)化。

WGD regions 和 non-WGD regions的基因成分和SVs成分

作者選取每個(gè)PAV兩側(cè)各1kb區(qū)域颤陶,并進(jìn)一步分為100bp的窗口颗管,分析每個(gè)窗口平均的核苷酸多態(tài)性,發(fā)現(xiàn)距離PAVs越近的區(qū)域核苷酸多態(tài)性越高滓走,距離越遠(yuǎn)的區(qū)域越低垦江,在距PAVs約700bp的位置時(shí)核苷酸多態(tài)性水平趨于平穩(wěn)。這些結(jié)果說(shuō)明搅方,全基因組復(fù)制事件會(huì)影響PAVs附近indel-associated的堿基替換比吭,但對(duì)距PAVs很近的堿基替換頻率影響較小。

核苷酸多態(tài)性隨距PAVs的距離而降低姨涡,WGD會(huì)影響核苷酸多態(tài)性降低的速率衩藤,但對(duì)PAVs附近核苷酸多態(tài)性最高的區(qū)域影響較小。

2.5? Gene structure variation and gene fusion

基因數(shù)目:泛基因組分析涛漂,從26個(gè)de novo組裝的基因組中共鑒定到27175個(gè)基因是在ZH13基因組中沒(méi)有的。有48249個(gè)基因至少在26個(gè)基因組中的一個(gè)里缺失。

SNP: 統(tǒng)計(jì)SNP位置底哗,分析SNP造成的premature stop codons 數(shù)目

Indel:統(tǒng)計(jì)Indel位置,分析Indel造成的frameshifts

PAVs:PAVs造成的基因存在/缺失

Gene fusion by read-through:重點(diǎn)研究了E3位點(diǎn)的gene fusion事件跋选,利用比較基因組、轉(zhuǎn)錄組學(xué)前标、PCR擴(kuò)增、sanger測(cè)序等方法在不同的材料中共鑒定到15個(gè)gene fusion事件炼列。

cover depth:

BUSCO

?InterPro domains:

The nucleotide diversity(π) and dN/dS :

Pfam enrichment:

GO(Gene Ontology):

Kyoto Encyclopedia of Genes and Genomes (KEGG) pathway analyse:

Minor?allele frequency (MAF) <0.01:?

The precision, recall, and F1 score were 0.94, 0.75,?and 0.83, respectively:

genome-wide duplication:?

滑動(dòng)窗口:

為什么水稻選擇66個(gè)個(gè)體構(gòu)建pan-genome,然而本研究只選擇26個(gè)俭尖,是由于群體變異、群體結(jié)構(gòu) 影響的么稽犁?

構(gòu)建大豆pan-genome 數(shù)據(jù)庫(kù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末已亥,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子虑椎,更是在濱河造成了極大的恐慌,老刑警劉巖捆姜,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異娇未,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)零抬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門镊讼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人平夜,你說(shuō)我怎么就攤上這事蝶棋。” “怎么了忽妒?”我有些...
    開(kāi)封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵玩裙,是天一觀的道長(zhǎng)兼贸。 經(jīng)常有香客問(wèn)我,道長(zhǎng)吃溅,這世上最難降的妖魔是什么溶诞? 我笑而不...
    開(kāi)封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮决侈,結(jié)果婚禮上螺垢,老公的妹妹穿的比我還像新娘。我一直安慰自己赖歌,他們只是感情好枉圃,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著庐冯,像睡著了一般孽亲。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上展父,一...
    開(kāi)封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天返劲,我揣著相機(jī)與錄音,去河邊找鬼犯祠。 笑死旭等,一個(gè)胖子當(dāng)著我的面吹牛酌呆,可吹牛的內(nèi)容都是我干的衡载。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼隙袁,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼痰娱!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起菩收,我...
    開(kāi)封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤梨睁,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后娜饵,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體坡贺,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年箱舞,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了遍坟。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡晴股,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出电湘,到底是詐尸還是另有隱情鹅经,我是刑警寧澤瘾晃,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布酗捌,位于F島的核電站涌哲,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏哪廓。R本人自食惡果不足惜初烘,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一肾筐、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧东亦,春花似錦典阵、人聲如沸镊逝。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)狸眼。三九已至辈灼,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間司志,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工囚霸, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拓型,地道東北人瘸恼。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓东帅,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親帐我。 傳聞我的和親對(duì)象是個(gè)殘疾皇子愧膀,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345