1 Introduction
Pan-genome 相比傳統(tǒng)線性Reference genome具有的優(yōu)點(diǎn):
包含物種所有的基因隧饼,主要體現(xiàn)在可以檢測(cè)大量的基因組結(jié)構(gòu)變異(SVs)中的獲得/缺失突變(PAVs),可以挖掘利用更多的基因資源蹲姐。
包含物種所有的等位基因變異類型(alleles)疮薇。
目前耕挨,已有60000多種大豆品種分布在世界各地拥娄。2010年耸弄,Schmutz等發(fā)表了栽培大豆第一個(gè)reference genome Williams 82(Wm82)迄靠。2018年秒咨,田志喜老師等對(duì)我國(guó)栽培面積最廣的大豆品種“中黃13”(Zhonghuang 13,ZH13)進(jìn)行從頭組裝測(cè)序掌挚,并于2019年對(duì)ZH13基因組再次優(yōu)化雨席。2019年,Xie等發(fā)表了野生大豆W05基因組吠式。對(duì)這三個(gè)基因組進(jìn)行比較分析發(fā)現(xiàn)陡厘,在不同品種的基因組間存在大量的PAVs和CNVs,因此構(gòu)建大豆Pan-genome是至關(guān)重要的特占。
2014年糙置,邱麗娟老師等利用二代測(cè)序構(gòu)建了7個(gè)野生大豆的泛基因組。本文中是目,田老師等利用多種測(cè)序技術(shù)谤饭,對(duì)26份大豆材料進(jìn)從頭組裝,并結(jié)合已有的3個(gè)大豆參考基因組構(gòu)建了graph-based的大豆泛基因組。
2 Result
2.1 深度重測(cè)序2898份大豆重頭組裝26份大豆
2.1.1 2898份大豆重測(cè)序:
野生大豆:103份? ?地方品種:1048份? ?栽培品種:1747份揉抵,Illimina >13宜岛,與ZH13基因組比對(duì),共發(fā)現(xiàn)31,870,983個(gè)SNPs功舀。利用全基因組的SNPs進(jìn)行系統(tǒng)發(fā)生分析,將2898份材料分為6組身弊,所有的野生大豆為一組辟汰,栽培大豆分為5組,發(fā)現(xiàn)材料系統(tǒng)發(fā)生分析結(jié)果與材料地理分布一致阱佛。
2.1.2 26份大豆從頭組裝:
Method and coverage depth:PacBio 單分子實(shí)時(shí)測(cè)序(SIngle-molecular real-time, SMRT)96; Nanopore 光學(xué)圖譜測(cè)序(Optical mapping)277?; Hi-C 136; Illimina 68
組裝質(zhì)量:AVERAGE? ?Contig N50: 22.6Mb? ?Scafford N50: 51.2Mb? ?Genome: 1011.6Mb? Chr loading: ~99% contigs?
2.1.3 基因組注釋:
重復(fù)序列占到~54.4%帖汞,其中LTR比例最大。
對(duì)26份材料的根凑术、莖翩蘸、葉、花淮逊、不同發(fā)育時(shí)期種子進(jìn)行RNA-seq(8Gb/sample)和small RNA-seq(~278Mb/sample)催首。每個(gè)基因組平均鑒定到56,552個(gè)蛋白編碼基因,553個(gè)microRNA泄鹏,171個(gè)snRNA和439個(gè)rRNA基因郎任。BUSCO:~95.6% of the 1440 single copy Embryophyta genes。
2.2 Core and Dispensable genes
Pan-genome analysis: 26 de novo assembled genomes + ZH13 genome
Gene classification: all genes were classified into 57492 families
隨著基因組數(shù)目的增加备籽,Pan-genome中的基因數(shù)量也隨之增加舶治,當(dāng)基因組數(shù)目達(dá)到25個(gè)時(shí),基因數(shù)目增加到平臺(tái)期车猬,因此這27個(gè)基因組構(gòu)建的泛基因組基本可以涵蓋大豆所有的基因霉猛。
????Core genes:present in all 27 accessions, 20623? families
? ? Softcore genes: present in 25~26 accessions (>90% of the collection),8136 families
? ? Dispensable genes: present in 2~24 accessions, 28,670 families
? ? Private genes: present in??only one accession, 27? families
? ? Dispensable and private genes accounted for 49.9% of the total gene sets and accounted for an average of 19.1% of the genes in individual accessions.
Core and softcore genes(~77.5% and 72.1%) contain more InterPro domains than dispensable and private genes(49.0% and 38.5%).
The nucleotide diversity(π) and dN/dS are higher in dispensable genes than core genes.
說(shuō)明,Core genes比dispensable genes功能更加保守珠闰。
GO(Gene Ontology)和Pfam enrichment分析發(fā)現(xiàn)惜浅,core genes主要富集在生長(zhǎng)、免疫伏嗜、生殖赡矢、細(xì)胞組成發(fā)生等生物過(guò)程,dispensable genes主要富集在響應(yīng)生物和非生物脅迫方面阅仔。Kyoto Encyclopedia of Genes and Genomes (KEGG) pathway analyses 發(fā)現(xiàn)core genes 主要富集在基本代謝和次級(jí)代謝通路中吹散,然而dispensable genes主要富集在脂肪酸合成等特定的代謝通路中。
2.3? Sequence variation identification in 29 soybean genomes
Comparative genomics analysis: 26 de novo assembled genomes + Wm82, ZH13, W05?
將28個(gè)基因組與ZH13基因組比對(duì):
2.3.1 SNPs and InDels
? ? Sequence variation in pan-genomes: 14,604,953 SNPs八酒; 12,716,823 InDels
? ? Sequence variation in 2898 accessions: 31,870,983 SNPs
? ? Though the SNP number is different, the SNP distributions are similar between pan-genome and 2898 accessions genome set.
? ? 比較29 genomes和2898份材料間的nucleotide diversity空民,dN/dS,結(jié)果高度一致,進(jìn)一步證明這29份材料具有充分的代表性界轩。
2.3.2 SVs
? ? PAVs:723,862, 1~2kb
? ? CNVs: 27,531, vary from 2~10, enrich between 2~3
? ? Translocation events: 21,886, including 6,801 intra--chromosome and 15,085 inter-chromosome translocations, 10~30kb
? ? Inversion events: 3,120, length: 100~200kb
? ? 平均每個(gè)基因組出現(xiàn)的PAVs數(shù)據(jù)量為167.09Mb画饥,約占基因組16%。PAVs是影響基因組大小的主要因素浊猾,約90%的基因組大小差異是由PAVs產(chǎn)生的抖甘。
2.4? Graph-based genome and SV characterization?
構(gòu)建由124,222個(gè)SVs組成的SV非冗余數(shù)據(jù)集,將由29個(gè)大豆de novo 基因組整合組裝成graph-based genome葫慎,并把從中鑒定到的776,399 個(gè)SVs 進(jìn)行merge衔彻,形成由124,222個(gè)SVs構(gòu)成的非冗余SVs數(shù)據(jù)集。與核心基因組組成結(jié)構(gòu)相似偷办,隨著SVs非冗余數(shù)據(jù)集的增大艰额,其規(guī)模也逐漸進(jìn)入一個(gè)平臺(tái)期,并鑒定到130個(gè)存在于所有材料中的SVs椒涯。
作者依據(jù)這些SVs在28份大豆中出現(xiàn)的頻率分為四類:
? ? Core SVs: present in all 28 samples
? ? Softcore SVs: present in >90% of samples but not all(26~27)
? ? Dispensable SVs: present in more than one but <90% of samples(2~25)
? ? Private SVs: present in only one sample
最終發(fā)現(xiàn)废岂,野生大豆中有更高比例(22.2%)的private SVs祖搓,而栽培大豆含有的private SVs只占到6.7%。然而湖苞,Wm82中有著更高比例的private SVs棕硫,這可能是由于該基因組組裝主要基于二代測(cè)序的原因。
作者發(fā)現(xiàn)哈扮,SVs主要富集在DNA的重復(fù)區(qū)域,并發(fā)現(xiàn)了比以往更多的PAVs蚓再,其中78.5%的PAVs都分布在重復(fù)序列滑肉。這一發(fā)現(xiàn)支持了Kumar等人的理論,即認(rèn)為基因組的差異很大程度上來(lái)源于DNA重復(fù)序列的變異摘仅。
作者基于ZH13基因組靶庙,整合了DNA重復(fù)序列少于90%的PAVs組成了graph-based genome。然后將2898個(gè)大豆重測(cè)序數(shù)據(jù)比對(duì)到graph-genome上娃属,共鑒定到55,402個(gè)SVs六荒。從2898份材料中鑒定到3584個(gè)新的SVs,這些SVs在群體中出現(xiàn)的頻率較低矾端。野生大豆中鑒定到的SVs要明顯多于地方種和栽培種掏击。
過(guò)去的研究發(fā)現(xiàn),疏水蛋白(Hydrophobic protein from soybean, HSP)積累會(huì)影響大豆種皮光澤(Seed luster)秩铆。作者利用2898份大豆材料中鑒定到的SVs對(duì)種皮光澤性狀進(jìn)行全基因組關(guān)聯(lián)分析砚亭,在15號(hào)染色體上鑒定到一個(gè)顯著相關(guān)位點(diǎn)灯变,一個(gè)編碼疏水蛋白(HSP)的10kbPAV導(dǎo)致了種皮光澤的差異,存在10kb片段的大豆有光澤捅膘,缺失10kb的大豆沒(méi)有光澤添祸。
2.5 Sequence variations and paleopolyploid
前人對(duì)Wm82基因組研究發(fā)現(xiàn)刃泌,在~13 million years以前大豆發(fā)生了一次全基因組復(fù)制事件(Genome-wide duplication,WGD)署尤,導(dǎo)致大豆基因組中將近50%的基因存在多個(gè)拷貝耙替。作者對(duì)構(gòu)成graph-genome的基因組逐個(gè)進(jìn)行分析發(fā)現(xiàn),~54%的基因組是由WGD事件產(chǎn)生的沐寺。與Wm82基因組類似,WGD主要存在于DNA基因富集區(qū)域(Gene-rich region)盖奈,并與DNA重復(fù)區(qū)域距離較遠(yuǎn)混坞。
前人提出存在duplications的區(qū)域進(jìn)化速度要低于單拷貝的區(qū)域的假說(shuō)。作者在29份基因組中發(fā)現(xiàn)钢坦,WGD regions的核苷酸多態(tài)性要顯著低于non-WGD regions究孕。
此外,WGD regions有更高比例的core 和 softcore genes爹凹,non-WGD區(qū)有更高比例的dispensable 和 private genes厨诸。
non-WGD區(qū)域發(fā)生的 SVs數(shù)量也少于WGD區(qū)(46% versus 54%)。WGD區(qū)域比non-WGD區(qū)含有更少的private SVs禾酱。意味著全基因復(fù)制事件不僅限制了基因組的進(jìn)化速率微酬,并作為重要的遺傳因素作用于SVs的進(jìn)化。
作者選取每個(gè)PAV兩側(cè)各1kb區(qū)域颤陶,并進(jìn)一步分為100bp的窗口颗管,分析每個(gè)窗口平均的核苷酸多態(tài)性,發(fā)現(xiàn)距離PAVs越近的區(qū)域核苷酸多態(tài)性越高滓走,距離越遠(yuǎn)的區(qū)域越低垦江,在距PAVs約700bp的位置時(shí)核苷酸多態(tài)性水平趨于平穩(wěn)。這些結(jié)果說(shuō)明搅方,全基因組復(fù)制事件會(huì)影響PAVs附近indel-associated的堿基替換比吭,但對(duì)距PAVs很近的堿基替換頻率影響較小。
2.5? Gene structure variation and gene fusion
基因數(shù)目:泛基因組分析涛漂,從26個(gè)de novo組裝的基因組中共鑒定到27175個(gè)基因是在ZH13基因組中沒(méi)有的。有48249個(gè)基因至少在26個(gè)基因組中的一個(gè)里缺失。
SNP: 統(tǒng)計(jì)SNP位置底哗,分析SNP造成的premature stop codons 數(shù)目
Indel:統(tǒng)計(jì)Indel位置,分析Indel造成的frameshifts
PAVs:PAVs造成的基因存在/缺失
Gene fusion by read-through:重點(diǎn)研究了E3位點(diǎn)的gene fusion事件跋选,利用比較基因組、轉(zhuǎn)錄組學(xué)前标、PCR擴(kuò)增、sanger測(cè)序等方法在不同的材料中共鑒定到15個(gè)gene fusion事件炼列。
cover depth:
BUSCO:
?InterPro domains:
The nucleotide diversity(π) and dN/dS :
Pfam enrichment:
GO(Gene Ontology):
Kyoto Encyclopedia of Genes and Genomes (KEGG) pathway analyse:
Minor?allele frequency (MAF) <0.01:?
The precision, recall, and F1 score were 0.94, 0.75,?and 0.83, respectively:
genome-wide duplication:?
滑動(dòng)窗口:
為什么水稻選擇66個(gè)個(gè)體構(gòu)建pan-genome,然而本研究只選擇26個(gè)俭尖,是由于群體變異、群體結(jié)構(gòu) 影響的么稽犁?
構(gòu)建大豆pan-genome 數(shù)據(jù)庫(kù)。