導(dǎo)讀
馬鈴薯(Solanum tuberosum)是消費(fèi)最多的非谷類糧食作物筹吐。大多數(shù)商業(yè)化的馬鈴薯栽培品種為同源四倍體糖耸,具有高度雜合的基因組,嚴(yán)重阻礙了遺傳分析和改良丘薛。利用最先進(jìn)的測(cè)序技術(shù)和多倍型圖形binning嘉竟,此研究完成了一種馬鈴薯栽培品種Cooperative-88(C88)的染色體規(guī)模的單倍型分型基因組組裝。單倍型內(nèi)比較分析顯示洋侨,該四倍體基因組具有廣泛的序列和表達(dá)差異舍扰。此研究在染色體上發(fā)現(xiàn)了單倍型特異性的-近端著絲粒,這表明馬鈴薯同源著絲粒的進(jìn)化軌跡是不同的希坚。此外边苹,在1034個(gè)自交子代中的1021個(gè)個(gè)體中發(fā)現(xiàn)了在單倍型上不均勻分布的雙減數(shù)分裂事件,這是同源多倍體遺傳的一個(gè)特征裁僧。通過區(qū)分C88的父本和母本單倍型个束,此研究模擬了栽培四倍體中-雜種優(yōu)勢(shì)的起源,鑒定了3110個(gè)具有有害突變的四等位基因位點(diǎn)聊疲,這些座位被雙親在雜合狀態(tài)下掩蓋了茬底。此研究為深入研究同源多倍體的基因組結(jié)構(gòu)提供了新的思路,對(duì)同源多倍體的育種具有一定的指導(dǎo)意義获洲。
原名:Genome architecture and tetrasomic inheritance of autotetraploid potato
譯名:同源四倍體馬鈴薯的基因組結(jié)構(gòu)和四倍體遺傳
期刊:Molecular Plant
IF:21.949
發(fā)表時(shí)間:2022年6月
通訊作者:周倩和黃三文
通訊作者單位:中國(guó)農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所
DOI號(hào):10.1016/j.molp.2022.06.009
實(shí)驗(yàn)設(shè)計(jì)
結(jié)果
1. 同源四倍體的單倍型分型基因組組裝
此研究選擇了一種同源四倍體馬鈴薯品種Collication-88(C88)進(jìn)行測(cè)序和基因組組裝阱表。C88是一種抗晚疫病的高產(chǎn)商品化馬鈴薯品種。C88的塊莖呈塊狀贡珊,皮色偏紅最爬,肉質(zhì)呈淺黃色,有淺眼飞崖。它是以印度馬鈴薯I1085作為母本烂叔,與來自S. tuberosum群體Andigena品種的不明抗枯萎病種質(zhì)作為父本雜交而得。繼20世紀(jì)90年代由國(guó)際馬鈴薯中心(CIP)和中國(guó)云南師范大學(xué)培育后固歪,C88已成為中國(guó)西南部的首選品種蒜鸡,并迅速被鄰近省份和其他東南亞國(guó)家采用胯努。
2. C88基因組的初步組裝和分型
根據(jù) k-mer 分析和流式細(xì)胞術(shù)(補(bǔ)充圖1),C88基因組大小估計(jì)約為 3Gb逢防∫杜妫總共獲得了96.2Gb的PacBio HiFi reads,具有32 倍的基因組覆蓋度(補(bǔ)充表1)忘朝。HiFi reads是使用hifiasm組裝的灰署,產(chǎn)生了3.08Gb大小的基因組,unitig N50長(zhǎng)度為1.45Mb(組裝版本0.1局嘁,以下簡(jiǎn)稱C88.v0.1)(圖1A)溉箕。接下來,此研究利用Hi-C數(shù)據(jù)和單倍體參考基因組悦昵,試圖將unitigs分配到不同的單倍型組肴茄,該方法已經(jīng)成功地在栽培苜蓿(Medicago sativa L.)和甘蔗(Saccharum spontaneum L.)的同源四倍體基因組進(jìn)行了研究。然而但指,由此產(chǎn)生的組被認(rèn)為不能很好地代表C88基因組的單倍型寡痰。將HiFi reads映射到這些unitigs上,在C88.v0.1中發(fā)現(xiàn)2.61Gb的haplotigs棋凳,其中325.68Mb 未被組裝到染色體上的diplotigs (2×)和triplotigs (3×)呈現(xiàn)出顯著的2倍和3倍reads覆蓋度(補(bǔ)充圖2A)拦坠。此課題組之前基于單倍型感知基因圖譜,開發(fā)了1種從二倍體馬鈴薯基因組中進(jìn)行haplotig分型的方法剩岳。這里贞滨,為了使用四倍體遺傳圖譜對(duì)C88 haplotigs進(jìn)行分型,此研究利用四倍體遺傳圖譜將1034個(gè)S1子代的重測(cè)序reads映射到C88.v0.1的基因組組裝上卢肃,并計(jì)算了子代中每個(gè)unitig的遺傳劑量(0疲迂、1、2莫湘、3、4)(補(bǔ)充圖2B)郑气。通過劑量評(píng)分的遺傳分組幅垮,約2.08Gb的haplotigs構(gòu)建了48個(gè)組,代表了12條染色體的4種單倍型尾组。根據(jù)劑量評(píng)分忙芒,將組裝失敗的2×、3×區(qū)域分解為2個(gè)或3個(gè)相同的拷貝讳侨,共有737.09 Mb的haplotig序列呵萨,并根據(jù)其與分組的haplotig的連鎖關(guān)系劃分到48個(gè)組(補(bǔ)充表2;補(bǔ)充圖3和4)跨跨。
圖1|同源四倍體馬鈴薯基因組的單倍型分型基因組組裝潮峦。
A 分型基因組組裝過程的示意圖囱皿。
B同源四倍體基因組組裝C88v1的圖譜。左上角的線形圖顯示了同源四倍體基因組組裝忱嘹,并在graph binning中提供了連鎖分組信息嘱腥。彩色節(jié)點(diǎn)表示來自4種單倍型的組裝序列,長(zhǎng)度按序列的實(shí)際長(zhǎng)度縮放拘悦。對(duì)角線上的點(diǎn)圖顯示了C88.v1組裝與單倍體馬鈴薯參考基因組DM v6.1之間的比對(duì)齿兔。
C C88基因組的序列組成。Haplotig础米、diplotig分苇、triplotig和tetraplotig是通過以下規(guī)則定義的:組成它們的HiFi reads被分別使用1次、2次屁桑、3次和4次组砚。右邊的數(shù)字表示1-12號(hào)染色體。x軸上的數(shù)字表示以Mb為單位的染色體長(zhǎng)度掏颊。該分析是基于C88.v1的組裝中產(chǎn)生的圖形片段組裝文件糟红。
3. C88基因組分型輔助多倍體圖形binning
根據(jù)分組的unitigs(圖1B),89.7%的不連續(xù)HiFi reads(未被其他長(zhǎng)reads覆蓋的reads)被分配到48個(gè)單倍型乌叶,分型信息被輸入到hifiasm的polyploid graph binning中盆偿。在之前的hifiasmgraph binning實(shí)驗(yàn)中,三倍體信息用于改善二倍體基因組內(nèi)雜合區(qū)域的組裝准浴。在目前的研究中事扭,此研究首次將這一應(yīng)用擴(kuò)展到同源四倍體基因組,方法是將pre-phased的HiFi reads輸入到hifiasm乐横。在hifiasm運(yùn)行后求橄,得到了四組總大小分別為954.57Mb、918.61Mb葡公、900.16Mb和894.06Mb的contigs(以下簡(jiǎn)稱H1罐农、H2、H3和H4)催什。對(duì)于每組涵亏,通過使用Hi-C數(shù)據(jù)對(duì)contigs進(jìn)行聚類和排序來生成12條染色體。在去除質(zhì)粒和冗余序列(補(bǔ)充圖5)后蒲凶,獲得了單倍型分型的C88組裝體(C88.v1)气筋,總尺寸為3.15Gb,contig N50長(zhǎng)度為18.78Mb旋圆,3.03Gb序列被錨定到48條染色體上(表1)宠默,其中檢測(cè)到44個(gè)端粒(圖1B和補(bǔ)充圖6和補(bǔ)充表3)。
4. 單倍型分型基因組組裝的評(píng)估
使用6種獨(dú)立分析評(píng)估C88.v1的單倍型完整性和準(zhǔn)確性:
(1) k-mer分布顯示灵巧,組裝失敗的序列在C88.v1中被分型(補(bǔ)充圖7)搀矫。HiFi reads的均勻分布映射覆蓋度也支持單倍型分型特性(補(bǔ)充圖7)抹沪。
(2) 為了評(píng)估分型精度,此研究基于ONT UL(Oxford Nanopore Technologies Ultra Long) reads艾君,使用Whatshap polyphase構(gòu)建了分型區(qū)塊采够。在66370個(gè)分型區(qū)塊中,含有3400173個(gè)單核苷酸多態(tài)性(SNPs)冰垄,分型區(qū)塊和4種組裝的單倍型之間的一致性分別為97.86%(H1)蹬癌、98.58%(H2)、97.96%(H3)和98.58%(H4)虹茶,表明分型組裝和由UL reads產(chǎn)生的局部分型之間的高度一致性逝薪。
(3) 為了驗(yàn)證結(jié)構(gòu)的正確性,此研究檢測(cè)了C88.v1和單倍體馬鈴薯參考基因組DMv6.1之間的結(jié)構(gòu)變異(SVs)蝴罪,長(zhǎng)度范圍為50kb至200kb董济,并手動(dòng)檢查了SV區(qū)域UL reads的映射。只有映射長(zhǎng)度為>100kb的UL reads被用于分析要门。在有3個(gè)以上UL reads覆蓋的179個(gè)SVs中虏肾,97.7%的SVs被斷點(diǎn)處的UL reads所跨越。
(4) 使用Illumina數(shù)據(jù)欢搜,此研究確定的最終組裝具有非常高的堿基精度(質(zhì)量值封豪,QV 46.6)和完整性(99.05%)。
(5) 利用單拷貝同源基因基準(zhǔn)(Benchmarking Universal Single-Copy Orthologs炒瘟,BUSCO)對(duì)組裝的分析確定了每種單倍型中存在超過97%的完整基因吹埠,其中只有不到3%的重復(fù)基因,表明單倍型完整性(表1)疮装。
(6) scaffolds的遺傳連鎖強(qiáng)度和Hi-C連接矩陣也支持了分型組裝的質(zhì)量(補(bǔ)充圖6和8)缘琅。
總的來說,C88的單倍型分型基因組組裝相對(duì)完整廓推,具有解壓縮的純合子區(qū)域刷袍,包含4組單倍體基因組基因,在SNP分型和大規(guī)模結(jié)構(gòu)上具有較高的準(zhǔn)確性受啥。根據(jù)來自20個(gè)組織的239331個(gè)PacBio全長(zhǎng)轉(zhuǎn)錄本和162Gb Illumina RNA測(cè)序(RNA-seq)數(shù)據(jù)做个,預(yù)測(cè)了C88基因組中的150853個(gè)蛋白質(zhì)編碼基因和217651個(gè)亞型(補(bǔ)充表4)。另外滚局,在C88基因組中鑒定了2262個(gè)潛在的核苷酸結(jié)合位點(diǎn)富含亮氨酸的重復(fù)序列(NBS-LRR或NLR)基因,構(gòu)成165個(gè)聚類顽频,其中染色體4藤肢、5和11占所有聚類NLR基因的51.11%(補(bǔ)充圖9)。BUSCO對(duì)基因注釋的評(píng)估表明糯景,每個(gè)單倍型中有93.8%~95.3%的完整基因嘁圈,合并的基因組中有99.2%的完整基因(表1)省骂。此外,來自20個(gè)組織的RNA-seq數(shù)據(jù)的平均映射率為93.11%最住。
5. 同源四倍體馬鈴薯基因組中的單倍型之間的多樣性
5.1 序列差異: SNPs钞澳、InDels和SVs
為了對(duì)基因組內(nèi)多樣性進(jìn)行全基因組評(píng)價(jià),此研究選擇每條染色體上最長(zhǎng)的單倍型來組成C88的偽單倍體基因組涨缚≡冢基于分型HiFi reads比對(duì),在4種單倍型中共檢測(cè)到11964627個(gè)SNPs和1056892個(gè)小的插入/缺失(InDels)脓魏,它們不均勻地分布在12條染色體上兰吟,大約相當(dāng)于偽單倍體基因組的1.86%(圖2A)茂翔。
主成分分析表明混蔼,第2、4珊燎、9和11號(hào)染色體的單倍型之間的距離較均勻惭嚣,而第1、3悔政、5晚吞、6、7卓箫、8载矿、10和12號(hào)染色體的單倍型聚為2或3類。單倍型之間的局部差異水平也各不相同烹卒,在某些區(qū)域的差異顯著降低闷盔。以11號(hào)染色體為例,PCA分析顯示4種單倍型雖然分離旅急,但chr11_1與chr11_4在17-38Mb處非常相似逢勾,而chr11_2和chr11_3在19-33Mb處序列一致性較高。此外藐吮,chr10_2溺拱、chr10_3和chr10_4共有37.2Mb的單倍型序列,在組裝過程中出現(xiàn)三倍體組裝失敗區(qū)域谣辞,但在10號(hào)染色體近端2個(gè)區(qū)域的多樣性水平為7.58 SNPs/kb迫摔。
單倍型之間存在/缺失變異(PAV)的基因有11097個(gè),SVs有50360個(gè)泥从,其中大的SVs有431個(gè)(>100kb)句占,影響了902.76Mb的序列。此研究還在7號(hào)染色體上獲得了一個(gè)900kb共線區(qū)域的放大圖躯嫉,以說明4種單倍型之間的廣泛分離(圖2B)纱烘。
圖2|C88基因組內(nèi)單倍體之間的多樣性杨拐。
A 散點(diǎn)圖顯示4個(gè)同源單倍型的PCA,以及它們之間的相對(duì)距離擂啥。熱圖在1 Mb窗口中顯示任意2個(gè)單倍型之間的SNP/InDels密度哄陶。熱圖左側(cè)的數(shù)字1–6表示2個(gè)比較的單倍型。黑色短線標(biāo)記低可映射區(qū)域哺壶。
B 單倍體之間的多樣性示意圖屋吨,顯示了7號(hào)染色體上~900kb區(qū)域的同源區(qū)域(灰色),同源基因(大寫字母)变骡,SVs(深橙色)离赫,PAV基因(天藍(lán)色)和差異表達(dá)基因(顯性、平衡和抑制)塌碌。與chr7_3和chr7_4相比渊胸,在chr7_2上插入~400kb序列,在該單倍型中增加了16個(gè)額外的基因台妆◆崦停灰度圖表示共線區(qū)域中的變量一致性。
C 上圖:使用1kb窗口接剩,將1號(hào)染色體上共線性低的區(qū)域重新進(jìn)行比對(duì)切厘。所涉及的區(qū)域?yàn)閏hr1_1:18.48–55.57Mb、chr1_2:18.86–48.81Mb懊缺、chr1_3:17.44–42.59Mb和chr1_4:16.49–49.40Mb疫稿。下圖:1號(hào)染色體重復(fù)序列的突出顯示(chr1_1:34.48–40.48Mb,chr1_2:29.88–32.38Mb鹃两,chr1_3:26.99–28.44Mb遗座,chr1_4:26.99–40.99Mb)。
5.2 近端著絲粒和著絲粒區(qū)域的可變重復(fù)序列
將HiFi reads映射到偽單倍體基因組并對(duì)4種單倍型進(jìn)行共線性分析時(shí)俊扳,一些區(qū)域幾乎沒有被同源單倍型覆蓋途蒋。這些區(qū)域的長(zhǎng)度從0.8Mb到37.1Mb不等。根據(jù)它們?cè)谌旧w上的位置馋记,此研究認(rèn)為它們可能含有著絲粒号坡,并將6個(gè)從單倍體馬鈴薯基因組中鑒定出來的著絲粒重復(fù)序列(St18、St24梯醒、St49宽堆、St57、St3-58和St3-238)與這些區(qū)域進(jìn)行比對(duì)茸习。24個(gè)目標(biāo)單倍型中的有14個(gè)觀察到重復(fù)陣列的顯著富集日麸,其長(zhǎng)度從19kb到4.5Mb不等(補(bǔ)充表5),這表明著絲粒的位置逮光。在1號(hào)染色體上代箭,St24分別在chr1_2、chr1_3和chr1_4上形成99kb涕刚、4.6kb和4.5Mb重復(fù)序列嗡综,而在chr1_1上沒有觀察到重復(fù)序列。在5號(hào)和6號(hào)染色體上杜漠,僅在4種單倍型中的1種上檢測(cè)到重復(fù)富集极景。
為了充分了解48個(gè)單倍型上的近端著絲粒和著絲粒區(qū)域,此研究使用1kb窗口驾茴,利用StainedGlass對(duì)缺乏共線性的區(qū)域進(jìn)行了重新比對(duì)盼樟,并確定了單倍型特異性的、百萬堿基大小的重復(fù)序列锈至。根據(jù)高度重復(fù)的富集程度晨缴,48個(gè)單倍型可分為3種類型,即與同源基因共享重復(fù)序列的單倍型峡捡、攜帶唯一重復(fù)序列的單倍型击碗、以及沒有明顯重復(fù)序列的單倍型。chr1_1有2個(gè)特異的重復(fù)序列们拙,占3.69Mb區(qū)域稍途,而chr1_4、chr1_2和chr1_3共享2個(gè)重復(fù)序列砚婆,長(zhǎng)度分別為1.43Mb械拍、1.61Mb和1.28Mb(圖2C和補(bǔ)充圖10)。除3號(hào)染色體外装盯,在所有染色體上都檢測(cè)到單倍型特異性重復(fù)序列坷虑,其中4個(gè)單倍型共享2個(gè)重復(fù)序列。與擬南芥和水稻的基因組不同验夯,它們含有高度相似的著絲粒衛(wèi)星重復(fù)序列猖吴,同源四倍體馬鈴薯基因組在同源單倍型上表現(xiàn)出明顯的近端著絲粒和著絲粒特征,表明了著絲粒序列的快速進(jìn)化挥转。
5.3 野生馬鈴薯基因在栽培C88基因組中漸滲
野生物種的入侵被認(rèn)為增加了栽培作物品系的雜合性海蔽。通過將HiFi reads(源自最近發(fā)布的馬鈴薯泛基因組計(jì)劃中的20個(gè)二倍體野生馬鈴薯)映射到C88基因組,此研究確定了C88單倍型與這些野生型基因組之間不同程度的相似性绑谣。野生馬鈴薯的reads覆蓋了C88基因組的25.52%党窜,覆蓋率超過20×,這意味著野生種質(zhì)可能存在嚴(yán)重的漸滲現(xiàn)象(補(bǔ)充圖11)借宵。在單倍型chr1_1幌衣、chr2_1、chr4_1、chr4_3豁护、chr4_4哼凯、chr5_2、chr7_2和chr9_3中楚里,推定的漸滲區(qū)域占據(jù)了這些單倍型的50%以上(補(bǔ)充表6和7)。在檢測(cè)到的35個(gè)著絲粒樣重復(fù)序列區(qū)域中班缎,有30個(gè)區(qū)域與推定的漸滲區(qū)域重疊蝴光,這表明野生馬鈴薯序列可能與C88單倍型的獨(dú)特的著絲粒有關(guān)。
5.4 等位基因差異表達(dá)
為了揭示4種單倍型上同源基因的表達(dá)譜圖达址,此研究在單倍型間的共線區(qū)塊中鑒定了23086個(gè)四等位基因位點(diǎn)蔑祟,每個(gè)單倍型有一個(gè)等位基因,并分析了它們?cè)?0個(gè)組織中的表達(dá)沉唠。對(duì)于每個(gè)組織疆虚,此研究根據(jù)4個(gè)等位基因的相對(duì)表達(dá)水平將等位基因的表達(dá)分為平衡、顯性和抑制表達(dá)(補(bǔ)充圖12A)右冻。平均而言装蓬,在1個(gè)組織中,49.1%的四等位基因位點(diǎn)在4個(gè)等位基因中表現(xiàn)出差異表達(dá)纱扭,其中3.4%的位點(diǎn)具有單個(gè)顯性表達(dá)等位基因(補(bǔ)充圖12B)牍帚。就表達(dá)而言,對(duì)特定單倍型沒有顯著的偏好乳蛾。在C88基因組中暗赶,此研究觀察到1個(gè)位點(diǎn)的等位基因在20個(gè)組織中表現(xiàn)出不同的表達(dá)模式。在92344個(gè)等位基因中肃叶,23086個(gè)位點(diǎn)中的61.7%(56942個(gè))在20個(gè)組織中顯示出至少2種表達(dá)類型蹂随,表明同源四倍體馬鈴薯基因組基因表達(dá)具有動(dòng)態(tài)特性。
6. 同源四倍體馬鈴薯基因組中的四倍體遺傳
在同源多倍體減數(shù)分裂中因惭,二倍體和異源多倍體的遺傳有許多明顯的特征岳锁,例如染色體的多價(jià)配對(duì)和優(yōu)先配對(duì),以及雙減數(shù)分裂(double reduction蹦魔,DR)激率,這些特征長(zhǎng)期以來一直是四倍體馬鈴薯和其他多倍體作物的研究熱點(diǎn)。在這項(xiàng)研究中勿决,此研究在C88的自交群體中見證了這些有價(jià)值的事件乒躺。利用9834個(gè)鑒定過基因型的SNPs對(duì)1034個(gè)S1馬鈴薯四倍體群體進(jìn)行了二價(jià)配對(duì)和多價(jià)配對(duì)頻率的檢測(cè)(補(bǔ)充圖13和14)。二價(jià)配對(duì)與隨機(jī)配對(duì)無偏差低缩,四價(jià)配對(duì)在C88自交群體中頻率范圍為50%~70%嘉冒,顯著高于雜交群體19%的平均頻率。這種差異可能是由于親本系中基因組組分的差異造成的。在多價(jià)構(gòu)型的基礎(chǔ)上讳推,DR的發(fā)生取決于減數(shù)分裂I期同源染色體的DNA交換顶籽,而攜帶相同單倍型的姐妹染色單體在減數(shù)分裂II期被吸引到同一極。根據(jù)DR在端粒和著絲粒之間的染色體位置娜遵,計(jì)算出DR的理論發(fā)生率為0≤α≤1/6蜕衡。為了研究同源四倍體馬鈴薯中DR的特性,此研究使用低覆蓋率測(cè)序數(shù)據(jù)對(duì)C88的自交系進(jìn)行了基因分型设拟。盡管在自交系中檢測(cè)DRs存在一定的局限性,但此研究仍然觀察到久脯,在1034個(gè)測(cè)序子代中有1021個(gè)個(gè)體纳胧,其12條染色體上DRs頻率為1%-4%(圖3)。DRs的分布在同源單倍型上有所不同帘撰。對(duì)于48個(gè)單倍型中的32個(gè)跑慕,DR頻率向染色體的兩個(gè)端粒增加,在靠近著絲粒區(qū)域檢測(cè)到的DR頻率降低摧找,這與先前基于SNP遺傳圖譜的研究一致核行。然而,在其余16個(gè)單倍型上蹬耘,端粒區(qū)域只有1個(gè)或沒有DR頻率峰芝雪。以7號(hào)染色體為例,chr7_1综苔、chr7_3和chr7_4在1個(gè)近端端粒區(qū)域出現(xiàn)了DR頻率峰惩系,最高頻率分別為2%、1%和1%如筛,而chr7_2在另一個(gè)近端端粒區(qū)域出現(xiàn)了2.5%的頻率峰堡牡。為了研究4種單倍型的分離,此研究在1034個(gè)S1個(gè)體中手動(dòng)選擇了9834個(gè)高質(zhì)量SNPs來推斷群體中遺傳的單倍型(補(bǔ)充圖14)杨刨。由于使用低覆蓋度的基因組測(cè)序數(shù)據(jù)很難推斷單個(gè)單倍型晤柄,此研究中,每個(gè)單倍型的覆蓋度為~1×妖胀,由PolyOrigin推斷的4種單倍型的比例具有明顯的參考偏差芥颈;也就是說,在reads映射過程中用作參考的單倍型在子代中以較高的比例計(jì)算做粤。盡管如此浇借,仍然觀察到明顯的分離偏差,如一些單倍型的比例遠(yuǎn)遠(yuǎn)低于理論上的1/4(χ2檢驗(yàn)怕品,P<10-10)妇垢,如chr3_3、chr4_3、chr6_3闯估、chr8_3和chr12_2上的區(qū)域灼舍。這些單倍型比例的降低可能是存在影響較大的有害突變的結(jié)果。
7. 栽培四倍體雜種優(yōu)勢(shì)起源的評(píng)估
多倍體被認(rèn)為與馴化密切相關(guān)侠姑,并通過提供更有利的基因和遺傳多樣性來促進(jìn)作物的早期馴化创橄,這有利于增加適應(yīng)性。四倍體馬鈴薯起源于地方品種二倍體中2n配子的雜交莽红。為了研究多倍體對(duì)現(xiàn)代馬鈴薯品種發(fā)育的影響妥畏,此研究利用親本單倍型組合,在C88基因組中模擬了2個(gè)2n配子的雜交安吁。對(duì)C88母本I-1085的基因組進(jìn)行測(cè)序醉蚁,并使用母本特異性純合SNPs將C88基因組的48條染色體分成2組親本單倍型(補(bǔ)充圖15)。像許多其他無性繁殖作物一樣鬼店,馬鈴薯攜帶著沉重的突變負(fù)擔(dān)网棍。在C88基因組中,此研究預(yù)測(cè)了4種單倍型上的57641個(gè)功能性有害突變薪韩,影響了15942個(gè)注釋基因确沸,稱之為預(yù)測(cè)有害等位基因(PDA)。在總共23086個(gè)四等位基因位點(diǎn)中俘陷,33.05%含有1~3個(gè)PDAs罗捎,使PDAs保持在雜合狀態(tài)(圖4A)。與23.0%的雙等位基因位點(diǎn)具有雜合PDAs的二倍體馬鈴薯單倍型相比拉盾,四倍體馬鈴薯單倍型通過提供更多的基因拷貝作為缺陷等位基因的備份桨菜,表現(xiàn)出更高水平的功能互補(bǔ)。就親本單倍型而言捉偏,在744個(gè)四等位基因位點(diǎn)中倒得,2個(gè)母本等位基因都是PDAs,而父本單倍型提供了未受影響的等位基因(圖4B)夭禽。相反霞掺,有2366個(gè)四等位基因位點(diǎn)具有2個(gè)父系PDAs和至少1個(gè)未受影響的母體等位基因。因此讹躯,在雜交中菩彬,配子中的2個(gè)功能失調(diào)的等位基因會(huì)在四倍體合子的雜合狀態(tài)下被另一親本掩蓋缠劝。在同源多倍體過程中,2n配子上的純合有害突變將以這種方式被掩蓋骗灶,從而減少了有害突變積累的有害影響惨恭。這可能是利于四倍體品種存在的基礎(chǔ)。在C88基因組中耙旦,此研究檢測(cè)到1079個(gè)父系特異性基因和1253個(gè)母系特異性基因脱羡。親本雜交賦予四倍體更為豐富的遺傳多樣性,為篩選育種中累積的優(yōu)良性狀提供了可能免都。由P. infestans引起的晚疫病是兩個(gè)多世紀(jì)以來馬鈴薯產(chǎn)量下降最嚴(yán)重的疾病锉罐。C88對(duì)葉子和塊莖中的P. infestans均具有高度的持久抵抗力。Avr蛋白的浸潤(rùn)實(shí)驗(yàn)表明琴昆,Avr1和Avr2在C88馬鈴薯葉子上產(chǎn)生了顯著的超敏反應(yīng)(HR)表型(補(bǔ)充圖16)氓鄙。此研究通過構(gòu)建野生馬鈴薯Solanum demissum的細(xì)菌人工染色體(BAC)克隆PGEC472P22,將R1基因定位在chr5_3(圖4C)业舍,并使用具有HR表型的全長(zhǎng)轉(zhuǎn)錄本將R2基因定位在chr4_3(補(bǔ)充圖16)。R1和R2均來自父系單倍型升酣,表明C88品種的持久抗性在很大程度上歸因于其父本S. andigena舷暮。C88主要作為夏季作物種植在云南省,位于北緯20℃-30℃噩茄,夏季日照時(shí)間較長(zhǎng)下面。在這種條件下,C88母本品種I-1085具有更好的適應(yīng)性绩聘,而Andigena的適應(yīng)性較差沥割。C88夏季成熟較晚,生長(zhǎng)期為120-150天凿菩。對(duì)馬鈴薯晚熟基因StCDF1.1的篩選顯示机杜,4個(gè)等位基因中有3個(gè)是相同的,1個(gè)等位基因在編碼序列(CDS)中有3-bp的缺失衅谷,導(dǎo)致1個(gè)氨基酸缺失椒拗,在3個(gè)預(yù)測(cè)結(jié)構(gòu)域之外,這似乎不太可能影響基因功能(圖4C)获黔。因此蚀苛,來自2個(gè)親本的StCDF1.1的4個(gè)等位基因可能賦予了C88在較長(zhǎng)的日照條件下的晚熟表型,確保其在亞熱帶地區(qū)的適應(yīng)性玷氏。親本單倍型功能基因的積累使C88成為適應(yīng)性強(qiáng)堵未、成熟期晚、抗性持久的優(yōu)良品種盏触。
A 具有0渗蟹、1块饺、2、3拙徽、4個(gè)PDAs的四等位基因座的比例(左餅圖)和具有功能互補(bǔ)等位基因的位點(diǎn)數(shù)量(右餅圖)刨沦。
B 母本(青色)和父本(橙色)單倍型上未受影響的等位基因的數(shù)量。這些數(shù)字是在1Mb窗口中計(jì)算的膘怕。
C 因?yàn)樵?號(hào)染色體的4種單倍型(母體[青色]和父系[橙色])中均存在1個(gè)SV想诅,因此,來自S. demissum BAC的R1位點(diǎn)僅定位于chr5_3岛心;C88基因組中有4個(gè)StCDF1.1等位基因(右)磨隘。
討論
長(zhǎng)期以來矫限,同源四倍體馬鈴薯基因組的可獲得性因其高度雜合而受到阻礙,從而妨礙了雜種優(yōu)勢(shì)的遺傳基礎(chǔ)的表征、潛在的理想性狀以及對(duì)同源四倍體物種的基因組結(jié)構(gòu)的研究劣针。最近,得益于測(cè)序技術(shù)的進(jìn)步竞思,發(fā)表了幾個(gè)四倍體馬鈴薯的基因組搞坝,包括四倍體品種Otava和栽培品種Altus、Atlantic干旁、Avenger驶沼、Castle Russet、Colomba和Spunta的染色體規(guī)模單倍型分型基因組争群。
在這項(xiàng)研究中回怜,此研究獲得了一個(gè)商業(yè)化的同源四倍體馬鈴薯栽培品種C88的基因組組裝體。這些可用的基因組為了解栽培馬鈴薯和其他同源多倍體物種的生物學(xué)特征提供了重要資源换薄。Otava和C88的基因組都是通過利用最新的HiFi測(cè)序技術(shù)完成的玉雾,并使用遺傳群體來指導(dǎo)長(zhǎng)reads的分型。這兩項(xiàng)獨(dú)立的工作之間的區(qū)別在于在第二輪組裝中利用了分型reads轻要,這是為了提高初始contigs的連續(xù)性复旬。在Otava組裝中,分型reads被分成幾組伦腐,然后分別重新組裝到每個(gè)組赢底。該策略已成功應(yīng)用于許多基因輔助組裝。與此不同的是柏蘑,在C88組裝中幸冻,此研究將reads的分型信息輸入到組裝軟件hifiasm中,并應(yīng)用polyploid graph binning來指導(dǎo)全基因組圖譜的解析并生成新的contigs咳焚。Polyploid graph binning是一種更直接的策略洽损,充分利用reads信息,并且不會(huì)引入深度偏差革半。C88基因組的高質(zhì)量在連續(xù)性(18.78Mb vs. 7.1Mb的contig N50)和完整性(98.4% vs. 97.3%的BUSCO評(píng)分)方面都優(yōu)于Otava組裝碑定,證明了polyploid graph binning的有效性流码。reads的分型信息可以通過多種方式生成,例如連鎖分組或Hi-C分型延刘。然而,C88和Otava基因組為多倍體基因組的單倍型分型組裝提供了令人信服的例子碘赖。
在解釋同源四倍體基因組的基因組結(jié)構(gòu)時(shí)驾荣,單倍型之間不均勻分布的多態(tài)性導(dǎo)致了鑲嵌分布的高度分化區(qū)域和幾乎相同的區(qū)域的出現(xiàn),這使得分析復(fù)雜化普泡。依賴于雙端比對(duì)或基于參考基因組比對(duì)的常規(guī)方法不足以證明其復(fù)雜性播掷。為了充分說明復(fù)雜的SVs并避免參考偏差,迫切需要基于圖形的泛基因組模型和能夠簡(jiǎn)潔地表示同源單倍型的工具撼班。
對(duì)單倍型間缺乏共線性的區(qū)域進(jìn)行全局放大比對(duì)歧匈,結(jié)果發(fā)現(xiàn)了單倍型特異性重復(fù)序列的存在和缺失。這些區(qū)域含有未知的著絲粒砰嘁,表明馬鈴薯基因組中著絲粒的快速動(dòng)態(tài)進(jìn)化件炉。與A. thaliana和稻屬物種相比,這是一個(gè)非常明顯的特征矮湘。以往的研究報(bào)道了在S. tuberosum和野生馬鈴薯的著絲粒和著絲粒DNA中存在多種重復(fù)類型妻率,這對(duì)茄屬植物著絲粒的起源和進(jìn)化提出了尚未解決的問題。最近發(fā)表的C88和其他同源四倍體馬鈴薯基因組板祝,加上最新的茄科物種泛基因組,為在更詳細(xì)走净、更廣泛的尺度上研究茄科物種著絲粒的動(dòng)態(tài)變化提供了豐富的資源券时。
通過對(duì)20個(gè)野生型二倍體馬鈴薯的基因組reads進(jìn)行篩選,此研究在C88基因組中發(fā)現(xiàn)了805.37Mb的潛在漸滲區(qū)域伏伯。在40個(gè)單倍型上檢測(cè)到的165個(gè)NLR基因簇中橘洞,有98個(gè)簇與漸滲區(qū)域重疊,這可能解釋了功能性抗性基因的起源说搅。單倍型上NLR基因簇的檢測(cè)也有利于目標(biāo)類型的抗性基因的組合炸枣,在育種方案中選擇特定的單倍型,并盡可能將有利漸滲整合到四倍體或二倍體馬鈴薯中弄唧。
雖然有害突變?cè)谕磫伪缎椭芯鶆蚍植际食Γ贑88基因組中,此研究發(fā)現(xiàn)父系單倍型比母系單倍型具有更多的純合子功能失調(diào)位點(diǎn)候引,即兩個(gè)等位基因是PDAs侯养,這表明來自不同背景的單倍型可能攜帶不同數(shù)量的有害等位基因。對(duì)馬鈴薯多相位基因組的進(jìn)一步分析澄干,為選擇合適的骨干單倍型提供了全面的信息逛揩,對(duì)基因組設(shè)計(jì)育種具有重要的意義柠傍。