文獻(xiàn)
2022
Cell
The Chinese pine genome and methylome unveil key features of conifer evolution
研究背景
油松是我國特有的樹種,屬于松科松屬,廣泛分布在我國各個省市區(qū),也稱為中國松腐宋。
油松屬于針葉樹允瞧,針葉樹是全球森林系統(tǒng)的骨干組成部分滞时。過去針葉樹的研究一直集中在瑞典主導(dǎo)的挪威云杉上蔚舀,原因也很明確,挪威云杉是第一個完成測序的針葉樹種孩灯,它的基因組有20G。類似的逾滥,針葉樹的基因組其實(shí)都很大峰档,一直沒有新的針葉樹種基因組被組裝出來。直到這篇文章,把油松的基因組給組裝了出來讥巡,而且組裝的質(zhì)量非常高掀亩,注釋完整而且可靠。
結(jié)論1 基因組組裝及注釋
Fig 1a
首先文章的第一部分是完成了油松龐大基因組的染色體水平的組裝欢顷。作者先是通過顯微鏡確定了它的核型(Fig 1a)槽棍,油松有12對染色體,其中20條較長抬驴,4條較短炼七。通過k-mer和流式的評估,整個單倍型基因組的大小在25.6到25.7G左右怎爵。
Fig 1b-c
用PacBio數(shù)據(jù)組裝得到了25.4G的基因組特石,它的contig N50達(dá)到了2.6M。然后利用122×的Hi-C數(shù)據(jù)掛載到染色體鳖链,共24.4G被掛載到12條染色體上姆蘸,Scaffold N50達(dá)到了2.1G(Fig 1b)。
在油松的基因組發(fā)布之前芙委,已經(jīng)有14種裸子植物的基因組被組裝出來逞敷,c圖種這些豎杠代表它們的基因組大小,括號里是它們各自的Scaffold N50灌侣,可以看到油松的組裝質(zhì)量遠(yuǎn)遠(yuǎn)超過了以往組裝的所有裸子植物基因組(Fig 1c)推捐。
Fig 1e
Fig 1f
為了進(jìn)一步檢驗(yàn)組裝的質(zhì)量,作者測量了6個體細(xì)胞的12組染色體的相對物理長度侧啼,e的結(jié)果可以看到牛柒,所有染色體的組裝長度與觀察到的物理長度一致,說明組裝上沒有明顯錯誤,這12條染色體的長度在1.4到2.4G之間痊乾,每條染色體的gap在828到1638個之間,對于這么大的基因組皮壁,完整性已經(jīng)非常好。
對于大基因組正確的組裝不是最難的哪审,更困難的是如何盡可能完整而且正確的注釋基因結(jié)構(gòu)蛾魄。
基因結(jié)構(gòu)的注釋一般有這三種:
(1)從頭注釋:通過已有的概率模型來預(yù)測基因結(jié)構(gòu),這種方法在預(yù)測剪切位點(diǎn)和UTR區(qū)準(zhǔn)確性較低湿滓。?
(2)同源預(yù)測:有一些基因序列或者說蛋白序列在相近物種間的保守程度較高滴须,所以可以利用已有的高質(zhì)量近緣物種注釋信息輔助注釋。
(3)基于轉(zhuǎn)錄組:通過物種的RNA-seq數(shù)據(jù)輔助注釋叽奥,這種方法可以較為準(zhǔn)確的? 確定剪切位點(diǎn)和外顯子區(qū)域扔水。
對于這種大基因組,從頭預(yù)測的BUSCO評分非常低而线,而且近緣物種挪威云杉的基因組質(zhì)量非常差铭污,利用近緣物種進(jìn)行同源預(yù)測也得不到很好的結(jié)果恋日。所以作者在這里用到了大量的二代短讀長的轉(zhuǎn)錄組數(shù)據(jù)。從不同時期的11個組織和器官采集了760份轉(zhuǎn)錄組數(shù)據(jù)嘹狞,然后利用這些轉(zhuǎn)錄組數(shù)據(jù)做注釋岂膳,最終注釋到了80,495個基因和144,584個轉(zhuǎn)錄本,這些數(shù)字遠(yuǎn)遠(yuǎn)多于被子植物中的基因磅网。
結(jié)論2 基因組的局部特征
Fig 2a
Fig 2c
文章的第二個大部分作者對油松基因組的局部特征進(jìn)行了深入研究谈截。
首先作者發(fā)現(xiàn)油松的基因具有又多又長的內(nèi)含子。作者拿油松的基因組和67個種子植物的基因組做了對比涧偷,發(fā)現(xiàn)它們的外顯子長度是類似的簸喂,平均是200-300bp,但是內(nèi)含子長度的差異非常大燎潮,在一般的種子植物中喻鳄,內(nèi)含子長度大于20kb的基本沒有,但是油松中有兩萬五千多個長度大于20kb的确封,約占油松全部內(nèi)含子的15%除呵,油松平均的內(nèi)含子長度是10kb,其他的種子植物一般也就是0.5kb
Fig 2a中作者發(fā)現(xiàn)內(nèi)含子與外顯子長度的比值與基因組的大小正相關(guān)爪喘,說明基因組的擴(kuò)張不僅是發(fā)生在基因間區(qū)颜曾,也會發(fā)生在基因的內(nèi)部。
為了避免這種超長內(nèi)含子的基因是由于錯誤注釋產(chǎn)生的秉剑,作者重新用長讀長的轉(zhuǎn)錄組做了檢測泛豪,發(fā)現(xiàn)那些20kb以上的基因大多數(shù)都能由長讀長的reads所驗(yàn)證(Fig 2c),說明注釋是可靠的侦鹏。
Fig 2d
作者選擇了最長的10個基因诡曙,這10個基因的全長都大于500kb,但是都有可靠的長讀長轉(zhuǎn)錄組的reads支持這些基因的存在(Fig 2d)略水。左邊是這10個基因在油松中的基因的特征岗仑,注意CDS是1kb,相同長度的Intron是100kb聚请,右邊是在擬南芥中10個基因的直系同源基因∥绕洌可以發(fā)現(xiàn)油松和擬南芥中這10個基因的外顯子長度是類似的,但是內(nèi)含子長度油松是擬南芥的100倍。
Fig 2e
Fig 2f
內(nèi)含子如此長证芭,相對而言外顯子如此小朦肘,那么在轉(zhuǎn)錄的時候就好像在內(nèi)含子的海洋中找外顯子的小島,所以說按照正常的想法如此長的內(nèi)含子會對轉(zhuǎn)錄造成非常不好的影響嘱蛋。然而作者對所有基因按照內(nèi)含子長度分類蚯姆,看了它們的轉(zhuǎn)錄水平五续,發(fā)現(xiàn)越長的基因,也就是那些內(nèi)含子越長的基因龄恋,它們的轉(zhuǎn)錄比內(nèi)含子更短的基因更活躍疙驾。這似乎完全顛覆了我們的認(rèn)知!
但是仔細(xì)想想這里有一個潛在的問題郭毕,就像幸存者偏差它碎,作者注釋這些基因完全是基于轉(zhuǎn)錄組來的,那么理論上說更長的基因被mapping到的reads越多显押。換句話說扳肛,越長的基因越容易被注釋到,而那些低表達(dá)的或者是短的基因被注釋到的概率就越小乘碑。所以是不是這種偏差導(dǎo)致了我們看到內(nèi)含子越長表達(dá)越高這個現(xiàn)象呢挖息?作者根據(jù)BUSCO評估,僅僅保留了那些在BUSCO里面能對應(yīng)到的完整的基因兽肤,沒有對應(yīng)到的基因無論長短全部拋棄套腹。這樣剩下的這些基因? 是高度可信?? 并且是在其他物種中?? 保守存在的?? 完整基因,而且BUSCO內(nèi)置的這些基因是與長度無關(guān)的轿衔。
單看剩下的這些基因的轉(zhuǎn)錄沉迹,得到的結(jié)果和前面一致——有內(nèi)含子的表達(dá)高于沒有內(nèi)含子的,長內(nèi)含子的大于短內(nèi)含子的害驹,帶有轉(zhuǎn)座子的基因表達(dá)高于不帶轉(zhuǎn)座子的鞭呕,長基因表達(dá)高于短基因,這個就很有意思了宛官,總而言之只要讓這個基因變長葫松,就能讓它轉(zhuǎn)錄更高。Fig 2f顯示了兩個影響基因表達(dá)最明顯的因素底洗,一個是基因的長度腋么,一個是內(nèi)含子的數(shù)量,基因越長亥揖,內(nèi)含子越多珊擂,基因的轉(zhuǎn)錄就越活躍。
針對這個現(xiàn)象费变,作者提出了一個模型來解釋摧扇。
我們知道染色質(zhì)開放性或者說可及性與基因表達(dá)密切相關(guān),因?yàn)殚_放的染色質(zhì)的更容易被轉(zhuǎn)錄因子結(jié)合挚歧,促進(jìn)轉(zhuǎn)錄起始或者表達(dá)上調(diào)扛稽,一般而言那些高表達(dá)的基因染色質(zhì)開放性或者可及性越高。所以說作者推測在油松基因組變大的過程中滑负,這些開放的染色質(zhì)更容易被轉(zhuǎn)座子插進(jìn)去在张,轉(zhuǎn)座子的插入造成了包含更長更多內(nèi)含子的基因產(chǎn)生用含,所以說在現(xiàn)在我們可以觀察到那些高表達(dá)的基因更長,具有更多更長的內(nèi)含子帮匾。
但是這個模型只是根據(jù)油松中觀察到的結(jié)果提出的一種可能啄骇,真實(shí)性很難驗(yàn)證
Fig S2f
隨之而來又有一個問題,在轉(zhuǎn)錄的時候是怎樣在廣袤的內(nèi)含子海洋中準(zhǔn)確的找到渺小的外顯子小島的辟狈?這時候作者引入了甲基化數(shù)據(jù)肠缔,發(fā)現(xiàn)在這十個最長的基因上甲基化水平有一個很明顯的現(xiàn)象就是外顯子傾向低甲基化,而內(nèi)含子往往是高甲基化哼转,CHG甲基化尤為明顯(Fig S2f)明未,作者推測可能正是這種甲基化水平的急劇下降讓超長基因在轉(zhuǎn)錄時可以區(qū)分內(nèi)含子和外顯子。而且這個發(fā)現(xiàn)也和剛剛提出的模型比較契合壹蔓,因?yàn)檗D(zhuǎn)座子具有更高水平的甲基化趟妥。
結(jié)論3 基因組的整體特征
Fig S5a
第三部分,作者用一個更大的角度去描述油松基因組佣蓉。
首先從整體上看油松的基因組重復(fù)序列和甲基化水平很高披摄,三種甲基化分別達(dá)到了88.4%, 81.6%和 2.0%,特別是CG和CHG甲基化遠(yuǎn)高于常見物種勇凭,甲基化的含量與重復(fù)序列的含量明顯的正相關(guān)疚膊,在這12條染色體上每一條都顯示出這種特點(diǎn)(Fig S5a)。
Fig 5a-b
為了研究TE對基因區(qū)域甲基化的影響虾标,作者將TE插入內(nèi)含子的基因稱為TE基因寓盗。發(fā)現(xiàn)攜帶TE基因區(qū)域? 的甲基化水平? 比不攜帶TE基因區(qū)域? 的甲基化水平高得多,但在TSS和TES區(qū)域的甲基化水平始終保持在同等的低水平璧函。
根據(jù)基因的表達(dá)水平將基因分成六組傀蚌,可以發(fā)現(xiàn)甲基化和表達(dá)之間存在明顯的負(fù)相關(guān),這種負(fù)相關(guān)在近端的上游和下游區(qū)域更為明顯蘸吓。
和玉米類似善炫,油松如此龐大的基因組絕大多數(shù)(70%以上)都是重復(fù)序列,其中絕大多數(shù)是轉(zhuǎn)座子库继,我們知道轉(zhuǎn)座子來源于一種古病毒箩艺,它對基因組是非常有害的,所以油松依賴這些高水平的甲基化去抑制這些轉(zhuǎn)座子的活性宪萄。
面對如此大的基因組舅桩,很容易想到幾個問題——油松的基因組是一直這么大嗎?油松的基因組是從什么時候開始變得這么大雨膨?油松的基因組還會繼續(xù)變大嗎?因?yàn)榻M裝這個龐大基因組的大多數(shù)是重復(fù)序列读串,其中占比更大的是LTR聊记,大概占了整個基因組的60%撒妈,所以下面作者對LTR展開了具體的分析。
Fig 5d
Fig 5e
首先作者展示了LTR的插入時間排监,發(fā)現(xiàn)大多數(shù)LTR是近期插入的狰右。而且通過對LTR中兩個最大的家族進(jìn)行系統(tǒng)發(fā)育分析,發(fā)現(xiàn)了許多物種特異性分支舆床,說明LTR的擴(kuò)增是在物種形成之后近期發(fā)生的棋蚌,也就是說是在近期由于LTR的插入才導(dǎo)致油松基因組逐漸膨脹。
在植物中挨队,一般是通過不均等的重組去除LTR谷暮,作者評估了油松中LTR的去除速率,發(fā)現(xiàn)遠(yuǎn)遠(yuǎn)低于毛果楊盛垦、擬南芥等物種湿弦。換句話說,在油松中LTR一旦積累很難去除腾夯。就像往水缸里放水颊埃,我們把出口堵住了,那么水缸會一直積累進(jìn)來的水蝶俱,直到滿了然后溢出班利。油松的基因組正在朝著變大的趨勢發(fā)展,它會越來越大越來越胖榨呆,這種變大是一種單程的旅行罗标,現(xiàn)在已知最大的基因組是重樓百合,大概是150G愕提,所以說油松基因組變胖還有很大的空間馒稍。
結(jié)論4 針葉樹的適應(yīng)性進(jìn)化
Fig S1f
第四部分,作者研究油松對環(huán)境的適應(yīng)浅侨。全基因組復(fù)制事件在被子植物適應(yīng)性進(jìn)化中起著關(guān)鍵作用纽谒,往往在那些比較惡劣的環(huán)境下,植物會來一次全基因組加倍如输,然后把那些抗逆的基因保留下來幫助自己更好的度過難關(guān)鼓黔。油松對環(huán)境的適應(yīng)毋庸置疑,在許多高海拔不见、嚴(yán)寒的地域都能看到油松澳化。所以在做WGD檢測之前,預(yù)計油松會有多次WGD的發(fā)生稳吮,但是作者發(fā)現(xiàn)油松中僅僅只有有兩次古多倍化事件缎谷。第一次發(fā)生在松科和柏科分化前,第二次發(fā)生在松科和柏科分化后灶似。
Fig S1c
Fig S1d
作者對油松做了基因家族的收縮和擴(kuò)張分析(Fig S1c)列林,發(fā)現(xiàn)大多數(shù) 91.2%的基因發(fā)生了加倍瑞你,僅有很少的一部分來自WGD,絕大多數(shù)希痴,80%以上的加倍來自散在重復(fù)序列(Fig S1d)者甲。
Fig S1b
作者對這些擴(kuò)張的基因做了GO富集,這里顯示了前20個顯著的GO term砌创,其中19個與抗逆相關(guān)(Fig S1b)虏缸。綜上所述油松抗逆性的增強(qiáng)是依賴抗逆基因家族的擴(kuò)張,但是這種擴(kuò)張并不是依賴全基因組的復(fù)制嫩实,而是依賴這些散在的重復(fù)序刽辙。
Fig 3a
Fig 3b
油松有一個很典型的性狀就是油,它富含油脂舶赔,油脂的主要成分是萜類扫倡,萜類代謝在針葉樹抵御病蟲害和適應(yīng)環(huán)境條件中起著重要作用。為了研究松樹萜類生物合成的進(jìn)化過程竟纳,作者鑒定了221個參與萜類合成的基因撵溃,這些基因編碼酶催化了樹脂萜類生物合成途徑的22個反應(yīng)步驟。在這個萜類合成通路中可以發(fā)現(xiàn)锥累,某些關(guān)鍵酶或者說限速酶的基因在油松中增加了好幾倍缘挑,并且這些多出來的基因往往是成簇分布,這些限速酶的急劇擴(kuò)張可能是油松油脂合成旺盛的關(guān)鍵桶略。
結(jié)論5 針葉樹生殖發(fā)育的獨(dú)特調(diào)控網(wǎng)絡(luò)
Fig 4a
最后一部分语淘,作者利用油松高質(zhì)量的基因組構(gòu)建了針葉樹生殖發(fā)育的調(diào)控網(wǎng)絡(luò)。
在模式生物擬南芥中已經(jīng)鑒定到了306個調(diào)控花期的基因际歼,利用這些基因在油松中找到了保守的77個調(diào)控花期的同源基因惶翻。被子植物中調(diào)控花期的許多關(guān)鍵基因,比如FT鹅心、FLC吕粗、FLM在油松中都沒有鑒定到同源基因(Fig 4a)。
Fig 4b
Fig S4e
Fig 4c
MADS-box 轉(zhuǎn)錄因子家族在被子植物的生殖發(fā)育中起著重要作用旭愧,在被子植物中得到了廣泛的研究颅筋,作者根據(jù)同源性,在油松中鑒定到了12個轉(zhuǎn)錄活躍的MADS-box 家族成員输枯。對它們兩兩進(jìn)行了酵母雙雜的驗(yàn)證议泵,圖4a是兩兩互作關(guān)系,根據(jù)這些互作桃熄,構(gòu)建了圖4b的調(diào)控網(wǎng)絡(luò)先口。PtDAL10這個基因在生殖器官發(fā)育過程中持續(xù)高表達(dá),而且存在廣泛互作,因此推測 這個基因具有比較重要的功能池充。作者在擬南芥中進(jìn)行了驗(yàn)證桩引,當(dāng)過表這個基因的時候,會導(dǎo)致擬南芥早花收夸。由此作者提出了這個控制油松雌雄球果發(fā)育的模型。
總結(jié)
以上是這篇文章的主要內(nèi)容血崭,文章的正文實(shí)際上分了應(yīng)該是9個結(jié)論卧惜,但是我把把它合并成了五個主要的部分,第一部分是基因組的組裝和注釋夹纫,第二三部分是局部和整體的基因組描述咽瓷,四五部分是針對油松的抗逆和生殖展開具體的研究。這是我自己的理解舰讹, 可能有些不恰當(dāng)茅姜,歡迎大家一起交流探討。
在這篇文章的首頁月匣,作者對文章的四個亮點(diǎn)進(jìn)行了總結(jié)钻洒。
首先是發(fā)布了迄今為止最大的裸子植物基因組染色體水平的基因組和甲基化組,2013年發(fā)表的挪威云杉基因組是20G锄开,組裝結(jié)果是200萬的contig素标,油松是25.4G,組裝真正達(dá)到的染色體水平萍悴。
第二個亮點(diǎn)是對如此龐大的基因組的前世今生和未來做了很好的描述头遭,油松基因組變大時近期發(fā)生的,而且由于LTR去除率過低癣诱,這種擴(kuò)張還會繼續(xù)發(fā)展下去计维。我們經(jīng)常說松柏自高潔,但是在這種高潔的外表下其內(nèi)在是失控的?? 并且生活在一大堆垃圾中撕予。
第三個亮點(diǎn)是發(fā)現(xiàn)了具有超長內(nèi)含子的大基因往往具有較高水平的表達(dá)鲫惶,并且針對這個發(fā)現(xiàn)提出了一個新的模型。
第四個亮點(diǎn)是對針葉樹特別是油松的生殖進(jìn)化軌跡進(jìn)行了很好的描述嗅蔬。
本文使用 文章同步助手 同步