???????隨著技術的發(fā)展,動植物的全基因組測序到現(xiàn)在已經(jīng)超過了2000個霍骄,而且這個驚人的數(shù)字是在最近三年內得到爆發(fā)的群嗤。這樣體量的數(shù)據(jù)涌現(xiàn)畅铭,為分子生物學的發(fā)展提供了巨大的助力氏淑。最近三天身體不舒服,實在做不動分析了硕噩,挑這個時間簡單歸納一下我對”基因的命運“這個課題的思考假残。
???????自分子生物學誕生以來,科學家們就對蛋白編碼基因的探索投入了最大的精力炉擅,每一個新的酶結構的解析辉懒,每一個新的基因功能的驗證阳惹,每一個家族的演化關系闡明,都會得到學界的普遍關注眶俩。而這些編碼基因其實只占到了基因組的5-10%左右穆端,且數(shù)目總是維持在20,000-40,000之間。這是一種微妙的平衡仿便,為了維持這種多樣性與保守性,功能性與穩(wěn)定性之間的平衡狀態(tài)攒巍,基因很可能存在著一種誕生又消亡的機制嗽仪。那么,基因生死命運背后的機制是什么呢柒莉,這個課題便得到了眾多研究人員的關注闻坚。在大規(guī)模物種基因組被測序之前,人們只能根據(jù)部分家族兢孝,簡單的位點的基礎上去推測窿凤,而不能在基因組層面上得到大規(guī)模的理論驗證】缧罚基因組時代的到來尤其是泛基因組學的發(fā)展雳殊,無疑為生物學家們試圖解析基因的命運提供了絕佳的機會。
???????我會在這篇短文里簡單總結一下學界對此的探討窗轩,理解不對夯秃,萬請指正。
基因的 獲得與丟失 plus 模型
???????大概在上世紀70年代痢艺,學者們便發(fā)現(xiàn)了功能非常重要的基因家族的存在仓洼,其變化多樣,但又在不同類群間保守堤舒。一開始人們覺得協(xié)同進化模型可以解釋色建,但實際上協(xié)同進化模型解釋不了基因家族為何如此多樣性,即不同類群對應誕生了不同亞家族舌缤,同一個物種內不同亞家族同時存在箕戳。此時 獲得與丟失 模型誕生并慢慢成熟,它認為基因有消亡與獲得兩種狀態(tài):
基因的消亡有兩步:
基因變成假基因友驮,再變成非基因序列漂羊。
基因的獲得有三個渠道:
- A.自我復制的模式,如 gene duplication卸留,retrotransposition走越,fusion / rearrangement,horizontal gene transfer;
- B. 假基因轉為基因;
- C. 非基因序列轉為元基因Protogene耻瑟,再變成基因旨指。
模型里有幾個名詞需要界定:
假基因
???????基因在不能給物種提供選擇優(yōu)勢的時候赏酥,即不再具有適應性以后,會慢慢積累突變谆构,當這些突變使基因序列過早出現(xiàn)的“終止信號”裸扶、增添或者缺失的核苷酸,造成了閱讀框錯誤等等搬素,總之就是最后無法合成原先的蛋白質呵晨,那么一個基因就成功轉變?yōu)榱思倩颉?br> 假基因的產(chǎn)生有兩種模式:
- A.加工型(Processed)假基因,即基因的一部分mRNA或hnRNA轉錄本自發(fā)地逆轉錄回DNA并插入熬尺,過程里非常容易發(fā)生問題影響原有正常功能從而假基因化
-
B.非加工型或復制型(Non-processed (or duplicated) )假基因摸屠,即一個基因通過各種模式把自己復制了一份,新產(chǎn)生的拷貝包含完整的內含子外顯子等粱哼,但是在選擇作用下季二,這兩個一模一樣的基因之一喪失功能形成了假基因。這一過程很多是由逆轉錄轉座(retrotransposition)介導揭措,非常有趣胯舷。
???????假基因由于失去了原有功能,可以隨意的變異绊含,有的會”沉淪“下去桑嘶,變成非基因序列,也有些因為又獲得了有利突變而重新變成了編碼基因躬充。除此之外不翩,它還可能就這么作為假基因存在著,而且轉錄活躍麻裳, 參與生物系統(tǒng)的調控口蝠,只不過就是不翻譯成蛋白質而已,很像lncRNA津坑。
原基因(protogenes)
???????是從非基因序列從頭隨機出的基因序列妙蔗,具備一定的表達和轉錄能力,但是并不知道或沒有確切的功能疆瑰,很像新生的嬰兒眉反,有無限的可能。從序列水平看穆役,也很難根據(jù)所謂的相似性給一個同源序列寸五,這一點基本跟 孤兒基因 (orphan gene) 區(qū)分不開,孤兒基因一般被不是從頭演化而來耿币,而是由超出檢測能力之外的 duplication 和 divergence 得來梳杏。想要區(qū)分兩者,必須引入臨近物種的基因組作為參考。但實際上十性,只有一個基因組的話叛溢,這種原基因與孤兒基因可以統(tǒng)稱為新基因 (de novo gene)。
???????原基因是怎么變成穩(wěn)定的基因結構的呢劲适,這就要引入適應性的概念楷掉,原基因由于處于活躍狀態(tài),往往會不停積累變異霞势,當積累的變異對某一功能有利時烹植,它便會穩(wěn)定下來行使功能,而累積到的變異有害時愕贡,它會漸漸清洗從而再次變成 非基因序列刊橘。孤兒基因往往都是穩(wěn)定且具有特定功能的,很多都是輔助性的颂鸿,但是也有很多因為沒有同源基因,其功能不可或缺攒庵,所以在基因組中非常保守穩(wěn)定嘴纺。
基因的自我復制與獲得
基因除了從頭獲得,還可以在已有的基因基礎上浓冒,直接產(chǎn)生栽渴。主要有四種模式 horizontal gene transfer句伶,fusion/rearrangement塞耕,retrotransposition,gene duplication
1. 基因水平轉移 (horizontal gene transfer)
???????生物界中父母把基因傳給子代的過程被稱作基因垂直傳遞纷妆。水平傳遞與之不同场梆,指生物將遺傳物質傳遞給其他細胞/生物而非其子代的過程墅冷,例如:接合、轉導及轉化或油。植物界自發(fā)產(chǎn)生最廣泛的就是葉綠體/線粒體跟細胞核的核質互換寞忿。而且根據(jù)內共生理論認為葉綠體和線粒體可能起源于細菌內共生。
2.基因融合與重排 (fusion / rearrangement)
染色體的易位/缺失/倒位或LTR-RT這類的轉座子將兩個原先各自獨立基因的原件拼接到了一起顶岸,從而形成了一個新的融合的基因腔彰。
3.反轉錄轉座(retrotransposition)
???????這里就要介紹什么是轉座子,最早是玉米中發(fā)現(xiàn)的辖佣,被稱為跳躍基因霹抛,顧名思義,這類元件總是在基因組上跳來跳去的卷谈。轉座子(Transposable elements) 根據(jù)活動模式被分I型(class I)和 II 型(class II):
- II型轉座子又稱DNA類轉座子杯拐,其元件是剪切-粘貼型;
-
I 型轉座子也就是反轉錄轉座子,也稱RNA介導的轉座子藕施,它的過程是一種復制粘貼型寇损,原始備份會在基因組原來位置保留著。分為 long terminal repeats (LTRs) and non-long terminal repeats (non-LTRs)兩類裳食。反轉錄轉座子這種保留原始備份且不停反轉錄后插入的特性使其有能力快速擴張基因組矛市,而又因為其獨特的重復序列特性,給基因組創(chuàng)造了更多的可能诲祸,例如推動假基因的產(chǎn)生浊吏,促進基因融合,使染色體脆弱之后更容易斷裂重排救氯。
4.基因重復(gene duplication)
顧名思義找田,基因一個變成了兩個,就是基因重復着憨。這是最早被發(fā)現(xiàn)墩衙,最多被研究,最被學者關注的一類基因獲得模式甲抖。
4.1.基因重復事件有什么好處嗎漆改?
- A, Evolve a new function without losing the old one;
- B, Fine-tune a gene for two different tasks准谚;
- C, Allow everyone to have both alleles of an overdominant system
4.2.基因按照同源基因對的距離或來源挫剑,分為5類:
- WGD/segmental duplication(同一個基因組內共線性塊上的基因對);
- tandem (兩個重復基因緊挨著在一起)柱衔;
- proximal (在同一個基因組片段上樊破,基因對之間間隔不超過10個基因);
- transposed (轉座復制唆铐;由一個祖先而來的舊基因和一個與此舊基因同源的新基因組成的 新舊基因對哲戚,推測是通過遠端轉座復制產(chǎn)生的,表現(xiàn)在基因組上,即一個與祖先基因組共線性的基因艾岂,還有一個同源基因不在其所處的染色體上)惫恼;
- dispersed (散在的,不能歸類為其余類別的同源基因對)澳盐;
-
完全找不到同源基因對的也稱之為 singleton祈纯。
4.3.那么,有什么機制會推動基因重復事件的發(fā)生呢叼耙?
本文上面涉及到的轉座子活動腕窥,染色體的重排,結構變異(倒位易位等)除了可能產(chǎn)生融合基因假基因等之外筛婉,都有可能推動基因的復制簇爆。
染色體的非整倍體或全基因組的復制則會造成相對大的WGD/segmental duplication產(chǎn)生癞松。
除此之外,tandem入蛆,proximal 這類重復可能由三種模式引起:
- A, 同源染色體間的不對稱的cross-over即Ectopic recombination (異位重組)(有趣的是斷點區(qū)經(jīng)常發(fā)現(xiàn)LTR這種轉座子)响蓉;
- B, DNA復制時出錯了導致滑動位移(Replication slippage)。
- C, 外顯子重組 (Exon shuffling)
4.4.基因重復之后哨毁,會經(jīng)歷怎樣的命運呢枫甲,尤其是從需要歷經(jīng)選擇的長期的過程來看。學者們提出了各種模型扼褪,目前來看可以大體歸為三類:
完全保留想幻;Deterioration或丟失;部分保留
- A, 完全保留话浇,是重復基因對的序列和功能保持較高相似性的狀態(tài)脏毯,這多半是因為劑量效應或者背景補償進而形成的協(xié)同進化作為推動。
- B, Deterioration或丟失幔崖,是一對基因對中的一個在”競爭“中失敗食店,直接變成了假基因或序列完全丟失;這個過程很多時候是隨機的赏寇,而且是大部分重復基因的命運走向吉嫩。
- C,部分保留蹋订,指序列和功能兩方面的部分保留,又分為兩類新功能化(Neofunctionalization)和亞功能化(Subfunctionalization)
Neofunctionalization 中比較成熟的模型是'innovation, amplification, divergence’ IAD模型刻伊。模型認為重復基因對中的一個保持不變露戒,另一個則產(chǎn)生了完全不同的新功能,但是序列上仍舊保持了相似性捶箱。
Subfunctionalization有兩種模型:
第一種模型 較早出現(xiàn): "duplication-degeneration-complementation"DDC模型智什,它認為 neutral drift 作用下導致兩個同源基因各自突變丟失了一部分祖先的功能,剩下的功能兩者互補丁屎,丟失任何一個荠锭,另一個基因都不能完整地行使祖先的功能。
第二種模型 是2007年被提出的"Escape from Adaptive Conflict" EAC 模型晨川,它認為正選擇的作用在復制之前就開始起作用了证九,一個多功能的祖先在重復事件發(fā)生后,兩個重復基因各自繼承祖先基因的部分功能共虑,以此解決兩個基因一模一樣所造成的”adaptive conflict“問題愧怜。產(chǎn)生的子基因之間有無互補關系也不重要,例如組織特異性表達的同源基因對妈拌,丟失一方也能正常行使功能拥坛。為了跟DDC提出的Subfunctionalization有所區(qū)分,學界有時候也把這種亞功能化稱為 Specialization。
???????全基因組加倍(WGD)是生物界很有趣也異常重要的一個現(xiàn)象猜惋,即整個基因組直接加倍丸氛,分為同源多倍化、異源多倍化著摔。多倍化事件為生物尤其是被子植物應對劇烈的環(huán)境變化提供了充足的彈藥缓窜,一次基因重復釋放了這個基因的壓力,整個基因組的重復那將創(chuàng)造何等強大的變化潛力是難以想象的梨撞,重復基因的命運也就變得格外多樣復雜雹洗。但是從底層的邏輯規(guī)律上看,這種全基因組層面加倍以后多基因的命運卧波,與單基因重復之后的基因命運并沒有表現(xiàn)出不同的前景时肿。圖中給出了簡單的呈現(xiàn),單基因多基因基本都遵循著類似的模式港粱。
???????需要注意的是螃成,已有的研究發(fā)現(xiàn),不同的基因重復事件之后查坪,其走向的規(guī)律卻是不同的寸宏,因此研究的方向也就格外多樣化,例如總體比例偿曙,基因表達差異氮凝,基因組分布規(guī)律,誕生時間望忆,丟失比例速率罩阵,重復次數(shù),功能富集偏向性启摄,選擇壓力稿壁,TF啟動子的家族分類,劑量效應等等歉备。
4.5.如何探究基因重復命運(保留模式)呢傅是?
上圖的模式看起來如此簡單,但是考慮到技術實現(xiàn)的時候蕾羊,探究某個物種的重復基因的命運就變得異常困難了喧笔。
好在最近幾年測序技術的反正給這種分析提供了技術上的可行性:
- A, 基于臨近物種及其基因表達數(shù)據(jù),CDROM: Classification of Duplicate gene RetentiOn Mechanisms 和 晉級版的 CLOUD: CLassification using Ornstein–Uhlenbeck of Duplicates
- B, 基于基因家族水平探究其擴張收縮的 COUNT 和 Cafe: Computational Analysis of gene Family Evolution