最近看了幾篇關(guān)于共線性分析的微信/簡(jiǎn)書(shū)推送苔埋,發(fā)現(xiàn)不少研究人員把“編碼基因共線性”錯(cuò)誤地描述為“全基因組共線性”。這是兩個(gè)完全不同的概念,前者主要是基于蛋白水平躯嫉,蛋白的保守性很高,即使分化較遠(yuǎn)的物種間也能找到同源基因片段自晰;而后者則是基于DNA水平题翻,其中包含了大量的非編碼片段排宰,變異程度即使是在近緣物種間也非常大褐鸥。那么线脚,接下來(lái)就好好聊一聊什么是共線性?為什么進(jìn)行全基因組共線性分析叫榕?以及如何進(jìn)行全基因組共線性分析浑侥?
1. 共線性
所謂的共線性主要是用來(lái)描述同一染色體上基因的位置關(guān)系,也就是指由同一祖先型分化而來(lái)的不同物種間基因的類型以及相對(duì)順序的保守性(即基因的同源性+基因的排列順序)晰绎。共線性片段的大小與物種之間的分化時(shí)間有很大關(guān)系:分化時(shí)間較短的物種間寓落,積累的變異較少,會(huì)保留更多從祖先遺傳下來(lái)的特征荞下;相反的伶选,分化時(shí)間較長(zhǎng)的物種間由于變異積累而導(dǎo)致共有的特征變少,反而獲得較短的共線性片段尖昏。此外考蕾,基因同源又可以分為直系同源和旁系同源。直系同源基因指存在于祖先基因組中会宪,隨后因?yàn)槲锓N分化,分別遺傳給不同的后代蚯窥,這些基因在結(jié)構(gòu)和功能上有很高的相似性掸鹅。旁系同源基因指同一基因組中由于基因復(fù)制而產(chǎn)生的的同源基因,這些基因往往變異較大拦赠,從而可能出現(xiàn)功能變異巍沙。
2.共線性分析的應(yīng)用
測(cè)序發(fā)展初期,人們只能測(cè)得部分序列荷鼠,但這些數(shù)據(jù)量少句携,不利于全面分析基因功能。另外允乐,單個(gè)物種基因組序列也無(wú)法完整的描述該物種的全面信息矮嫉,而且也無(wú)法挖掘真正的進(jìn)化事件,比如基因丟失牍疏、基因獲得等蠢笋。近幾年,隨著測(cè)序技術(shù)的快速發(fā)展鳞陨,為大規(guī)模的全基因組測(cè)序創(chuàng)造了很好的條件昨寞。而比較基因組的出現(xiàn),更是進(jìn)一步推動(dòng)了近緣物種或個(gè)體的全基因組測(cè)序,其中比較基因組中很大的一部分工作就是集中在全基因組比對(duì)上援岩。
共線性分析是比較基因組中必不可少的分析策略歼狼,因?yàn)樗试S分析物種間大尺度和小尺度的分子進(jìn)化事件。大尺度進(jìn)化事件主要包括對(duì)基因組內(nèi)重排和復(fù)制事件的估計(jì)享怀,例如羽峰,可以使用人與小鼠之間的全基因組比對(duì)來(lái)識(shí)別共線性同源區(qū)塊,然后確定重排事件凹蜈,從而解釋兩個(gè)基因組結(jié)構(gòu)差異限寞。小尺度進(jìn)化事件則是針對(duì)基因組水平的堿基替換速率以及插入、缺失事件仰坦。從共線性片段中可以識(shí)別出的物種間小尺度和大尺度突變事件履植,這些都可以作為物種樹(shù)推斷數(shù)據(jù)。此外悄晃,結(jié)合構(gòu)建的兩個(gè)尺度的基因組進(jìn)化模型玫霎,共線性比對(duì)還能夠完成祖先基因組重建的任務(wù)。
由于基因組共線性通陈栝希可以預(yù)測(cè)同源序列庶近,并且同源序列可能具有相似的功能,因此全基因組共線性分析對(duì)于功能預(yù)測(cè)是十分有價(jià)值的眷蚓”侵郑可以通過(guò)在整個(gè)基因組的核苷酸水平上對(duì)齊,從而可以幫助預(yù)測(cè)編碼和非編碼區(qū)域的功能沙热。 例如叉钥,如果我們對(duì)人類基因組中特定的疾病相關(guān)區(qū)域感興趣,我們可能會(huì)使用對(duì)齊來(lái)識(shí)別其小鼠同源基因的位置篙贸。 通過(guò)對(duì)小鼠同源片段的了解將使我們能夠更好地了解這個(gè)基因組區(qū)域的進(jìn)化歷史投队,并可能進(jìn)行遺傳操作實(shí)驗(yàn)。
3.基因組共線性比對(duì)工具
全基因組比對(duì)需要消耗的計(jì)算機(jī)內(nèi)存很大爵川,而且運(yùn)行時(shí)間較長(zhǎng)敷鸦。另外,由于基因組復(fù)制事件廣泛存在寝贡,尤其是植物基因組扒披,可能無(wú)法很好地區(qū)分旁系同源基因,容易產(chǎn)生大量的假陽(yáng)性比對(duì)結(jié)果圃泡。因此谎碍,選擇合適的基因組比對(duì)軟件尤其重要。目前比較成熟的基于全基因組共線性比對(duì)分析的軟件有:MUMmer洞焙、progressiveMauve蟆淀、Mugsy拯啦、LAST、Lastz熔任、Cactus褒链。
MUMmer MUMmer是一種非常快速的pairwise基因組比對(duì)工具疑苔,能夠在四個(gè)小時(shí)內(nèi)完成人類和黑猩猩的全基因組比對(duì)甫匹。它是通過(guò)使用后綴樹(shù)數(shù)據(jù)結(jié)構(gòu)來(lái)找到兩個(gè)基因組之間的所有最大唯一匹配,從而達(dá)到了這一速度惦费。MUMmer適用于非常近緣物種之間的基因組比對(duì)兵迅,盡管速度較快,但其靈敏度比LAST/lastZ要低薪贫。
**progressiveMauve progressiveMauve是一款以java編寫(xiě)的全基因組比對(duì)軟件恍箭,具有可視化界面,便于之間查看比對(duì)結(jié)果瞧省,比對(duì)效果較好適用于細(xì)菌基因組的比對(duì)扯夭。此外,需要注意的是progressiveMauve采用的比對(duì)策略是無(wú)參比對(duì)鞍匾。
Mugsy Mugsy比對(duì)速度快交洗,效率高,而且比對(duì)的長(zhǎng)度較長(zhǎng)橡淑,但主要適用于近緣物種之間的比較构拳,對(duì)于進(jìn)化距離較遠(yuǎn)的物種比對(duì)效果不太理想。
LAST LAST的優(yōu)勢(shì)在于能夠處理較大基因組(如脊椎動(dòng)物基因組)之間的比較梁棠,而且具有很快的比對(duì)速度置森。但是,它目前還無(wú)法進(jìn)行有g(shù)ap的比對(duì)掰茶,這也在一定程度上導(dǎo)致它的比對(duì)長(zhǎng)度較短,數(shù)量較多蜜笤。另外濒蒋,LAST能夠有效的處理含有重復(fù)序列的區(qū)域,因?yàn)樗捎玫氖强勺冮L(zhǎng)度的種子序列把兔,大大改善了比對(duì)的效率沪伙。
Lastz Lastz相比于LAST而言,它能夠允許基因組中少量gap的存在县好,比對(duì)長(zhǎng)度較長(zhǎng)围橡,適用遠(yuǎn)緣物種之間的全基因組比對(duì)(如脊椎動(dòng)物),其靈敏度稍稍低于LAST缕贡,速度也要比LAST慢一些翁授。
Cactus Cactus主程序其實(shí)是打包了Lastz拣播,但是它自身又采用了無(wú)參比對(duì)的策略,可以直接重構(gòu)祖先的染色體序列收擦。
值得推薦的軟件: LAST贮配、Lastz、Cactus
參考鏈接:https://link.springer.com/protocol/10.1007/978-1-4939-9074-0_4