在日常的生信分析中团滥,我常常會(huì)碰到對(duì)重復(fù)序列的處理鸳碧。對(duì)于重復(fù)序列知道是什么東西,也知道分析中需要避免它的影響懒鉴。但實(shí)際上還是缺乏一些系統(tǒng)上的認(rèn)識(shí)诡挂,感謝最近發(fā)的一遍nature genetics的review paper碎浇,幫我把這段知識(shí)補(bǔ)充完整。這里也分章節(jié)同時(shí)分享給大家璃俗,與大家一起學(xué)習(xí)奴璃。
摘要
首先好習(xí)慣先看看摘要:
許多物種的大部分基因組來(lái)自轉(zhuǎn)座因子(TE)。此外城豁,通過(guò)各種自我復(fù)制機(jī)制苟穆,TE在大多數(shù)物種的基因組中繼續(xù)增殖。
TE已經(jīng)提供了許多調(diào)控唱星,轉(zhuǎn)錄和蛋白質(zhì)創(chuàng)新鞭缭,并且還與疾病有關(guān)。然而魏颓,盡管已經(jīng)證實(shí)了它們的影響岭辣,許多基因組研究仍然排除它們,因?yàn)樗鼈兊闹貜?fù)性導(dǎo)致各種分析復(fù)雜性甸饱。幸運(yùn)的是沦童,正在開(kāi)發(fā)的越來(lái)越多的方法和軟件工具來(lái)滿足它們。本綜述介紹了與TE有關(guān)的生信工具叹话,并重點(diǎn)介紹了進(jìn)行TE全面基因組分析的一些挑戰(zhàn)和目前所遇到的困境偷遗。
一貫經(jīng)典nature genetics review的風(fēng)格,簡(jiǎn)單的介紹驼壶,影響氏豌,現(xiàn)狀,總結(jié)热凹。沒(méi)有一句拖泥帶水泵喘,簡(jiǎn)單明了。
背景
1948年Barbara McClintock通過(guò)玉米開(kāi)創(chuàng)性工作發(fā)現(xiàn)般妙,轉(zhuǎn)座子(TEs)纪铺,已在所有植物和動(dòng)物中被發(fā)現(xiàn),以及各種原核物種碟渺。TE通常是根據(jù)中間底物繁殖插入(RNA或DNA)分為兩類鲜锚,并根據(jù)各種結(jié)構(gòu)特征進(jìn)一步分為家族和亞家族。 TEs負(fù)責(zé)主要的基因組擴(kuò)增苫拍,TE衍生的序列構(gòu)成了大多數(shù)真核基因組的大部分芜繁,包括大約一半人類基因組和高達(dá)95%的一些植物基因組。
大多數(shù)TE已經(jīng)積累了突變和陽(yáng)離子轉(zhuǎn)變事件绒极,使它們不再合適轉(zhuǎn)換骏令。此外,不同的物種已經(jīng)進(jìn)化出各種抑制機(jī)制集峦,包括TE啟動(dòng)子甲基化伏社,以防止進(jìn)一步的轉(zhuǎn)置事件。但是塔淤,在大多數(shù)基因組中摘昌,有一些
家族保持活躍并且可以產(chǎn)生新的插入,稱為多態(tài)插入高蜂。例如聪黎,LINE-1家族仍在人類中活躍,并且還對(duì)許多其他家庭的動(dòng)員事件負(fù)責(zé)(I類Alu元素和sVA元件)备恤。據(jù)估計(jì)稿饰,對(duì)于LINE-1,每95個(gè)新生兒中有1個(gè)新種系插入頻率露泊,每21個(gè)新生兒中有1個(gè)Alu插入喉镰。這些LINE介導(dǎo)的插入反過(guò)來(lái),它可以破壞整合位點(diǎn)的基因惭笑,已經(jīng)有124個(gè)這樣的插入與人類疾病相關(guān)侣姆。在人類中,許多TE家族在其他物種中仍然活躍彭羹,例如大多數(shù)植物阱高,果蠅和小鼠的基因組中的長(zhǎng)末端重復(fù)序列(LTR)家族以及植物和非哺乳動(dòng)物物種中的DNA轉(zhuǎn)座子萝快。TE插入也可以在體細(xì)胞中發(fā)生并且已經(jīng)在植物,秀麗隱桿線蟲和哺乳動(dòng)物基因組中觀察到
蚜厉。在人類中
已經(jīng)有L1,Alu和SVA元素的體細(xì)胞插入畜眨,可以在神經(jīng)細(xì)胞和癌細(xì)胞中觀察到昼牛。
然后功能部分blabla的介紹一大段,忽略不寫了康聂。
盡管TE在正常功能和疾病產(chǎn)生中具有這些重要功能匾嘱,但TE通常被忽略或
在基因組研究中“掩蓋”,因?yàn)樗鼈兊闹貜?fù)性使得分析具有挑戰(zhàn)性早抠,特別是使用短讀序列技術(shù)霎烙。例如,由于TE的reads通常是模糊比對(duì)的(比對(duì)到不同的序列中)蕊连,這些模糊比對(duì)可能會(huì)被排除在下游分析之外悬垃。此外,使用短讀取的組裝的基因組通常難以正確放置TE甘苍,并導(dǎo)致下游注釋不完整尝蠕。盡管如此,我們正處于TE檢測(cè)和分析技術(shù)進(jìn)步的時(shí)代载庭。實(shí)際上看彼,降低成本導(dǎo)致了大規(guī)模測(cè)序項(xiàng)目的爆炸式增長(zhǎng)廊佩,其中可以研究TE多態(tài)性及其影響。此外靖榕,還出現(xiàn)了新的長(zhǎng)讀取測(cè)序技術(shù)标锄,這些技術(shù)降低了TE檢測(cè)和基因組組裝的復(fù)雜性。利用這些進(jìn)步茁计,正在開(kāi)發(fā)多種方法和軟件工具料皇,以促進(jìn)將TE納入基因組研究。
這一段還是講的相當(dāng)好的星压,二三代技術(shù)的優(yōu)劣勢(shì)践剂,簡(jiǎn)單的展望。
在本綜述中娜膘,研究者提供了生物信息學(xué)工具的綜合指南逊脯,這些工具是為檢測(cè)和分析TE而開(kāi)發(fā)的(圖1)。首先竣贪,介紹各種可用的分類工具和數(shù)據(jù)庫(kù)男窟。接下來(lái),專注于基因組序列中TE的注釋工具贾富,這些工具依賴于從頭和目標(biāo)方法歉眷。之后,我們描述了用于多態(tài)TE插入檢測(cè)的主要策略颤枪,并探討了一些關(guān)鍵的例子汗捡。我們還介紹了正在開(kāi)發(fā)的新方法,以表征和預(yù)測(cè)TE的功能影響畏纲。最后扇住,我們提供了許多標(biāo)準(zhǔn)工具,可以定制以在執(zhí)行基因組分析時(shí)考慮TE盗胀,并總結(jié)分析TE時(shí)當(dāng)前的一些挑戰(zhàn)和目前的不足艘蹋。

將文章的下面的內(nèi)容鋪墊好,接下來(lái)將講述關(guān)于TE的4大部分票灰。
TE分類和存儲(chǔ)庫(kù)
TE分為兩大類女阀,進(jìn)一步分為族和子家族。關(guān)于TE的信息被編目為三種類型的存儲(chǔ)庫(kù):以TE為中心屑迂,以基因組為中心和以多態(tài)性為中心浸策。以TE為中心的存儲(chǔ)庫(kù)收集有關(guān)與每個(gè)TE家族相關(guān)的共有序列的信息,以基因組為中心的存儲(chǔ)庫(kù)對(duì)參考基因組中的所有單個(gè)TE實(shí)例進(jìn)行編碼惹盼,以及以多態(tài)為中心的存儲(chǔ)庫(kù)包含與該物種的注釋參考基因組不同的個(gè)體中的插入庸汗。
以TE為中心
這些數(shù)據(jù)庫(kù)專注于TE本身,包含每個(gè)家庭和亞家族的共識(shí)序列手报。它們用于分類目的蚯舱,基因組中TE的注釋改化,以及需要TE參考序列的各種其他生物信息學(xué)工具。 RepBase Update是真核基因組中最受歡迎的TE共識(shí)庫(kù)枉昏,旨在包含每個(gè)TE家族的共識(shí)序列或代表性實(shí)例43陈肛。 RepBase Update將TE分為三組:DNA轉(zhuǎn)座子,LTR反轉(zhuǎn)錄轉(zhuǎn)座子和非LTR反轉(zhuǎn)錄轉(zhuǎn)座子凶掰。 Dfam是一個(gè)更新的真核生物TE中心數(shù)據(jù)庫(kù),其中TE家族更正式定義蜈亩,并通過(guò)隱馬爾可夫模型收集為多序列比對(duì)懦窘。
Dfam還促進(jìn)了TE個(gè)體的注釋與運(yùn)用于已知TE家族相關(guān)但已累積突變并遠(yuǎn)離共有序列的實(shí)例。 RepBaseUpdate和Dfam都與RepeatMasker一起使用稚配,一種通過(guò)對(duì)與數(shù)據(jù)庫(kù)中存在的序列同源的序列進(jìn)行全基因組搜索來(lái)識(shí)別重復(fù)序列的工具用于注釋人類基因組和大多數(shù)其他真核基因組基因組畅涂。
以TE數(shù)據(jù)庫(kù)為中心,搜尋不同種類的TE就類似于道川,平時(shí)我們通過(guò)NR或者NT數(shù)據(jù)庫(kù)尋找同源序列那樣午衰。通過(guò)與數(shù)據(jù)庫(kù)的比較,將你的TE進(jìn)行分類冒萄。
以基因組為中心
以基因組為中心的數(shù)據(jù)庫(kù)編目在參考基因組中注釋的各個(gè)TE臊岸。在基因組內(nèi)和TE家族中顯示其多樣性,以基因組為中心的TE目錄通過(guò)提供精確的TE序列來(lái)允許更準(zhǔn)確的TE查詢∽鹆鳎現(xiàn)在人類帅戒,植物,真菌等都有相應(yīng)的以基因組為中心的TE數(shù)據(jù)庫(kù)崖技。
多態(tài)性為中心
在這些專用數(shù)據(jù)庫(kù)中報(bào)告了在個(gè)體中檢測(cè)到但在參考基因組中不存在的種系和體細(xì)胞多態(tài)性插入逻住。隨著對(duì)更多個(gè)體進(jìn)行測(cè)序并發(fā)現(xiàn)新的插入,可以確定這些插入的種群頻率迎献。此外瞎访,這些數(shù)據(jù)庫(kù)提供了更大的單個(gè)TE的混池來(lái)探索TE多樣性。多態(tài)存儲(chǔ)庫(kù)還可以幫助將TE與不同的表型相關(guān)聯(lián)吁恍,并且這些數(shù)據(jù)庫(kù)中的一些還報(bào)告插入的假定功能影響扒秸。這些數(shù)據(jù)庫(kù)都是特定于宿主的,并且通常是在大型重新測(cè)序項(xiàng)目的背景下創(chuàng)建的冀瓦,這些項(xiàng)目旨在描述特定物種的多樣性鸦采。同上人類,植物,果蠅都有自己相應(yīng)的數(shù)據(jù)庫(kù):
目前面臨的挑戰(zhàn)
TE數(shù)據(jù)庫(kù)的兩個(gè)方面仍然不是最理想的咕幻。首先渔伯,物種特異性儲(chǔ)存庫(kù)對(duì)于解釋生物體內(nèi)TE的序列多樣性至關(guān)重要,但數(shù)據(jù)庫(kù)之間存在一些重疊肄程,如果將資源庫(kù)與共享宿主或TE類型合并將有利于避免需要多個(gè)查詢并增加凝聚性锣吼。其次选浑,目前我們需要一個(gè)專門用于人類基因組中整合了不同方面TE多態(tài)性發(fā)現(xiàn)的綜合資源。