轉(zhuǎn)座子序列的注釋(工具介紹)
關(guān)于TE的信息被編目為三種類型的存儲庫:以TE為中心(TE-centric),以基因組為中心(genome-centric) 和以多態(tài)性為中心(polymorphism-centric)旦万。以TE為中心的存儲庫收集各類TE家族的共有序列湘纵;以基因組為中心的存儲庫將參考基因組中的所有單個TE元件進行編錄;多態(tài)性為主的存儲庫包含不同于參考基因組中的個體獨有的插入锈玉。
A. TE-centric repositories
這類存儲庫關(guān)注轉(zhuǎn)座元件本身爪飘,在這種類型的數(shù)據(jù)庫中,我們能檢索到各類轉(zhuǎn)座元件家族拉背,亞家族的共有序列师崎,它們主要被用在基因組中轉(zhuǎn)座元件的分類和注釋。
RepBase Update 是目前檢索真核生物基因組中各類移動元件/轉(zhuǎn)座元件共有序列集的最常用的數(shù)據(jù)庫之一椅棺。這個數(shù)據(jù)庫旨在給出每一類TE家族的共有序列和代表型元件類型犁罩。它將轉(zhuǎn)座元件分為三類:DNA轉(zhuǎn)座子,LTR逆轉(zhuǎn)錄轉(zhuǎn)座子(Long Terminal Repeat Retrotransposons)和non-LTR逆轉(zhuǎn)錄轉(zhuǎn)座子两疚。
Dfam是一個較RepBase更“年輕”的真核生物TE-centric數(shù)據(jù)庫床估,這個數(shù)據(jù)庫更正式地定義了轉(zhuǎn)座元件,并且將共有序列一樣的轉(zhuǎn)座元件形成一個“集合”诱渤,利用隱馬爾可夫模型(hidden Markov models)來進行多序列比對(multiple sequence alignments)丐巫。
B. Genomr-centric repositories
以基因組為中心的TE數(shù)據(jù)庫主要集合了參考基因組上注釋的各個轉(zhuǎn)座元件。這類數(shù)據(jù)庫能夠展示各物種基因組內(nèi)以及不同TE家族中包含的轉(zhuǎn)座元件的多樣性勺美。
另外递胧,由于能夠在完整的參考基因組中進行檢索,這種類型的數(shù)據(jù)庫能夠提供TE元件本身序列外的“側(cè)翼序列”赡茸,從而給出更準確的我們想要檢索的TE元件類型缎脾,序列以及在參考基因組當中的位置信息。
在研究哺乳動物轉(zhuǎn)座元件時坛掠,Dfam數(shù)據(jù)庫是唯一包含以上信息的數(shù)據(jù)庫赊锚。同時RepeatMasker也能提供基因組上不同的TE元件的序列以及位置信息通過基因組瀏覽器。
還有一些數(shù)據(jù)庫是對那些插入到基因組上各基因的編碼區(qū)的轉(zhuǎn)座元件做匯總屉栓,包括TranspoGene, HESAS,以及LINE FUSION GENES舷蒲。
C. Polymorphism-centric repositories
所謂多態(tài)性插入事件,即在參考基因組中找不到這個插入但是卻在某個或某些特定的個體當中找到了友多,包括生殖細胞系多態(tài)性插入(germline polymorphism insertions)以及體細胞系多態(tài)性插入(somatic polymorphism insertion)牲平。
隨著越來越多的個體基因組序列被測定,越來越多轉(zhuǎn)座元件多態(tài)性插入事件被揭示域滥,這些多態(tài)性插入事件的人群頻率以及功能也就能被有效評估纵柿。同時這種以插入多態(tài)性為中心的數(shù)據(jù)庫集成了大量個體中TE的插入事件蜈抓,從而更好地展示了轉(zhuǎn)座子的多樣性。
這類多態(tài)性為主的轉(zhuǎn)座元件數(shù)據(jù)庫能夠?qū)E與表型聯(lián)系起來昂儒,并且一些數(shù)據(jù)庫能給出相應(yīng)插入事件的推測的功能沟使。
其他逆轉(zhuǎn)錄轉(zhuǎn)座元件,如Alu, SVA的多態(tài)性被存儲在NCBI的dbVar中渊跋。
D. Challenges and remaining gaps
急需一個完整的人類基因組中TE多態(tài)性的資源腊嗡。雖然現(xiàn)在有了相對比較優(yōu)秀的關(guān)于人類基因組中LINE1插入多態(tài)性的數(shù)據(jù)庫(euL1db),但是其他類型的轉(zhuǎn)座元件還是只能通過NCBI的結(jié)構(gòu)變異數(shù)據(jù)庫(dbVar)來進行檢索拾酝。
在不少癌癥當中發(fā)現(xiàn)Alu元件的插入多態(tài)性與LINE1是具有協(xié)同一致性的燕少,因此能有一個包含所有轉(zhuǎn)座元件插入的信息,而不僅僅是某一類型的轉(zhuǎn)座子蒿囤,可能對于今后真正評估轉(zhuǎn)座元件與發(fā)育客们,疾病發(fā)生等各種生物表型的相關(guān)性和作用會更有幫助
E. Annotate transposon sequences
不論有無已經(jīng)組裝的基因組,從測序數(shù)據(jù)當中去找到并注釋轉(zhuǎn)座子序列都是可以的材诽。
依賴于參考基因組的注釋策略主要有兩類:一類是基于數(shù)據(jù)庫進行注釋底挫,將測序得到的序列與數(shù)據(jù)庫中已知的TE共有序列以及TE相關(guān)的結(jié)構(gòu)域進行比對;另一類是從頭注釋岳守。不依賴參考基因組的注釋策略是使用測序的原始數(shù)據(jù)進行從頭注釋凄敢,這種類型的注釋策略可能可以尋找到信息的TE轉(zhuǎn)座元件類型,并且對于進行新元件的分類也非常有幫助湿痢。
多態(tài)性TE插入檢測和關(guān)鍵事件挖掘工具
不同生物個體基因組中移動元件插入和缺失多態(tài)性的檢測依賴于已經(jīng)進行過元件注釋的參考基因組的存在涝缝。與單核苷酸多態(tài)性(SNPs)相似,轉(zhuǎn)座元件多態(tài)性通常與不同表型相關(guān)譬重,有些多態(tài)性事件已被證實與某些疾病的發(fā)生相關(guān)拒逮,如血友病(haemophilia)以及雷氏綜合征(Rett syndrome)⊥喂妫現(xiàn)在已經(jīng)有很多軟件開發(fā)出來用于鑒定生殖細胞系以及體細胞系的轉(zhuǎn)座元件插入多態(tài)性滩援。
用于檢測生殖細胞系TE多態(tài)性(germline TE insertion polymorphisms)的短讀長方法
二代測序的一般讀長為100-250bp,這對于從屬于重復序列的轉(zhuǎn)座元件來說塔嬉,從短讀長的reads中鑒定出它們是一種挑戰(zhàn)玩徊。
目前針對二代短讀長測序產(chǎn)生的數(shù)據(jù)分析生殖細胞系TE多態(tài)性的方法主要有三種:
① 使用split-read(SR)信息,② 依賴于不一致的讀取對(discordant read pair, DRP)比對或 ③ 基于TE特定motif的識別谨究。
[圖片上傳失敗...(image-5a980e-1678925849377)]
用于檢測生殖細胞系TE多態(tài)性(germline TE insertion polymorphisms)的短讀長方法和生信分析工具
第①種SR的方法能夠檢測出那些同時包含插入位置的側(cè)翼基因組信息以及轉(zhuǎn)座元件起始或終止序列的reads恩袱;
第②種方法主要是通過尋找末端配對的reads和標記實例,其中兩個末端彼此遠離排列胶哲,方向相反或者只有一個讀數(shù)在參考基因組上對齊畔塔。通常來說可以把這兩種方法用于檢測樣本中TE多態(tài)性的第一步,其中,由于是直接瞄準轉(zhuǎn)座元件和宿主序列的連接區(qū)段進行檢測澈吨,SR相關(guān)的工具可提供更精確的插入位點信息把敢,而DRP相關(guān)方法能提供更高的敏感度因為該類方法可以得到更多支持所檢測到的插入事件的reads。
因此在實際運用這兩類方法去做轉(zhuǎn)座元件鑒定時谅辣,通常推薦優(yōu)先使用DRP相關(guān)的生信分析工具得到更多的位點修赞,再通過SR相關(guān)的生信分析工具來進一步確定。
鑒定短讀長測序reads中g(shù)ermline TE insertion polymorphism的第③種方法是基于TE元件所特有的motif桑阶。所謂的“motif”這里可以理解為轉(zhuǎn)座元件的特征序列榔组,例如長末端重復元件(Long Terminal Repeat, LTR)兩端的長末端重復序列。不同的轉(zhuǎn)座元件家族進行轉(zhuǎn)座作用所依賴的發(fā)生機制有所不同联逻,目前主要有三個常見的特征用作插入事件的監(jiān)督,它們分別是:插入位點的目標序列重復(target sites duplications, TSDs)的存在检痰;L1介導的逆轉(zhuǎn)錄轉(zhuǎn)座作用通過帶有3' 多聚腺苷酸尾包归;3' 轉(zhuǎn)導(3' transduction)。
不同家族的轉(zhuǎn)座元件轉(zhuǎn)座所產(chǎn)生的靶標位點重復序列(target region duplications, TSDs)的長度一般不同铅歼。比如一段固定長度的公壤,大約4-6nt之間的TSD,存在于Class I中的長末端重復序列(LTRs)和DNA轉(zhuǎn)座子插入位點椎椰,但是DIRS這類元件中沒有厦幅,或者在長散在重復元件(LINEs)和短散在重復元件(SINEs)的長度非常多樣。
TIF以及NGS TE Mapper這兩個生信分析工具能夠直接檢測到那些跨越轉(zhuǎn)座元件末端并且含有了TSDs序列的reads慨飘。
通過運用這些工具對短讀長二代測序數(shù)據(jù)進行分析确憨,被測個體與參考基因組相比的多態(tài)性的生殖細胞系轉(zhuǎn)座元件插入事件得以檢測,同時瓤的,通過對群體中每個個體進行獨立的鑒別分析休弃,然后將樣本集合起來看做一個整體進行多個樣本的鑒別(make joint calls)(PS:由于本人還是個生信小白,然后同學說關(guān)于如何make call這些可以去看GATK的官網(wǎng)介紹~ )圈膏。