轉(zhuǎn)座子的注釋(包含工具)

轉(zhuǎn)座子序列的注釋(工具介紹)

關(guān)于TE的信息被編目為三種類型的存儲庫:以TE為中心(TE-centric),以基因組為中心(genome-centric) 和以多態(tài)性為中心(polymorphism-centric)旦万。以TE為中心的存儲庫收集各類TE家族的共有序列湘纵;以基因組為中心的存儲庫將參考基因組中的所有單個TE元件進行編錄;多態(tài)性為主的存儲庫包含不同于參考基因組中的個體獨有的插入锈玉。

A. TE-centric repositories

這類存儲庫關(guān)注轉(zhuǎn)座元件本身爪飘,在這種類型的數(shù)據(jù)庫中,我們能檢索到各類轉(zhuǎn)座元件家族拉背,亞家族的共有序列师崎,它們主要被用在基因組中轉(zhuǎn)座元件的分類和注釋。

RepBase Update 是目前檢索真核生物基因組中各類移動元件/轉(zhuǎn)座元件共有序列集的最常用的數(shù)據(jù)庫之一椅棺。這個數(shù)據(jù)庫旨在給出每一類TE家族的共有序列和代表型元件類型犁罩。它將轉(zhuǎn)座元件分為三類:DNA轉(zhuǎn)座子,LTR逆轉(zhuǎn)錄轉(zhuǎn)座子(Long Terminal Repeat Retrotransposons)和non-LTR逆轉(zhuǎn)錄轉(zhuǎn)座子两疚。

Dfam是一個較RepBase更“年輕”的真核生物TE-centric數(shù)據(jù)庫床估,這個數(shù)據(jù)庫更正式地定義了轉(zhuǎn)座元件,并且將共有序列一樣的轉(zhuǎn)座元件形成一個“集合”诱渤,利用隱馬爾可夫模型(hidden Markov models)來進行多序列比對(multiple sequence alignments)丐巫。

B. Genomr-centric repositories

以基因組為中心的TE數(shù)據(jù)庫主要集合了參考基因組上注釋的各個轉(zhuǎn)座元件。這類數(shù)據(jù)庫能夠展示各物種基因組內(nèi)以及不同TE家族中包含的轉(zhuǎn)座元件的多樣性勺美。

另外递胧,由于能夠在完整的參考基因組中進行檢索,這種類型的數(shù)據(jù)庫能夠提供TE元件本身序列外的“側(cè)翼序列”赡茸,從而給出更準確的我們想要檢索的TE元件類型缎脾,序列以及在參考基因組當中的位置信息。

在研究哺乳動物轉(zhuǎn)座元件時坛掠,Dfam數(shù)據(jù)庫是唯一包含以上信息的數(shù)據(jù)庫赊锚。同時RepeatMasker也能提供基因組上不同的TE元件的序列以及位置信息通過基因組瀏覽器。

還有一些數(shù)據(jù)庫是對那些插入到基因組上各基因的編碼區(qū)的轉(zhuǎn)座元件做匯總屉栓,包括TranspoGene, HESAS,以及LINE FUSION GENES舷蒲。

C. Polymorphism-centric repositories

所謂多態(tài)性插入事件,即在參考基因組中找不到這個插入但是卻在某個或某些特定的個體當中找到了友多,包括生殖細胞系多態(tài)性插入(germline polymorphism insertions)以及體細胞系多態(tài)性插入(somatic polymorphism insertion)牲平。

隨著越來越多的個體基因組序列被測定,越來越多轉(zhuǎn)座元件多態(tài)性插入事件被揭示域滥,這些多態(tài)性插入事件的人群頻率以及功能也就能被有效評估纵柿。同時這種以插入多態(tài)性為中心的數(shù)據(jù)庫集成了大量個體中TE的插入事件蜈抓,從而更好地展示了轉(zhuǎn)座子的多樣性。

這類多態(tài)性為主的轉(zhuǎn)座元件數(shù)據(jù)庫能夠?qū)E與表型聯(lián)系起來昂儒,并且一些數(shù)據(jù)庫能給出相應(yīng)插入事件的推測的功能沟使。

其他逆轉(zhuǎn)錄轉(zhuǎn)座元件,如Alu, SVA的多態(tài)性被存儲在NCBI的dbVar中渊跋。

D. Challenges and remaining gaps

急需一個完整的人類基因組中TE多態(tài)性的資源腊嗡。雖然現(xiàn)在有了相對比較優(yōu)秀的關(guān)于人類基因組中LINE1插入多態(tài)性的數(shù)據(jù)庫(euL1db),但是其他類型的轉(zhuǎn)座元件還是只能通過NCBI的結(jié)構(gòu)變異數(shù)據(jù)庫(dbVar)來進行檢索拾酝。

在不少癌癥當中發(fā)現(xiàn)Alu元件的插入多態(tài)性與LINE1是具有協(xié)同一致性的燕少,因此能有一個包含所有轉(zhuǎn)座元件插入的信息,而不僅僅是某一類型的轉(zhuǎn)座子蒿囤,可能對于今后真正評估轉(zhuǎn)座元件與發(fā)育客们,疾病發(fā)生等各種生物表型的相關(guān)性和作用會更有幫助

E. Annotate transposon sequences

不論有無已經(jīng)組裝的基因組,從測序數(shù)據(jù)當中去找到并注釋轉(zhuǎn)座子序列都是可以的材诽。

依賴于參考基因組的注釋策略主要有兩類:一類是基于數(shù)據(jù)庫進行注釋底挫,將測序得到的序列與數(shù)據(jù)庫中已知的TE共有序列以及TE相關(guān)的結(jié)構(gòu)域進行比對;另一類是從頭注釋岳守。不依賴參考基因組的注釋策略是使用測序的原始數(shù)據(jù)進行從頭注釋凄敢,這種類型的注釋策略可能可以尋找到信息的TE轉(zhuǎn)座元件類型,并且對于進行新元件的分類也非常有幫助湿痢。

多態(tài)性TE插入檢測和關(guān)鍵事件挖掘工具


image.png

不同生物個體基因組中移動元件插入和缺失多態(tài)性的檢測依賴于已經(jīng)進行過元件注釋參考基因組的存在涝缝。與單核苷酸多態(tài)性(SNPs)相似,轉(zhuǎn)座元件多態(tài)性通常與不同表型相關(guān)譬重,有些多態(tài)性事件已被證實與某些疾病的發(fā)生相關(guān)拒逮,如血友病(haemophilia)以及雷氏綜合征(Rett syndrome)⊥喂妫現(xiàn)在已經(jīng)有很多軟件開發(fā)出來用于鑒定生殖細胞系以及體細胞系的轉(zhuǎn)座元件插入多態(tài)性滩援。

用于檢測生殖細胞系TE多態(tài)性(germline TE insertion polymorphisms)的短讀長方法

二代測序的一般讀長為100-250bp,這對于從屬于重復序列的轉(zhuǎn)座元件來說塔嬉,從短讀長的reads中鑒定出它們是一種挑戰(zhàn)玩徊。

目前針對二代短讀長測序產(chǎn)生的數(shù)據(jù)分析生殖細胞系TE多態(tài)性的方法主要有三種:

① 使用split-read(SR)信息,② 依賴于不一致的讀取對(discordant read pair, DRP)比對或 ③ 基于TE特定motif的識別谨究。

[圖片上傳失敗...(image-5a980e-1678925849377)]

用于檢測生殖細胞系TE多態(tài)性(germline TE insertion polymorphisms)的短讀長方法和生信分析工具

第①種SR的方法能夠檢測出那些同時包含插入位置的側(cè)翼基因組信息以及轉(zhuǎn)座元件起始或終止序列的reads恩袱;

第②種方法主要是通過尋找末端配對的reads和標記實例,其中兩個末端彼此遠離排列胶哲,方向相反或者只有一個讀數(shù)在參考基因組上對齊畔塔。通常來說可以把這兩種方法用于檢測樣本中TE多態(tài)性的第一步,其中,由于是直接瞄準轉(zhuǎn)座元件和宿主序列的連接區(qū)段進行檢測澈吨,SR相關(guān)的工具可提供更精確的插入位點信息把敢,而DRP相關(guān)方法能提供更高的敏感度因為該類方法可以得到更多支持所檢測到的插入事件的reads。

因此在實際運用這兩類方法去做轉(zhuǎn)座元件鑒定時谅辣,通常推薦優(yōu)先使用DRP相關(guān)的生信分析工具得到更多的位點修赞,再通過SR相關(guān)的生信分析工具來進一步確定

鑒定短讀長測序reads中g(shù)ermline TE insertion polymorphism的第③種方法是基于TE元件所特有的motif桑阶。所謂的“motif”這里可以理解為轉(zhuǎn)座元件的特征序列榔组,例如長末端重復元件(Long Terminal Repeat, LTR)兩端的長末端重復序列。不同的轉(zhuǎn)座元件家族進行轉(zhuǎn)座作用所依賴的發(fā)生機制有所不同联逻,目前主要有三個常見的特征用作插入事件的監(jiān)督,它們分別是:插入位點的目標序列重復(target sites duplications, TSDs)的存在检痰;L1介導的逆轉(zhuǎn)錄轉(zhuǎn)座作用通過帶有3' 多聚腺苷酸尾包归;3' 轉(zhuǎn)導(3' transduction)。

不同家族的轉(zhuǎn)座元件轉(zhuǎn)座所產(chǎn)生的靶標位點重復序列(target region duplications, TSDs)的長度一般不同铅歼。比如一段固定長度的公壤,大約4-6nt之間的TSD,存在于Class I中的長末端重復序列(LTRs)和DNA轉(zhuǎn)座子插入位點椎椰,但是DIRS這類元件中沒有厦幅,或者在長散在重復元件(LINEs)和短散在重復元件(SINEs)的長度非常多樣。

TIF以及NGS TE Mapper這兩個生信分析工具能夠直接檢測到那些跨越轉(zhuǎn)座元件末端并且含有了TSDs序列的reads慨飘。

通過運用這些工具對短讀長二代測序數(shù)據(jù)進行分析确憨,被測個體與參考基因組相比的多態(tài)性的生殖細胞系轉(zhuǎn)座元件插入事件得以檢測,同時瓤的,通過對群體中每個個體進行獨立的鑒別分析休弃,然后將樣本集合起來看做一個整體進行多個樣本的鑒別(make joint calls)(PS:由于本人還是個生信小白,然后同學說關(guān)于如何make call這些可以去看GATK的官網(wǎng)介紹~ )圈膏。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末塔猾,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子稽坤,更是在濱河造成了極大的恐慌丈甸,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件尿褪,死亡現(xiàn)場離奇詭異睦擂,居然都是意外死亡,警方通過查閱死者的電腦和手機茫多,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門祈匙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事夺欲」虻郏” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵些阅,是天一觀的道長伞剑。 經(jīng)常有香客問我,道長市埋,這世上最難降的妖魔是什么黎泣? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮缤谎,結(jié)果婚禮上抒倚,老公的妹妹穿的比我還像新娘。我一直安慰自己坷澡,他們只是感情好托呕,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著频敛,像睡著了一般项郊。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上斟赚,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天着降,我揣著相機與錄音,去河邊找鬼拗军。 笑死任洞,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的食绿。 我是一名探鬼主播侈咕,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼器紧!你這毒婦竟也來了耀销?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤铲汪,失蹤者是張志新(化名)和其女友劉穎熊尉,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體掌腰,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡狰住,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了齿梁。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片催植。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡肮蛹,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出创南,到底是詐尸還是另有隱情伦忠,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布稿辙,位于F島的核電站昆码,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏邻储。R本人自食惡果不足惜赋咽,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望吨娜。 院中可真熱鬧脓匿,春花似錦、人聲如沸宦赠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽袱瓮。三九已至,卻和暖如春爱咬,著一層夾襖步出監(jiān)牢的瞬間尺借,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工精拟, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留燎斩,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓蜂绎,卻偏偏與公主長得像栅表,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子师枣,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容