TE的鑒定

轉(zhuǎn)座子鑒定方法

轉(zhuǎn)座子的鑒定方法基本歸于兩大類:從頭預(yù)測、基于同源比對罢杉。

  • 從頭預(yù)測算法 de novo 包括:基于基因組序列比對的方法趟畏、K-mer 方法、基于結(jié)構(gòu)特征的方法
    基于同源性的方法包括:基于同源序列比對的方法滩租、基于隱馬爾柯夫模型( HMM) 的方法
    不同的算法實(shí)現(xiàn)的目標(biāo)有所不同而叼, 如從頭算法主要是為了發(fā)現(xiàn)新的轉(zhuǎn)座子, 因此常用來在新測序的基因組中鑒別新的轉(zhuǎn)座子煤蹭,而多數(shù)基于同源性算法的軟件主要被用來注釋基因組中的轉(zhuǎn)座子

從頭( De novo ) 算法

  • 從頭算法鑒別轉(zhuǎn)座子的原理是基于轉(zhuǎn)座子的重復(fù)特征秧倾,該算法可在不借助任何轉(zhuǎn)座子數(shù)據(jù)庫的情況下查找到幾乎所有類型的轉(zhuǎn)座子。優(yōu)點(diǎn):算法主要用于發(fā)現(xiàn)新的芹血、未注釋的轉(zhuǎn)座子家族, 對于高頻出現(xiàn)的轉(zhuǎn)座子鑒別尤其有效。缺點(diǎn):計(jì)算量大报嵌。另外车伞, 由于從頭算法是基于用一個(gè)轉(zhuǎn)座子的拷貝數(shù)來定義重復(fù)家族, 這樣低拷貝數(shù)的轉(zhuǎn)座子可能被忽略掉。根據(jù)算法原理的不同塑猖, 從頭算法又包括基于基因組序列比對的方法兼都、K-mer 方法和基于結(jié)構(gòu)特征的方法。

  • 基于基因組序列比對的方法锨天。基于序列相似性,該方法利用 BLAST 等軟件將基因組與基因組進(jìn)行比對特占, 然后將雙序列比對的結(jié)果轉(zhuǎn)換成多序列比對茂缚, 最后用聚類方法將相關(guān)序列聚成家族,從而得到重復(fù)序列( 包括轉(zhuǎn)座子) 家族伏嗜。代表:RECON

  • K-mer 方法彤委。 該類從頭算法檢索重復(fù)出現(xiàn)的定長 Kmer 種子( 序列短串) 详囤, 然后再將它擴(kuò)展為更長的序列。代表:RepeatScout掏击。軟件首先在未知的基因組序列中計(jì)算出所有定長 K-mer 種子出現(xiàn)的頻率凡壤, 再選擇出最高頻率的 K-mer 種子及其周圍區(qū)域的序列, 一次一個(gè)堿基向兩邊擴(kuò)展姨涡, 每次生成一條具有代表性 K-mer 重復(fù)家族的共有序列赏表。然后調(diào)整已出現(xiàn)過的 K-mer 頻率數(shù), 再選擇出包括調(diào)整過的最高頻率 K-mer 及其周圍區(qū)域序列匈仗, 擴(kuò)展并產(chǎn)生共有序列瓢剿,直到最高頻率到達(dá)所設(shè)定的最小閾值結(jié)束, 這樣就得到了這一基因組的轉(zhuǎn)座子家族悠轩。RepeatScout與 RECON 相比间狂, 所得到結(jié)果更加準(zhǔn)確,而且敏感度和運(yùn)行速度都有很大的提高火架。其他使用 K-mer 方法的軟件還有RepeatFinder等鉴象。

  • 基于結(jié)構(gòu)特征的算法。 轉(zhuǎn)座子中 LTR 逆轉(zhuǎn)錄轉(zhuǎn)座子何鸡、SINE纺弊、微型反向重復(fù)轉(zhuǎn)座元件( MITE) 、Helitron 等都具有較明顯的特征音比, 基于結(jié)構(gòu)特征的算法可根據(jù)這些特征對這些轉(zhuǎn)座子進(jìn)行鑒別俭尖。代表:LTR_STRUC,LTR_FINDER洞翩,LTRharvest 稽犁,LTRdigest。LTR_finder 和 LTRharvest 是目前為止鑒定 LTR 最敏感的程序骚亿,但假陽性依然很高已亥。

基于同源性的算法

  • 基于同源性的算法是將一條未知序列與已知的轉(zhuǎn)座子序列或序列特征模型進(jìn)行比較,從而鑒別轉(zhuǎn)座子的一類方法来屠。根據(jù)同源序列比較方法的不同虑椎, 基于同源性的方法又可分為基于同源序列比對的算法和基于 HMM 的算法 2 類泻蚊。
  • 基于同源序列比對的算法阁危。該類算法與從頭算法中的基于基因組序列比對的方法都是使用 BLAST 等工具來發(fā)現(xiàn)序列相似性, 但與后者不同的是识啦, 基于同源序列比對的方法是將未知序列與數(shù)據(jù)庫中的轉(zhuǎn)座子序列進(jìn)行比較來鑒別轉(zhuǎn)座子迎膜。轉(zhuǎn)座子數(shù)據(jù)庫可使用公共數(shù)據(jù)庫 Repbase泥技, 但現(xiàn)在自己物種的研究,基本都是通過當(dāng)前的全基因組序列磕仅,訓(xùn)練重復(fù)序列集構(gòu)建本地repeat library珊豹,再通過RepeatMasker注釋重復(fù)序列簸呈。其中,與RepeatMasker配套的RepeatModeler店茶,可以實(shí)現(xiàn)蜕便。
    代表:RepeatMasker。RepeatMasker 利用 BLAST 工具在轉(zhuǎn)座子數(shù)據(jù)庫(Repbase或者自己構(gòu)建的repeat library)中比對查找已知的重復(fù)因子家族贩幻, 是目前基因組轉(zhuǎn)座子注釋最常用的軟件轿腺。
  • 基于 HMM 的算法。中文論述見 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2013&filename=AHNY201308003&uniplatform=NZKPT&v=%25mmd2Fe0g9nSKUuUK1GjQz6eD4Op0avSl%25mmd2BYGyQTsPxiKcx27YQ9yw%25mmd2FVAPSWnHERxDx8gt

數(shù)據(jù)庫

  • RepBase Update (https://www.girinst.org/repbase/update/) 是檢索真核生物基因組中各類移動(dòng)元件/轉(zhuǎn)座元件共有序列集的最常用的數(shù)據(jù)庫之一丛楚。數(shù)據(jù)庫旨在給出每一類TE家族的共有序列和代表型元件類型吃溅。它將轉(zhuǎn)座元件分為三類:DNA轉(zhuǎn)座子,LTR逆轉(zhuǎn)錄轉(zhuǎn)座子(Long Terminal Repeat Retrotransposons)和non-LTR逆轉(zhuǎn)錄轉(zhuǎn)座子鸯檬。
  • Dfam是一個(gè)較RepBase更“年輕”的真核生物TE-centric數(shù)據(jù)庫,這個(gè)數(shù)據(jù)庫更正式地定義了轉(zhuǎn)座元件螺垢,并且將共有序列一樣的轉(zhuǎn)座元件形成一個(gè)“集合”喧务,利用隱馬爾可夫模型(hidden Markov models)來進(jìn)行多序列比對(multiple sequence alignments)。
  • TREP枉圃,一個(gè)可用于研究植物和真菌中轉(zhuǎn)座元件的數(shù)據(jù)庫功茴。這個(gè)存儲庫有兩個(gè)子庫,一個(gè)包含不同TE元件子類的共有序列(nrTREP)孽亲,另一個(gè)包含單個(gè)插入的TE元件的完整序列(total_TREP)坎穿;同時(shí)這個(gè)存儲庫中還有一個(gè)數(shù)據(jù)庫是對那些插入序列進(jìn)行蛋白預(yù)測的(PTREP)。
  • P-MITE是一個(gè)植物特有的數(shù)據(jù)庫返劲,其中MITErepdb主要包含共有序列信息玲昧,而MITEdb主要用于注釋41種植物基因組中的各個(gè)微型倒置重復(fù)轉(zhuǎn)座元件(miniature inverted repeat TE, MITE)。
  • RiTE是特別用于水稻及其相關(guān)物種基因組中重復(fù)元件研究的數(shù)據(jù)庫篮绿,這個(gè)數(shù)據(jù)庫中包含水稻基因組中全部轉(zhuǎn)座元件的序列孵延,共有序列以及單個(gè)轉(zhuǎn)座子在參考基因組中的插入信息。
  • MASiVEdb數(shù)據(jù)庫包含和RiTE差不多的信息亲配,只是MASiVEdb包含更多的植物物種的轉(zhuǎn)座子注釋信息尘应。
  • 還有一些數(shù)據(jù)庫是對那些插入到基因組上各基因的編碼區(qū)的轉(zhuǎn)座元件做匯總,包括TranspoGene, HESAS, 以及LINE FUSION GENES吼虎。
  • RepeatExplorer database (REXdb)https://link.springer.com/article/10.1186/s13100-018-0144-1 REXdb根據(jù)來自于80個(gè)植物物種保守的多蛋白結(jié)構(gòu)域犬钢,將Copia和Gypsy反轉(zhuǎn)錄轉(zhuǎn)座子分別分為16個(gè)和14個(gè)譜系。

RepeatModeler思灰,LTR_retriever

  • RepeatModeler 利用全基因組序列從頭預(yù)測(de novo)玷犹,訓(xùn)練重復(fù)序列集構(gòu)建本地 repeat library。
    RepeatModeler1.0 核心組件是 RECON(de novo官辈,基于基因組序列比對)和 RepatScout (de novo箱舞,基于 K-mer)遍坟。RepeatModeler2.0更新后加入了 LtrHarvest(de novo,基于結(jié)構(gòu))晴股,LTR_retriever(主要有LTR_FINDER愿伴,LTRharvest,都是 de novo 基于結(jié)構(gòu)) 等电湘,可以識別LTR的結(jié)構(gòu)隔节。

  • 公司的重復(fù)序列注釋流程:使用RepeatModeler從頭鑒定(都是 de novo,1.0基于基因組序列比對寂呛,基于 K-mer怎诫;2.0 基于基因組序列比對,基于 K-mer贷痪,基于結(jié)構(gòu))重復(fù)區(qū)域家族幻妓,生成repeat library。然后再用RepeatMasker(基于同源性)鑒別基因組上的重復(fù)區(qū)域劫拢。

自己看Repeatmodeler+Repeatmasker 跑出來的重復(fù)序列結(jié)果肉津,發(fā)現(xiàn),會存在一段序列注釋為兩種類型舱沧,如可能會是Copia妹沙,然后又被注釋為LTR/unkonwn,但是不多熟吏,300多萬個(gè)數(shù)目中有30幾個(gè)會注釋重復(fù)

  • 用 LTRharvest 和 LTRdigest 進(jìn)行 LTR 基于結(jié)構(gòu) 的從頭預(yù)測( de novo距糖,基于結(jié)構(gòu) )

  • 2017 年密歇根州立大學(xué)園藝系的 Shujun Ou 團(tuán)隊(duì)開發(fā) LTR_retriever 平臺用于 LTR 的鑒定,文章發(fā)表在 Plant Physiology 上牵寺。這是一款整合軟件悍引,以一或多個(gè) LTR 預(yù)測軟件鑒定 LTR 的結(jié)果作為輸入文件,通過不同模塊對 LTR 進(jìn)行過濾和修正來對預(yù)測軟件的預(yù)測結(jié)果進(jìn)行整合和調(diào)整缸剪,得到非冗余精準(zhǔn)且完整的物種特異 LTR 庫吗铐,再使用 RepeatMasker 進(jìn)行預(yù)測。

    LTR_retriever不是一個(gè)獨(dú)立的工具杏节,他的主要作用就是整合 LTRharvest, LTR_FINDER, MGEScan 3.0.0, LTR_STRUC, 和 LtrDetector的結(jié)果唬渗,過濾其中的假陽性LTR-RT,得到高質(zhì)量的LTR-RT庫奋渔。盡管LTR_retriever支持多個(gè)LTR工具的輸入镊逝,但其實(shí)上LTRharverst和LTR_FINDER的結(jié)果就已經(jīng)很不錯(cuò)了。目前推薦的是LTR_Finder(de novo嫉鲸,基于結(jié)構(gòu))和LTR_harvest(de novo撑蒜,基于結(jié)構(gòu))組合鑒定,之后使用LTR_retreiver整合兩者的結(jié)果。

EDTA

EDTA流程圖
  • EDTA, 全稱是 Extensive de-novo TE Annotator, 一個(gè)綜合性的流程工具座菠,它整合了目前LTR預(yù)測工具結(jié)果(LTR_retriever狸眼,基于結(jié)構(gòu)),TIR預(yù)測工具結(jié)果浴滴,MITE預(yù)測工具結(jié)果拓萌,Helitrons預(yù)測工具結(jié)果,從而構(gòu)建出一高可信升略,非冗余的TE數(shù)據(jù)庫微王,再通過 RepeatMasker(基于同源性) 注釋重復(fù)序列。

之前倉促做的分析品嚣,一些參數(shù)沒有摸透炕倘,記錄可能有錯(cuò)誤的地方

分析:生成基因組中的原始的所有TE庫

EDTA.pl --genome xx.genome.fasta  --cds xx.final.gene.longest.gff3.cds.fa  \
--curatedlib ./library/xx.fa  --overwrite 1 --sensitive 1 --anno 1 --evaluate 0 --threads 20

GitHub - oushujun/EDTA: Extensive de-novo TE Annotator
--genome:必須文件,輸入的基因組序列(序列名不多于15(13?)個(gè)字符翰撑,且為簡單字符罩旋,如字母,數(shù)字或下劃線)
--cds:非必須文件眶诈,該物種或相關(guān)物種的CDS編碼序列(FASTA格式)瘸恼,不能包括內(nèi)含子和UTR。該文件有助于去除TE庫中的基因序列册养。
--exclude:非必須文件,該版本基因組組裝結(jié)果的基因位置文件(BED格式)压固。TE注釋過程中將會過濾該文件中的基因位置信息(如果做內(nèi)含子與TE之間相關(guān)分析球拦,此參數(shù)可能不能加)。
--curatedlib:已知TE帐我,會合并到TElib坎炼。其中的序列也沒必要是全部修正過的TE,部分修正過的也可以使用拦键。
--species:TIR注釋物種谣光,物種名Rice, Maize和others三個(gè)可選,默認(rèn)others
--step:運(yùn)行步驟, 從哪一步開始芬为,all|filter|final|anno, 根據(jù)具體情況選擇萄金,默認(rèn)all
--threads (-t):線程數(shù),默認(rèn)是4
--overwrite:如果發(fā)現(xiàn)以前的結(jié)果媚朦,決定是否覆蓋(1氧敢,重新運(yùn)行)或不覆蓋(0,默認(rèn))
--sensitive: 是否用RepeatModeler分析剩下的TE询张,默認(rèn)是0孙乖,也就是不要。RepeatModeler運(yùn)行時(shí)間比較久
--anno: 是否在構(gòu)建TE文庫后進(jìn)行全基因組預(yù)測,默認(rèn)是0
--evaluate 評估TE注釋的分類一致性唯袄。默認(rèn)值:0弯屈。這個(gè)步驟很慢,而且不會影響注釋結(jié)果恋拷。
--u ltr-retriever 的自然突變率 Default: 1.3e-8 (per bp per year, from rice)

8G基因組跑了20天左右

  • 運(yùn)行結(jié)束之后资厉,會在當(dāng)前目錄下留下運(yùn)行時(shí)的中間文件,保證程序中斷之后梅掠,能夠斷點(diǎn)續(xù)跑
    xxx.EDTA.raw
    xxx.EDTA.combine
    xxx.EDTA.final

  • 輸出文件:
    .mod.EDTA.RM.out 和 .mod.EDTA.RM.gff3 是RepeatMasker的輸出結(jié)果
    .mod.EDTA.TEanno.gff3 和 .mod.EDTA.TEanno.out 行數(shù)對應(yīng)不上酌住,疑惑

genome.mod.EDTA.TEanno.gff:全基因組TE的注釋. 該文件包括結(jié)構(gòu)完整和結(jié)構(gòu)不完整的TE的注釋(需要--anno 1參數(shù))
genome.mod.EDTA.TEanno.sum:對全基因組TE注釋的總結(jié)(需要--anno 1參數(shù))
genome.mod.EDTA.TElib.fa:非冗余的TE庫。如果在輸入文件中提供了修正版的TE庫阎抒,則該文件中也將包含這部分序列酪我。
genome.mod.EDTA.TElib.novel.fa:新TE類型。該文件中包括輸入的修正版的TE庫中沒有的TE序列(需要--curatedlib參數(shù))
genome.mod.MAKER.masked:這是一個(gè)只有長TE (>= 1kb)被屏蔽的基因組文件(hard-mask)且叁。用戶可以將其用于從頭開始的基因注釋都哭。該方法減少了基因區(qū)域的覆蓋,提高了基因預(yù)測的質(zhì)量逞带。然而欺矫,預(yù)測出的初始基因模型包含TE,需要進(jìn)一步過濾(github說的)展氓。(需要--anno 1參數(shù))
genome.mod.EDTA.TE.fa.stat.redun.sum:簡單TE的注釋偏差(需要--evaluate 1參數(shù))
genome.mod.EDTA.TE.fa.stat.nested.sum:嵌套型TE注釋的偏差(需要--evaluate 1參數(shù))
genome.mod.EDTA.TE.fa.stat.all.sum:注釋偏差的概述(需要--evaluate 1參數(shù))

分析:生成基因組中的原始的亞類TE庫

EDTA_raw.pl --genome xx.genome.fasta --cds xx.final.gene.longest.gff3.cds.fa  \
--type tir --curatedlib ./library/xx.fa -overwrite 1 --threads 20
  • --type:對于不同的TE類型穆趴,可以分別指定-type ltr|tir|mite|helitron來運(yùn)行,如果是想要所有類型的TE遇汞,直接指定-type all也可以未妹,或者跑原始的所有TE庫那個(gè)命令。
    8G基因組跑TIR類 5天 左右空入,跑helitron類 7天 左右络它,helitron類似乎有些過程是單線程運(yùn)行

這里我得到的文件只有 intact 全長的重復(fù)序列,EDTA_raw.pl 只會得到全長TE

  • 輸出文件:

    genome.fasta.mod.EDTA.raw 文件夾里:

參考:
https://github.com/oushujun/EDTA#issues
http://www.reibang.com/p/dfa89f394882
http://www.reibang.com/p/ddd1c9a74fde
http://www.reibang.com/p/f962d5c40fdf
https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2013&filename=AHNY201308003&uniplatform=NZKPT&v=%25mmd2Fe0g9nSKUuUK1GjQz6eD4Op0avSl%25mmd2BYGyQTsPxiKcx27YQ9yw%25mmd2FVAPSWnHERxDx8gt 基因組轉(zhuǎn)座子鑒別與注釋方法研究進(jìn)展

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末歪赢,一起剝皮案震驚了整個(gè)濱河市化戳,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌埋凯,老刑警劉巖点楼,帶你破解...
    沈念sama閱讀 216,324評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異白对,居然都是意外死亡盟步,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評論 3 392
  • 文/潘曉璐 我一進(jìn)店門躏结,熙熙樓的掌柜王于貴愁眉苦臉地迎上來却盘,“玉大人,你說我怎么就攤上這事』崎伲” “怎么了兆览?”我有些...
    開封第一講書人閱讀 162,328評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長塞关。 經(jīng)常有香客問我抬探,道長,這世上最難降的妖魔是什么帆赢? 我笑而不...
    開封第一講書人閱讀 58,147評論 1 292
  • 正文 為了忘掉前任小压,我火速辦了婚禮,結(jié)果婚禮上椰于,老公的妹妹穿的比我還像新娘怠益。我一直安慰自己,他們只是感情好瘾婿,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,160評論 6 388
  • 文/花漫 我一把揭開白布蜻牢。 她就那樣靜靜地躺著,像睡著了一般偏陪。 火紅的嫁衣襯著肌膚如雪抢呆。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,115評論 1 296
  • 那天笛谦,我揣著相機(jī)與錄音抱虐,去河邊找鬼。 笑死饥脑,一個(gè)胖子當(dāng)著我的面吹牛梯码,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播好啰,決...
    沈念sama閱讀 40,025評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼儿奶!你這毒婦竟也來了框往?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,867評論 0 274
  • 序言:老撾萬榮一對情侶失蹤闯捎,失蹤者是張志新(化名)和其女友劉穎椰弊,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瓤鼻,經(jīng)...
    沈念sama閱讀 45,307評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡秉版,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,528評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了茬祷。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片清焕。...
    茶點(diǎn)故事閱讀 39,688評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出秸妥,到底是詐尸還是另有隱情滚停,我是刑警寧澤,帶...
    沈念sama閱讀 35,409評論 5 343
  • 正文 年R本政府宣布粥惧,位于F島的核電站键畴,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏突雪。R本人自食惡果不足惜起惕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,001評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望咏删。 院中可真熱鬧惹想,春花似錦、人聲如沸饵婆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽侨核。三九已至草穆,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間搓译,已是汗流浹背悲柱。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留些己,地道東北人豌鸡。 一個(gè)月前我還...
    沈念sama閱讀 47,685評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像段标,于是被迫代替她去往敵國和親涯冠。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,573評論 2 353

推薦閱讀更多精彩內(nèi)容