轉(zhuǎn)座子鑒定方法
轉(zhuǎn)座子的鑒定方法基本歸于兩大類:從頭預(yù)測、基于同源比對罢杉。
-
從頭預(yù)測算法 de novo 包括:基于基因組序列比對的方法趟畏、K-mer 方法、基于結(jié)構(gòu)特征的方法
基于同源性的方法包括:基于同源序列比對的方法滩租、基于隱馬爾柯夫模型( HMM) 的方法
不同的算法實(shí)現(xiàn)的目標(biāo)有所不同而叼, 如從頭算法主要是為了發(fā)現(xiàn)新的轉(zhuǎn)座子, 因此常用來在新測序的基因組中鑒別新的轉(zhuǎn)座子煤蹭,而多數(shù)基于同源性算法的軟件主要被用來注釋基因組中的轉(zhuǎn)座子
從頭( De novo ) 算法
從頭算法鑒別轉(zhuǎn)座子的原理是基于轉(zhuǎn)座子的重復(fù)特征秧倾,該算法可在不借助任何轉(zhuǎn)座子數(shù)據(jù)庫的情況下查找到幾乎所有類型的轉(zhuǎn)座子。優(yōu)點(diǎn):算法主要用于發(fā)現(xiàn)新的芹血、未注釋的轉(zhuǎn)座子家族, 對于高頻出現(xiàn)的轉(zhuǎn)座子鑒別尤其有效。缺點(diǎn):計(jì)算量大报嵌。另外车伞, 由于從頭算法是基于用一個(gè)轉(zhuǎn)座子的拷貝數(shù)來定義重復(fù)家族, 這樣低拷貝數(shù)的轉(zhuǎn)座子可能被忽略掉。根據(jù)算法原理的不同塑猖, 從頭算法又包括基于基因組序列比對的方法兼都、K-mer 方法和基于結(jié)構(gòu)特征的方法。
基于基因組序列比對的方法锨天。基于序列相似性,該方法利用 BLAST 等軟件將基因組與基因組進(jìn)行比對特占, 然后將雙序列比對的結(jié)果轉(zhuǎn)換成多序列比對茂缚, 最后用聚類方法將相關(guān)序列聚成家族,從而得到重復(fù)序列( 包括轉(zhuǎn)座子) 家族伏嗜。代表:RECON
K-mer 方法彤委。 該類從頭算法檢索重復(fù)出現(xiàn)的定長 Kmer 種子( 序列短串) 详囤, 然后再將它擴(kuò)展為更長的序列。代表:RepeatScout掏击。軟件首先在未知的基因組序列中計(jì)算出所有定長 K-mer 種子出現(xiàn)的頻率凡壤, 再選擇出最高頻率的 K-mer 種子及其周圍區(qū)域的序列, 一次一個(gè)堿基向兩邊擴(kuò)展姨涡, 每次生成一條具有代表性 K-mer 重復(fù)家族的共有序列赏表。然后調(diào)整已出現(xiàn)過的 K-mer 頻率數(shù), 再選擇出包括調(diào)整過的最高頻率 K-mer 及其周圍區(qū)域序列匈仗, 擴(kuò)展并產(chǎn)生共有序列瓢剿,直到最高頻率到達(dá)所設(shè)定的最小閾值結(jié)束, 這樣就得到了這一基因組的轉(zhuǎn)座子家族悠轩。RepeatScout與 RECON 相比间狂, 所得到結(jié)果更加準(zhǔn)確,而且敏感度和運(yùn)行速度都有很大的提高火架。其他使用 K-mer 方法的軟件還有RepeatFinder等鉴象。
基于結(jié)構(gòu)特征的算法。 轉(zhuǎn)座子中 LTR 逆轉(zhuǎn)錄轉(zhuǎn)座子何鸡、SINE纺弊、微型反向重復(fù)轉(zhuǎn)座元件( MITE) 、Helitron 等都具有較明顯的特征音比, 基于結(jié)構(gòu)特征的算法可根據(jù)這些特征對這些轉(zhuǎn)座子進(jìn)行鑒別俭尖。代表:LTR_STRUC,LTR_FINDER洞翩,LTRharvest 稽犁,LTRdigest。LTR_finder 和 LTRharvest 是目前為止鑒定 LTR 最敏感的程序骚亿,但假陽性依然很高已亥。
基于同源性的算法
- 基于同源性的算法是將一條未知序列與已知的轉(zhuǎn)座子序列或序列特征模型進(jìn)行比較,從而鑒別轉(zhuǎn)座子的一類方法来屠。根據(jù)同源序列比較方法的不同虑椎, 基于同源性的方法又可分為基于同源序列比對的算法和基于 HMM 的算法 2 類泻蚊。
-
基于同源序列比對的算法阁危。該類算法與從頭算法中的基于基因組序列比對的方法都是使用 BLAST 等工具來發(fā)現(xiàn)序列相似性, 但與后者不同的是识啦, 基于同源序列比對的方法是將未知序列與數(shù)據(jù)庫中的轉(zhuǎn)座子序列進(jìn)行比較來鑒別轉(zhuǎn)座子迎膜。轉(zhuǎn)座子數(shù)據(jù)庫可使用公共數(shù)據(jù)庫 Repbase泥技, 但現(xiàn)在自己物種的研究,基本都是通過當(dāng)前的全基因組序列磕仅,訓(xùn)練重復(fù)序列集構(gòu)建本地repeat library珊豹,再通過RepeatMasker注釋重復(fù)序列簸呈。其中,與RepeatMasker配套的RepeatModeler店茶,可以實(shí)現(xiàn)蜕便。
代表:RepeatMasker。RepeatMasker 利用 BLAST 工具在轉(zhuǎn)座子數(shù)據(jù)庫(Repbase或者自己構(gòu)建的repeat library)中比對查找已知的重復(fù)因子家族贩幻, 是目前基因組轉(zhuǎn)座子注釋最常用的軟件轿腺。 - 基于 HMM 的算法。中文論述見 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2013&filename=AHNY201308003&uniplatform=NZKPT&v=%25mmd2Fe0g9nSKUuUK1GjQz6eD4Op0avSl%25mmd2BYGyQTsPxiKcx27YQ9yw%25mmd2FVAPSWnHERxDx8gt
數(shù)據(jù)庫
- RepBase Update (https://www.girinst.org/repbase/update/) 是檢索真核生物基因組中各類移動(dòng)元件/轉(zhuǎn)座元件共有序列集的最常用的數(shù)據(jù)庫之一丛楚。數(shù)據(jù)庫旨在給出每一類TE家族的共有序列和代表型元件類型吃溅。它將轉(zhuǎn)座元件分為三類:DNA轉(zhuǎn)座子,LTR逆轉(zhuǎn)錄轉(zhuǎn)座子(Long Terminal Repeat Retrotransposons)和non-LTR逆轉(zhuǎn)錄轉(zhuǎn)座子鸯檬。
- Dfam是一個(gè)較RepBase更“年輕”的真核生物TE-centric數(shù)據(jù)庫,這個(gè)數(shù)據(jù)庫更正式地定義了轉(zhuǎn)座元件螺垢,并且將共有序列一樣的轉(zhuǎn)座元件形成一個(gè)“集合”喧务,利用隱馬爾可夫模型(hidden Markov models)來進(jìn)行多序列比對(multiple sequence alignments)。
- TREP枉圃,一個(gè)可用于研究植物和真菌中轉(zhuǎn)座元件的數(shù)據(jù)庫功茴。這個(gè)存儲庫有兩個(gè)子庫,一個(gè)包含不同TE元件子類的共有序列(nrTREP)孽亲,另一個(gè)包含單個(gè)插入的TE元件的完整序列(total_TREP)坎穿;同時(shí)這個(gè)存儲庫中還有一個(gè)數(shù)據(jù)庫是對那些插入序列進(jìn)行蛋白預(yù)測的(PTREP)。
- P-MITE是一個(gè)植物特有的數(shù)據(jù)庫返劲,其中MITErepdb主要包含共有序列信息玲昧,而MITEdb主要用于注釋41種植物基因組中的各個(gè)微型倒置重復(fù)轉(zhuǎn)座元件(miniature inverted repeat TE, MITE)。
- RiTE是特別用于水稻及其相關(guān)物種基因組中重復(fù)元件研究的數(shù)據(jù)庫篮绿,這個(gè)數(shù)據(jù)庫中包含水稻基因組中全部轉(zhuǎn)座元件的序列孵延,共有序列以及單個(gè)轉(zhuǎn)座子在參考基因組中的插入信息。
- MASiVEdb數(shù)據(jù)庫包含和RiTE差不多的信息亲配,只是MASiVEdb包含更多的植物物種的轉(zhuǎn)座子注釋信息尘应。
- 還有一些數(shù)據(jù)庫是對那些插入到基因組上各基因的編碼區(qū)的轉(zhuǎn)座元件做匯總,包括TranspoGene, HESAS, 以及LINE FUSION GENES吼虎。
- RepeatExplorer database (REXdb):https://link.springer.com/article/10.1186/s13100-018-0144-1 REXdb根據(jù)來自于80個(gè)植物物種保守的多蛋白結(jié)構(gòu)域犬钢,將Copia和Gypsy反轉(zhuǎn)錄轉(zhuǎn)座子分別分為16個(gè)和14個(gè)譜系。
RepeatModeler思灰,LTR_retriever
RepeatModeler 利用全基因組序列從頭預(yù)測(de novo)玷犹,訓(xùn)練重復(fù)序列集構(gòu)建本地 repeat library。
RepeatModeler1.0 核心組件是 RECON(de novo官辈,基于基因組序列比對)和 RepatScout (de novo箱舞,基于 K-mer)遍坟。RepeatModeler2.0更新后加入了 LtrHarvest(de novo,基于結(jié)構(gòu))晴股,LTR_retriever(主要有LTR_FINDER愿伴,LTRharvest,都是 de novo 基于結(jié)構(gòu)) 等电湘,可以識別LTR的結(jié)構(gòu)隔节。公司的重復(fù)序列注釋流程:使用RepeatModeler從頭鑒定(都是 de novo,1.0基于基因組序列比對寂呛,基于 K-mer怎诫;2.0 基于基因組序列比對,基于 K-mer贷痪,基于結(jié)構(gòu))重復(fù)區(qū)域家族幻妓,生成repeat library。然后再用RepeatMasker(基于同源性)鑒別基因組上的重復(fù)區(qū)域劫拢。
自己看Repeatmodeler+Repeatmasker 跑出來的重復(fù)序列結(jié)果肉津,發(fā)現(xiàn),會存在一段序列注釋為兩種類型舱沧,如可能會是Copia妹沙,然后又被注釋為LTR/unkonwn,但是不多熟吏,300多萬個(gè)數(shù)目中有30幾個(gè)會注釋重復(fù)
用 LTRharvest 和 LTRdigest 進(jìn)行 LTR 基于結(jié)構(gòu) 的從頭預(yù)測( de novo距糖,基于結(jié)構(gòu) )
-
2017 年密歇根州立大學(xué)園藝系的 Shujun Ou 團(tuán)隊(duì)開發(fā) LTR_retriever 平臺用于 LTR 的鑒定,文章發(fā)表在 Plant Physiology 上牵寺。這是一款整合軟件悍引,以一或多個(gè) LTR 預(yù)測軟件鑒定 LTR 的結(jié)果作為輸入文件,通過不同模塊對 LTR 進(jìn)行過濾和修正來對預(yù)測軟件的預(yù)測結(jié)果進(jìn)行整合和調(diào)整缸剪,得到非冗余精準(zhǔn)且完整的物種特異 LTR 庫吗铐,再使用 RepeatMasker 進(jìn)行預(yù)測。
LTR_retriever不是一個(gè)獨(dú)立的工具杏节,他的主要作用就是整合 LTRharvest, LTR_FINDER, MGEScan 3.0.0, LTR_STRUC, 和 LtrDetector的結(jié)果唬渗,過濾其中的假陽性LTR-RT,得到高質(zhì)量的LTR-RT庫奋渔。盡管LTR_retriever支持多個(gè)LTR工具的輸入镊逝,但其實(shí)上LTRharverst和LTR_FINDER的結(jié)果就已經(jīng)很不錯(cuò)了。目前推薦的是LTR_Finder(de novo嫉鲸,基于結(jié)構(gòu))和LTR_harvest(de novo撑蒜,基于結(jié)構(gòu))組合鑒定,之后使用LTR_retreiver整合兩者的結(jié)果。
EDTA
- EDTA, 全稱是 Extensive de-novo TE Annotator, 一個(gè)綜合性的流程工具座菠,它整合了目前LTR預(yù)測工具結(jié)果(LTR_retriever狸眼,基于結(jié)構(gòu)),TIR預(yù)測工具結(jié)果浴滴,MITE預(yù)測工具結(jié)果拓萌,Helitrons預(yù)測工具結(jié)果,從而構(gòu)建出一高可信升略,非冗余的TE數(shù)據(jù)庫微王,再通過 RepeatMasker(基于同源性) 注釋重復(fù)序列。
之前倉促做的分析品嚣,一些參數(shù)沒有摸透炕倘,記錄可能有錯(cuò)誤的地方
分析:生成基因組中的原始的所有TE庫
EDTA.pl --genome xx.genome.fasta --cds xx.final.gene.longest.gff3.cds.fa \
--curatedlib ./library/xx.fa --overwrite 1 --sensitive 1 --anno 1 --evaluate 0 --threads 20
GitHub - oushujun/EDTA: Extensive de-novo TE Annotator
--genome:必須文件,輸入的基因組序列(序列名不多于15(13?)個(gè)字符翰撑,且為簡單字符罩旋,如字母,數(shù)字或下劃線)
--cds:非必須文件眶诈,該物種或相關(guān)物種的CDS編碼序列(FASTA格式)瘸恼,不能包括內(nèi)含子和UTR。該文件有助于去除TE庫中的基因序列册养。
--exclude:非必須文件,該版本基因組組裝結(jié)果的基因位置文件(BED格式)压固。TE注釋過程中將會過濾該文件中的基因位置信息(如果做內(nèi)含子與TE之間相關(guān)分析球拦,此參數(shù)可能不能加)。
--curatedlib:已知TE帐我,會合并到TElib坎炼。其中的序列也沒必要是全部修正過的TE,部分修正過的也可以使用拦键。
--species:TIR注釋物種谣光,物種名Rice, Maize和others三個(gè)可選,默認(rèn)others
--step:運(yùn)行步驟, 從哪一步開始芬为,all|filter|final|anno, 根據(jù)具體情況選擇萄金,默認(rèn)all
--threads (-t):線程數(shù),默認(rèn)是4
--overwrite:如果發(fā)現(xiàn)以前的結(jié)果媚朦,決定是否覆蓋(1氧敢,重新運(yùn)行)或不覆蓋(0,默認(rèn))
--sensitive: 是否用RepeatModeler分析剩下的TE询张,默認(rèn)是0孙乖,也就是不要。RepeatModeler運(yùn)行時(shí)間比較久
--anno: 是否在構(gòu)建TE文庫后進(jìn)行全基因組預(yù)測,默認(rèn)是0
--evaluate 評估TE注釋的分類一致性唯袄。默認(rèn)值:0弯屈。這個(gè)步驟很慢,而且不會影響注釋結(jié)果恋拷。
--u ltr-retriever 的自然突變率 Default: 1.3e-8 (per bp per year, from rice)
8G基因組跑了20天左右
運(yùn)行結(jié)束之后资厉,會在當(dāng)前目錄下留下運(yùn)行時(shí)的中間文件,保證程序中斷之后梅掠,能夠斷點(diǎn)續(xù)跑
xxx.EDTA.raw
xxx.EDTA.combine
xxx.EDTA.final-
輸出文件:
.mod.EDTA.RM.out 和 .mod.EDTA.RM.gff3 是RepeatMasker的輸出結(jié)果
.mod.EDTA.TEanno.gff3 和 .mod.EDTA.TEanno.out 行數(shù)對應(yīng)不上酌住,疑惑
genome.mod.EDTA.TEanno.gff:全基因組TE的注釋. 該文件包括結(jié)構(gòu)完整和結(jié)構(gòu)不完整的TE的注釋(需要--anno 1
參數(shù))
genome.mod.EDTA.TEanno.sum:對全基因組TE注釋的總結(jié)(需要--anno 1
參數(shù))
genome.mod.EDTA.TElib.fa:非冗余的TE庫。如果在輸入文件中提供了修正版的TE庫阎抒,則該文件中也將包含這部分序列酪我。
genome.mod.EDTA.TElib.novel.fa:新TE類型。該文件中包括輸入的修正版的TE庫中沒有的TE序列(需要--curatedlib
參數(shù))
genome.mod.MAKER.masked:這是一個(gè)只有長TE (>= 1kb)被屏蔽的基因組文件(hard-mask)且叁。用戶可以將其用于從頭開始的基因注釋都哭。該方法減少了基因區(qū)域的覆蓋,提高了基因預(yù)測的質(zhì)量逞带。然而欺矫,預(yù)測出的初始基因模型包含TE,需要進(jìn)一步過濾(github說的)展氓。(需要--anno 1
參數(shù))
genome.mod.EDTA.TE.fa.stat.redun.sum:簡單TE的注釋偏差(需要--evaluate 1
參數(shù))
genome.mod.EDTA.TE.fa.stat.nested.sum:嵌套型TE注釋的偏差(需要--evaluate 1
參數(shù))
genome.mod.EDTA.TE.fa.stat.all.sum:注釋偏差的概述(需要--evaluate 1
參數(shù))
分析:生成基因組中的原始的亞類TE庫
EDTA_raw.pl --genome xx.genome.fasta --cds xx.final.gene.longest.gff3.cds.fa \
--type tir --curatedlib ./library/xx.fa -overwrite 1 --threads 20
-
--type:對于不同的TE類型穆趴,可以分別指定-type ltr|tir|mite|helitron來運(yùn)行,如果是想要所有類型的TE遇汞,直接指定-type all也可以未妹,或者跑原始的所有TE庫那個(gè)命令。
8G基因組跑TIR
類 5天 左右空入,跑helitron
類 7天 左右络它,helitron
類似乎有些過程是單線程運(yùn)行
這里我得到的文件只有 intact 全長的重復(fù)序列,EDTA_raw.pl 只會得到全長TE
-
輸出文件:
genome.fasta.mod.EDTA.raw 文件夾里:
參考:
https://github.com/oushujun/EDTA#issues
http://www.reibang.com/p/dfa89f394882
http://www.reibang.com/p/ddd1c9a74fde
http://www.reibang.com/p/f962d5c40fdf
https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2013&filename=AHNY201308003&uniplatform=NZKPT&v=%25mmd2Fe0g9nSKUuUK1GjQz6eD4Op0avSl%25mmd2BYGyQTsPxiKcx27YQ9yw%25mmd2FVAPSWnHERxDx8gt 基因組轉(zhuǎn)座子鑒別與注釋方法研究進(jìn)展