TE的鑒定

轉(zhuǎn)座子鑒定方法

轉(zhuǎn)座子的鑒定方法基本歸于兩大類：從頭預(yù)測、基于同源比對罢杉。

從頭預(yù)測算法 de novo 包括：基于基因組序列比對的方法趟畏、K-mer 方法、基于結(jié)構(gòu)特征的方法
基于同源性的方法包括：基于同源序列比對的方法滩租、基于隱馬爾柯夫模型( HMM) 的方法
不同的算法實(shí)現(xiàn)的目標(biāo)有所不同而叼，如從頭算法主要是為了發(fā)現(xiàn)新的轉(zhuǎn)座子，因此常用來在新測序的基因組中鑒別新的轉(zhuǎn)座子煤蹭，而多數(shù)基于同源性算法的軟件主要被用來注釋基因組中的轉(zhuǎn)座子

**從頭( De novo ) 算法**

從頭算法鑒別轉(zhuǎn)座子的原理是基于轉(zhuǎn)座子的重復(fù)特征秧倾，該算法可在不借助任何轉(zhuǎn)座子數(shù)據(jù)庫的情況下查找到幾乎所有類型的轉(zhuǎn)座子。優(yōu)點(diǎn)：算法主要用于發(fā)現(xiàn)新的芹血、未注釋的轉(zhuǎn)座子家族，對于高頻出現(xiàn)的轉(zhuǎn)座子鑒別尤其有效。缺點(diǎn)：計(jì)算量大报嵌。另外车伞，由于從頭算法是基于用一個(gè)轉(zhuǎn)座子的拷貝數(shù)來定義重復(fù)家族，這樣低拷貝數(shù)的轉(zhuǎn)座子可能被忽略掉。根據(jù)算法原理的不同塑猖，從頭算法又包括基于基因組序列比對的方法兼都、K-mer 方法和基于結(jié)構(gòu)特征的方法。
基于基因組序列比對的方法锨天。基于序列相似性，該方法利用 BLAST 等軟件將基因組與基因組進(jìn)行比對特占，然后將雙序列比對的結(jié)果轉(zhuǎn)換成多序列比對茂缚，最后用聚類方法將相關(guān)序列聚成家族，從而得到重復(fù)序列( 包括轉(zhuǎn)座子) 家族伏嗜。代表：RECON
K-mer 方法彤委。 該類從頭算法檢索重復(fù)出現(xiàn)的定長 Kmer 種子( 序列短串) 详囤，然后再將它擴(kuò)展為更長的序列。代表：RepeatScout掏击。軟件首先在未知的基因組序列中計(jì)算出所有定長 K-mer 種子出現(xiàn)的頻率凡壤，再選擇出最高頻率的 K-mer 種子及其周圍區(qū)域的序列，一次一個(gè)堿基向兩邊擴(kuò)展姨涡，每次生成一條具有代表性 K-mer 重復(fù)家族的共有序列赏表。然后調(diào)整已出現(xiàn)過的 K-mer 頻率數(shù)，再選擇出包括調(diào)整過的最高頻率 K-mer 及其周圍區(qū)域序列匈仗，擴(kuò)展并產(chǎn)生共有序列瓢剿，直到最高頻率到達(dá)所設(shè)定的最小閾值結(jié)束，這樣就得到了這一基因組的轉(zhuǎn)座子家族悠轩。RepeatScout與 RECON 相比间狂，所得到結(jié)果更加準(zhǔn)確，而且敏感度和運(yùn)行速度都有很大的提高火架。其他使用 K-mer 方法的軟件還有RepeatFinder等鉴象。
基于結(jié)構(gòu)特征的算法。 轉(zhuǎn)座子中 LTR 逆轉(zhuǎn)錄轉(zhuǎn)座子何鸡、SINE纺弊、微型反向重復(fù)轉(zhuǎn)座元件( MITE) 、Helitron 等都具有較明顯的特征音比，基于結(jié)構(gòu)特征的算法可根據(jù)這些特征對這些轉(zhuǎn)座子進(jìn)行鑒別俭尖。代表：LTR_STRUC，LTR_FINDER洞翩，LTRharvest 稽犁，LTRdigest。LTR_finder 和 LTRharvest 是目前為止鑒定 LTR 最敏感的程序骚亿，但假陽性依然很高已亥。

基于同源性的算法

基于同源性的算法是將一條未知序列與已知的轉(zhuǎn)座子序列或序列特征模型進(jìn)行比較，從而鑒別轉(zhuǎn)座子的一類方法来屠。根據(jù)同源序列比較方法的不同虑椎，基于同源性的方法又可分為基于同源序列比對的算法和基于 HMM 的算法 2 類泻蚊。
基于同源序列比對的算法阁危。該類算法與從頭算法中的基于基因組序列比對的方法都是使用 BLAST 等工具來發(fā)現(xiàn)序列相似性，但與后者不同的是识啦，基于同源序列比對的方法是將未知序列與數(shù)據(jù)庫中的轉(zhuǎn)座子序列進(jìn)行比較來鑒別轉(zhuǎn)座子迎膜。轉(zhuǎn)座子數(shù)據(jù)庫可使用公共數(shù)據(jù)庫 Repbase泥技，但現(xiàn)在自己物種的研究，基本都是通過當(dāng)前的全基因組序列磕仅，訓(xùn)練重復(fù)序列集構(gòu)建本地repeat library珊豹，再通過RepeatMasker注釋重復(fù)序列簸呈。其中，與RepeatMasker配套的RepeatModeler店茶，可以實(shí)現(xiàn)蜕便。
代表：RepeatMasker。RepeatMasker 利用 BLAST 工具在轉(zhuǎn)座子數(shù)據(jù)庫（Repbase或者自己構(gòu)建的repeat library）中比對查找已知的重復(fù)因子家族贩幻，是目前基因組轉(zhuǎn)座子注釋最常用的軟件轿腺。
基于 HMM 的算法。中文論述見 https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2013&filename=AHNY201308003&uniplatform=NZKPT&v=%25mmd2Fe0g9nSKUuUK1GjQz6eD4Op0avSl%25mmd2BYGyQTsPxiKcx27YQ9yw%25mmd2FVAPSWnHERxDx8gt

數(shù)據(jù)庫

RepBase Update (https://www.girinst.org/repbase/update/) 是檢索真核生物基因組中各類移動(dòng)元件/轉(zhuǎn)座元件共有序列集的最常用的數(shù)據(jù)庫之一丛楚。數(shù)據(jù)庫旨在給出每一類TE家族的共有序列和代表型元件類型吃溅。它將轉(zhuǎn)座元件分為三類：DNA轉(zhuǎn)座子，LTR逆轉(zhuǎn)錄轉(zhuǎn)座子（Long Terminal Repeat Retrotransposons）和non-LTR逆轉(zhuǎn)錄轉(zhuǎn)座子鸯檬。
Dfam是一個(gè)較RepBase更“年輕”的真核生物TE-centric數(shù)據(jù)庫，這個(gè)數(shù)據(jù)庫更正式地定義了轉(zhuǎn)座元件螺垢，并且將共有序列一樣的轉(zhuǎn)座元件形成一個(gè)“集合”喧务，利用隱馬爾可夫模型（hidden Markov models）來進(jìn)行多序列比對（multiple sequence alignments）。
TREP枉圃，一個(gè)可用于研究植物和真菌中轉(zhuǎn)座元件的數(shù)據(jù)庫功茴。這個(gè)存儲庫有兩個(gè)子庫，一個(gè)包含不同TE元件子類的共有序列(nrTREP)孽亲，另一個(gè)包含單個(gè)插入的TE元件的完整序列(total_TREP)坎穿；同時(shí)這個(gè)存儲庫中還有一個(gè)數(shù)據(jù)庫是對那些插入序列進(jìn)行蛋白預(yù)測的(PTREP)。
P-MITE是一個(gè)植物特有的數(shù)據(jù)庫返劲，其中MITErepdb主要包含共有序列信息玲昧，而MITEdb主要用于注釋41種植物基因組中的各個(gè)微型倒置重復(fù)轉(zhuǎn)座元件（miniature inverted repeat TE, MITE）。
RiTE是特別用于水稻及其相關(guān)物種基因組中重復(fù)元件研究的數(shù)據(jù)庫篮绿，這個(gè)數(shù)據(jù)庫中包含水稻基因組中全部轉(zhuǎn)座元件的序列孵延，共有序列以及單個(gè)轉(zhuǎn)座子在參考基因組中的插入信息。
MASiVEdb數(shù)據(jù)庫包含和RiTE差不多的信息亲配，只是MASiVEdb包含更多的植物物種的轉(zhuǎn)座子注釋信息尘应。
還有一些數(shù)據(jù)庫是對那些插入到基因組上各基因的編碼區(qū)的轉(zhuǎn)座元件做匯總，包括TranspoGene, HESAS, 以及LINE FUSION GENES吼虎。
RepeatExplorer database (REXdb)：https://link.springer.com/article/10.1186/s13100-018-0144-1 REXdb根據(jù)來自于80個(gè)植物物種保守的多蛋白結(jié)構(gòu)域犬钢，將Copia和Gypsy反轉(zhuǎn)錄轉(zhuǎn)座子分別分為16個(gè)和14個(gè)譜系。

RepeatModeler思灰，LTR_retriever

RepeatModeler 利用全基因組序列從頭預(yù)測（de novo）玷犹，訓(xùn)練重復(fù)序列集構(gòu)建本地 repeat library。
RepeatModeler1.0 核心組件是 RECON（de novo官辈，基于基因組序列比對）和 RepatScout （de novo箱舞，基于 K-mer）遍坟。RepeatModeler2.0更新后加入了 LtrHarvest（de novo，基于結(jié)構(gòu)）晴股，LTR_retriever（主要有LTR_FINDER愿伴，LTRharvest，都是 de novo 基于結(jié)構(gòu)）等电湘，可以識別LTR的結(jié)構(gòu)隔节。
公司的重復(fù)序列注釋流程：使用RepeatModeler從頭鑒定（都是 de novo，1.0基于基因組序列比對寂呛，基于 K-mer怎诫；2.0 基于基因組序列比對，基于 K-mer贷痪，基于結(jié)構(gòu)）重復(fù)區(qū)域家族幻妓，生成repeat library。然后再用RepeatMasker（基于同源性）鑒別基因組上的重復(fù)區(qū)域劫拢。

自己看Repeatmodeler+Repeatmasker 跑出來的重復(fù)序列結(jié)果肉津，發(fā)現(xiàn)，會存在一段序列注釋為兩種類型舱沧，如可能會是Copia妹沙，然后又被注釋為LTR/unkonwn，但是不多熟吏，300多萬個(gè)數(shù)目中有30幾個(gè)會注釋重復(fù)

用 LTRharvest 和 LTRdigest 進(jìn)行 LTR 基于結(jié)構(gòu) 的從頭預(yù)測（ de novo距糖，基于結(jié)構(gòu) ）
2017 年密歇根州立大學(xué)園藝系的 Shujun Ou 團(tuán)隊(duì)開發(fā) LTR_retriever 平臺用于 LTR 的鑒定，文章發(fā)表在 Plant Physiology 上牵寺。這是一款整合軟件悍引，以一或多個(gè) LTR 預(yù)測軟件鑒定 LTR 的結(jié)果作為輸入文件，通過不同模塊對 LTR 進(jìn)行過濾和修正來對預(yù)測軟件的預(yù)測結(jié)果進(jìn)行整合和調(diào)整缸剪，得到非冗余精準(zhǔn)且完整的物種特異 LTR 庫吗铐，再使用 RepeatMasker 進(jìn)行預(yù)測。

LTR_retriever不是一個(gè)獨(dú)立的工具杏节，他的主要作用就是整合 LTRharvest, LTR_FINDER, MGEScan 3.0.0, LTR_STRUC, 和 LtrDetector的結(jié)果唬渗，過濾其中的假陽性LTR-RT，得到高質(zhì)量的LTR-RT庫奋渔。盡管LTR_retriever支持多個(gè)LTR工具的輸入镊逝，但其實(shí)上LTRharverst和LTR_FINDER的結(jié)果就已經(jīng)很不錯(cuò)了。目前推薦的是LTR_Finder（de novo嫉鲸，基于結(jié)構(gòu)）和LTR_harvest（de novo撑蒜，基于結(jié)構(gòu)）組合鑒定，之后使用LTR_retreiver整合兩者的結(jié)果。

EDTA

EDTA流程圖

EDTA, 全稱是 Extensive de-novo TE Annotator, 一個(gè)綜合性的流程工具座菠，它整合了目前LTR預(yù)測工具結(jié)果（LTR_retriever狸眼，基于結(jié)構(gòu)），TIR預(yù)測工具結(jié)果浴滴，MITE預(yù)測工具結(jié)果拓萌，Helitrons預(yù)測工具結(jié)果，從而構(gòu)建出一高可信升略，非冗余的TE數(shù)據(jù)庫微王，再通過 RepeatMasker（基于同源性）注釋重復(fù)序列。

之前倉促做的分析品嚣，一些參數(shù)沒有摸透炕倘，記錄可能有錯(cuò)誤的地方

分析：生成基因組中的原始的所有TE庫

EDTA.pl --genome xx.genome.fasta  --cds xx.final.gene.longest.gff3.cds.fa  \
--curatedlib ./library/xx.fa  --overwrite 1 --sensitive 1 --anno 1 --evaluate 0 --threads 20

GitHub - oushujun/EDTA: Extensive de-novo TE Annotator
--genome：必須文件，輸入的基因組序列（序列名不多于15(13?)個(gè)字符翰撑，且為簡單字符罩旋，如字母，數(shù)字或下劃線）
--cds：非必須文件眶诈，該物種或相關(guān)物種的CDS編碼序列（FASTA格式）瘸恼，不能包括內(nèi)含子和UTR。該文件有助于去除TE庫中的基因序列册养。
--exclude：非必須文件，該版本基因組組裝結(jié)果的基因位置文件（BED格式）压固。TE注釋過程中將會過濾該文件中的基因位置信息（如果做內(nèi)含子與TE之間相關(guān)分析球拦，此參數(shù)可能不能加）。
--curatedlib：已知TE帐我，會合并到TElib坎炼。其中的序列也沒必要是全部修正過的TE，部分修正過的也可以使用拦键。
--species：TIR注釋物種谣光，物種名Rice, Maize和others三個(gè)可選，默認(rèn)others
--step：運(yùn)行步驟, 從哪一步開始芬为，all|filter|final|anno, 根據(jù)具體情況選擇萄金，默認(rèn)all
--threads (-t)：線程數(shù)，默認(rèn)是4
--overwrite：如果發(fā)現(xiàn)以前的結(jié)果媚朦，決定是否覆蓋（1氧敢，重新運(yùn)行）或不覆蓋（0，默認(rèn)）
--sensitive: 是否用RepeatModeler分析剩下的TE询张，默認(rèn)是0孙乖，也就是不要。RepeatModeler運(yùn)行時(shí)間比較久
--anno: 是否在構(gòu)建TE文庫后進(jìn)行全基因組預(yù)測，默認(rèn)是0
--evaluate 評估TE注釋的分類一致性唯袄。默認(rèn)值:0弯屈。這個(gè)步驟很慢，而且不會影響注釋結(jié)果恋拷。
--u ltr-retriever 的自然突變率 Default: 1.3e-8 (per bp per year, from rice)

8G基因組跑了20天左右

運(yùn)行結(jié)束之后资厉，會在當(dāng)前目錄下留下運(yùn)行時(shí)的中間文件，保證程序中斷之后梅掠，能夠斷點(diǎn)續(xù)跑
xxx.EDTA.raw
xxx.EDTA.combine
xxx.EDTA.final
輸出文件:
.mod.EDTA.RM.out 和 .mod.EDTA.RM.gff3 是RepeatMasker的輸出結(jié)果
.mod.EDTA.TEanno.gff3 和 .mod.EDTA.TEanno.out 行數(shù)對應(yīng)不上酌住，疑惑

genome.mod.EDTA.TEanno.gff：全基因組TE的注釋. 該文件包括結(jié)構(gòu)完整和結(jié)構(gòu)不完整的TE的注釋（需要--anno 1參數(shù)）
genome.mod.EDTA.TEanno.sum：對全基因組TE注釋的總結(jié)（需要--anno 1參數(shù)）
genome.mod.EDTA.TElib.fa：非冗余的TE庫。如果在輸入文件中提供了修正版的TE庫阎抒，則該文件中也將包含這部分序列酪我。
genome.mod.EDTA.TElib.novel.fa：新TE類型。該文件中包括輸入的修正版的TE庫中沒有的TE序列(需要--curatedlib參數(shù))
genome.mod.MAKER.masked：這是一個(gè)只有長TE (>= 1kb)被屏蔽的基因組文件（hard-mask）且叁。用戶可以將其用于從頭開始的基因注釋都哭。該方法減少了基因區(qū)域的覆蓋，提高了基因預(yù)測的質(zhì)量逞带。然而欺矫，預(yù)測出的初始基因模型包含TE，需要進(jìn)一步過濾（github說的）展氓。(需要--anno 1參數(shù))
genome.mod.EDTA.TE.fa.stat.redun.sum：簡單TE的注釋偏差(需要--evaluate 1參數(shù))
genome.mod.EDTA.TE.fa.stat.nested.sum：嵌套型TE注釋的偏差（需要--evaluate 1參數(shù)）
genome.mod.EDTA.TE.fa.stat.all.sum：注釋偏差的概述（需要--evaluate 1參數(shù)）

分析：生成基因組中的原始的亞類TE庫

EDTA_raw.pl --genome xx.genome.fasta --cds xx.final.gene.longest.gff3.cds.fa  \
--type tir --curatedlib ./library/xx.fa -overwrite 1 --threads 20

--type：對于不同的TE類型穆趴，可以分別指定-type ltr|tir|mite|helitron來運(yùn)行，如果是想要所有類型的TE遇汞，直接指定-type all也可以未妹，或者跑原始的所有TE庫那個(gè)命令。
8G基因組跑TIR類 5天左右空入，跑helitron類 7天左右络它，helitron類似乎有些過程是單線程運(yùn)行

這里我得到的文件只有 intact 全長的重復(fù)序列，EDTA_raw.pl 只會得到全長TE

輸出文件：

genome.fasta.mod.EDTA.raw 文件夾里：

參考：
https://github.com/oushujun/EDTA#issues
http://www.reibang.com/p/dfa89f394882
http://www.reibang.com/p/ddd1c9a74fde
http://www.reibang.com/p/f962d5c40fdf
https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFD2013&filename=AHNY201308003&uniplatform=NZKPT&v=%25mmd2Fe0g9nSKUuUK1GjQz6eD4Op0avSl%25mmd2BYGyQTsPxiKcx27YQ9yw%25mmd2FVAPSWnHERxDx8gt 基因組轉(zhuǎn)座子鑒別與注釋方法研究進(jìn)展

最后編輯于：2024.05.03 21:39:22

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末歪赢，一起剝皮案震驚了整個(gè)濱河市化戳，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌埋凯，老刑警劉巖点楼，帶你破解...
沈念sama閱讀 216,324評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異白对，居然都是意外死亡盟步，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,356評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門躏结，熙熙樓的掌柜王于貴愁眉苦臉地迎上來却盘，“玉大人，你說我怎么就攤上這事』崎伲” “怎么了兆览？”我有些...
開封第一講書人閱讀 162,328評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長塞关。經(jīng)常有香客問我抬探，道長，這世上最難降的妖魔是什么帆赢？我笑而不...
開封第一講書人閱讀 58,147評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任小压，我火速辦了婚禮，結(jié)果婚禮上椰于，老公的妹妹穿的比我還像新娘怠益。我一直安慰自己，他們只是感情好瘾婿，可當(dāng)我...
茶點(diǎn)故事閱讀 67,160評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布蜻牢。她就那樣靜靜地躺著，像睡著了一般偏陪。火紅的嫁衣襯著肌膚如雪抢呆。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,115評論 1贊 296
城市分裂傳說
那天笛谦，我揣著相機(jī)與錄音抱虐，去河邊找鬼。笑死饥脑，一個(gè)胖子當(dāng)著我的面吹牛梯码，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播好啰，決...
沈念sama閱讀 40,025評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼儿奶！你這毒婦竟也來了框往？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,867評論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤闯捎，失蹤者是張志新（化名）和其女友劉穎椰弊，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體瓤鼻，經(jīng)...
沈念sama閱讀 45,307評論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡秉版，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,528評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了茬祷。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片清焕。...
茶點(diǎn)故事閱讀 39,688評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出秸妥，到底是詐尸還是另有隱情滚停，我是刑警寧澤，帶...
沈念sama閱讀 35,409評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布粥惧，位于F島的核電站键畴，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏突雪。R本人自食惡果不足惜起惕，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,001評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望咏删。院中可真熱鬧惹想，春花似錦、人聲如沸饵婆。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,657評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽侨核。三九已至草穆，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間搓译，已是汗流浹背悲柱。一陣腳步聲響...
開封第一講書人閱讀 32,811評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留些己，地道東北人豌鸡。一個(gè)月前我還...
沈念sama閱讀 47,685評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像段标，于是被迫代替她去往敵國和親涯冠。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,573評論 2贊 353