本次推送是文獻分享22的對應內(nèi)容瞬浓。 我與生信,公眾號:我與生信文獻分享22:泛基因組解析柑橘亞科進化以及柑橘果實中檸檬酸積累的關(guān)鍵基因
EDTA是比較推薦的一款注釋TE的軟件烙博,圖1是其運行流程圖瑟蜈。
圖1
第一步烟逊,EDTA利用內(nèi)置的其他軟件進行初始注釋,這一步的注釋結(jié)果并不是最終結(jié)果铺根,而是構(gòu)建一個該物種特異性的轉(zhuǎn)座子庫宪躯。
第二步,對初始注釋的結(jié)果進行過濾位迂。
第三步構(gòu)建該物種特異性的TE庫访雪,這一步可以加入其他庫進行補充。注釋的本質(zhì)還是基于同源性掂林,所以這一步庫越豐富越好臣缀。
第四步 注釋得到最終結(jié)果。
分析流程
圖2?
軟件依賴:EDTA (https://github.com/oushujun/EDTA)泻帮,安裝代碼為圖2精置。
輸入文件:基因組序列文件(fa格式)和注釋文件(gtf格式)
EDTA進行轉(zhuǎn)座子注釋存在兩個問題:
1、SINE和LINE類型的轉(zhuǎn)座子注釋效果很差锣杂,可以提供人工矯正的SINE和LINE庫用以補充脂倦。
2、注釋出的LTR型轉(zhuǎn)座子很多是未分類的元莫,可以利用DeepTE軟件進行進一步分類赖阻。
下面開始介紹整合這兩個解決方案后的EDTA完整注釋流程。
圖3
第一步 使用EDTA進行初步注釋(圖3)
注意提前進入EDTA環(huán)境
圖4?
EDTA參數(shù)說明(圖4)
--genome 指定參考基因組
--species 指定注釋TIR轉(zhuǎn)座子的方法踱蠢,該軟件一開始是針對玉米和水稻設計的火欧,因此選項里帶有玉米和水稻,對于其他物種茎截,選擇others即可苇侵。
--step 運行注釋流程的哪一步,見圖 1中的流程稼虎。
--curatedlib 提供額外數(shù)據(jù)庫衅檀。
--cds 是否進行CDS過濾,一般沒必要霎俩。
--sensitive 1指定運行RepeatModeler哀军,0不運行,運行RepeatModeler會極其慢打却,需注意杉适。
--exclude 用于屏蔽某些區(qū)域,一般也沒必要柳击。
--repeatmodeler和—repeatmasker 指定兩個軟件的安裝目錄猿推,一般沒必要,可自行查找。
--u 指定核苷酸變異速率蹬叭,用來計算LTR插入時間藕咏。
圖5
圖6
--curatedlib參數(shù)加入了額外的SINE/LINE庫,可以從SIINE base數(shù)據(jù)庫(https://sines.eimb.ru/)下載(圖5和圖6)秽五。
第二步 利用DeepTE對未分類的LTR進一步分類(圖7)
DeepTE基于深度學習進行進一步分類
圖7
第三步 重新運行EDTA進行最終注釋(圖8)
圖8
圖9
genome.fa.mod.EDTA.TEanno.sum文件包含了最終的統(tǒng)計信息(圖9)孽查。
參考鏈接
https://genek.cn/