RepeatMasker二.再次學(xué)習(xí)
2023年3月16日
9:28
近期通過看文獻(xiàn)和接觸到的新的重復(fù)序列注釋工具浪读,對RepeatMasker的使用理解加深了一點(diǎn)點(diǎn)咒彤,對重復(fù)序列的注釋過程也更清晰了些友酱。我下面說的重復(fù)序列注釋都是針對的轉(zhuǎn)座子重復(fù)序列注釋的,也就說LTR和non-LTR注釋結(jié)果。串聯(lián)重復(fù)序列使用TRF就行了撼玄。
先看文獻(xiàn)一ref1的內(nèi)容:
第一步是先使用EDTA和Repeatmodeler構(gòu)建TE library。具體來說是因?yàn)镋DTA對LTR注釋效果好墩邀,使用其做LTR的注釋掌猛,Repeatmodeler來注釋non-LTR,然后把這兩個(gè)結(jié)果合并作為Repeatmodeler的TE library磕蒲。第二步使用RepeatMasker做注釋留潦,得到的結(jié)果就是最終的TEs結(jié)果。
當(dāng)然辣往,具體怎么合并EDTA和Repeatmodeler結(jié)果的兔院,還需要進(jìn)一步學(xué)習(xí)。
文獻(xiàn)二ref2注釋的方法:
然后你會(huì)發(fā)現(xiàn)站削,和上一篇文獻(xiàn)類似坊萝,先用不同工具確定重復(fù)序列的,然后合并結(jié)果構(gòu)建TE Library许起,最后還是用RepeatMasker進(jìn)行注釋十偶。
文獻(xiàn)三ref南極磷蝦的重復(fù)序列注釋方法:
南極磷蝦基因組有很大篇幅對重復(fù)序列進(jìn)行了研究,因此它的重復(fù)序列注釋辦法很值得參考园细,也和我合作的公司用的注釋辦法最為接近惦积,這個(gè)工作本身也是由華大來做的注釋。兩種策略猛频,同源注釋和de novo注釋狮崩,Ref1和Ref2我理解都是de novo注釋過程,如果不是單門做重復(fù)序列的研究鹿寻,我覺得選擇de nono注釋方法就可以了睦柴,畢竟這個(gè)同源注釋你的參考物種基因組質(zhì)量咋樣也不好說。
先用RepeatMasker和RepeatProteinMask(運(yùn)行超級慢的一個(gè)工具)做同源預(yù)測毡熏。然后RepetModerl和LTR-Finder做de novo預(yù)測并為Tes Library提供給RepeatMasker進(jìn)行注釋坦敌。
同源測序和de novo預(yù)測的結(jié)果怎么整合的作者并沒有說,等著我做完這兩部分工作的時(shí)候再寫一篇學(xué)習(xí)記錄。
在EDTA的學(xué)習(xí)記錄中我發(fā)現(xiàn)有人提出EDTA在注釋non-LTR時(shí)效果不好狱窘,需要和RepeatMasker結(jié)合杜顺,方法見下面:
https://github.com/oushujun/EDTA/issues/231
文獻(xiàn)Ref4:22年NG上荔枝基因組的注釋更簡單,只注釋了LTR區(qū)域训柴。
Ref5:22年NG上甘蔗基因組:
作者利用了de novo 和 homology的策略哑舒,首先用RepeatModeler做de novo預(yù)測,RepeatMasker做homology幻馁,最終由RepeatMasker確定類型和統(tǒng)計(jì)洗鸵。
RepeatModeler補(bǔ)充說明:從頭預(yù)測transposable element (TE)的軟件,它的核心是結(jié)合了三大預(yù)測軟件(RECON, RepeatScout and LtrHarvest/Ltr_retriever)來共同預(yù)測TE序列仗嗦,其通過重復(fù)序列的結(jié)構(gòu)特征來進(jìn)行從頭注釋膘滨,因此可以尋找一些物種特有的重復(fù)序列。在給定基因組數(shù)據(jù)庫的情況下稀拐,RepeatModeler可幫助自動(dòng)執(zhí)行各種算法火邓,對冗余結(jié)果進(jìn)行聚類,對家族進(jìn)行精煉和分類德撬,并生成適用于RepeatMasker并最終建立重復(fù)序列系列數(shù)據(jù)庫铲咨,然后再用于RepeatMasker進(jìn)行注釋
見我另一篇學(xué)習(xí)記錄。
總結(jié)一下:最核心的步驟還是兩步蜓洪,一是通過不同工具構(gòu)建一個(gè)你覺得質(zhì)量比較好的TE library,二是把這個(gè)TE library提供給RepeatMasker做注釋用纤勒,最終RepeatMasker的結(jié)果就是你的重復(fù)序列注釋結(jié)果。還有一個(gè)疑問隆檀,EDTA可以指定參數(shù)使用RepeatMasker和RepeatModeler的摇天,并且是默認(rèn)在其運(yùn)行環(huán)境中使用這兩個(gè)軟件,等我的EDTA結(jié)果出來后恐仑,我會(huì)試著回答這個(gè)疑問泉坐。
我覺得比較簡單的組合就是Ref1的方法,EDTA使用簡單裳仆,具體怎么整合Lib并提供給RepeatMasker腕让,在EDTA的github上的Issue上有一些辦法,參考:https://github.com/oushujun/EDTA/issues/61
但對大基因組歧斟,EDTA可能運(yùn)行時(shí)間會(huì)比較久记某,
關(guān)于EDTA的運(yùn)行時(shí)間:https://github.com/oushujun/EDTA/issues/61
參考:
Ref1: Hidden genomic features of an invasive malaria vector, Anopheles stephensi, revealed by a chromosome-level genome assembly,Chakraborty et al. BMC Biology (2021) 19:28?
Ref2: The draft genome of the specialist flea beetle Altica viridicyanea (Coleoptera: Chrysomelidae),Xue et al. BMC Genomics (2021) 22:243 ;
Ref3:The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights,shao et al., 2023, Cell 186, 1–16March 16, 2023.https://doi.org/10.1016/j.cell.2023.02.005
Ref4:Two divergent haplotypes from a highly heterozygous lychee genome suggest independent domestication events for early and late-maturing cultivars;
Ref5:Genomic insights into the recent chromosome reduction of autopolyploid sugarcane Saccharum spontaneum
本文使用 文章同步助手 同步