前言
RepeatMasker是一個(gè)通過(guò)已有數(shù)據(jù)庫(kù)預(yù)測(cè)重復(fù)序列的軟件,依賴于RepBase數(shù)據(jù)庫(kù)和第三方比對(duì)軟件(RMBlast收捣、Crossmatch、HMMER、ABBlast)稀火,是重復(fù)序列注釋的重要軟件。
官網(wǎng)地址:RepeatMasker Download
安裝環(huán)境
perl - -V5.8.0及以上版本
Python 3 和 h5py 模塊
搜索引擎 - -如RMBlast
TRF - - Tandem Repeat Finder
Repeat Database -- 已有重復(fù)序列庫(kù)
安裝
(一) h5py赌朋、TRF和RMBlast安裝見小編另一篇博客 RepeatModeler安裝與使用
(二)RepeatMasker下載與解壓
wget http://www.repeatmasker.org/RepeatMasker/RepeatMasker-4.1.1.tar.gz
tar -pzxvf RepeatMasker-4.1.1.tar.gz
(三)Repeat Database更新:
RepeatMasker軟件自帶有Dfam(RepBase數(shù)據(jù)庫(kù)HMM版)的常見重復(fù)序列庫(kù)凰狞,要更新完整的Dfam需去官網(wǎng)下載
wget https://www.dfam.org/releases/Dfam_3.2/families/Dfam.h5.gz
gunzip Dfam.h5.gz
mv Dfam.h5 /usr/local/RepeatMasker/Libraries #覆蓋軟件自帶的Dfam
(四)RepeatMasker安裝
1.perl ./configure
2.輸入TRF軟件所在路徑:/software/annotation/TRF-4.10/bin/trf
3.選擇搜索引擎:小編選的是2. RMBlast篇裁,其他搜索引擎可以根據(jù)需求選擇(可多次操作),輸入 RMBlast路徑:/software/annotation/rmblast-2.10.0/bin 并確認(rèn)默認(rèn)搜索引擎
使用參數(shù)
./RepeatMasker -h 可以看到各參數(shù)詳情赡若,小編介紹幾個(gè)主要的參數(shù):
默認(rèn)設(shè)置用于屏蔽靈長(zhǎng)類動(dòng)物中所有類型的重復(fù)順序达布。
-e (-engine) [crossmatch|wublast|abblast|ncbi|rmblast|hmmer]
-pa(-parallel)[數(shù)字] 并行使用的處理器數(shù)量?jī)H適用于批處理超過(guò)50 kb的文件或序列)
RMBlast(4 cores) ABBlast(4 cores) nhmmer(2 cores) crossmatch(1 core)
-s 緩慢搜索;敏感度提高0-5%逾冬,比默認(rèn)速度慢2-3倍
-q 快速搜索黍聂; 敏感度降低5-10%,比默認(rèn)速度快2-5倍
-qq 緊急搜索身腻;敏感度降低約10%产还,比默認(rèn)速度快4-> 10倍(在大多數(shù)情況下,快速搜索是可以的)
-nolow 不會(huì)掩蓋低復(fù)雜度的DNA或簡(jiǎn)單的重復(fù)序列
-noint 僅掩蓋低復(fù)雜/簡(jiǎn)單重復(fù)(無(wú)散布重復(fù))
-norna 不掩蓋小RNA(偽)基因
-alu 僅遮蓋Alus(以及7SLRNA嘀趟,SVA和LTR5)(僅用于靈長(zhǎng)類動(dòng)物DNA)
-div [數(shù)字] 僅掩蓋那些與共識(shí)序列差異小于x%的重復(fù)
-lib [文件名] 允許使用自定義庫(kù)(例如來(lái)自其他物種)
-cutoff [數(shù)字] 設(shè)置使用-lib時(shí)遮罩重復(fù)的截止分?jǐn)?shù)(默認(rèn)為225)
-species <query species> > 指定輸入序列的種類或進(jìn)化枝脐区。物種名稱,必須是有效的NCBI分類數(shù)據(jù)庫(kù)名稱她按,并包含在其中在RepeatMasker重復(fù)數(shù)據(jù)庫(kù)中牛隅。如:-species human/mouse/rattus/"ciona savignyi"/arabidopsis/
-a 對(duì)齊方式寫入.alignde 的輸出文件中
-no_is 跳過(guò)細(xì)菌插入元素檢驗(yàn)
示例
RepeatMasker -a -nolow -no_is -norna -parallel 4 -s genome.fa