前言
? ? 動植物基因組注釋包括重復序列注釋以及基因結構注釋,重復序列注釋是注釋中非常重要的環(huán)節(jié),主要包括的軟件有Trf膝宁、LTR_Finder跨晴、Piler欧聘、RepeatScout、RepeatModeler端盆、Repeatmasker和repeatproteinmask怀骤。小編這次介紹Trf軟件的安裝與使用,Trf注釋的是串聯重復序列(以特定的重復單元首尾相接排列在基因組上焕妙,形成重復序列)
下載
? ? 官網鏈接:Tandem Repeats Finder Welcome Page蒋伦,小編這次安裝的是v4.10.0
wget https://github.com/Benson-Genomics-Lab/TRF/archive/master.zip
unzip master.zip ;cd?TRF-master
./configure --prefix=/Bioinfo/software/trf-4.10
make;make install
使用
?使用模板:trf sequence.fa 2 7 7 80 10 50 500 -f -d -m? #trf File Match Mismatch Delta PM PI Minscore MaxPeriod
File: FASTA 格式的DNA 輸入序列
Match, Mismatch, and Delta:?匹配上,沒匹配上和插入的權重焚鹊,建議2, 7 7?
PM and PI :PM是指比上的概率痕届,可選擇數值為80 和75,PI 是插入的概率末患,可選擇數值為10 和20研叫,最好效果的參數是PM=80 和PI=10
Minscore: 被匹配上的串聯重復序列的最小分值。比如璧针,我們設定了Match=2嚷炉,Minscore=50, 那么就要求最少有25bp 被完全比上(比如陈莽,5bp 的重復單元渤昌,重復5 次)
Maxperiod: 最大的重復單元bp 數
下面是一些可選的選項
-m: 該參數將輸入文件中trf序列屏蔽為N輸出
-f: 該參數將輸出每一串聯重復序列兩側200bp 的側翼序列虽抄,輸出到比對文件中
-d: 該參數將產生一個屏蔽文件,記錄了與列表文件一樣的信息独柑,及比對信息迈窟,可用于后續(xù)程序的處理
輸出文件中.dat文件對生信分析最友好,參數詳情參考官網 :GitHub - Benson-Genomics-Lab/TRF: Tandem Repeats Finder: a program to analyze DNA sequences