簡(jiǎn)介
MUSCLE(Multiple Protein Sequence Alignment)是 Edgar, Robert C.在2004年公布的一款蛋白質(zhì)水平多序列比對(duì)的開(kāi)源軟件,在速度和精度上都優(yōu)于 ClustalW。在普通配置的機(jī)器上吧彪,5000 條平均 350 長(zhǎng)度的序列可以在 7 分鐘完成部服。因此在進(jìn)行多序列比對(duì)的時(shí)候,大多數(shù)情況下可以優(yōu)先使用MUSCLE。
算法
MUSCLE 先使用漸進(jìn)式比對(duì)(progressive alignment)獲得初始的多序列比對(duì),再使用橫向精煉(horizontal refinement)迭代提高多序列比對(duì)結(jié)果
1)使用數(shù)串(k-mer counting)方法構(gòu)造序列間的全局比對(duì)和局部相似度
2)填充序列間距離的三角矩陣
3)使用UPGMA或NJ法構(gòu)建序列發(fā)生樹(shù),在確定無(wú)根樹(shù)的根
4)從葉節(jié)點(diǎn)開(kāi)始向上推測(cè)父節(jié)點(diǎn)的漸進(jìn)式比對(duì)十厢,最后產(chǎn)生根節(jié)點(diǎn)的多序列比對(duì)
5)根據(jù)得到的多序列比對(duì),計(jì)算任兩序列間的相似度
6)計(jì)算 Kimura 距離矩陣捂齐,構(gòu)建發(fā)生樹(shù)
7)比較新生成的樹(shù)和原來(lái)樹(shù)的差異蛮放,如果有節(jié)點(diǎn)的重排,跳轉(zhuǎn)到步驟 4
8)從樹(shù)上砍斷一個(gè)枝奠宜,產(chǎn)生兩個(gè)子樹(shù)包颁,每次砍斷的位置是按和根的距離降序排列的
9)分別計(jì)算兩個(gè)子樹(shù)的多序列比對(duì),并對(duì)兩個(gè)結(jié)果比對(duì)得到新的多序列比對(duì)
10)如果新的比對(duì)結(jié)果的 SP 分?jǐn)?shù)(sum of pairs)降低压真,保留這個(gè)新的比對(duì)結(jié)果娩嚼,反之丟棄。反復(fù)迭代 8->9->10滴肿,直到分值不再降低或達(dá)到最大迭代次數(shù)
安裝
下載地址:http://www.drive5.com/muscle/downloads.htm岳悟,在下載頁(yè)可以找到linux,windows泼差,Mac的安裝程序贵少,其他系統(tǒng)可以下載源碼,編譯安裝堆缘。
使用
MUSCLE 使用起來(lái)十分方便滔灶,大多數(shù)情況下用戶只需要指定輸入輸出文件即可
muscle -in <input_file(fasta)> -out <output_file(default fasta)>
輸入文件為標(biāo)準(zhǔn)的 fasta 格式, 默認(rèn)的輸出文件也是 fasta 格式
參數(shù)
-in 輸入文件吼肥,fasta 格式的序列文件
-out 輸出文件录平,默認(rèn)輸出 fasta 格式比對(duì)后的結(jié)果序列麻车,其他格式參考-clw
-maxiters 最大迭代次數(shù),默認(rèn)為 16
-maxhours 最長(zhǎng)迭代時(shí)間斗这,默認(rèn)無(wú)限制
-clw? 輸出 CLUSTALW 格式的結(jié)果
-clwstrict 同-clw动猬,輸出文件的頭部包含 “CLUSTAL W (1.81)” 字樣
-html 輸出 HTML 格式結(jié)果
-msf 輸出 msf 格式結(jié)果
-log[a] 日志文件,-loga 表示添加表箭,-log 則直接覆蓋已有日志文件
-quiet 不要向標(biāo)準(zhǔn)錯(cuò)誤流打印進(jìn)度信息
-stable 按著輸入文件中的序列順序輸出序列結(jié)果
-group 按著序列的相似度輸出序列結(jié)果赁咙,默認(rèn)選項(xiàng)
-version 版本信息
網(wǎng)絡(luò)資源
在線的WEB服務(wù): http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py。將要分析的序列粘貼到輸入框中或點(diǎn)擊 Browse(瀏覽上傳本地文件燃逻,然后點(diǎn)擊 Submit 即可運(yùn)行序目。結(jié)果將以網(wǎng)頁(yè)形式展現(xiàn)臂痕。