最近由于要做phylogenetic tree.所以涉及到了N多軟件,包括很多步驟都要重新熟悉。理論上,你有了reads,其實(shí)直接用mega就可以滿足你的需求,但是有時(shí)候上帝要你用一些特定算法沟绪。比如bayes,那就沒有辦法了。
其實(shí)建樹空猜,就是通過各個(gè)物種的基因(或者蛋白)近零,進(jìn)行比較,看它們各自的同源性來區(qū)分相似程度抄肖。而當(dāng)你手上的reads成百上千條的話久信,就需要用到多序列比對(duì)軟件啦。由于這里只是牽扯到reads之間的關(guān)系漓摩,是不需要用到references的裙士。
不同多序列比對(duì)軟件的比較
最經(jīng)典和廣為熟知的多的序列比對(duì)軟件是 clustalw 。 但是現(xiàn)有的多序列比對(duì)軟件較多管毙,有文獻(xiàn)報(bào)道:比對(duì)速度(Muscle>MAFFT>ClustalW>T-Coffee)腿椎,比對(duì)準(zhǔn)確性(MAFFT>Muscle>T-Coffee>ClustalW)。因此夭咬,推薦使用 MAFFT 軟件進(jìn)行多序列比對(duì)啃炸。
Mafft的使用
input format is fasta.
mafft -h #來看看可選擇的參數(shù)
用法非常簡(jiǎn)單,主要是看中間的High accuracy這里卓舵。
L-INS-I(最準(zhǔn)確的方法南用。適合小于200條,且長(zhǎng)度小于2000aa/nt的序列掏湾。)
mafft --maxiterate 1000 --localpair input > output
G-INS-I(適合序列長(zhǎng)度相似的比對(duì)裹虫,小于200條,且長(zhǎng)度小于2000aa/nt的序列融击。)
mafft --maxiterate 1000 --globalpair input > output
E-INS-I(適合序列仲包含較大的非匹配區(qū)域筑公,小于200條,且長(zhǎng)度小于2000aa/nt的序列尊浪。)
mafft --maxiterate 1000 --genafpair input > output
運(yùn)行后的結(jié)果如下圖匣屡。按照最長(zhǎng)序列,把相應(yīng)位置的aa標(biāo)出來拇涤,有g(shù)ap的地方捣作,則用---補(bǔ)齊。
output的仍然是fa文件工育。到此虾宇,就完成了MAFFT的多序列比對(duì)了.
如果是直接導(dǎo)入MEGA,fa格式也是沒有問題的搓彻,因?yàn)镸EGA里是沒有MAFFT這種比對(duì)方式的如绸。如果是要用phy格式的話嘱朽,就需要先轉(zhuǎn)格式了,轉(zhuǎn)格式的話怔接,用seaView和mesquite都沒有問題的搪泳,不過我是建議用seaView。