kaks_calculator可用來(lái)計(jì)算ka,ks值,后續(xù)可計(jì)算分化時(shí)間點(diǎn)等。
安裝
安裝ParaAT
在安裝kaks_calculator 之前安裝比對(duì)軟件paraAT,該軟件是由中科院基因組所張章課題組開(kāi)發(fā)濒析,它整合了計(jì)算ka/ks所需的一整套分析的,包括:
- 蛋白序列比對(duì)(可選clustalw2 | t_coffee | mat | muscle)
- 根據(jù)蛋白比對(duì)結(jié)果回譯成codon對(duì)應(yīng)的核酸比對(duì)結(jié)果
- 計(jì)算kaks值
點(diǎn)擊進(jìn)行下載ParaAT
tar -xf ParaAT2.0.tar
就是運(yùn)行的腳本
安裝Kaks_calculator
點(diǎn)擊進(jìn)行下載
減壓后贤壁,給權(quán)限即可
cd KaKs_Calculator2.0/bin/Linux
chmod 744 KaKs_Calculator
簡(jiǎn)單流程
推介使用muscle悼枢,比對(duì)速度快,效果好
準(zhǔn)備輸入文件:
- test.homologs: 同源基因?qū)?/li>
- test.cds: 同源基因?qū)旱腸ds序列
- test.pep:同源基因?qū)旱膒ep序列
- proc:線程數(shù)
以上文件均可在ParaAT文件夾中找到脾拆,可做參考
運(yùn)行腳本
ParaAT.pl -h test.homologs -n test.cds -a test.pep -p proc -m muscle -f axt -g -k -o result_dir
-h, 同源基因名稱文件
-n, 指定核酸序列文件
-a, 指定蛋白序列文件
-p, 指定多線程文件
-m, 指定比對(duì)工具
-g, 去除比對(duì)有g(shù)ap的密碼子
-k, 用KaKs_Calculator 計(jì)算kaks值
-o, 輸出結(jié)果的目錄
-f, 輸出比對(duì)文件的格式
*** 也可通過(guò)-f參數(shù)得到其他軟件分析ka/k所需的格式
上述結(jié)果可直接得到每一對(duì)同源基因的ka馒索,ks值莹妒,可通過(guò)如下命令將其整合
cat ./result_dir/*.kaks | cut -f 1,2,3,4,5 |grep -v 'Sequence' | less -S
Sequence Method Ka Ks Ka/Ks
NP_000005-NP_783327 MA 0.179102 0.653246 3.64734
NP_000006-NP_032699 MA 0.186375 0.642372 3.44666
NP_000008-NP_031409 MA 0.0501752 0.706062 14.0719
可將其整合在一個(gè)python腳本
根據(jù)上述流程將其整合為一python腳本
process_ka_ks.py -r
Options:
Options:
-h, --help show this help message and exit
-c CDS, --cds=CDS Input cds sequence files.(required)
-p PEP, --protein =PEP
Input pep sequence files.(required)
-H HOMO, --Homologs genes=HOMO
Input homologs genes files.(required)
-o OUT, --output name=OUT
output name.(required)
-t PROCESS, --number of processors=PROCESS
Input the number of processors (INT).(required)
輸入全基因組的pep,cds文件即可绰上,根據(jù)同源基因?qū)鹤詣?dòng)調(diào)取相應(yīng)基因并整理成ParaAT所需要的格式旨怠。
參考
- Zhang, Z., Xiao, J., Wu, J., Zhang, H., Liu, G., Wang, X. and Dai, L. (2012) ParaAT: A parallel tool for constructing multiple protein-coding DNA alignments, Biochem Biophys Res Commun, 419(4):779-7