遇到的問題:fungene上的氮循環(huán)基因narG.hmm數(shù)據(jù)太老?
http://fungene.cme.msu.edu/
如圖共5條序列纫溃,一致的長度1227
如何自己建一個narG隱馬可夫模型呢?pfam數(shù)據(jù)庫
http://pfam.xfam.org/
點擊KEYWORD SEARCH, 輸入narG
點擊PF02665谣膳,點Alignments净神,F(xiàn)ormat an alignment, 注意格式選擇stockholm, generate,
準備工作完成
hmmer下載與安裝
http://www.hmmer.org/documentation.html
Easiest way to install HMMER?
? % brew install hmmer? ? ? ? ? ? ? # OS/X, HomeBrew
? % port install hmmer? ? ? ? ? ? ? # OS/X, MacPorts
? % apt install hmmer? ? ? ? ? ? ? ? # Linux (Ubuntu, Debian...)
? % dnf install hmmer? ? ? ? ? ? ? ? # Linux (Fedora)
? % yum install hmmer? ? ? ? ? ? ? ? # Linux (older Fedora)
? % conda install -c bioconda hmmer? # Anaconda
Alternatively, briefly, to obtain and compile from source:
? % wget http://eddylab.org/software/hmmer/hmmer.tar.gz
? % tar zxf hmmer.tar.gz
? % cd hmmer-3.2.1
? % ./configure --prefix /your/install/path
? % make
? % make check
? % make install
? % (cd easel; make install)
使用hmmbuild構(gòu)建HMM模型何吝,輸入為Stockholm格式或者FASTA格式的多重比對序列文件
命令如下:
hmmbuild globins4.hmm tutorial/globins4.sto
globins4.hmm為輸出的HMM模型
大功告成
華麗麗的分割線
pfam上缺少一些蛋白的序列,解決辦法鹃唯,從genebank上下載回來爱榕,因為涉及不到大量下載,選擇手動自行挑選全長蛋白序列下載
貼一個鏈接備用坡慌,(批量下載的PYTHON 腳本)
http://blog.sina.com.cn/s/blog_9c28d4370102xcrj.html
genebank 上選擇蛋白庫黔酥,搜索對應的蛋白名稱,檢索
選擇細菌洪橘、古菌跪者,頁面末端,點擊send to 熄求,選擇FASTA格式渣玲,Create ID,下載速度很快
現(xiàn)在完了抡四,去掉header信息中包含?"partial",?"uncultured","Candiadtus","Fragment",?"candidate"柜蜈,"Candidatus"的序列,并且根據(jù)長度分布情況去掉較短或較長的序列
代碼能力強的可以自行解決指巡,我寫的太臭淑履,就不展示了
mafft 多序列比對,使用默認參數(shù)
mafft filterd.fa >aligned.fasta
HMMER創(chuàng)建HMM模型
hmmbuild globins4.hmm aligned.fasta