#進(jìn)行功能注釋時裸弦,我們只用到蛋白文件纯续,就是上一期提取序列的文件“Ptri.protein.fa”尚卫。
#使用命令“grep -c ">" Ptri.protein.fa”統(tǒng)計(jì)下“>”的個數(shù)喧伞,發(fā)現(xiàn)有52400個窟她。
#新建文件夾“swissprot”
wget https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz
gunzip -c uniprot_sprot.fasta.gz >uniprot_sprot.fasta#解壓
conda install diamond#安裝
diamond makedb --in uniprot_sprot.fasta --db uniprot_sprot.fasta#建索引
nohup diamond blastp -d uniprot_sprot.fasta -q Ptri.protein.fa --max-target-seqs 1 --outfmt 6 --evalue 1e-5 > blastp.out &#注釋
#查看文件blatp.out纸泡,十二列解釋看表頭
#新建文件夾“pfam”
wget http://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam34.0/Pfam-A.hmm.gz#下載
gunzip -c Pfam-A.hmm.gz > Pfam-A.hmm#解壓
conda install hmmer#安裝
hmmpress Pfam-A.hmm#構(gòu)索引
nohup hmmscan --domtblout pfam.domtblout Pfam-A.hmm
Ptri.protein.fa &#注釋
#查看文件pfam.domtblout
#Plant TFDB網(wǎng)站預(yù)測轉(zhuǎn)錄因子http://planttfdb.gao-lab.org/prediction.php
#預(yù)測了3835個轉(zhuǎn)錄因子漂问。自己下載整理。
#iTAK預(yù)測轉(zhuǎn)錄因子女揭、調(diào)控因子级解、激酶http://itak.feilab.net/cgi-bin/itak/online_itak.cgi
#接著GO注釋和KEGG注釋。以下重點(diǎn)參考https://zhuanlan.zhihu.com/p/475588763教程田绑。
#http://eggnog-mapper.embl.de/
#打開郵箱
#開始工作
#等約半小時勤哗,打開鏈接下載結(jié)果
#只要這一個
#使用TBtools的這個功能
#放入注釋文件
#得到幾個txt文件,后面的富集會用到掩驱。
#最后自己用excel整理下芒划,可以得到基因的各種注釋信息。
#賽博朋克邊緣行者