De novo 基因組GO 注釋小窗口

關(guān)于GO 注釋的心得體會(huì)

目前對于GO功能注釋的思路有以下常見的四種：

1斥滤、BLAST+InterProScan => OmicsBox

可以先通過使用 blastp 進(jìn)行nr注釋缤灵，那么問題就來了臀叙，nr 數(shù)據(jù)庫截至2018年12月已經(jīng)有120G左右的數(shù)據(jù)量了角塑，根據(jù)我的個(gè)人使用經(jīng)驗(yàn)簿透，對25000條蛋白進(jìn)行32線程的并行化比對砸讳，差不多要半個(gè)月左右（心中一萬匹cnm飄過）幕与。很顯然速兔，在計(jì)算資源有限的條件下這是不現(xiàn)實(shí)的，那么大概就會(huì)出現(xiàn)兩種思路：

（1）縮小數(shù)據(jù)庫：一種是使用Swiss-Prot等小的數(shù)據(jù)庫進(jìn)行注釋淤齐；另一種就是根據(jù)基于taxid構(gòu)建 nr子數(shù)據(jù)庫了股囊，具體的構(gòu)建可見基于taxid構(gòu)建Blast database_bioinfomatics2medicine_新浪博客（2）能不能使用一個(gè)更高效的比對工具呢，答案是肯定的那就是 GitHub - bbuchfink/diamond: Accelerated BLAST compatible local sequence aligner.

其主頁介紹如下：

DIAMOND is a sequence aligner for protein and translated DNA searches, designed for high performance analysis of big sequence data. The key features are:

Pairwise alignment of proteins and translated DNA at 500x-20,000x speed of BLAST.

Frameshift alignments for long read analysis.

Low resource requirements and suitable for running on standard desktops or laptops.

Various output formats, including BLAST pairwise, tabular and XML, as well as taxonomic classification.

對的床玻，它就是那么快毁涉，相對于 blastp 的半個(gè)月，在 ‘--more-sensitive’ 模式下也僅需要4-5個(gè)小時(shí)锈死。

在nr注釋完之后,就到使用 OmicsBox mapping GO id 了∑堆撸現(xiàn)在所有的服務(wù)都要收費(fèi)了，https://www.biobam.com/omicsbox/#plans. 但價(jià)格比以前（Blast2GO）要公道很多, 如果不缺少資金可以購買待牵，但如果不想花錢其屏，那么不如就來個(gè)本地化吧，對于本地化網(wǎng)上也有很多的教程了：

blast2go本地化2017教程：blast2go本地化2017教程 - 生信技能樹

非root權(quán)限的blast2go的安裝和使用（二）· blast2go的數(shù)據(jù)和軟件準(zhǔn)備及使用：https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247486358&idx=1&sn=4b095e9a200a419079d947d930c38abd&chksm=e9e02237de97ab21f4227ee76eca0aa94433fe6cc374e030093eb3acc2094a546110763bb411&mpshare=1&scene=23&srcid=0101kMbzD2el0RPASBiC9pFi#rd

陳連福 centos6.9 代碼：

“# installing Blast2go Databases

mkdir /opt/biosoft/blast2go

cd /opt/biosoft/blast2go

wget http://archive.geneontology.org/latest-full/go_monthly-assocdb-data.gz

wget ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz ### ascp -k 1 -T -l 200M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --host=ftp-private.ncbi.nlm.nih.gov --user=anonftp --mode=recv /gene/DATA/gene_info.gz 缨该。/

wget ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2accession.gz? #### ascp -k 1 -T -l 200M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --host=ftp-private.ncbi.nlm.nih.gov --user=anonftp --mode=recv /gene/DATA/gene2accession.gz ./

wget ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz

## 對于不能使用aspera加速下載的文件可以試試 lftp -e 'pget -n NUM -c url; exit'實(shí)行多線程下載

gzip -dv go_monthly-assocdb-data.gz

gzip -dv gene_info.gz

gzip -dv gene2accession.gz

gzip -dv idmapping.tb.gz

tar zxf ~/software/local_b2g_db.tar.gz

mv local_b2g_db/* ./? && rm -rf local_b2g_db/

perl -p -i -e 's/go_201512-assocdb-data/go_2017-assocdb-data/' install_blast2goDB.sh

./install_blast2goDB.sh

#一個(gè)自己的例子 #

##下載NR 數(shù)據(jù)庫到自己的Blast+ db 中

wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.28/ncbi-blast-2.2.28+-x64-linux.tar.gz

tar -zxf ncbi-blast-2.2.28+-x64-linux.tar.gz -C /opt/biosoft/

/opt/biosoft/ncbi-blast-2.2.28+/bin/blastdbcmd -db nr -entry all -out nr.faa

### 值得注意的是這里我用的blastdbcmd是ncbi-blast-2.2.28+的偎行，輸出的 nr.faa 文件中序列名是 “>gi|66816243|ref|XP_642131.1| hypothetical protein DDB_G0277827” ，但如果用的是 ncbi-blast-2.6.0+的 blastdbcmd贰拿，輸出沒有GI號蛤袒，原因可能是：As of September 2016, the integer sequence identifiers known as "GIs" will no longer be included in the GenBank, GenPept, and FASTA formats supported by NCBI for the display of sequence records.In addition, the FASTA format will no longer include the database source abbreviation. Please refer to the NCBI News Announcement posting for more detail.

wget https://github.com/bbuchfink/diamond/releases/download/v0.9.24/diamond-linux64.tar.gz

### 同樣注意版本，因?yàn)閐iamond輸出的XML與 b2g4pipe_v2.5 不兼容而出現(xiàn) “Annotation of 0 seqs with 0 annots finished. Now searching for orfan IPRs...” 這個(gè)issues的討論膨更，你可以在到下面的鏈接去看妙真。

tar -zxf diamond-linux64.tar.gz

mv diamond ~/bin/

cp ../interpro/proteins.fasta ./

ascp -k 1 -T -l 200M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --host=ftp-private.ncbi.nlm.nih.gov --user=anonftp --mode=recv /pub/taxonomy/accession2taxid/prot.accession2taxid.gz ./prot.accession2taxid.gz

ascp -k 1 -T -l 200M -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --host=ftp-private.ncbi.nlm.nih.gov --user=anonftp --mode=recv /pub/taxonomy/taxdmp.zip ./

unzip taxdmp.zip

/opt/biosoft/ncbi-blast-2.2.28+/bin/blastdbcmd -db nr -entry all -out nr.faa

diamond makedb --in nr.faa -d nr --taxonmap prot.accession2taxid.gz --taxonnodes nodes.dmp #### DIAMOND v0.9.24

diamond blastp --query proteins.fasta --more-sensitive --db nr --evalue 1e-5 --salltitles --threads 64 --outfmt 5 --out nr.xml

perl -p -e 's/diamond 0.9.24/BLASTP 2.2.26/' nr.xml > nr_new.xml

perl -p -i -e 's/^Dbacces.dbname=.*/Dbacces.dbname=b2gdb/' b2gPipe.properties

perl -p -i -e 's/^Dbacces.dbhost=.*/Dbacces.dbhost=127.0.0.1/' b2gPipe.properties

java -cp *:ext/*: es.blast2go.prog.B2GAnnotPipe -in ../nr_new.xml -out go -annot -dat -annex

# 至于整合InterProScan的結(jié)果可以使用下面的腳本，當(dāng)然也可以在java -cp *:ext/*: es.blast2go.prog.B2GAnnotPipe -ips 來實(shí)現(xiàn)荚守，或者將b2g4pipe的輸出文件加載到 Blast2GO Basic 中進(jìn)行后續(xù)可視化分析珍德。

merge_interpro_to_go.pl b2g4pipe/go.annot ../interpro/interpro.tsv > go.annot

# Anyone use diamond output xml file? for b2gpipe? · Issue #79 · bbuchfink/diamond · GitHub

# Problem in uploading the Diamond blastx results into Blast2GO · Issue #159 · bbuchfink/diamond · GitHub

# diamond to blast2go erro? · Issue #165 · bbuchfink/diamond · GitHub

2、InterProScan

對于 InterProScan 可以本地化矗漾，也可以用 interProScan5.pl 將序列發(fā)送到官方服務(wù)器進(jìn)行注釋锈候，資源允許，還是推薦本地化敞贡，網(wǎng)絡(luò)版感覺還是有點(diǎn)慢～一個(gè)本地化教程:

一個(gè)用interproscan做基因注釋的簡易教程

3泵琳、eggNOG-Mapper （包括網(wǎng)頁版和本地化）

（1）關(guān)于這個(gè)注釋方法網(wǎng)頁版的推薦自己去摸索吧（就是和NCBI提交類似）=> http://eggnogdb.embl.de/#/app/emapper

（2）本地化推薦兩個(gè)教程吧：

序列功能注釋神器：eggNOG-mapper，KEGG/COG/KOG/GO/BiGG 一網(wǎng)打盡：序列功能注釋神器：eggNOG-mapper嫡锌，KEGG/COG/KOG/GO/BiGG 一網(wǎng)打盡 ? Biostack.org

應(yīng)該是最好的eggnog-mapper功能注釋教程：應(yīng)該是最好的eggnog-mapper功能注釋教程 - 簡書（生信媛）

4虑稼、PANNZER2-終極注釋網(wǎng)站

此部分為2020年12月24日后加，該工具也是一個(gè)網(wǎng)頁版工具势木。相較于eggNOG-mapper蛛倦，PANNZER2注釋上的基因條目與Blast2GO差不多，而且啦桌，2.5W個(gè)基因3-4h就可以拿到結(jié)果溯壶。如果再整合上InterProScan的結(jié)果及皂，那么，這個(gè)方法便將高效且改、準(zhǔn)確集于一身验烧。

前方高能:

對于準(zhǔn)確性的個(gè)人思考，基于比對又跛，也就是基因相似性的注釋方法(blastp,diamond)可能會(huì)取決于數(shù)據(jù)庫的大小碍拆，因?yàn)樵赽last2go中有涉及到相似度cut這一步，如果數(shù)據(jù)庫不夠大慨蓝，那么相似度有的可能只為50(在cut值之上)感混，所以只使用Swiss-Prot等小數(shù)據(jù)庫注釋時(shí)可能需要提高cut值;當(dāng)然也會(huì)聽到直系同源和旁系同源的說法，所以在新版Blast2go中增加了filter GO with Taxid (可能是看到eggnog的文章慌了)這一新模塊礼烈，減少旁系同源的注釋結(jié)果弧满。那么如果要在老版的Blast2go中運(yùn)用這個(gè)模塊，或許可以換個(gè)思路此熬，在比對時(shí)庭呜，通過Taxid來過濾比對結(jié)果。

eggnog的注釋犀忱，存在兩種模式diamond和hummer募谎，前者官方推薦為存在接近物種，也就是在直系同源注釋中有更好的表現(xiàn)阴汇，hummer則反之. 同樣的近哟，只要是比對，就會(huì)有cut相似度這一說鲫寄，數(shù)據(jù)庫的大小及深度(涉及的物種)，就會(huì)影響結(jié)果疯淫。其一個(gè)特點(diǎn)在于直系同源注釋地来。這點(diǎn)Blast2go中出了filter with Taxid 來補(bǔ)充。

小提示：

參考文獻(xiàn)

http://blog.sina.com.cn/s/blog_16152d7d70102xnc3.html

https://github.com/bbuchfink/diamond

https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247486358&idx=1&sn=4b095e9a200a419079d947d930c38abd&chksm=e9e02237de97ab21f4227ee76eca0aa94433fe6cc374e030093eb3acc2094a546110763bb411&mpshare=1&scene=23&srcid=0101kMbzD2el0RPASBiC9pFi#rd

http://www.jinciwei.cn/a342744.html

https://github.com/bbuchfink/diamond/issues/79

https://github.com/bbuchfink/diamond/issues/159

https://github.com/bbuchfink/diamond/issues/165

http://www.biostack.org/?p=698

http://www.reibang.com/p/e646c0fa6443

NGS 生物信息學(xué)分析 V6.0 陳連福鄭越

http://www.reibang.com/p/6296385adf21

最后編輯于：2021.02.26 11:09:14

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

禁止轉(zhuǎn)載熙掺，如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者未斑。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市币绩，隨后出現(xiàn)的幾起案子蜡秽，更是在濱河造成了極大的恐慌，老刑警劉巖缆镣，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件芽突，死亡現(xiàn)場離奇詭異，居然都是意外死亡董瞻，警方通過查閱死者的電腦和手機(jī)寞蚌，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門田巴，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人挟秤，你說我怎么就攤上這事壹哺。” “怎么了艘刚？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵管宵，是天一觀的道長。經(jīng)常有香客問我攀甚，道長箩朴，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任云稚，我火速辦了婚禮隧饼，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘静陈。我一直安慰自己燕雁，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布鲸拥。她就那樣靜靜地躺著拐格，像睡著了一般。火紅的嫁衣襯著肌膚如雪刑赶。梳的紋絲不亂的頭發(fā)上捏浊，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天，我揣著相機(jī)與錄音撞叨，去河邊找鬼金踪。笑死，一個(gè)胖子當(dāng)著我的面吹牛牵敷，可吹牛的內(nèi)容都是我干的胡岔。我是一名探鬼主播，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼枷餐，長吁一口氣：“原來是場噩夢啊……” “哼靶瘸！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起毛肋，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤怨咪，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后润匙，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體诗眨，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年孕讳，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了辽话。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肄鸽。...
茶點(diǎn)故事閱讀 37,989評論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖油啤，靈堂內(nèi)的尸體忽然破棺而出典徘，到底是詐尸還是另有隱情，我是刑警寧澤益咬，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布逮诲，位于F島的核電站，受9級特大地震影響幽告，放射性物質(zhì)發(fā)生泄漏梅鹦。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一冗锁、第九天我趴在偏房一處隱蔽的房頂上張望齐唆。院中可真熱鬧，春花似錦冻河、人聲如沸箍邮。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案叨叙，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽锭弊。三九已至，卻和暖如春擂错，著一層夾襖步出監(jiān)牢的瞬間味滞，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工钮呀，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留剑鞍，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓爽醋，卻偏偏與公主長得像攒暇，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子子房，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評論 2贊 345