寫在前面
早前已經(jīng)推過《新手eggNOG-Mapper詳細(xì)教程》扬虚,但仍然有很多人遇到使用問題重罪。換句話樱哼,可能那個(gè)教程不能徹底解決大伙遇到的問題哀九。于是我決定寫一個(gè)完美的教程,徹底解決大伙的基因功能注釋問題搅幅。
eggNOG-mapper 大名鼎鼎阅束,是一款非常全面,高效茄唐,準(zhǔn)確息裸,且一直在更新的軟件,對應(yīng)的沪编,該團(tuán)隊(duì)提供了網(wǎng)頁接口呼盆,任何人可以提交蛋白序列文件,在極短的時(shí)間內(nèi)(一般幾分鐘)完成基因功能注釋漾抬,包括:
1.具體功能描述信息
2.Gene Onotoloy注釋信息
3.KEGG 注釋信息
4.PFAM 注釋信息
5.以及其他...
今天的這份教程宿亡,會讓任何人看過之后,就完全可以掌握注釋方法纳令,而且可以得到用于基因功能富集分析的輸入文件,如GO富集分析克胳、KEGG富集分析等平绩。這或許是不少 TBtools 用戶的煩惱。
回到主題漠另,教程分為兩個(gè)部分:
- 如何使用 eggNOG-mapper 進(jìn)行基因功能注釋
- 如果使用 TBtools 軟件一鍵整理基因功能注釋結(jié)果
eggNOG-mapper 注釋
首先捏雌,基因功能注釋質(zhì)量好壞取決于數(shù)據(jù)庫質(zhì)量高低,是否全面笆搓。于是性湿,本地化進(jìn)行基因功能注釋,需要收集盡可能多的數(shù)據(jù)庫(這個(gè)其實(shí)很不實(shí)際)满败,也需要有較好的計(jì)算資源肤频。通過使用網(wǎng)頁服務(wù)工具,可以克服這個(gè)問題算墨。我們可以一直使用最新最全的數(shù)據(jù)庫宵荒,同時(shí)不需要消耗本地計(jì)算資源。
在 eggNOG-mapper 上進(jìn)行基因功能注釋净嘀,非常簡單报咳。
第一步,打開 eggNOG-mapper 主頁
http://eggnog-mapper.embl.de/
看到下圖
參考上圖挖藏,其實(shí)需要做的事情非常簡單:
- 選擇輸入模式暑刃,一般是輸入蛋白序列
2.選擇本地輸入文件,即蛋白序列集合(這個(gè)完全可以基于基因組序列.fa和基因結(jié)構(gòu)注釋文件.gff3/.gtf用TBtools提饶っ摺)
3.給定一個(gè)郵箱地址(注意岩臣,這個(gè)非常重要溜嗜,需要進(jìn)入郵箱才能啟動任務(wù))
4.點(diǎn)擊 Start
等待文件上傳,一般大概不到一分鐘婿脸,彈出頁面
隨后粱胜,檢查自己的郵箱,可以看到如下
打開收到的郵件狐树,其中有“Click to manage your job”焙压,點(diǎn)擊即可看到(如果點(diǎn)擊進(jìn)去,看不到任何東西抑钟,那么請復(fù)制該鏈接涯曲,使用 谷歌瀏覽器 、火狐瀏覽器在塔、edge瀏覽器 任意一個(gè)打開)
點(diǎn)擊 “Start job”即可幻件,然后可以去打球或者去休息,上個(gè)洗手間等等蛔溃。
任務(wù)完成時(shí)绰沥,會自動發(fā)送郵件到郵箱,當(dāng)然也可以選擇過幾分鐘來看看這個(gè)頁面
這是我昨天郵箱里的郵件贺待,也是此次的示例文件來源
進(jìn)入任務(wù)完成的郵件徽曲,可以看到
建議直接點(diǎn)擊第二個(gè)鏈接下載我們需要的文件,但是你也可以打開第一個(gè)文件麸塞,那么會看到
最后還是會進(jìn)入文件下載鏈接秃臣,看到如下
下載的是一個(gè)制表符分隔的文本文件,你可以用 Excel 打開哪工,結(jié)果如下
結(jié)果很全面奥此,只是還是不能滿足我們的需求,或者說雁比,這里開始可能才是不少 TBtools 用戶遇到的問題稚虎。那就是怎么整理這些信息,用于TBtools的 GO富集分析或者KEGG富集分析章贞?
eggNOG-mapper Helper
為了解決這個(gè)問題祥绞,我想來想去,還是謝了一個(gè)功能鸭限,就叫 eggNOG-mapper Helper蜕径,可以一鍵直接整理 eggNOG-mapper 的結(jié)果,輸出幾個(gè)文件败京,分別滿足不同下游分析需要兜喻。
功能如下,注意更新到 v1.9868 或更高版本
打開該功能赡麦,可見非常簡單的輸入界面
使用非常簡單朴皆,具體示例如下
輸出文件中帕识,大家可能最關(guān)注的有四個(gè):
out.emapper.annotations.description.txt,對應(yīng)的功能文本描述
out.emapper.annotations.GO.txt遂铡,對應(yīng)的是GO注釋結(jié)果肮疗,可直接用于 TBtools GO富集分析,當(dāng)注釋背景文件
out.emapper.annotations.KEGG_Knum.txt扒接,對應(yīng)的是KEGG注釋結(jié)果伪货,可直接用于 TBtools KEGG富集分析,當(dāng)背景注釋文件
out.emapper.annotations.pfam.domain.txt钾怔,對應(yīng)的是PFAM結(jié)構(gòu)域注釋碱呼,注意,這個(gè)注釋結(jié)果是定性的宗侦,即有無某結(jié)構(gòu)域愚臀,如果一個(gè)序列有多個(gè)相同結(jié)構(gòu)域,只會顯示一個(gè)
四個(gè)文件的具體信息矾利,截圖可看
(注意姑裂,盡管我使用 Excel 打開,但這些文件仍然是制表符分隔的文本文件男旗,千萬不要保存為 Excel 格式炭分,以免有后續(xù)問題)
寫在最后
Emmm... 很久沒有寫教程了,不過我覺得這個(gè)教程應(yīng)該還是比較詳細(xì)剑肯,完全可以解決幾乎所有人的 GO 或者 KEGG 甚至是基因功能注釋的煩惱。