一打月、Metascape簡(jiǎn)介
Metascape(http://metascape.org/) 是一個(gè)功能強(qiáng)大的基因功能注釋分析工具焙压,能幫助用戶將當(dāng)前流行的生物信息學(xué)分析方法應(yīng)用到批量基因和蛋白質(zhì)的分析中,以實(shí)現(xiàn)對(duì)基因或蛋白功能的認(rèn)知历筝。只需在Metascape網(wǎng)頁幾步簡(jiǎn)單的操作掖蛤,就可以對(duì)大批量的基因或蛋白質(zhì)進(jìn)行注釋毡鉴、富集分析以及構(gòu)建蛋白質(zhì)-蛋白質(zhì)互作網(wǎng)絡(luò)石挂。并且構(gòu)建的蛋白互作網(wǎng)絡(luò)還可以直接導(dǎo)出給Cytoscape使用博助,繪制美觀、可發(fā)表的蛋白互作網(wǎng)絡(luò)圖痹愚。
更新快:每月更新一次富岳,保證了數(shù)據(jù)的可靠性;
覆蓋廣:整合了GO拯腮、KEGG窖式、Uniprot等多個(gè)權(quán)威的功能數(shù)據(jù)庫;同時(shí)Metasacape不僅可以分析人類(H. sapien)的數(shù)據(jù)疾瓮,還包括很多其他物種數(shù)據(jù)脖镀,如 M. musculus, R. norvegicus, D. rerio, D. melanogaster, C. elegans, S. cerevisiae, A. thaliana, and P. falciparum等;
易操作:“CAME”流程操作狼电,簡(jiǎn)單易上手,不僅可以單獨(dú)分析一個(gè)基因集弦蹂,還可以同時(shí)分析多個(gè)基因集肩碟;得到的結(jié)果報(bào)告顏值極高,往往能達(dá)到發(fā)表文章的級(jí)別凸椿!
不收錢O髌怼!脑漫!
2019年3月4日髓抑,Matascape團(tuán)隊(duì)總結(jié)了Metascape的使用就發(fā)表了一篇Nature communications,可見這個(gè)軟件的被認(rèn)可程度优幸。其中提到Metascape網(wǎng)站在文章發(fā)表之前就已經(jīng)被350多篇論文引用吨拍,其中不乏《自然》,《科學(xué)》网杆,《細(xì)胞》等雜志羹饰。有趣的是約三分之二的引用文章直接使用了Metascape生成的圖表。
a)摘自Lotan et al. Molecular Psychiatry (2018) 78:865中的Figure 5; b)摘自Dong et al. Genome Biol (2018) 19:31中的Figure 3碳却。
二队秩、Metascape的工作流程
Metascape采用的是一種稱為“CAME”的通用分析工作流程,概述如下:
ID轉(zhuǎn)換 (Conversion)——將用戶輸入的基因標(biāo)識(shí)符自動(dòng)轉(zhuǎn)換為目標(biāo)物種的Entrez gene IDs昼浦;
注釋 (Annotation)——為基因列表添加注釋列馍资,包括基因的描述、功能和蛋白質(zhì)分類等关噪;
歸類 (Membership)——獲取感興趣的基因集鸟蟹。例如乌妙,獲取被歸為以“cancer”作為關(guān)鍵字的GO生物過程分類的基因。
富集 (Enrichment)——對(duì)基因列表的功能富集分析戏锹,識(shí)別具有統(tǒng)計(jì)意義的通路冠胯。最新的版本還包括蛋白質(zhì)網(wǎng)絡(luò)分析,可以用來識(shí)別和獲取具有緊密連接的蛋白質(zhì)網(wǎng)絡(luò)元件 (如Oct4锦针、Sox2和Nanog網(wǎng)絡(luò))荠察。
新版本的Metascape可以分析多種模式生物的基因,用戶只需輸入基因或蛋白質(zhì)名稱 (很多基因名均可識(shí)別)奈搜,就可以借助Metascape網(wǎng)站快速獲得基因注釋悉盆、基因功能、基因分類馋吗、富集的通路以及蛋白質(zhì)相互作用網(wǎng)絡(luò)(可導(dǎo)入Cytoscape再處理)焕盟。這對(duì)于大多數(shù)的日常分析需求來說已經(jīng)足夠了。
三宏粤、Metascape的使用
脚翘,時(shí)長(zhǎng)01:36
<input type="checkbox" title="顯示工具欄" class="aria_hidden_abs" wah-hotarea="click" aria-hidden="true" style="margin: 0px; padding: 0px; outline: 0px; caret-color: var(--weui-BRAND); max-width: unset !important; box-sizing: unset !important; overflow-wrap: unset !important; font-family: inherit; font-size: 17px; white-space: normal !important; position: absolute; opacity: 0; overflow: hidden; left: auto; width: 1px; height: 1px;">
數(shù)據(jù)上傳
在Metascape主頁,用戶可以在1
處粘貼一個(gè)由逗號(hào)绍哎、冒號(hào)来农、空格、制表符或行分隔符組成的基因列表(基因名可以是:Entrez Gene ID崇堰、Ensembl ID沃于、RefSeq、Symbol海诲、UniProt ID繁莹、UCSC ID等等),或者在2
可以選擇本地的一個(gè)電子表格文件(xlsx特幔、xls咨演、csv或txt),其中的一列必須包含基因名稱列敬辣。其它的數(shù)據(jù)列是可選的龙助,在分析期間會(huì)被忽略蝙泼。
圖2 Metascape Home
如果在上傳文件中提供了多個(gè)列,而基因只是其中的一列,注意使用下拉菜單確保正確選擇含有基因名稱的列叮喳。
txt格式基本上與csv格式相同塑顺,只不過前者使用tab作為字段分隔符淳附;txt格式不支持任何非標(biāo)準(zhǔn)的規(guī)則帮辟。
Metacape會(huì)將分析后的基因注釋等結(jié)果加在輸入基因的列表后面。
使用Excel表時(shí)需要注意,Excel文件雖非常常用逆粹,但其有時(shí)不能很好地引用基因symbols募疮,因?yàn)槟承?strong>基因symbols可能被錯(cuò)誤地轉(zhuǎn)換成日期和數(shù)字。例如“Mar1”僻弹、“Marc1”和“March1”都可能被Excel轉(zhuǎn)換為3月1日阿浓,而基因符號(hào)“201E9”則可能被視為一個(gè)大整數(shù)。其他的例子如“1/6”蹋绽、“12-14-90”芭毙、“2-Oct”、“9830125E18”等等卸耘,因此這些基因symbols不能被映射到Entrez gene IDs中退敦,因而在分析過程中會(huì)被漏掉。為防止基因symbols被轉(zhuǎn)換成日期或數(shù)字蚣抗,可以用單引號(hào)來對(duì)符號(hào)進(jìn)行前綴侈百,例如,輸入’Mar1翰铡。因此最好不要依賴于在xls或xlsx格式中使用基因symbols钝域,而應(yīng)使用諸如RefSeq之類的其他ID格式。Excel改變了你的基因名锭魔,30% 相關(guān)Nature文章受影響网梢,NCBI也受波及 但是,如果使用.csv或.txt格式赂毯,就可隨意使用基因symbols。
Metascape主頁包含所支持格式的文件模板(在“Upload File Format”下拣宰,見圖3)党涕;可以下載下來并依照這些例子載入數(shù)據(jù)。想要測(cè)試Metascape的運(yùn)行巡社,可以點(diǎn)擊
single list
膛堤,將上傳一個(gè)人類基因列表。點(diǎn)擊Test Identifiers
下的任何鏈接晌该,就會(huì)自動(dòng)粘貼指定格式的列表基因ID肥荔。注意:基因列的名稱開頭不能有下劃線,下劃線是為Metascape保留的朝群。用戶提供的列的名稱的任何下劃線都將被自動(dòng)刪掉燕耿。
圖3 數(shù)據(jù)格式舉例
富集分析
粘貼或上傳好基因數(shù)據(jù)后,在圖Step2
中先選擇Input as species
姜胖,如果有對(duì)應(yīng)物種的基因就選擇對(duì)應(yīng)物種誉帅,如果沒有可以選擇括號(hào)中數(shù)字最大的物種 (說明可以進(jìn)行轉(zhuǎn)換的基因比較多),選擇Analysis as species
也遵循上述原則。
選擇好物種后點(diǎn)擊Express Analysis
即可進(jìn)行快速分析蚜锨。此時(shí)下方會(huì)顯示一個(gè)進(jìn)度條档插,之后會(huì)顯示一個(gè)Analysis Report
按鈕,點(diǎn)擊后會(huì)打開一個(gè)報(bào)告頁面亚再。
快速分析(Express Analysis)包括最流行的注釋源和基因本體 (Gene ontology)分類 (結(jié)果如下圖)郭膛。對(duì)于經(jīng)驗(yàn)豐富的用戶,或希望對(duì)分析選項(xiàng)有更大控制權(quán)的用戶氛悬,可使用自定義分析Custom Analysis
则剃。設(shè)置其中的一些選項(xiàng)能夠更好地控制CAME
分析流程。
a) Metascape去除功能冗余的富集通路圆雁,用簡(jiǎn)單明了的bargraph顯示出最主要的實(shí)驗(yàn)結(jié)果忍级;b)富集生物通路可以以網(wǎng)絡(luò)方式表現(xiàn),這更利于理解通路或生物過程之間的關(guān)系伪朽;c)Metascape自動(dòng)抽取提交列表中蘊(yùn)含的蛋白質(zhì)互作用網(wǎng)絡(luò)轴咱;d)為了更容易理解這一網(wǎng)絡(luò),Metascape采用成熟的MCODE算法尋找網(wǎng)絡(luò)中的密集聯(lián)結(jié)的蛋白質(zhì)群烈涮,并對(duì)每個(gè)群的生物功能進(jìn)行注釋朴肺。
分析結(jié)果
先看到的是如圖5的富集總結(jié),橫坐標(biāo)是對(duì)p-values取以10為底的對(duì)數(shù)值并取負(fù)值坚洽;縱向是不同的富集通路戈稿,已按照-log10(P)的值排序。越排在上面的-log10(P)值越大讶舰,p-values就越小鞍盗,富集就越顯著(顏色也越深)。
在富集的通路中包括CORUM跳昼、Ractome和GO等數(shù)據(jù)集般甲,展示的結(jié)果直觀、豐富鹅颊》蟠妫可點(diǎn)擊下方的
PDF
下載。
圖5 Heatmap of enriched terms across input gene lists, colored by p-values.
- 在下圖的表格中包含上圖中富集分析的具體信息堪伍,如
Count
(即用戶輸入的基因有多少個(gè)落在這個(gè)通路中)和Log10(q)(是經(jīng)多重假設(shè)驗(yàn)證校正的p-value)锚烦。
圖6 Pathway and Process Enrichment Analysis
蛋白蛋白互作
下圖展示了在用戶輸入的基因中發(fā)現(xiàn)的蛋白——蛋白互作網(wǎng)絡(luò)。其數(shù)據(jù)來源于BioGrid
帝雇、InWeb_IM
和OmniPath
等數(shù)據(jù)庫涮俄。點(diǎn)擊CYS
圖標(biāo)可以下載這個(gè)網(wǎng)絡(luò)并可以用Cytoscape軟件打開,可以進(jìn)一步調(diào)整圖形布局或加入基因表達(dá)等信息摊求。
圖7 Protein-protein Interaction Enrichment Analysis
多基因列表聯(lián)合分析
當(dāng)代的多組學(xué)實(shí)驗(yàn)往往生成多個(gè)基因列表禽拔,目前的網(wǎng)絡(luò)工具很少能同時(shí)分析并整合多基因列表刘离,而這恰恰是Metascape的長(zhǎng)處之一。其實(shí)Metascape的”meta”就是來源于多列表的meta-analysis睹栖。下圖以三組過去獨(dú)立發(fā)表的流感宿主因子列表為例進(jìn)行說明硫惕。
a) Metascape用heatmap讓三組數(shù)據(jù)集共享的和獨(dú)特的生物通路一目了然。b)富集通路也可以以網(wǎng)絡(luò)呈現(xiàn)野来。由于每一組宿主因子用一個(gè)獨(dú)特的顏色表示恼除,我們可以很清楚的發(fā)現(xiàn)Viral gene expression
是共享的而Regulation of cell development
主要只存在于綠色對(duì)應(yīng)的實(shí)驗(yàn)中。
四曼氛、定制分析
豁辉,時(shí)長(zhǎng)03:44
<input type="checkbox" title="顯示工具欄" class="aria_hidden_abs" wah-hotarea="click" aria-hidden="true" style="margin: 0px; padding: 0px; outline: 0px; caret-color: var(--weui-BRAND); max-width: unset !important; box-sizing: unset !important; overflow-wrap: unset !important; font-family: inherit; font-size: 17px; white-space: normal !important; position: absolute; opacity: 0; overflow: hidden; left: auto; width: 1px; height: 1px;">
五、作者自評(píng)
很多學(xué)者還在采用DAVID做富集通路分析舀患。富集通路分析結(jié)果完全依賴于背后數(shù)據(jù)庫的質(zhì)量徽级。DAVID曾經(jīng)有六年的時(shí)間(2010-2016)沒有維護(hù)數(shù)據(jù)庫,最近的更新也已經(jīng)兩年半了聊浅。獨(dú)立研究表明使用兩年舊的Gene ontology數(shù)據(jù)庫餐抢,用戶平均要丟失20%的最新的生物知識(shí)。所以定期更新數(shù)據(jù)庫的重要性非同小可低匙】鹾郏可惜現(xiàn)實(shí)是目前大家常使用富集分析工具中僅有40%被正常維護(hù),不知讀者目前使用的工具是否屬于幸運(yùn)的一類顽冶。Metascape每月更新背后的40多個(gè)數(shù)據(jù)庫欺抗,以確保提供最準(zhǔn)確的結(jié)果。
Metascape沒有學(xué)習(xí)使用的壁壘强重,因?yàn)闆]有比一鍵Express Analysis更簡(jiǎn)單了绞呈。 雖然好用,Metascape實(shí)現(xiàn)的主要功能卻是不折不扣间景。作者由于多年來在自己的科研項(xiàng)目中都要花大量的時(shí)間進(jìn)行這些生物信息分析报强,所以決定把長(zhǎng)期發(fā)表文章中體會(huì)到的best practices實(shí)現(xiàn)在Metascape中。由于常用的基因列表的分析工具僅限于提供單一通路富集分析拱燃,這就不幸給研究人員造成了列表分析就是等同于知識(shí)驅(qū)動(dòng)的富集分析的誤解。而數(shù)據(jù)驅(qū)動(dòng)的蛋白質(zhì)互作用網(wǎng)絡(luò)分析就鮮有網(wǎng)站支持力惯。其實(shí)除了以上描述的Metascape提供的林林總總的分析功能之外碗誉,其還有非常強(qiáng)大的對(duì)上千個(gè)基因進(jìn)行注釋或者利用知識(shí)庫進(jìn)行成員分析的功能,這些對(duì)于后續(xù)的基因篩選及其重要父晶,詳情請(qǐng)見文章或網(wǎng)站文檔哮缺。要實(shí)現(xiàn)Metascape的這些分析功能對(duì)于生物信息人員都是有難度的。
這個(gè)只需一步就可做富集分析的網(wǎng)站還未發(fā)表就被CNS等引用超過350次 (qq.com)