Metascape 專門為生物學(xué)者設(shè)計(jì)的基因富集分析網(wǎng)站

圖片

一打月、Metascape簡(jiǎn)介

Metascape(http://metascape.org/) 是一個(gè)功能強(qiáng)大的基因功能注釋分析工具焙压,能幫助用戶將當(dāng)前流行的生物信息學(xué)分析方法應(yīng)用到批量基因和蛋白質(zhì)的分析中,以實(shí)現(xiàn)對(duì)基因或蛋白功能的認(rèn)知历筝。只需在Metascape網(wǎng)頁幾步簡(jiǎn)單的操作掖蛤,就可以對(duì)大批量的基因或蛋白質(zhì)進(jìn)行注釋毡鉴、富集分析以及構(gòu)建蛋白質(zhì)-蛋白質(zhì)互作網(wǎng)絡(luò)石挂。并且構(gòu)建的蛋白互作網(wǎng)絡(luò)還可以直接導(dǎo)出給Cytoscape使用博助,繪制美觀、可發(fā)表的蛋白互作網(wǎng)絡(luò)圖痹愚。

  • 更新快:每月更新一次富岳,保證了數(shù)據(jù)的可靠性;

  • 覆蓋廣:整合了GO拯腮、KEGG窖式、Uniprot等多個(gè)權(quán)威的功能數(shù)據(jù)庫;同時(shí)Metasacape不僅可以分析人類(H. sapien)的數(shù)據(jù)疾瓮,還包括很多其他物種數(shù)據(jù)脖镀,如 M. musculus, R. norvegicus, D. rerio, D. melanogaster, C. elegans, S. cerevisiae, A. thaliana, and P. falciparum等;

  • 易操作:“CAME”流程操作狼电,簡(jiǎn)單易上手,不僅可以單獨(dú)分析一個(gè)基因集弦蹂,還可以同時(shí)分析多個(gè)基因集肩碟;得到的結(jié)果報(bào)告顏值極高,往往能達(dá)到發(fā)表文章的級(jí)別凸椿!

  • 不收錢O髌怼!脑漫!

2019年3月4日髓抑,Matascape團(tuán)隊(duì)總結(jié)了Metascape的使用就發(fā)表了一篇Nature communications,可見這個(gè)軟件的被認(rèn)可程度优幸。其中提到Metascape網(wǎng)站在文章發(fā)表之前就已經(jīng)被350多篇論文引用吨拍,其中不乏《自然》,《科學(xué)》网杆,《細(xì)胞》等雜志羹饰。有趣的是約三分之二的引用文章直接使用了Metascape生成的圖表

圖片

a)摘自Lotan et al. Molecular Psychiatry (2018) 78:865中的Figure 5; b)摘自Dong et al. Genome Biol (2018) 19:31中的Figure 3碳却。

二队秩、Metascape的工作流程

Metascape采用的是一種稱為“CAME”的通用分析工作流程,概述如下:

圖片
  • ID轉(zhuǎn)換 (Conversion)——將用戶輸入的基因標(biāo)識(shí)符自動(dòng)轉(zhuǎn)換為目標(biāo)物種的Entrez gene IDs昼浦;

  • 注釋 (Annotation)——為基因列表添加注釋列馍资,包括基因的描述、功能和蛋白質(zhì)分類等关噪;

  • 歸類 (Membership)——獲取感興趣的基因集鸟蟹。例如乌妙,獲取被歸為以“cancer”作為關(guān)鍵字的GO生物過程分類的基因。

  • 富集 (Enrichment)——對(duì)基因列表的功能富集分析戏锹,識(shí)別具有統(tǒng)計(jì)意義的通路冠胯。最新的版本還包括蛋白質(zhì)網(wǎng)絡(luò)分析,可以用來識(shí)別和獲取具有緊密連接的蛋白質(zhì)網(wǎng)絡(luò)元件 (如Oct4锦针、Sox2和Nanog網(wǎng)絡(luò))荠察。

新版本的Metascape可以分析多種模式生物的基因,用戶只需輸入基因或蛋白質(zhì)名稱 (很多基因名均可識(shí)別)奈搜,就可以借助Metascape網(wǎng)站快速獲得基因注釋悉盆、基因功能、基因分類馋吗、富集的通路以及蛋白質(zhì)相互作用網(wǎng)絡(luò)(可導(dǎo)入Cytoscape再處理)焕盟。這對(duì)于大多數(shù)的日常分析需求來說已經(jīng)足夠了。

三宏粤、Metascape的使用

脚翘,時(shí)長(zhǎng)01:36

<input type="checkbox" title="顯示工具欄" class="aria_hidden_abs" wah-hotarea="click" aria-hidden="true" style="margin: 0px; padding: 0px; outline: 0px; caret-color: var(--weui-BRAND); max-width: unset !important; box-sizing: unset !important; overflow-wrap: unset !important; font-family: inherit; font-size: 17px; white-space: normal !important; position: absolute; opacity: 0; overflow: hidden; left: auto; width: 1px; height: 1px;">

數(shù)據(jù)上傳

在Metascape主頁,用戶可以在1處粘貼一個(gè)由逗號(hào)绍哎、冒號(hào)来农、空格、制表符或行分隔符組成的基因列表(基因名可以是:Entrez Gene ID崇堰、Ensembl ID沃于、RefSeq、Symbol海诲、UniProt ID繁莹、UCSC ID等等),或者在2可以選擇本地的一個(gè)電子表格文件(xlsx特幔、xls咨演、csv或txt),其中的一列必須包含基因名稱列敬辣。其它的數(shù)據(jù)列是可選的龙助,在分析期間會(huì)被忽略蝙泼。

圖2 Metascape Home

圖片
  • 如果在上傳文件中提供了多個(gè)列,而基因只是其中的一列,注意使用下拉菜單確保正確選擇含有基因名稱的列叮喳。

  • txt格式基本上與csv格式相同塑顺,只不過前者使用tab作為字段分隔符淳附;txt格式不支持任何非標(biāo)準(zhǔn)的規(guī)則帮辟。

  • Metacape會(huì)將分析后的基因注釋等結(jié)果加在輸入基因的列表后面。

  • 使用Excel表時(shí)需要注意,Excel文件雖非常常用逆粹,但其有時(shí)不能很好地引用基因symbols募疮,因?yàn)槟承?strong>基因symbols可能被錯(cuò)誤地轉(zhuǎn)換成日期和數(shù)字。例如“Mar1”僻弹、“Marc1”和“March1”都可能被Excel轉(zhuǎn)換為3月1日阿浓,而基因符號(hào)“201E9”則可能被視為一個(gè)大整數(shù)。其他的例子如“1/6”蹋绽、“12-14-90”芭毙、“2-Oct”、“9830125E18”等等卸耘,因此這些基因symbols不能被映射到Entrez gene IDs中退敦,因而在分析過程中會(huì)被漏掉。為防止基因symbols被轉(zhuǎn)換成日期或數(shù)字蚣抗,可以用單引號(hào)來對(duì)符號(hào)進(jìn)行前綴侈百,例如,輸入’Mar1翰铡。因此最好不要依賴于在xls或xlsx格式中使用基因symbols钝域,而應(yīng)使用諸如RefSeq之類的其他ID格式。Excel改變了你的基因名锭魔,30% 相關(guān)Nature文章受影響网梢,NCBI也受波及 但是,如果使用.csv或.txt格式赂毯,就可隨意使用基因symbols。

  • Metascape主頁包含所支持格式的文件模板(在“Upload File Format”下拣宰,見圖3)党涕;可以下載下來并依照這些例子載入數(shù)據(jù)。想要測(cè)試Metascape的運(yùn)行巡社,可以點(diǎn)擊single list膛堤,將上傳一個(gè)人類基因列表。點(diǎn)擊Test Identifiers下的任何鏈接晌该,就會(huì)自動(dòng)粘貼指定格式的列表基因ID肥荔。

  • 注意:基因列的名稱開頭不能有下劃線,下劃線是為Metascape保留的朝群。用戶提供的列的名稱的任何下劃線都將被自動(dòng)刪掉燕耿。

圖3 數(shù)據(jù)格式舉例

圖片

富集分析

粘貼或上傳好基因數(shù)據(jù)后,在圖Step2中先選擇Input as species姜胖,如果有對(duì)應(yīng)物種的基因就選擇對(duì)應(yīng)物種誉帅,如果沒有可以選擇括號(hào)中數(shù)字最大的物種 (說明可以進(jìn)行轉(zhuǎn)換的基因比較多),選擇Analysis as species也遵循上述原則。

選擇好物種后點(diǎn)擊Express Analysis即可進(jìn)行快速分析蚜锨。此時(shí)下方會(huì)顯示一個(gè)進(jìn)度條档插,之后會(huì)顯示一個(gè)Analysis Report按鈕,點(diǎn)擊后會(huì)打開一個(gè)報(bào)告頁面亚再。

圖片

快速分析(Express Analysis)包括最流行的注釋源和基因本體 (Gene ontology)分類 (結(jié)果如下圖)郭膛。對(duì)于經(jīng)驗(yàn)豐富的用戶,或希望對(duì)分析選項(xiàng)有更大控制權(quán)的用戶氛悬,可使用自定義分析Custom Analysis则剃。設(shè)置其中的一些選項(xiàng)能夠更好地控制CAME分析流程。

圖片

a) Metascape去除功能冗余的富集通路圆雁,用簡(jiǎn)單明了的bargraph顯示出最主要的實(shí)驗(yàn)結(jié)果忍级;b)富集生物通路可以以網(wǎng)絡(luò)方式表現(xiàn),這更利于理解通路或生物過程之間的關(guān)系伪朽;c)Metascape自動(dòng)抽取提交列表中蘊(yùn)含的蛋白質(zhì)互作用網(wǎng)絡(luò)轴咱;d)為了更容易理解這一網(wǎng)絡(luò),Metascape采用成熟的MCODE算法尋找網(wǎng)絡(luò)中的密集聯(lián)結(jié)的蛋白質(zhì)群烈涮,并對(duì)每個(gè)群的生物功能進(jìn)行注釋朴肺。

分析結(jié)果

  • 先看到的是如圖5的富集總結(jié),橫坐標(biāo)是對(duì)p-values取以10為底的對(duì)數(shù)值并取負(fù)值坚洽;縱向是不同的富集通路戈稿,已按照-log10(P)的值排序。越排在上面的-log10(P)值越大讶舰,p-values就越小鞍盗,富集就越顯著(顏色也越深)。

  • 在富集的通路中包括CORUM跳昼、Ractome和GO等數(shù)據(jù)集般甲,展示的結(jié)果直觀、豐富鹅颊》蟠妫可點(diǎn)擊下方的PDF下載。

圖5 Heatmap of enriched terms across input gene lists, colored by p-values.

圖片
  • 在下圖的表格中包含上圖中富集分析的具體信息堪伍,如Count(即用戶輸入的基因有多少個(gè)落在這個(gè)通路中)和Log10(q)(是經(jīng)多重假設(shè)驗(yàn)證校正的p-value)锚烦。

圖6 Pathway and Process Enrichment Analysis

圖片

蛋白蛋白互作

下圖展示了在用戶輸入的基因中發(fā)現(xiàn)的蛋白——蛋白互作網(wǎng)絡(luò)。其數(shù)據(jù)來源于BioGrid帝雇、InWeb_IMOmniPath等數(shù)據(jù)庫涮俄。點(diǎn)擊CYS 圖標(biāo)可以下載這個(gè)網(wǎng)絡(luò)并可以用Cytoscape軟件打開,可以進(jìn)一步調(diào)整圖形布局或加入基因表達(dá)等信息摊求。

圖7 Protein-protein Interaction Enrichment Analysis

圖片

多基因列表聯(lián)合分析

當(dāng)代的多組學(xué)實(shí)驗(yàn)往往生成多個(gè)基因列表禽拔,目前的網(wǎng)絡(luò)工具很少能同時(shí)分析并整合多基因列表刘离,而這恰恰是Metascape的長(zhǎng)處之一。其實(shí)Metascape的”meta”就是來源于多列表的meta-analysis睹栖。下圖以三組過去獨(dú)立發(fā)表的流感宿主因子列表為例進(jìn)行說明硫惕。

圖片

a) Metascape用heatmap讓三組數(shù)據(jù)集共享的和獨(dú)特的生物通路一目了然。b)富集通路也可以以網(wǎng)絡(luò)呈現(xiàn)野来。由于每一組宿主因子用一個(gè)獨(dú)特的顏色表示恼除,我們可以很清楚的發(fā)現(xiàn)Viral gene expression是共享的而Regulation of cell development主要只存在于綠色對(duì)應(yīng)的實(shí)驗(yàn)中。

四曼氛、定制分析

豁辉,時(shí)長(zhǎng)03:44

<input type="checkbox" title="顯示工具欄" class="aria_hidden_abs" wah-hotarea="click" aria-hidden="true" style="margin: 0px; padding: 0px; outline: 0px; caret-color: var(--weui-BRAND); max-width: unset !important; box-sizing: unset !important; overflow-wrap: unset !important; font-family: inherit; font-size: 17px; white-space: normal !important; position: absolute; opacity: 0; overflow: hidden; left: auto; width: 1px; height: 1px;">

五、作者自評(píng)

很多學(xué)者還在采用DAVID做富集通路分析舀患。富集通路分析結(jié)果完全依賴于背后數(shù)據(jù)庫的質(zhì)量徽级。DAVID曾經(jīng)有六年的時(shí)間(2010-2016)沒有維護(hù)數(shù)據(jù)庫,最近的更新也已經(jīng)兩年半了聊浅。獨(dú)立研究表明使用兩年舊的Gene ontology數(shù)據(jù)庫餐抢,用戶平均要丟失20%的最新的生物知識(shí)。所以定期更新數(shù)據(jù)庫的重要性非同小可低匙】鹾郏可惜現(xiàn)實(shí)是目前大家常使用富集分析工具中僅有40%被正常維護(hù),不知讀者目前使用的工具是否屬于幸運(yùn)的一類顽冶。Metascape每月更新背后的40多個(gè)數(shù)據(jù)庫欺抗,以確保提供最準(zhǔn)確的結(jié)果。

Metascape沒有學(xué)習(xí)使用的壁壘强重,因?yàn)闆]有比一鍵Express Analysis更簡(jiǎn)單了绞呈。 雖然好用,Metascape實(shí)現(xiàn)的主要功能卻是不折不扣间景。作者由于多年來在自己的科研項(xiàng)目中都要花大量的時(shí)間進(jìn)行這些生物信息分析报强,所以決定把長(zhǎng)期發(fā)表文章中體會(huì)到的best practices實(shí)現(xiàn)在Metascape中。由于常用的基因列表的分析工具僅限于提供單一通路富集分析拱燃,這就不幸給研究人員造成了列表分析就是等同于知識(shí)驅(qū)動(dòng)的富集分析的誤解。而數(shù)據(jù)驅(qū)動(dòng)的蛋白質(zhì)互作用網(wǎng)絡(luò)分析就鮮有網(wǎng)站支持力惯。其實(shí)除了以上描述的Metascape提供的林林總總的分析功能之外碗誉,其還有非常強(qiáng)大的對(duì)上千個(gè)基因進(jìn)行注釋或者利用知識(shí)庫進(jìn)行成員分析的功能,這些對(duì)于后續(xù)的基因篩選及其重要父晶,詳情請(qǐng)見文章或網(wǎng)站文檔哮缺。要實(shí)現(xiàn)Metascape的這些分析功能對(duì)于生物信息人員都是有難度的。
這個(gè)只需一步就可做富集分析的網(wǎng)站還未發(fā)表就被CNS等引用超過350次 (qq.com)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末甲喝,一起剝皮案震驚了整個(gè)濱河市尝苇,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖糠溜,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件淳玩,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡非竿,警方通過查閱死者的電腦和手機(jī)蜕着,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來红柱,“玉大人承匣,你說我怎么就攤上這事〈盖模” “怎么了韧骗?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)零聚。 經(jīng)常有香客問我袍暴,道長(zhǎng),這世上最難降的妖魔是什么握牧? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任容诬,我火速辦了婚禮,結(jié)果婚禮上沿腰,老公的妹妹穿的比我還像新娘览徒。我一直安慰自己,他們只是感情好颂龙,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布习蓬。 她就那樣靜靜地躺著,像睡著了一般措嵌。 火紅的嫁衣襯著肌膚如雪躲叼。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天企巢,我揣著相機(jī)與錄音枫慷,去河邊找鬼。 笑死浪规,一個(gè)胖子當(dāng)著我的面吹牛或听,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播笋婿,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼誉裆,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了缸濒?” 一聲冷哼從身側(cè)響起足丢,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤粱腻,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后斩跌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绍些,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年滔驶,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了遇革。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡揭糕,死狀恐怖萝快,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情著角,我是刑警寧澤揪漩,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站吏口,受9級(jí)特大地震影響奄容,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜产徊,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一昂勒、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧舟铜,春花似錦戈盈、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至痊夭,卻和暖如春刁岸,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背她我。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工虹曙, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人番舆。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓根吁,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親合蔽。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容