文獻(xiàn)時(shí)間
2005.08
摘要
RNA表達(dá)數(shù)據(jù)的分析越來越普遍衩辟,從中提取生物相關(guān)的信息是一個(gè)很大的挑戰(zhàn)。我們提供了一種方法根穷,叫做基因集富集分析(GSEA)醇蝴,用來實(shí)現(xiàn)這個(gè)目標(biāo)宣肚。它具有相似功能的基因作為一個(gè)基因集,作為操作的單位悠栓。我們通過一些癌癥數(shù)據(jù)來演示其如何進(jìn)行霉涨。發(fā)現(xiàn)在相互獨(dú)立的實(shí)驗(yàn)個(gè)體中,那些單基因分析認(rèn)為沒有相似性的基因惭适,GSEA卻發(fā)現(xiàn)有許多相同的通路笙瑟。GSEA提供在一個(gè)免費(fèi)的軟件包中,并附有初始的1325個(gè)生物定義的數(shù)據(jù)庫癞志。
引言
DNA芯片的表達(dá)分析不再是難點(diǎn)往枷,如何從數(shù)據(jù)中了解內(nèi)部的功能機(jī)制才是關(guān)鍵。
多個(gè)類別的樣本產(chǎn)生不同的表達(dá)數(shù)據(jù)凄杯,我們可以從中得到差異性表達(dá)的基因错洁,并根據(jù)差異性對(duì)這些基因進(jìn)行排序,形成列表L戒突,難點(diǎn)在于從這個(gè)L中提取生物意義屯碴。
常見的方法就是只關(guān)注頂部或者底部(認(rèn)為差異性最大)的基因,進(jìn)而獲得生物性的線索膊存,這個(gè)方法局限性有以下幾點(diǎn):
- 在多重假設(shè)檢驗(yàn)矯正后导而,可能基因在統(tǒng)計(jì)上都不顯著,因芯片技術(shù)的固有噪聲存在隔崎。
- 可能形成的基因序列雖然統(tǒng)計(jì)學(xué)上顯著但是沒有具體的生物學(xué)功能今艺,無法對(duì)其進(jìn)行解釋。
- 單個(gè)基因的差異性分析可能丟失通路的一些效應(yīng)爵卒。一個(gè)通路所有基因整體表達(dá)提升20%可能比一個(gè)基因20fc更具有意義洼滚。
- 當(dāng)不同的小組研究相同的生物系統(tǒng)的時(shí)候,他們統(tǒng)計(jì)學(xué)顯著得到的基因列表可能重疊的很少技潘。
為了解決這個(gè)難題,我們提供了GSEA這個(gè)方法千康,從基因集這個(gè)水平進(jìn)行分析享幽。基因集通過先前有的生物知識(shí)獲得拾弃,一些相關(guān)的通路研究值桩。GSEA分析的目標(biāo)是,確定這些基因集是否在L的頂部或者底部豪椿,從而判斷其對(duì)應(yīng)特定的表型類型奔坟。
我們使用初始GSEA分析來自糖尿病患者和健康對(duì)比的肌肉活檢數(shù)據(jù)携栋。發(fā)現(xiàn)氧化磷酸化的相關(guān)基因在糖尿病患者的體內(nèi)表達(dá)降低,雖然只有20%咳秉。而且這個(gè)結(jié)果已經(jīng)被別其他獨(dú)立實(shí)驗(yàn)證實(shí)婉支。
鑒于這個(gè)成功,我們將GSEA進(jìn)一步發(fā)展形成稱為一個(gè)健壯的表達(dá)數(shù)據(jù)分析模塊澜建,研究特點(diǎn)向挖,改善效果,使其適用性更加廣泛炕舵。
本文何之,我們提供了所有的數(shù)學(xué)描述,以及一些例子來說明它的功效咽筋。我們已經(jīng)創(chuàng)建了一個(gè)軟件包GSEA-P附帶一個(gè)初始數(shù)據(jù)集(MSigDB)溶推,兩者都是免費(fèi)的。
方法
對(duì)于兩類樣本1和2奸攻,根據(jù)基因表達(dá)的相關(guān)性對(duì)所有基因進(jìn)行排序(圖1A)蒜危,根據(jù)任何合適的方法進(jìn)行基因分類。
考慮一個(gè)已經(jīng)定義好的子集基因集S(各種已知生物學(xué)方法)舞箍,GSEA的目標(biāo)是確定S在L中是隨機(jī)分布還有有向的存在于頂部或底部舰褪。我們傾向于認(rèn)為與特定表型相關(guān)的集合會(huì)呈現(xiàn)后述的一種分布。
以下是GSEA方法的三個(gè)關(guān)鍵步驟(細(xì)節(jié)見附錄):
- 富集分?jǐn)?shù)計(jì)算
我們計(jì)算了一個(gè)參數(shù)疏橄,富集分?jǐn)?shù)(ES)占拍,它表示了基因集S在L的極至(兩端)中過度表達(dá)的程度。從上至下遍歷L捎迫,遇到屬于S的基因就記錄一個(gè)增值晃酒,不屬于就記錄一個(gè)減值。值變化的大小取決于基因和表型的相關(guān)性窄绒。富集分?jǐn)?shù)取所有遍歷時(shí)偏離0最大的值愤惰,它對(duì)應(yīng)于加權(quán)的Kolmogorov-Smirnov統(tǒng)計(jì)量(圖1B)。 - ES的顯著水平估計(jì)
我們使用基于經(jīng)驗(yàn)表型的置換測(cè)試匀奏,對(duì)ES進(jìn)行統(tǒng)計(jì)學(xué)顯著性檢驗(yàn)瓶殃,保留了基因表達(dá)數(shù)據(jù)的復(fù)雜相關(guān)性。我們先置換表型位谋,然后計(jì)算出置換后的ES山析,各種表型都會(huì)得到ES,形成一個(gè)ES的分布掏父。然后根據(jù)這個(gè)分布來計(jì)算我們初始ES的顯著性笋轨,顯著意味著基因集不均勻分布。這個(gè)方法保留了基因之間的相關(guān)性,同時(shí)找到了具有生物學(xué)意義的顯著性表示方式爵政。 - 多重假設(shè)檢驗(yàn)的矯正
當(dāng)所有基因集都被評(píng)估后仅讽,我們對(duì)其進(jìn)行多重假設(shè)檢驗(yàn)矯正。首先根據(jù)基因集的大小對(duì)所有基因集進(jìn)行標(biāo)準(zhǔn)化得到標(biāo)準(zhǔn)化富集分?jǐn)?shù)(NES)钾挟。然后對(duì)于每一個(gè)NES洁灵,控制其假陽性率來計(jì)算錯(cuò)誤發(fā)現(xiàn)率(FDR),F(xiàn)DR用于評(píng)估給定基因集中發(fā)現(xiàn)假陽性的概率等龙。
與以往方法的不同处渣,在分?jǐn)?shù)計(jì)算中,通過每個(gè)基因和表型的相關(guān)性賦予變化權(quán)重蛛砰,使ES能夠反映與表型的相關(guān)性罐栈。然后發(fā)現(xiàn),這樣做會(huì)導(dǎo)致ES分布不對(duì)稱(因?yàn)樵S多基因和多個(gè)表型相關(guān))泥畅,因此分開考慮正荠诬,負(fù)ES基因集的顯著性。
原來使用FWER進(jìn)行多重假設(shè)檢驗(yàn)位仁,但是太過保守柑贞,導(dǎo)致沒有顯著性結(jié)果。現(xiàn)在使用FDR進(jìn)行控制聂抢。
結(jié)果顯示這個(gè)方法有很強(qiáng)的廣泛適用性钧嘶。對(duì)富集的偵測(cè)靈敏度很高,而且保留了上述氧化磷酸化的例子的結(jié)果琳疏。這個(gè)方法已經(jīng)被整合為GSEA-P有决。
前導(dǎo)邊緣基因集(leading-edge subset)
基因集可以通過各種方法進(jìn)行確定,但是一般不會(huì)所有的基因都參與到同一個(gè)生物過程空盼。經(jīng)常需要將那些對(duì)ES分?jǐn)?shù)貢獻(xiàn)高的基因提取出來书幕。我們將S基因集中,那些在ES值達(dá)到最高之前的基因稱為前導(dǎo)邊緣基因集揽趾。這些基因可以看做是富集的主要貢獻(xiàn)基因台汇。
檢測(cè)這些前導(dǎo)邊緣基因集能夠得到一個(gè)基因集中生物學(xué)上重要的子集,接下來我們關(guān)于癌細(xì)胞系中P53狀態(tài)的分析展示了這一點(diǎn)篱瞎。已有研究苟呐,一個(gè)手動(dòng)策劃的基因集,一個(gè)計(jì)算得到的聚類基因集俐筋,共享的基因正是人類糖尿病中重要的調(diào)節(jié)因子掠抬。證明可以通過高分基因集之間共享的基因集對(duì)應(yīng)的前導(dǎo)邊緣基因集對(duì)它們進(jìn)行分類,這種分類方法可以確定這些高分基因集是否相關(guān)到相同的生物過程校哎。
各種GSEA方法
GSEA不僅可以應(yīng)用于上述出現(xiàn)的差異基因排序列表,還可以應(yīng)用與其他方法形成的排序列表。
一些小基因集中闷哆,沒有足夠的樣本數(shù)量來進(jìn)行嚴(yán)格的顯著性水平檢測(cè)腰奋,進(jìn)而對(duì)基因進(jìn)行排序。對(duì)于這種情況抱怔,可以假定基因在列表中隨機(jī)分布劣坊,然后通過改變基因序列計(jì)算P值。這個(gè)方法就比較寬松:它忽略了基因之間的相關(guān)性屈留,會(huì)過高估計(jì)基因的顯著性水平局冰,導(dǎo)致產(chǎn)生假陽性,對(duì)于假說的形成比較有幫助灌危,所以也提供康二。
基因還可以通過和一個(gè)特定模式的相關(guān)性進(jìn)行排序。
人類基因集的初始目錄
我們創(chuàng)建了1325個(gè)初始的基因集勇蝙,叫做MSigDB 1.0沫勿,主要有4類基因集組成。
- 細(xì)胞遺傳學(xué)集
這個(gè)目錄有味混,24個(gè)人類染色體都有一個(gè)對(duì)應(yīng)的基因集产雹,295個(gè)基因集對(duì)應(yīng)細(xì)胞遺傳學(xué)研究。 - 功能集
472個(gè)基因集對(duì)應(yīng)與特定的信號(hào)通路和代謝翁锡,50個(gè)基因集對(duì)應(yīng)于遺傳和化學(xué)擾動(dòng)的核心調(diào)控 - 監(jiān)督模塊集
人類基因啟動(dòng)子區(qū)域57個(gè)保守的調(diào)控模塊 - 鄰近集(Neighborhood sets)
427個(gè)以癌癥相關(guān)基因?yàn)橹行牡南噜徎虻募?/li>
結(jié)果
男性和女性的淋巴母細(xì)胞
我們從15個(gè)男性和17個(gè)女性的淋巴母細(xì)胞中獲得表達(dá)譜蔓挖,想要鑒定與性別相關(guān)的基因。
首先對(duì)C1基因集進(jìn)行富集測(cè)試馆衔,發(fā)現(xiàn)在Y染色體上富集有至少15個(gè)基因瘟判。X染色提上的富集情況并不能說明問題,因?yàn)閯┝垦a(bǔ)償效應(yīng)的存在哈踱。
然后對(duì)C2基因集進(jìn)行富集測(cè)試荒适,發(fā)現(xiàn)了三個(gè)基因功能集。
癌細(xì)胞系中的p53
我們使用NCI-60癌細(xì)胞系的表達(dá)數(shù)據(jù)开镣,想要鑒定轉(zhuǎn)錄因子p53的調(diào)控靶標(biāo)刀诬。已經(jīng)報(bào)道的p53突變中有17種為正常,33種為不正常邪财。
通過對(duì)C2進(jìn)行富集()鑒定了5個(gè)基因集陕壹,都與p53功能相關(guān):
- p53信號(hào)通路相關(guān)蛋白的基因,會(huì)引起DNA損傷树埠,進(jìn)而細(xì)胞循環(huán)停止
- p53下游靶標(biāo)集合
- 輻射誘導(dǎo)的p53相關(guān)基因
- 缺氧誘導(dǎo)的p53相關(guān)基因
- 熱休克蛋白信號(hào)通路糠馆,避免細(xì)胞應(yīng)激性死亡
對(duì)于()有一個(gè)基因集:Ras信號(hào)通路相關(guān)基因,另外兩個(gè)接近顯著性閾值的基因集為Ngf和Igf1信號(hào)通路怎憋。我們對(duì)這三個(gè)基因集的前沿子集進(jìn)行研究又碌,它們共有的子集對(duì)應(yīng)MAPK通路的上調(diào)九昧,這個(gè)通路又是,的關(guān)鍵不同點(diǎn)毕匀。
急性白血病
24個(gè)急性淋巴細(xì)胞白血仓ァ(ALL)病人的表達(dá)數(shù)據(jù)和24個(gè)急性髓性白血病(AML)病人的表達(dá)數(shù)據(jù)皂岔。
我們首先對(duì)C1進(jìn)行富集蹋笼,在ALL>AML時(shí),獲得5個(gè)基因集躁垛,功能都與ALL的增加和AML的減少相關(guān)剖毯,容易解釋:
- 5q31:AML的細(xì)胞遺傳學(xué)相關(guān),AML病人染色體5q缺失的主要位點(diǎn)
- 17q23:是骨髓惡性腫瘤的基因重排主要位點(diǎn)教馆。
- 13q14:包含RB基因座逊谋,在AML中經(jīng)常缺失。
- 6q21:一個(gè)常見的染色體脆弱位點(diǎn)活玲,經(jīng)常出現(xiàn)在血液系統(tǒng)惡性腫瘤中涣狗。
- 14q32:Ig抗體的重鏈位點(diǎn)超過100多個(gè)基因的表達(dá),幾乎占據(jù)整個(gè)淋巴系統(tǒng)舒憾,但是這個(gè)是組織特異性的表達(dá)而不是染色體的異常
在AML>ALL時(shí)镀钓,沒有顯著富集的基因集,可能表示ALL中缺失的相對(duì)頻率镀迂。用細(xì)胞遺傳學(xué)基因組的分析表明GSEA可以鑒定癌癥亞型中的染色體異常丁溅。
兩種肺癌
GSEA的一個(gè)目標(biāo)就是形成更強(qiáng)大的功能來比較獨(dú)立得到的數(shù)據(jù)(不同平臺(tái))從而得到比單基因分析更加一致的結(jié)果。為了測(cè)試方法的健壯性探遵,我們采用兩個(gè)研究的數(shù)據(jù)Boston和Michian窟赏,目的是評(píng)估基因集分析相對(duì)于單基因分析是否更加能揭示數(shù)據(jù)集中的一般特征。
兩項(xiàng)研究采用的都是肺腺癌病人的基因表達(dá)譜(Boston:62箱季,Michian:86)涯穷,而且都附帶臨床信息(“good”,“poor”)藏雏。我們發(fā)現(xiàn)拷况,在進(jìn)行多重假設(shè)檢驗(yàn)的矯正后,沒有基因達(dá)到顯著性閾值掘殴。
從單基因分析的角度看赚瘦,這兩個(gè)數(shù)據(jù)集幾乎沒有共同點(diǎn)。先采用一個(gè)傳統(tǒng)的方法:對(duì)比和表型相關(guān)性比較高的一些基因奏寨。定義為Boston集中與“poor”相關(guān)性最高的100個(gè)基因起意,同理,兩個(gè)基因集只有很少的重疊基因(12個(gè))病瞳,而且置換檢驗(yàn)幾乎不顯著揽咕。當(dāng)我們將Stanford研究的數(shù)據(jù)添加悲酷,進(jìn)行三個(gè)基因集的重疊時(shí),只有一個(gè)重疊基因心褐,而且這些重疊基因也沒有明顯的生物功能主題舔涎。
然后我們嘗試GSEA是否能揭示兩個(gè)數(shù)據(jù)集中的共同點(diǎn)。將基因集和Michian所有基因列表進(jìn)行對(duì)比逗爹,發(fā)現(xiàn)有很顯著的富集,反過來同樣嚎于。
證明了GSEA可以發(fā)現(xiàn)不同來源數(shù)據(jù)集的共同之處掘而,我們進(jìn)一步研究GSEA能否鑒定相關(guān)的功能集。于是我們將兩個(gè)基因集對(duì)C2進(jìn)行富集分析于购,相對(duì)于單基因分析沒有發(fā)現(xiàn)顯著性基因袍睡,GSEA在Boston中發(fā)現(xiàn)了8個(gè)功能集,Michian中發(fā)現(xiàn)了11個(gè)功能集肋僧。
而且斑胜,兩個(gè)數(shù)據(jù)集中的富集基因有很大的重疊。大約一半的基因集是兩項(xiàng)研究共有的嫌吠,以及附加的一項(xiàng)研究止潘,雖然不是完完全全,但是都與相同的生物過程相關(guān)辫诅。更為詳細(xì)的凭戴,我們發(fā)現(xiàn)了一個(gè)被端粒酶,兩個(gè)不同的tRNA合成相關(guān)基因組炕矮,兩種不同的胰島素相關(guān)基因和兩種不同的p53相關(guān)基因上調(diào)的基因組么夫。因此,Boston8個(gè)基因集中的5個(gè)和Michian11個(gè)基因集中的6個(gè)相同或者相關(guān)肤视。
為了有更深入的了解档痪,我們將分析的數(shù)據(jù)集擴(kuò)展到那些沒有滿足FDR標(biāo)準(zhǔn)的數(shù)據(jù)。使用每個(gè)研究的分?jǐn)?shù)最高的20個(gè)基因子集邢滑,共60個(gè)腐螟,以及它們對(duì)應(yīng)的額前沿子集。上述在Boston和Michian重疊中殊鞭,有端粒酶和p53基因遭垛。端粒酶激活是肺腺癌發(fā)病機(jī)制的關(guān)鍵特征。
在三個(gè)研究中操灿,出現(xiàn)了兩個(gè)生物功能主題锯仪,細(xì)胞的快速生殖和氨基酸的生物合成:
- 我們?cè)谌齻€(gè)研究中都發(fā)現(xiàn)了細(xì)胞快速增殖的相關(guān)跡象,包括Ras激活趾盐,細(xì)胞循環(huán)庶喜,對(duì)缺氧的反應(yīng)等功能相關(guān)的基因集小腊。超過1/3的基因集都和這些過程相關(guān),而且這些過程都在惡性腫瘤中發(fā)現(xiàn)久窟。
- 同時(shí)發(fā)現(xiàn)氨基酸生物合成的提高的現(xiàn)象秩冈,發(fā)現(xiàn)了17個(gè)與氨基酸和核酸代謝,免疫調(diào)節(jié)斥扛,mTor喜好轉(zhuǎn)導(dǎo)相關(guān)的基因集入问。
討論
傳統(tǒng)的單基因分析,雖然能夠給出具有差異性的基因但是沒有明顯的生物過程上的解釋稀颁。
GSEA從基因集的水平對(duì)數(shù)據(jù)進(jìn)行分析芬失。這種方法一開始被用來發(fā)現(xiàn)人類糖尿病中改變的代謝途徑,并隨后用于發(fā)現(xiàn)涉及彌漫性大B細(xì)胞淋巴瘤匾灶,涉及前列腺癌的營(yíng)養(yǎng)感應(yīng)途徑以及比較小鼠與人類的表達(dá)譜的過程棱烂。在本文中,我們將原始方法改進(jìn)為靈敏阶女,穩(wěn)健的分析方法和工具颊糜,具有更廣泛的適用性以及大型基因組數(shù)據(jù)庫。GSEA可以拓展其他數(shù)據(jù)集秃踩,如血清蛋白質(zhì)組學(xué)數(shù)據(jù)衬鱼,基因分型信息或代謝物譜。
與單基因分析的各種方法相比吞瞪,GSEA有一些優(yōu)點(diǎn):
- 更容易從生物功能方面解釋數(shù)據(jù)(有一些顯著但是沒有功能注釋的單基因)
- 當(dāng)基因集中的基因高度相關(guān)的時(shí)候馁启,GSEA可以提高信噪比,從而能夠偵測(cè)單基因的變化
- 前沿集能夠幫助定義子集來解釋結(jié)果
與其他基因集分析的各種方法(重疊統(tǒng)計(jì)原理)相比芍秆,GSEA的優(yōu)點(diǎn):
- GSEA考慮的是所有的基因惯疙,不僅僅是那些差異性顯著的基因
- GSEA通過置換類別來進(jìn)行顯著性測(cè)試,保留了基因之間的相關(guān)性
GSEA最大的特定就是它的靈活妖啥,龐大且持續(xù)更新的內(nèi)置功能集霉颠。