GSEA-基因集富集分析

1.為什么寫(xiě)?

網(wǎng)上教程一抓一大把榛瓮,有的能重復(fù)铺董,有的不能重復(fù)不了,很多原因禀晓。別人能做的不代表你能復(fù)制精续,實(shí)踐出真知。

不做搬運(yùn)工粹懒,只寫(xiě)有用的重付,防止以后忘記。每個(gè)人理解不同凫乖,記錄下來(lái)棵帽,供自己今后參考樱蛤,順便分享他人邑商。

2.GSEA基本概念

Gene Set Enrichment Analysis

思路:

使用預(yù)定義的基因集(通常來(lái)自功能注釋或先前實(shí)驗(yàn)的結(jié)果)督函,將基因按照在兩類樣本中的差異表達(dá)程度排序,然后檢驗(yàn)預(yù)先設(shè)定的基因集合是否在這個(gè)排序表的頂端或者底端富集嚣镜。

基因集富集分析檢測(cè)基因集合而不是單個(gè)基因的表達(dá)變化爬迟,因此可以包含這些細(xì)微的表達(dá)變化,預(yù)期得到更為理想的結(jié)果菊匿。

比較GO/KEGG等富集分析:

GO/KEGG差異基因的一刀切法——僅關(guān)注少數(shù)幾個(gè)顯著上調(diào)或下調(diào)的基因付呕,容易遺漏部分差異表達(dá)不顯著卻有重要生物學(xué)意義的基因,忽略一些基因的生物特性跌捆、基因調(diào)控網(wǎng)絡(luò)之間的關(guān)系及基因功能和意義等有價(jià)值的信息徽职。

GSEA不需要指定明確的差異基因閾值,算法根據(jù)實(shí)際整體趨勢(shì)分析佩厚。

3.MSigDB數(shù)據(jù)庫(kù)

http://software.broadinstitute.org/gsea/msigdb

定義了已知基因集姆钉,包括H和C1-C7八個(gè)系列(Collection/cluster),每個(gè)系列內(nèi)容為:

H: hallmark gene sets (效應(yīng))特征基因集合,共50組潮瓶;

C1: positional gene sets 位置基因集合陶冷,根據(jù)染色體位置,共326個(gè)毯辅;

C2: curated gene sets:(專家)共識(shí)基因集合埂伦,基于通路、文獻(xiàn)等(包括KEGG)思恐;

C3: motif gene sets:模式基因集合沾谜,主要包括microRNA和轉(zhuǎn)錄因子靶基因兩部分;

C4: computational gene sets:計(jì)算基因集合胀莹,通過(guò)挖掘癌癥相關(guān)芯片數(shù)據(jù)定義的基因集合基跑;

C5: GO gene sets:Gene Ontology 基因本體論(包括BP/CC/MF);

C6: oncogenic signatures:癌癥特征基因集合描焰,大部分來(lái)源于NCBI GEO 未發(fā)表芯片數(shù)據(jù)媳否;

C7: immunologic signatures: 免疫相關(guān)基因集合。

后續(xù)做分析時(shí)需要從中選擇感興趣的基因集栈顷。

4.分析過(guò)程

1)軟件下載(需java環(huán)境)

http://software.broadinstitute.org/gsea/downloads.jsp

2)設(shè)置

a. 準(zhǔn)備基因表達(dá)量矩陣文件:txt或gct(最好將基因名轉(zhuǎn)換為symbol,后續(xù)參數(shù)不用chip來(lái)轉(zhuǎn)化ID)

image

數(shù)據(jù)格式可參考:

http://www.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats

測(cè)試數(shù)據(jù):

http://software.broadinstitute.org/gsea/datasets.jsp

b. 準(zhǔn)備說(shuō)明文件:cls

image

第一行:樣本數(shù)/分組數(shù)/always1

第二行:分組名

第三行:分組信息(我這里28個(gè)上部位嵌巷,21個(gè)下部位)

load data萄凤,成功會(huì)顯示

c. 選擇已知基因集(即以上8個(gè)cluster)

run GSEA,設(shè)置參數(shù)

Gene sets database:8個(gè)cluster及其分支搪哪,可多選

image

我這里選擇kegg和all GO靡努,若是想研究更多,可8個(gè)cluster全部選擇all晓折。

d. 設(shè)置參數(shù)

Required fields

expression dataset:選擇表達(dá)量文件

number of permutations:置換次數(shù)惑朦,越大越好,但對(duì)計(jì)算有要求漓概,我選擇500

phenotype labels:選擇表型說(shuō)明文件cls

collapse dataset to gene symbols:若是gene symbols編號(hào)漾月,選擇false(我這里已經(jīng)提前轉(zhuǎn)換),否則選擇true,即用chip來(lái)對(duì)ID轉(zhuǎn)換

permutation type:置換類型胃珍,#一般每組樣本數(shù)目大于7個(gè)時(shí)梁肿,建議選擇phenotype,否則選擇gene sets觅彰,官方文檔有說(shuō)明#吩蔑,我這里還是選擇gene_set

chip platform:和上面gene symbols參數(shù)對(duì)應(yīng),不需轉(zhuǎn)換不用選擇填抬,否則選擇對(duì)應(yīng)的芯片

Basic fields

analysis name:項(xiàng)目名

save results in this folder:結(jié)果保存路徑

image

其他我都設(shè)置為默認(rèn)烛芬,沒(méi)有深加探索,可看官網(wǎng),最后點(diǎn)run

GSEA運(yùn)行的原理可分為三步:1) 計(jì)算富集分?jǐn)?shù)(Enrichment Score赘娄,ES)仆潮;2) 估計(jì)富集分?jǐn)?shù)的顯著性水平;3) 矯正多重假設(shè)檢驗(yàn)擅憔。

完成后顯示:

image

5.結(jié)果解讀

保存文件路徑中生成一堆文件:

image

最惩疑粒看的是這種圖:

image
image

** 原理:**

根據(jù)所有基因在兩組樣本(case-control,我這里是upper-lower)的差異度量不同(共有六種差異度量暑诸,默認(rèn)是signal 2 noise蚌讼,GSEA官網(wǎng)有提供公式,也可以選擇大家熟悉的foldchange)个榕,根據(jù)差異度量大小排序篡石,并且Z-score標(biāo)準(zhǔn)化。圖中間的豎杠西采,就是每個(gè)gene set里的基因在所有排序好基因的位置凰萨,如果gene set里的基因集中在所有基因的前部分,就是在case里面富集械馆,如果集中在后面部分胖眷,就是在control里面富集著(結(jié)果中的熱圖就是豎杠的具象)。

我們一般關(guān)注ES值霹崎,峰出現(xiàn)在前端還是后端(ES值大于0在前端珊搀,小于0在后端)以及Leading-edge subset(即對(duì)富集貢獻(xiàn)最大的部分,領(lǐng)頭亞集)尾菇;在ES圖中出現(xiàn)領(lǐng)頭亞集的形狀境析,表明這個(gè)功能基因集在某處理?xiàng)l件下具有更顯著的生物學(xué)意義。

ES算法:

image

每個(gè)基因在gene set里的ES score取決于這個(gè)基因是否屬于該gene set及其差異度量派诬,上圖的差異度量就是FC(foldchange),將每個(gè)gene set里的所有基因的ES score一個(gè)個(gè)加起來(lái)劳淆,叫running ES score,直到ES score達(dá)到最大值默赂,就是這個(gè)gene set最終的ES score沛鸵。

可以一一查看每個(gè)圖,也可點(diǎn)擊上面的GSEA reports查看success的網(wǎng)頁(yè)報(bào)告:

image

gsea_report報(bào)告結(jié)果中會(huì)有一個(gè)類似下圖的表格缆八,主要關(guān)注這三個(gè)部分:

  1. 標(biāo)準(zhǔn)化富集分?jǐn)?shù)(NES)谒臼;

  2. 標(biāo)準(zhǔn)化顯著性水平(NOM p-val);

  3. 矯正多重假設(shè)檢驗(yàn)(FDR q-val)耀里;

一般認(rèn)為NES絕對(duì)值≧ 1.0蜈缤,NOM p-val ≦ 0.05,F(xiàn)DR q-val ≦ 0.25是有意義的基因集合冯挎,當(dāng)然也要結(jié)合具體情況具體分析底哥。

image

如果英語(yǔ)好咙鞍,直接看官方文檔,很詳細(xì):http://www.gsea-msigdb.org/gsea/doc/GSEAUserGuideFrame.html?_Interpreting_GSEA_Results

References:

https://mp.weixin.qq.com/s/NnRfeTLDb-42a8CV3kymZQ

http://www.bio-info-trainee.com/1282.html

http://www.bioinfo-scrounger.com/archives/557

https://mp.weixin.qq.com/s?src=11&timestamp=1535510844&ver=1089&signature=2333yjeN-l1IB5KVYybBbDKOujytHQe8id7ztWsR0aSthe-uW2tNRlCloBh4TGFffss0ky9UrcuqEkmLBug2PC*LQN79FaHzZEe-c5eGtBQ-8UacB1NqZHTQcw0BuZIX&new=1

https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655754973&idx=1&sn=3b87d5cb8ddd2d5d77e413e9a87342da&chksm=808846e3b7ffcff5a6b41985b707f52170f20eabe15fc43264b3d14a3ccf4100263789eab856&mpshare=1&scene=21&srcid=1209nycSnM84dUY4eRL3cWBP#wechat_redirect

https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655753566&idx=2&sn=5b5b2c93a7618a69da2cbc6638f03da0&chksm=80884960b7ffc076af53ae74caadb5dbb25d240c31660792e8727964d0177d6a17af7ca5fc5c&mpshare=1&scene=21&srcid=1209df2mYAyd4WSClBsfwGwb#wechat_redirect

ES算法:http://www.baderlab.org/CancerStemCellProject/VeroniqueVoisin/AdditionalResources/GSEA

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末趾徽,一起剝皮案震驚了整個(gè)濱河市续滋,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌孵奶,老刑警劉巖疲酌,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異了袁,居然都是意外死亡朗恳,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)载绿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)粥诫,“玉大人,你說(shuō)我怎么就攤上這事崭庸』辰” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵怕享,是天一觀的道長(zhǎng)执赡。 經(jīng)常有香客問(wèn)我,道長(zhǎng)函筋,這世上最難降的妖魔是什么沙合? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮驻呐,結(jié)果婚禮上灌诅,老公的妹妹穿的比我還像新娘芳来。我一直安慰自己含末,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布即舌。 她就那樣靜靜地躺著佣盒,像睡著了一般。 火紅的嫁衣襯著肌膚如雪顽聂。 梳的紋絲不亂的頭發(fā)上肥惭,一...
    開(kāi)封第一講書(shū)人閱讀 51,624評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音紊搪,去河邊找鬼蜜葱。 笑死,一個(gè)胖子當(dāng)著我的面吹牛耀石,可吹牛的內(nèi)容都是我干的牵囤。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼揭鳞!你這毒婦竟也來(lái)了炕贵?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤野崇,失蹤者是張志新(化名)和其女友劉穎称开,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體乓梨,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡鳖轰,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了督禽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片脆霎。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖狈惫,靈堂內(nèi)的尸體忽然破棺而出睛蛛,到底是詐尸還是另有隱情,我是刑警寧澤胧谈,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布忆肾,位于F島的核電站,受9級(jí)特大地震影響菱肖,放射性物質(zhì)發(fā)生泄漏客冈。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一稳强、第九天 我趴在偏房一處隱蔽的房頂上張望场仲。 院中可真熱鬧,春花似錦退疫、人聲如沸渠缕。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)亦鳞。三九已至,卻和暖如春棒坏,著一層夾襖步出監(jiān)牢的瞬間燕差,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工坝冕, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留徒探,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓喂窟,卻偏偏與公主長(zhǎng)得像测暗,于是被迫代替她去往敵國(guó)和親吵血。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容