科研軟件81難之3---GSEA的富集分析原理

滿月拋江第三難

基因集的概念
GSEA全稱Gene Set Enrichment Analysis,GSVA全稱Gene Set Variation Analysis僧家,它們都是基于基因集開展的分析,因此我們先要了解基因集的定義瓢谢〖婧牵基因集顧名思義就是一些基因的集合兔辅,任何一些基因放在一起都可以叫做基因集,但是我們用來分析的基因集要求有一定的生物學(xué)意義击喂。最常見的基因集數(shù)據(jù)庫如GO與KEGG维苔,它們一個(gè)按照基因本體論將基因分門別類,一個(gè)按照代謝通路將相關(guān)基因集合在一起懂昂。除此之外我們還可以按轉(zhuǎn)錄因子調(diào)控網(wǎng)絡(luò)介时、共表達(dá)網(wǎng)絡(luò)、定義生物狀態(tài)的marker基因列表等把基因集合成有一定生物學(xué)意義的基因集。

MSigDB基因集數(shù)據(jù)庫

GSEA是由Broad研究所開發(fā)的一種富集方法沸柔,他們在提出該方法的同時(shí)還提供了一個(gè)基因集數(shù)據(jù)庫——MSigdb循衰。它從位置,功能褐澎,代謝途徑会钝,靶標(biāo)結(jié)合等多種角度出發(fā),構(gòu)建出了許多的基因集合工三,Broad研究所將他們構(gòu)建的基因集合保存在MSigDB迁酸,官網(wǎng)地址如下:http://software.broadinstitute.org/gsea/msigdb/index.jsp在MSigDB中,將所有的基因集劃分為以下9大類別:

1. H:hallmark gene sets

特征基因集徒蟆,由定義生物狀態(tài)和進(jìn)程的marker基因組成胁出。

2. C1:positional gene sets

位置基因集,包含人類每條染色體上的不同cytoband區(qū)域?qū)?yīng)的基因集合段审。

3. C2:curated gene sets

代謝通路基因集全蝶,包含KEGG, Reactome, BioCarta數(shù)據(jù)庫,以及文獻(xiàn)和專家支持的基因集信息寺枉。

4. C3:motif gene sets

靶基因集抑淫,包含了miRNA靶基因集和轉(zhuǎn)錄因子調(diào)控基因集兩大類。

5. C4:computational gene sets

計(jì)算基因集姥闪,計(jì)算機(jī)軟件預(yù)測出來的基因集始苇,主要是和癌癥相關(guān)的基因。

6. C5:GO gene sets

基因本體基因集筐喳,包含了Gene Ontology對應(yīng)的基因集合催式。

7. C6:oncogenic signatures

癌癥擾動(dòng)基因集,來源于藥物處理腫瘤后基因差異表達(dá)數(shù)據(jù)避归,包含已知條件處理后基因表達(dá)量發(fā)生變化的基因荣月。

8. C7:immunologic signatures

根據(jù)在人體組織的單細(xì)胞測序研究中確定的簇標(biāo)記物精選而來的。

免疫基因集梳毙,包含了免疫系統(tǒng)功能相關(guān)的基因集合哺窄。

9. C8:| [cell type signature gene sets]

GSEA的分析原理
常規(guī)GO/KEGG富集分析需要設(shè)定閾值過濾差異基因,閾值太寬富集的結(jié)果太多账锹,閾值太嚴(yán)又可能會(huì)遺漏一些關(guān)鍵結(jié)果萌业。GO/KEGG富集的結(jié)果通常還很寬泛,并不能很好地解釋生物學(xué)現(xiàn)象奸柬。有鑒于此生年,Broad研究所開發(fā)了基因集富集分析(GSEA)方法。GSEA使用無監(jiān)督算法鸟缕,不用過濾任何基因晶框,配合MSigDB數(shù)據(jù)庫使用排抬,更容易找到解釋生物學(xué)現(xiàn)象的基因集。其原理如下:

圖片

GSEA分析要先將樣本做組間對比分析授段,GSEA自帶9種分析方法蹲蒲,分為基因表達(dá)值差異分析和相關(guān)性分析兩大類。對于Case/Contral的實(shí)驗(yàn)設(shè)計(jì)侵贵,差異分析方法更為常用届搁,這其中又以默認(rèn)的信噪比和大家熟悉的差異倍數(shù)用的最多。對比分析之后要按結(jié)果將基因排序窍育,以差異倍數(shù)方法為例卡睦,把所有基因按差異倍數(shù)(FC)的值降序排列以供后續(xù)分析。上圖小人腳下的小方塊代表排序好的差異基因列表漱抓,藍(lán)色之外的其他色塊代表屬于某個(gè)基因集的基因表锻,如黃色屬于基因集A,綠色屬于基因集B乞娄。最下面高低不等的豎條代表與基因列表對應(yīng)的FC值雷厂,紅色上調(diào)鱼的、藍(lán)色下調(diào)蔗牡、黃色沒有變化臂容。基因集的富集分析需要經(jīng)歷三步:

  1. 基因集A富集分析時(shí)范删,小人從基因列表的左端走到右端蕾域,每經(jīng)過一個(gè)藍(lán)色基因扣分,每遇到一個(gè)黃色基因加分到旦,扣分時(shí)與FC無關(guān)旨巷,加分時(shí)考慮FC的權(quán)重√硗基因集A最終的富集分?jǐn)?shù)(ES)是小人曾經(jīng)得過的最高/低分契沫,實(shí)際公式比這復(fù)雜,但基本理念如此昔汉。

  2. 采用置換檢驗(yàn)計(jì)算基因集A的顯著性,即p值拴清。

  3. 基因集A富集分析完成后靶病,按上述同樣的方法完成基因集B、C直至所有輸入基因集的分析口予。所有需要富集分析的基因集都計(jì)算ES和p值之后娄周,將ES轉(zhuǎn)換為標(biāo)準(zhǔn)富集分?jǐn)?shù)(NES),并計(jì)算校正后p值沪停。

聽完我的解釋之后再看官方的解釋可能更容易理解:

圖片

A GSEA overview illustrating the method. (A) An expression dataset sorted by correlation with phenotype, the corresponding heat map, and the ‘‘gene tags,’’ i.e., location of genes from a set S within the sorted list. (B) Plot of the running sum for S in the dataset, including the location of the maximum enrichment score (ES) and the leading-edge subset.

原文鏈接

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末煤辨,一起剝皮案震驚了整個(gè)濱河市裳涛,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌众辨,老刑警劉巖端三,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異鹃彻,居然都是意外死亡郊闯,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門蛛株,熙熙樓的掌柜王于貴愁眉苦臉地迎上來团赁,“玉大人,你說我怎么就攤上這事谨履』渡悖” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵笋粟,是天一觀的道長怀挠。 經(jīng)常有香客問我,道長矗钟,這世上最難降的妖魔是什么唆香? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮吨艇,結(jié)果婚禮上躬它,老公的妹妹穿的比我還像新娘。我一直安慰自己东涡,他們只是感情好冯吓,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著疮跑,像睡著了一般组贺。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上祖娘,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天失尖,我揣著相機(jī)與錄音,去河邊找鬼渐苏。 笑死掀潮,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的琼富。 我是一名探鬼主播仪吧,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼鞠眉!你這毒婦竟也來了薯鼠?” 一聲冷哼從身側(cè)響起择诈,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎出皇,沒想到半個(gè)月后羞芍,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡恶迈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年涩金,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片暇仲。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡步做,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出奈附,到底是詐尸還是另有隱情全度,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布斥滤,位于F島的核電站将鸵,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏佑颇。R本人自食惡果不足惜顶掉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望挑胸。 院中可真熱鬧痒筒,春花似錦、人聲如沸茬贵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽解藻。三九已至老充,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間螟左,已是汗流浹背啡浊。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留胶背,地道東北人虫啥。 一個(gè)月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像奄妨,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子苹祟,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容