滿月拋江第三難
基因集的概念
GSEA全稱Gene Set Enrichment Analysis,GSVA全稱Gene Set Variation Analysis僧家,它們都是基于基因集開展的分析,因此我們先要了解基因集的定義瓢谢〖婧牵基因集顧名思義就是一些基因的集合兔辅,任何一些基因放在一起都可以叫做基因集,但是我們用來分析的基因集要求有一定的生物學(xué)意義击喂。最常見的基因集數(shù)據(jù)庫如GO與KEGG维苔,它們一個(gè)按照基因本體論將基因分門別類,一個(gè)按照代謝通路將相關(guān)基因集合在一起懂昂。除此之外我們還可以按轉(zhuǎn)錄因子調(diào)控網(wǎng)絡(luò)介时、共表達(dá)網(wǎng)絡(luò)、定義生物狀態(tài)的marker基因列表等把基因集合成有一定生物學(xué)意義的基因集。
MSigDB基因集數(shù)據(jù)庫
GSEA是由Broad研究所開發(fā)的一種富集方法沸柔,他們在提出該方法的同時(shí)還提供了一個(gè)基因集數(shù)據(jù)庫——MSigdb循衰。它從位置,功能褐澎,代謝途徑会钝,靶標(biāo)結(jié)合等多種角度出發(fā),構(gòu)建出了許多的基因集合工三,Broad研究所將他們構(gòu)建的基因集合保存在MSigDB迁酸,官網(wǎng)地址如下:http://software.broadinstitute.org/gsea/msigdb/index.jsp在MSigDB中,將所有的基因集劃分為以下9大類別:
1. H:hallmark gene sets
特征基因集徒蟆,由定義生物狀態(tài)和進(jìn)程的marker基因組成胁出。
2. C1:positional gene sets
位置基因集,包含人類每條染色體上的不同cytoband區(qū)域?qū)?yīng)的基因集合段审。
3. C2:curated gene sets
代謝通路基因集全蝶,包含KEGG, Reactome, BioCarta數(shù)據(jù)庫,以及文獻(xiàn)和專家支持的基因集信息寺枉。
4. C3:motif gene sets
靶基因集抑淫,包含了miRNA靶基因集和轉(zhuǎn)錄因子調(diào)控基因集兩大類。
5. C4:computational gene sets
計(jì)算基因集姥闪,計(jì)算機(jī)軟件預(yù)測出來的基因集始苇,主要是和癌癥相關(guān)的基因。
6. C5:GO gene sets
基因本體基因集筐喳,包含了Gene Ontology對應(yīng)的基因集合催式。
7. C6:oncogenic signatures
癌癥擾動(dòng)基因集,來源于藥物處理腫瘤后基因差異表達(dá)數(shù)據(jù)避归,包含已知條件處理后基因表達(dá)量發(fā)生變化的基因荣月。
8. C7:immunologic signatures
根據(jù)在人體組織的單細(xì)胞測序研究中確定的簇標(biāo)記物精選而來的。
免疫基因集梳毙,包含了免疫系統(tǒng)功能相關(guān)的基因集合哺窄。
9. C8:| [cell type signature gene sets]
GSEA的分析原理
常規(guī)GO/KEGG富集分析需要設(shè)定閾值過濾差異基因,閾值太寬富集的結(jié)果太多账锹,閾值太嚴(yán)又可能會(huì)遺漏一些關(guān)鍵結(jié)果萌业。GO/KEGG富集的結(jié)果通常還很寬泛,并不能很好地解釋生物學(xué)現(xiàn)象奸柬。有鑒于此生年,Broad研究所開發(fā)了基因集富集分析(GSEA)方法。GSEA使用無監(jiān)督算法鸟缕,不用過濾任何基因晶框,配合MSigDB數(shù)據(jù)庫使用排抬,更容易找到解釋生物學(xué)現(xiàn)象的基因集。其原理如下:
GSEA分析要先將樣本做組間對比分析授段,GSEA自帶9種分析方法蹲蒲,分為基因表達(dá)值差異分析和相關(guān)性分析兩大類。對于Case/Contral的實(shí)驗(yàn)設(shè)計(jì)侵贵,差異分析方法更為常用届搁,這其中又以默認(rèn)的信噪比和大家熟悉的差異倍數(shù)用的最多。對比分析之后要按結(jié)果將基因排序窍育,以差異倍數(shù)方法為例卡睦,把所有基因按差異倍數(shù)(FC)的值降序排列以供后續(xù)分析。上圖小人腳下的小方塊代表排序好的差異基因列表漱抓,藍(lán)色之外的其他色塊代表屬于某個(gè)基因集的基因表锻,如黃色屬于基因集A,綠色屬于基因集B乞娄。最下面高低不等的豎條代表與基因列表對應(yīng)的FC值雷厂,紅色上調(diào)鱼的、藍(lán)色下調(diào)蔗牡、黃色沒有變化臂容。基因集的富集分析需要經(jīng)歷三步:
基因集A富集分析時(shí)范删,小人從基因列表的左端走到右端蕾域,每經(jīng)過一個(gè)藍(lán)色基因扣分,每遇到一個(gè)黃色基因加分到旦,扣分時(shí)與FC無關(guān)旨巷,加分時(shí)考慮FC的權(quán)重√硗基因集A最終的富集分?jǐn)?shù)(ES)是小人曾經(jīng)得過的最高/低分契沫,實(shí)際公式比這復(fù)雜,但基本理念如此昔汉。
采用置換檢驗(yàn)計(jì)算基因集A的顯著性,即p值拴清。
基因集A富集分析完成后靶病,按上述同樣的方法完成基因集B、C直至所有輸入基因集的分析口予。所有需要富集分析的基因集都計(jì)算ES和p值之后娄周,將ES轉(zhuǎn)換為標(biāo)準(zhǔn)富集分?jǐn)?shù)(NES),并計(jì)算校正后p值沪停。
聽完我的解釋之后再看官方的解釋可能更容易理解:
A GSEA overview illustrating the method. (A) An expression dataset sorted by correlation with phenotype, the corresponding heat map, and the ‘‘gene tags,’’ i.e., location of genes from a set S within the sorted list. (B) Plot of the running sum for S in the dataset, including the location of the maximum enrichment score (ES) and the leading-edge subset.