新知識
關(guān)于對于生信學(xué)習(xí)的反思拙徽,最近一直接觸大量的新知識,說實(shí)話诗宣,很難膘怕,因?yàn)檫@些新知識沒有辦法和我現(xiàn)有的知識形成聯(lián)系,所有的概念都是新的召庞,如果我要記筆記岛心,參考的文章為十,那我?guī)缀跻咽空硐聛砝鹤疲@讓我的心態(tài)很不好忘古。
原理及目的
基因富集分析(GeneSet Enrichment Analysis,GSEA)一種對基因進(jìn)行富集分析的方法,檢驗(yàn)已知功能的基因集(即gene set诅诱,可以是從GO/KEGG/hallmark/MsigDB中拎出的某一特定類別的基因集合髓堪,也可以是自定義的功能基因集合),在一個(gè)依據(jù)與表型的相關(guān)度進(jìn)行排序的基因列表(即兩組樣品的表達(dá)譜數(shù)據(jù)娘荡,依據(jù)基因在兩種表型中的表達(dá)量的高低進(jìn)行排序干旁,因未對基因進(jìn)行顯著差異的篩選,因而可以將全部基因與不同表型的相關(guān)性均考慮進(jìn)去)中是隨機(jī)排列還是主要集中在列表的頂部或底部炮沐。若研究的已知功能基因集是非隨機(jī)分布的争群,則說明該已知功能基因集與表型相關(guān),根據(jù)其基因的集中情況大年,則可以推斷出該已知的功能具體和哪種表型更為接近换薄。
分類
GO富集分析
Gene Ontology: 描述基因的層級關(guān)系【基于ORA算法】可以算得上是高通量數(shù)據(jù)分析的標(biāo)配玉雾,轉(zhuǎn)錄組、甲基化轻要、ChIP-seq复旬、重測序等,都會(huì)用到對一個(gè)或多個(gè)集合的基因進(jìn)行功能富集分析冲泥,來找這個(gè)基因集的功能偏好性
這是一個(gè)基因本體聯(lián)合會(huì)組織(Gene Ontology Consortium)建立的數(shù)據(jù)庫赢底,規(guī)范統(tǒng)一了對于不同物種的基因和蛋白描述。
條目標(biāo)準(zhǔn)定義
id:也就是GO編號柏蘑,如:GO:0031985
name:全稱,Golgi cisterna
ontology:命名分類cellular_component
definition:定義粹庞,Any of the thin, flattened membrane-bounded compartments that form the central portion of the Golgi complex.Source:GOC:mah
條目之間的關(guān)系
有向無環(huán)圖
有向指的是term之間的單向指向性關(guān)系咳焚,比如termA是內(nèi)質(zhì)網(wǎng),termB是細(xì)胞器庞溜,規(guī)定A是B革半,卻不能說B是A;無環(huán)指的是從任何一點(diǎn)開始沿著規(guī)定的指向都不能回到原點(diǎn)
具體作用
基因分門別類放入細(xì)胞組分CC流码、分子功能MF和生物過程BP又官,分別對應(yīng)基因產(chǎn)物在那里發(fā)揮功能,怎樣發(fā)揮功能漫试,發(fā)揮什么樣的功能
GO分析可以幫我們找到提交的基因集中各個(gè)基因是否有共同的GO條目六敬,或者有沒有共同的上級GO條目,可以發(fā)現(xiàn)某些具有共同特點(diǎn)的基因(比如在某條共同的通路中起作用)
表現(xiàn)形式
氣泡圖表示顯著性不同的GO條目對應(yīng)的基因數(shù)量
X軸:RichFactor驾荣,富集因子外构,是指前景基因集中屬于這個(gè)term的基因的數(shù)量/背景基因集中富集在這個(gè)term中所有基因的數(shù)量;
Y軸:GO term名稱播掷;
氣泡顏色:Q值(也可以用P值繪圖)审编,代表富集顯著程度,在這個(gè)圖形當(dāng)中歧匈,顏色越紅代表Q值越小垒酬,富集程度越高;
氣泡大屑:數(shù)量勘究,前景基因集中屬于這個(gè)term的基因數(shù)量。
氣泡越紅越大妻率,富集的基因數(shù)目越多乱顾,富集越顯著
條形圖表示三個(gè)分類的前多少條目對應(yīng)基因的數(shù)量
網(wǎng)絡(luò)圖可以表示顯著性較強(qiáng)的條目之間的相互關(guān)系
map圖表示顯著性較強(qiáng)的GO條目的層級關(guān)系,以樹狀圖的形式展現(xiàn)
KEGG
Kyoto Encyclopedia of Genes and Genomes: 系統(tǒng)分析基因產(chǎn)物和化合物在細(xì)胞中的代謝途徑以及這些基因產(chǎn)物的功能的數(shù)據(jù)庫【基于ORA算法】
包括
代謝通路(KEGG PATHWAY)宫静、藥物(KEGG DRUG)走净、疾踩薄(KEGG DISEASE)、功能模型(KEGG MODULE)伏伯、基因序列(KEGG GENES)及基因組(KEGG GENOME)等等
有一套完整的KO注釋系統(tǒng)(KO是蛋白質(zhì)或酶的一個(gè)分類體系橘洞,將同一條通路上功能相似、序列相似的蛋白質(zhì)歸為一類)说搅,可完成新測序物種的基因組或轉(zhuǎn)錄組的功能注釋
因此可以將基因一個(gè)個(gè)歸置到代謝網(wǎng)絡(luò)指定位置上
命名規(guī)則
K(大寫) +num基因ID號炸枣,表示所有同源物種中具有相似結(jié)構(gòu)或功能的一類同源蛋白,如:K04456表示絲氨酸蛋白激酶弄唧;
ko+num代謝通路适肠,表示特定的生物路徑,如:ko04151表示PI3K-Akt信號通路【也是我們常用的代謝通路】候引;
M+num表示模塊侯养,如:M00676表示PI3K-Akt信號模塊
C+num表示化合物,如:C00533表示一氧化碳
ECx.x.x.x表示酶澄干,如:EC2.7.11.1表示絲氨酸
R+num表示反應(yīng)名稱
舉個(gè)例子:三個(gè)字母表示物種逛揩,hsa表示Homo sapiens;具體的KO號麸俘,如K12407表示和葡糖激酶glucokinase序列和功能相近的蛋白質(zhì)/酶類辩稽,當(dāng)然一個(gè)KO號有可能會(huì)對應(yīng)好幾個(gè)數(shù)字(基因登錄號),表示細(xì)胞中存在幾種不同的葡糖激酶从媚,分別由以上幾種數(shù)字表示的基因編碼
主要看顏色:紅色表示上調(diào)的差異基因逞泄,綠色表示下調(diào),白色的表示沒有差異基因成功注釋
挑選顯著分析的前20左右的pathway進(jìn)行展示
X軸:Gene Percent(%)静檬,柱子長短代表前景基因富集在該pathway上數(shù)目占所有前景基因的百分比炭懊。柱子上的數(shù)字為基因數(shù)量,和對應(yīng)的q值拂檩;
Y軸:Pathway名稱侮腹;
柱狀圖顏色:Q值(也可以用P值繪圖),代表富集顯著程度稻励,顏色越深代表Q值越小父阻,富集程度越高。
GSEA
Gene Set Enrichment Analysis 基因集富集分析望抽,用于評估一個(gè)基因集的基因在表型相關(guān)度排序中的分布趨勢加矛,進(jìn)而判斷它們對表型的貢獻(xiàn)
FCS算法
區(qū)別
- GO是先篩選基因(需要人為設(shè)定閾值),再判斷差異基因在哪些通路有富集
- GSEA可以考慮那些表達(dá)差異不大卻功能重要的基因?qū)ν酚绊懨焊荩啾菺O和KEGG能保留更多信息
首先將我們要研究的基因集里的基因按照差異倍數(shù)或者差異顯著性P值等進(jìn)行排序斟览,再和已知功能的基因集進(jìn)行對比,看后者在前者的分布情況辑奈,然后根據(jù)富集得分(ES值)去判斷我們要研究的基因集是不是和我們關(guān)注的通路相關(guān)苛茂。