富集分析

新知識

關(guān)于對于生信學(xué)習(xí)的反思拙徽,最近一直接觸大量的新知識,說實(shí)話诗宣,很難膘怕,因?yàn)檫@些新知識沒有辦法和我現(xiàn)有的知識形成聯(lián)系,所有的概念都是新的召庞,如果我要記筆記岛心,參考的文章為十,那我?guī)缀跻咽空硐聛砝鹤疲@讓我的心態(tài)很不好忘古。

原理及目的

基因富集分析(GeneSet Enrichment Analysis,GSEA)一種對基因進(jìn)行富集分析的方法,檢驗(yàn)已知功能的基因集(即gene set诅诱,可以是從GO/KEGG/hallmark/MsigDB中拎出的某一特定類別的基因集合髓堪,也可以是自定義的功能基因集合),在一個(gè)依據(jù)與表型的相關(guān)度進(jìn)行排序的基因列表(即兩組樣品的表達(dá)譜數(shù)據(jù)娘荡,依據(jù)基因在兩種表型中的表達(dá)量的高低進(jìn)行排序干旁,因未對基因進(jìn)行顯著差異的篩選,因而可以將全部基因與不同表型的相關(guān)性均考慮進(jìn)去)中是隨機(jī)排列還是主要集中在列表的頂部或底部炮沐。若研究的已知功能基因集是非隨機(jī)分布的争群,則說明該已知功能基因集與表型相關(guān),根據(jù)其基因的集中情況大年,則可以推斷出該已知的功能具體和哪種表型更為接近换薄。

分類

GO富集分析

Gene Ontology: 描述基因的層級關(guān)系【基于ORA算法】可以算得上是高通量數(shù)據(jù)分析的標(biāo)配玉雾,轉(zhuǎn)錄組、甲基化轻要、ChIP-seq复旬、重測序等,都會(huì)用到對一個(gè)或多個(gè)集合的基因進(jìn)行功能富集分析冲泥,來找這個(gè)基因集的功能偏好性
這是一個(gè)基因本體聯(lián)合會(huì)組織(Gene Ontology Consortium)建立的數(shù)據(jù)庫赢底,規(guī)范統(tǒng)一了對于不同物種的基因和蛋白描述。

條目標(biāo)準(zhǔn)定義

id:也就是GO編號柏蘑,如:GO:0031985
name:全稱,Golgi cisterna
ontology:命名分類cellular_component
definition:定義粹庞,Any of the thin, flattened membrane-bounded compartments that form the central portion of the Golgi complex.Source:GOC:mah

條目之間的關(guān)系

有向無環(huán)圖

有向無環(huán)圖

有向指的是term之間的單向指向性關(guān)系咳焚,比如termA是內(nèi)質(zhì)網(wǎng),termB是細(xì)胞器庞溜,規(guī)定A是B革半,卻不能說B是A;無環(huán)指的是從任何一點(diǎn)開始沿著規(guī)定的指向都不能回到原點(diǎn)
具體作用
基因分門別類放入細(xì)胞組分CC流码、分子功能MF和生物過程BP又官,分別對應(yīng)基因產(chǎn)物在那里發(fā)揮功能怎樣發(fā)揮功能漫试,發(fā)揮什么樣的功能
GO分析可以幫我們找到提交的基因集中各個(gè)基因是否有共同的GO條目六敬,或者有沒有共同的上級GO條目,可以發(fā)現(xiàn)某些具有共同特點(diǎn)的基因(比如在某條共同的通路中起作用)
表現(xiàn)形式
氣泡圖表示顯著性不同的GO條目對應(yīng)的基因數(shù)量

富集氣泡圖

X軸:RichFactor驾荣,富集因子外构,是指前景基因集中屬于這個(gè)term的基因的數(shù)量/背景基因集中富集在這個(gè)term中所有基因的數(shù)量;
Y軸:GO term名稱播掷;
氣泡顏色:Q值(也可以用P值繪圖)审编,代表富集顯著程度,在這個(gè)圖形當(dāng)中歧匈,顏色越紅代表Q值越小垒酬,富集程度越高;
氣泡大屑:數(shù)量勘究,前景基因集中屬于這個(gè)term的基因數(shù)量。
氣泡越紅越大妻率,富集的基因數(shù)目越多乱顾,富集越顯著

條形圖表示三個(gè)分類的前多少條目對應(yīng)基因的數(shù)量
網(wǎng)絡(luò)圖可以表示顯著性較強(qiáng)的條目之間的相互關(guān)系
map圖表示顯著性較強(qiáng)的GO條目的層級關(guān)系,以樹狀圖的形式展現(xiàn)

KEGG

Kyoto Encyclopedia of Genes and Genomes: 系統(tǒng)分析基因產(chǎn)物和化合物在細(xì)胞中的代謝途徑以及這些基因產(chǎn)物的功能的數(shù)據(jù)庫【基于ORA算法】

包括

代謝通路(KEGG PATHWAY)宫静、藥物(KEGG DRUG)走净、疾踩薄(KEGG DISEASE)、功能模型(KEGG MODULE)伏伯、基因序列(KEGG GENES)及基因組(KEGG GENOME)等等
有一套完整的KO注釋系統(tǒng)(KO是蛋白質(zhì)或酶的一個(gè)分類體系橘洞,將同一條通路上功能相似、序列相似的蛋白質(zhì)歸為一類)说搅,可完成新測序物種的基因組或轉(zhuǎn)錄組的功能注釋
因此可以將基因一個(gè)個(gè)歸置到代謝網(wǎng)絡(luò)指定位置

命名規(guī)則

K(大寫) +num基因ID號炸枣,表示所有同源物種中具有相似結(jié)構(gòu)或功能的一類同源蛋白,如:K04456表示絲氨酸蛋白激酶弄唧;
ko+num代謝通路适肠,表示特定的生物路徑,如:ko04151表示PI3K-Akt信號通路【也是我們常用的代謝通路】候引;
M+num表示模塊侯养,如:M00676表示PI3K-Akt信號模塊
C+num表示化合物,如:C00533表示一氧化碳
ECx.x.x.x表示酶澄干,如:EC2.7.11.1表示絲氨酸
R+num表示反應(yīng)名稱
舉個(gè)例子:三個(gè)字母表示物種逛揩,hsa表示Homo sapiens;具體的KO號麸俘,如K12407表示和葡糖激酶glucokinase序列和功能相近的蛋白質(zhì)/酶類辩稽,當(dāng)然一個(gè)KO號有可能會(huì)對應(yīng)好幾個(gè)數(shù)字(基因登錄號),表示細(xì)胞中存在幾種不同的葡糖激酶从媚,分別由以上幾種數(shù)字表示的基因編碼


KEGGpathview

主要看顏色:紅色表示上調(diào)的差異基因逞泄,綠色表示下調(diào),白色的表示沒有差異基因成功注釋


KEGG條形圖

挑選顯著分析的前20左右的pathway進(jìn)行展示
X軸:Gene Percent(%)静檬,柱子長短代表前景基因富集在該pathway上數(shù)目占所有前景基因的百分比炭懊。柱子上的數(shù)字為基因數(shù)量,和對應(yīng)的q值拂檩;
Y軸:Pathway名稱侮腹;
柱狀圖顏色:Q值(也可以用P值繪圖),代表富集顯著程度稻励,顏色越深代表Q值越小父阻,富集程度越高。

GSEA

Gene Set Enrichment Analysis 基因集富集分析望抽,用于評估一個(gè)基因集的基因在表型相關(guān)度排序中的分布趨勢加矛,進(jìn)而判斷它們對表型的貢獻(xiàn)
FCS算法
區(qū)別

  1. GO是先篩選基因(需要人為設(shè)定閾值),再判斷差異基因在哪些通路有富集
  2. GSEA可以考慮那些表達(dá)差異不大卻功能重要的基因?qū)ν酚绊懨焊荩啾菺O和KEGG能保留更多信息

首先將我們要研究的基因集里的基因按照差異倍數(shù)或者差異顯著性P值等進(jìn)行排序斟览,再和已知功能的基因集進(jìn)行對比,看后者在前者的分布情況辑奈,然后根據(jù)富集得分(ES值)去判斷我們要研究的基因集是不是和我們關(guān)注的通路相關(guān)苛茂。

GSEA富集圖像

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末已烤,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子妓羊,更是在濱河造成了極大的恐慌胯究,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,843評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件躁绸,死亡現(xiàn)場離奇詭異裕循,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)净刮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評論 3 392
  • 文/潘曉璐 我一進(jìn)店門剥哑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人淹父,你說我怎么就攤上這事星持。” “怎么了弹灭?”我有些...
    開封第一講書人閱讀 163,187評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長揪垄。 經(jīng)常有香客問我穷吮,道長,這世上最難降的妖魔是什么饥努? 我笑而不...
    開封第一講書人閱讀 58,264評論 1 292
  • 正文 為了忘掉前任捡鱼,我火速辦了婚禮,結(jié)果婚禮上酷愧,老公的妹妹穿的比我還像新娘驾诈。我一直安慰自己,他們只是感情好溶浴,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,289評論 6 390
  • 文/花漫 我一把揭開白布乍迄。 她就那樣靜靜地躺著,像睡著了一般士败。 火紅的嫁衣襯著肌膚如雪闯两。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,231評論 1 299
  • 那天谅将,我揣著相機(jī)與錄音漾狼,去河邊找鬼。 笑死饥臂,一個(gè)胖子當(dāng)著我的面吹牛逊躁,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播隅熙,決...
    沈念sama閱讀 40,116評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼稽煤,長吁一口氣:“原來是場噩夢啊……” “哼核芽!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起念脯,我...
    開封第一講書人閱讀 38,945評論 0 275
  • 序言:老撾萬榮一對情侶失蹤狞洋,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后绿店,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吉懊,經(jīng)...
    沈念sama閱讀 45,367評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,581評論 2 333
  • 正文 我和宋清朗相戀三年假勿,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了借嗽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,754評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡转培,死狀恐怖恶导,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情浸须,我是刑警寧澤惨寿,帶...
    沈念sama閱讀 35,458評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站删窒,受9級特大地震影響裂垦,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜肌索,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,068評論 3 327
  • 文/蒙蒙 一蕉拢、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧诚亚,春花似錦晕换、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,692評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至梢灭,卻和暖如春恕汇,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背或辖。 一陣腳步聲響...
    開封第一講書人閱讀 32,842評論 1 269
  • 我被黑心中介騙來泰國打工瘾英, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人颂暇。 一個(gè)月前我還...
    沈念sama閱讀 47,797評論 2 369
  • 正文 我出身青樓缺谴,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子湿蛔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,654評論 2 354

推薦閱讀更多精彩內(nèi)容