富集分析禁荸,看完這篇就夠

在我們做完組學項目看報告時經(jīng)常遇到的詞兒就有“富集分析”右蒲,那到底什么是富集分析,它又是用來做什么的赶熟,以及富集分析的結果要怎么查看瑰妄。今天小編就通過自問自答的方式給大家一起科普一下。

1

為什么要做功能富集分析映砖?

組學數(shù)據(jù)得到的差異基因或者物質(zhì)非常多间坐,面對海量數(shù)據(jù)我們無法做到挨個研究、逐一驗證來把待研究現(xiàn)象的機制解析清楚。通過富集分析我們可以把差異基因或者物質(zhì)根據(jù)其功能進行歸類竹宋,這樣具有相似功能的基因或者物質(zhì)就被放在一起劳澄,從而減少工作量,并可以實現(xiàn)功能和表型相關聯(lián)蜈七。

2

什么是富集秒拔?

富集表示差異基因或者差異物質(zhì)中注釋到某個代謝通路的基因或者物質(zhì)數(shù)目在所有差異基因或者物質(zhì)中的比例顯著大于背景基因或物質(zhì)中注釋到某個代謝通路的基因或物質(zhì)數(shù)目在所有背景基因或者物質(zhì)中的比例。

3

常用的富集分析有哪些飒硅?

常用的富集分析包括GO富集分析砂缩、KEGG富集分析以及GSEA富集分析。其中前兩者均基于統(tǒng)計學的超幾何分布三娩,計算出一個p值來確定是否真的富集梯轻。而GSEA的原理是判斷功能基因集中的成員在差異表達基因排序列表中的位置,如果都位于差異表達基因排序列表的頂端或者底部尽棕,則該基因集也是我們需要關注的喳挑。

4

什么是GO富集分析?

我們都知道GO主要是用來看基因的三個方面滔悉,分別是分子功能(比如有催化活性功能)伊诵、細胞組分(如定位在細胞膜上)、參與的生物過程(如參與物質(zhì)運輸?shù)龋┗毓佟K砸粋€基因可能可以同時被定義到GO的這三個層面曹宴。GO富集就是看我們得到的差異基因或者物質(zhì)是否富集在這三個層面的基因集中。舉例說歉提,鐵離子結合的GO term是GO:0005506笛坦,如果我們對所得到的差異基因進行GO富集分析后得到該term富集,則我們可以認為我們所研究的現(xiàn)象可能與鐵離子結合有關系苔巨。由上述信息也可以看出版扩,我們得到的差異基因個數(shù)與富集的GO term的個數(shù)不是一一對應的關系,一個GO term里會有好多個基因侄泽,而一個基因也可以富集在多個term中礁芦。

5

什么是KEGG富集?

KEGG是代謝通路圖悼尾,所以我們得到的是一張展示各個基因或物質(zhì)關系的網(wǎng)狀圖柿扣。例如通過KEGG分析后我們得到其中一條富集通路的編號是map00010(糖酵解/糖異生),則我們可以認為我們所研究的現(xiàn)象的機制與糖酵解/糖異生有關闺魏。同樣未状,可能很多個基因會被富集在同一條通路中,而也有可能很多個基因沒有被富集到析桥,所以差異基因的個數(shù)與KEGG富集結果也不是一一對應的關系司草。

6

什么是GSEA富集分析活翩?

是先把差異表達基因按照表達差異倍數(shù)從大到小進行排序,然后看某一個基因集下的所有基因主要位于這個排列順序的前面還是后面部分翻伺,如果在前面則表示該基因是上調(diào);如果在后面則表示基因是下調(diào)沮焕,所以吨岭,GSEA富集主要關注兩端的基因。

7

GO峦树、KEGG和GSEA富集分析

的區(qū)別是什么辣辫?

GO是用來找差異基因引起的功能改變,KEGG是用于尋找通路上的影響魁巩。GO/KEGG對差異基因的富集需要明確的閾值急灭,這樣容易漏掉部分有重要生物學意義的基因。GSEA不需要指定明確的差異基因閾值谷遂,算法根據(jù)實際整體趨勢分析葬馋,所以結果可以補充GO和KEGG的富集分析。

8

是否可以在線富集分析肾扰?

可以畴嘶,常用的在線富集分析網(wǎng)站有DAVID(https://david.ncifcrf.gov/)和KOBAS(http://kobas.cbi.pku.edu.cn/),兩者都可以在線進行GO或者KEGG富集分析集晚。

9

GO富集分析文件結果如何看窗悯?

一般GO富集分析后會看到這樣的表格,第一列表示GO的三個levels偷拔,ID表示 GO數(shù)據(jù)庫ID蒋院,Decription:表示該GO term的功能描述,GeneRAatio:富集到該term里的差異基因數(shù)/全部差異基因數(shù)莲绰,BgRatio:該term的全部基因數(shù)/該物種全部有GO注釋信息的基因數(shù)欺旧,pvalue是p值,p.adjust表示矯校正過的p值蛤签,qvalue是q值切端,geneID表示富集到該term里的基因的名稱,Count表示富集到該term中的差異基因的數(shù)目顷啼。

10

GO富集分析結果圖怎么看踏枣?

GO注釋的結果一般有三種展示形式,第一種是有向無環(huán)圖(DAG钙蒙,directed-acyclic-graph)茵瀑,第二種是柱狀圖,第三種是氣泡圖躬厌。下面依次來做介紹马昨。

(1)有向無環(huán)圖:

箭頭表示上下層級關系竞帽;橢圓形表示富集程度沒有在前10的GO terms;方框表示富集程度在前10的GO terms鸿捧。顏色表示差異基因在GO term里的富集程度屹篓,顏色越深則表示富集越顯著,紅色代表富集最顯著的匙奴,黃色是富集次之的堆巧,無色表示富集不顯著∑镁框內(nèi)的第一行表示GO的term編號谍肤,第二行表示該term的功能描述,第三行表示p值哗伯,最后一行數(shù)字表示該研究中富集到該term中的差異基因數(shù)/該term中全部差異基因數(shù)荒揣。

(2)柱狀圖

富集的柱狀圖或者氣泡圖一般會選擇前10或者前20個進行作圖。x軸一般有幾種情況焊刹,如count/Gene Ratio/-Log10(padj)系任。柱子越長說明該條目下基因數(shù)越多、富集后越顯著虐块。y軸表示富集條目赋除,GO富集下面有三個level,不同level可以使用不同顏色區(qū)分非凌,也可以像下圖這樣做成不同的框圖举农。

(3)氣泡圖

x軸是一個比值(Rich Factor/GeneRatio/ (GeneRatio / BgRatio ))或者差異表達倍數(shù),值越大敞嗡,富集到該通路的差異代謝物/蛋白質(zhì)/基因富集程度越高颁糟。Y軸表示富集出來的GO或者通路名稱,挑選富集通路前20或30的通路來繪圖喉悴;點的大小表示Gene數(shù)目棱貌,點越大,表示富集到該通路的基因越多箕肃;顏色代表P值的高低婚脱,-log10(Pvalue)越大,P值越小勺像,表示該通路越顯著障贸。

11

KEGG富集分析結果怎么看?

KEGG富集結果與GO結果類似吟宦,ID表示KEGG的PATHWAY數(shù)據(jù)庫中途徑標識篮洁,Description是該通路的描述,GeneRAatio:富集到該通路里的差異基因數(shù)/全部可以富集到KEGG里的差異基因數(shù)殃姓,BgRatio:該通路的全部基因數(shù)/該物種全部有KEGG信息的基因數(shù)袁波,pvalue是p值瓦阐,p.adjust表示矯校正過的p值,qvalue是q值篷牌,geneID表示富集到該通路里的基因的名稱睡蟋,Count表示富集到該通路中的差異基因的數(shù)目。

12

GSEA富集結果如何查看枷颊?

GSEA全稱是Gene Set Enrichment Analysis 戳杀,GSEA的富集結果也分為對GO的富集以及KEGG富集,兩者結果差不多偷卧,這里以對KEGG的富集結果為例做介紹。ID表示KEGG的PATHWAY數(shù)據(jù)庫中途徑標識吆倦,Description是該通路的描述听诸,setSize:富集到該通路下的基因數(shù),enrichmentScore是富集分數(shù)蚕泽,NES表示歸一化后的富集分數(shù)晌梨, pvalue是p值,p.adjust表示矯校正過的p值须妻,qvalue是q值仔蝌,rank是在基因集中對ES分數(shù)貢獻最大的核心基因在基因表排序中的位置(按照log2FC從大到小的排序),leading_edge中tags表示核心基因在該基因集基因總數(shù)的占比荒吏,list表示核心基因占所有基因總數(shù)的比例敛惊,signal利用這兩個指標計算得到,core_enrichment表示富集到該通路的基因列表绰更。其中ES或者NES>0瞧挤,則說明該通路高表達,反之儡湾,則認為該通路被抑制特恬。

13

GSEA富集結果圖如何查看?

GSEA富集圖主要有三部分組成徐钠,最上面一部分是縱坐標為Enrichment score的這一塊癌刽,這是把該通路里所有基因的富集分數(shù)連成一條線得到的,最高峰就是富集得分(ES)尝丐,一般在最左側(cè)或者最右側(cè)有個明顯峰的通路是我們可以深入研究的通路显拜。第二部分是類似條形碼的中間部分,每一條黑線表示一個基因爹袁,這些基因是按照極陰極里的排序位置進行定位的讼油。條形碼下面的紅色部分表示在目的樣本中高表達,后面紫色部分表示在對照組中高表達呢簸。第三部分為所有基因的rank值分布圖矮台,縱坐標為ranked list metric乏屯,即該基因排序量的值,可理解為公式化處理后的FC值瘦赫。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末辰晕,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子确虱,更是在濱河造成了極大的恐慌含友,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件校辩,死亡現(xiàn)場離奇詭異窘问,居然都是意外死亡,警方通過查閱死者的電腦和手機宜咒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門惠赫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人故黑,你說我怎么就攤上這事儿咱。” “怎么了场晶?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵混埠,是天一觀的道長。 經(jīng)常有香客問我诗轻,道長钳宪,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任扳炬,我火速辦了婚禮使套,結果婚禮上,老公的妹妹穿的比我還像新娘鞠柄。我一直安慰自己侦高,他們只是感情好,可當我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布厌杜。 她就那樣靜靜地躺著奉呛,像睡著了一般。 火紅的嫁衣襯著肌膚如雪夯尽。 梳的紋絲不亂的頭發(fā)上瞧壮,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天,我揣著相機與錄音匙握,去河邊找鬼咆槽。 笑死,一個胖子當著我的面吹牛圈纺,可吹牛的內(nèi)容都是我干的秦忿。 我是一名探鬼主播麦射,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼灯谣!你這毒婦竟也來了潜秋?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤胎许,失蹤者是張志新(化名)和其女友劉穎峻呛,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體辜窑,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡钩述,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了穆碎。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片牙勘。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖惨远,靈堂內(nèi)的尸體忽然破棺而出谜悟,到底是詐尸還是另有隱情话肖,我是刑警寧澤北秽,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站最筒,受9級特大地震影響贺氓,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜床蜘,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一辙培、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧邢锯,春花似錦扬蕊、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蒂培,卻和暖如春再愈,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背护戳。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工翎冲, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人媳荒。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓抗悍,卻偏偏與公主長得像驹饺,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子檐春,可洞房花燭夜當晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容