富集分析Enrich Me!

劉小澤寫于18.9.22
今天先更新一半??
不管是轉(zhuǎn)錄組订讼,還是芯片數(shù)據(jù)髓窜,或者其他有關(guān)基因的組學(xué)分析,每當(dāng)數(shù)據(jù)分析到后面欺殿,要想得到結(jié)果寄纵,都躲不過這個富集分析,因為它是幫助我們從龐雜的組學(xué)數(shù)據(jù)中發(fā)掘規(guī)律重要的一環(huán)脖苏。對基因功能進(jìn)行富集分析, 就有可能發(fā)現(xiàn)在生物學(xué)過程中起關(guān)鍵作用的生物通路, 并且?guī)椭斫馍飳W(xué)過程的分子機(jī)制

現(xiàn)在的高通量測序帶來的巨大數(shù)據(jù)量程拭,讓我們眼界大開,局限于單純的某個基因的做法越來越行不通棍潘,但是想要從龐大的關(guān)系網(wǎng)絡(luò)中挑選出有效信息恃鞋,比如將某幾個基因和某個期待的生物學(xué)現(xiàn)象結(jié)合起來,這個事直接做是很困難的亦歉。因此為了降低研究的復(fù)雜度恤浪,將不同生物學(xué)現(xiàn)象與基因的對應(yīng)關(guān)系做成了多個數(shù)據(jù)庫。于是肴楷,當(dāng)我們手上有成百個差異基因時水由,就去不同數(shù)據(jù)庫比對,這個過程就叫做富集分析赛蔫。

簡而言之砂客,基因富集分析 是在一組基因中找到具有一定基因功能特征和生物過程的基因集泥张,在研究差異表達(dá)基因、篩選基因的后續(xù)分析中經(jīng)常使用鞠值。

基因集媚创,也叫g(shù)ene set,也就是一系列具有相同功能的基因構(gòu)成的集合齿诉,比如某一條代謝通路(pathway)筝野,其中有很多的基因,因此位于同一條通路下的基因就構(gòu)成了一個基因集合粤剧。
組成基因集的最基本元素就是一個一個的基因,在芯片分析中挥唠,結(jié)果往往是差異表達(dá)的探針抵恋,需要先將探針映射到基因上。注意:在映射的過程中宝磨,必須考慮到基因和探針之間的對應(yīng)關(guān)系弧关,會有多個探針對應(yīng)一個基因的情況,雖然比重不大唤锉,卻還是要考慮世囊。比如分析甲基化數(shù)據(jù)時,由于大部分的基因具有多個CpG位點窿祥,因此會對應(yīng)多個探針I(yè)D株憾。有時A、B基因都有探針比對上晒衩,但不能就這樣認(rèn)為他們的差異量一樣嗤瞎,因為A、B的差異CpG位點有時不同听系,A有30個差異CpG位點贝奇,B卻只有3個,他們雖然都叫差異基因靠胜,但差異也分大小掉瞳,不能一概而論

富集分析目的

萬事萬物皆有其因,事實上浪漠,我們做這個富集分析的目的主要包括:

  • 目前正在研究某個基因陕习,想看它在不同樣本中的表達(dá)差異,也就是我們有和課題相關(guān)的目標(biāo)基因郑藏,你認(rèn)為這個基因是處理和對照產(chǎn)生不同的原因之一衡查,但是口說無憑,需要佐證必盖。此時你需要富集分析

  • 跑程序得到的差異基因上千個拌牲,你想知道他們是那些類的俱饿,和物種什么生物過程相關(guān),你會把基因一個一個放到注釋數(shù)據(jù)庫去調(diào)查嗎塌忽?此時你需要富集分析

  • 研究某個基因的上下游調(diào)控關(guān)系時拍埠,你可能對KEGG的那個通路圖不陌生,這就是富集分析

    它是快速調(diào)查目標(biāo)基因集功能傾向性的方法之一土居。因此你可能還聽過通路分析(pathway)枣购、功能分析。就是說擦耀,手里有基因棉圈、蛋白的,都要經(jīng)歷這一步

舉個生活中的例子:城市中都有生活公園眷蜓,清晨你會看到許多老人在鍛煉身體分瘾,上午游人來玩耍,小商販也不能放過這個機(jī)會吁系,下午到了放學(xué)的點德召,孩子們蜂擁而至,而到了晚上汽纤,中年人群廣場舞激情飄揚∩细冢現(xiàn)在想看看公園哪個時間段更吸引人。假如一天來公園的共1000人蕴坪,現(xiàn)在把這些人都匯集在一起肴掷,從中抽取200人,結(jié)果看到70%以上都是老人辞嗡,那么基本可以確定清晨公園人流量更大捆等。然后針對主要公園人群——老年人,公園管理部門就可以安排更便民的設(shè)施续室。當(dāng)然栋烤,這個例子只是為了理解下面的內(nèi)容

我們上面不同年齡的人群,就對應(yīng)不同功能的基因集挺狰,當(dāng)然人群中的每個人都可能不同時間光顧公園明郭,當(dāng)然基因集中的不同基因也可以參與好幾個生物過程。我們這里做的富集分析丰泊,不是為了分析個體薯定,而是看群體。先判斷出哪些群體的差異是我們想要的瞳购,再看其中的個體~就是這么個過程话侄!

富集分析算法

任何軟件、分析背后都是一套算法,了解算法才能真正坐觀云卷云舒

具體的方法介紹可以參考:Progress in Gene Functional Enrichment
Analysis這篇文章年堆。大體上富集分析有四類算法:ORA吞杭、FCS、PT变丧、NT

富集分析四類算法

1. 【最常用】ORA(Over Representation Analysis):過表達(dá)分析

首先這個名字很奇怪芽狗,但是既然人家取了這個名字,就一定有原因痒蓬。

這個部分很重要童擎,需要重點理解,采用“理論聯(lián)系實際”的方法

理論:

什么是ORA方法攻晒?
它是檢驗?zāi)愁惞δ茉谝粋€數(shù)據(jù)子集中是否表現(xiàn)過度顾复。又稱為“2X2方法”,像上圖一樣炎辨,做一個列聯(lián)表捕透。上圖中的ORA中,藍(lán)圈內(nèi)是感興趣基因(8個)碴萧,綠圈內(nèi)是某個通路的基因(5個);灰點是既不感興趣又不在通路內(nèi)的(6個)末购,藍(lán)點是感興趣但不在通路內(nèi)的(5個)破喻,綠點是在通路內(nèi)但不感興趣的(2個),紅點是既感興趣又在通路內(nèi)的(3個)盟榴,于是就能做出來2X2列聯(lián)表曹质。再利用fisher精確檢驗或超幾何分布得到p值。

簡而言之擎场,需要4類數(shù)據(jù):總共的基因數(shù)(作為背景基因)羽德、總共屬于某分類的基因數(shù)、樣本包含的基因數(shù)(也就是用的差異表達(dá)基因)迅办、樣本中屬于某分類的基因數(shù)

優(yōu)點:出現(xiàn)的最早宅静,最常用,有完善的統(tǒng)計學(xué)理論基礎(chǔ)站欺,結(jié)果比較可靠姨夹;

缺點:

  • 僅僅使用了基因的數(shù)目赚楚,但是基因的不同表達(dá)水平?jīng)]有考慮妓忍,為了得到差異基因,需要人為設(shè)置閾值蒸辆,沒有一個設(shè)置規(guī)定贾虽,因此結(jié)果因人而異逃糟;
  • 適用于差異最顯著的基因,而差異不顯著的基因就會被忽略,檢測靈敏度會降低
  • ORA利用統(tǒng)計學(xué)假設(shè)每個基因相互獨立绰咽,但是就生物體本身而言菇肃,忽略了內(nèi)部的復(fù)雜的相互作用,并且每個基因在不同的生物學(xué)過程中發(fā)揮的作用大小不一樣剃诅,同等看待結(jié)果可能會不準(zhǔn)確
實際:

實際上就是把我們感興趣的基因背景基因做一個交集巷送。

感興趣的基因也就是差異基因了,包括上調(diào)矛辕、下調(diào)表達(dá)的(利用原始表達(dá)矩陣中p值和logFC進(jìn)行篩選)笑跛,一般人類芯片數(shù)據(jù)會有幾百個

背景基因就是在KEGG等數(shù)據(jù)庫中有注釋的基因【人類基因組有2萬個左右基因,現(xiàn)在總共有已知功能的是7000左右聊品,隨著研究的不斷深入飞蹂,背景基因數(shù)量會越來越多,結(jié)果也會越來越全面】

enrichKEGG結(jié)果

舉個例子翻屈,KEGG通路hsa05206指的是MicroRNAs in Cancer陈哑,包括150個基因,背景基因使用了6517個伸眶;GSE17708芯片得到的差異基因數(shù)是547個惊窖,在KEGG能注釋上的有80個,其中就有10個是MicroRNA通路的厘贼,概率高達(dá)12.5%(enrichKEGG方法都是用能在KEGG注釋上的基因界酒,比如這里用80而不是547),那么這個通路是不是在下調(diào)基因中被顯著改變嘴秸?需要把全部的80個下調(diào)基因毁欣,在KEGG的530個通路中注釋一遍,再一個一個進(jìn)行超幾何分布檢驗岳掐,得到p值凭疮。hsa05206通路在背景基因中查到的概率是150/6517=2.3%,是顯著低于12.5%的

超幾何分布屬于統(tǒng)計學(xué)上一種離散概率分布串述。它描述了由有限個物件中抽出n個物件执解,成功抽出指定種類的物件的個數(shù)(不歸還)。n=1剖煌,超幾何分布還原為伯努利分布材鹦;n接近∞,超幾何分布可視為二項分布

2. FCS(Functional Class Scoring) 功能集打分法

它比ORA的進(jìn)步就是基本假設(shè)做了改變耕姊,考慮的更加全面桶唐。它認(rèn)為盡管單個基因的改變會造成顯著性影響,但是和它類似的微效基因疊加在一起也能行茉兰。也就是說尤泽,F(xiàn)CS不再像ORA一樣,強(qiáng)調(diào)個人英雄主義,而是把目光轉(zhuǎn)向人民坯约,“星星之火熊咽,可以燎原”

Ten Years of Pathway Analysis: Current Approaches and Outstanding Challenges這篇文章有詳細(xì)的描述。

操作方法:

要求的輸入是一個排序的基因列表和一個基因集合闹丐,不需要設(shè)置閾值

  1. 計算單個基因表達(dá)水平的統(tǒng)計值横殴,采用如衡量差異基因的ANOVA、Q-statistic卿拴、t檢驗衫仑、Z-score、信噪比堕花,進(jìn)行打分或排序文狱,或者直接使用排序好的基因表達(dá)譜
  2. 同一通路上所有基因的表達(dá)水平統(tǒng)計值進(jìn)行整合,匯集成單個通路水平的分?jǐn)?shù)或統(tǒng)計值缘挽,采用基因水平統(tǒng)計的和瞄崇、均值或中位數(shù),Wilcoxon rank sum, Maxmean statistic, Kolmogorov-Smirnov statistic
  3. 對通路水平的顯著性進(jìn)行評估:利用重抽樣(bootstrap)的統(tǒng)計學(xué)方法
優(yōu)點:

考慮了基因表達(dá)值的個體差異化信息壕曼,更加全面

缺點:

FCS仍然和ORA一樣苏研,只能獨立分析每一條通路,但是同一個基因可能設(shè)計多個通路腮郊,不能分析這種情況楣富;它只是根據(jù)特定的通路為差異基因進(jìn)行排序,比如按基因A伴榔、B的一條通路檢測得到他們的表達(dá)量分別改變3倍、10倍庄萎,但是換其他通路踪少,可能排名就發(fā)生改變,不會一直保持B>A

3. PT(Pathway Topology)通路拓?fù)鋵W(xué)

理想很豐滿糠涛,現(xiàn)實很骨感的一個體系

在通路的富集分析中援奢,一般上游基因的表達(dá)水平改變要顯著大于下游基因?qū)φ麄€通路的影響。PT方法就是把基因在通路中的位置忍捡,和其他基因的互作和調(diào)控關(guān)系結(jié)合在一起集漾,評估每個基因?qū)ν返呢暙I(xiàn)并算出權(quán)重,然后把權(quán)重整合到富集分析砸脊。
方法雖好具篇,但是通路拓?fù)浣Y(jié)構(gòu)存在依賴性,而目前的GO等數(shù)據(jù)庫中沒有任何拓?fù)浣Y(jié)構(gòu)信息凌埂,因此限制發(fā)展

4. NT(Network topology)網(wǎng)絡(luò)拓?fù)鋵W(xué)

利用現(xiàn)有的全基因組范圍的生物網(wǎng)絡(luò)驱显,提取數(shù)據(jù)庫的基因相互作用關(guān)系(如:基因連接度、基因在網(wǎng)絡(luò)中的距離),把基因的生物學(xué)屬性整合到功能分析埃疫。利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來計算基因?qū)μ囟ㄉ锿返闹匾圆⒔o予相應(yīng)的權(quán)重伏恐,再利用傳統(tǒng)的ORA 或 FCS 方法來評估特定生物通路的富集程度,如GANPA 和 LEGO栓霜。缺點就是算法太復(fù)雜翠桦,計算速度慢


歡迎關(guān)注我們的公眾號~_~  
我們是兩個農(nóng)轉(zhuǎn)生信的小碩,打造生信星球胳蛮,想讓它成為一個不拽術(shù)語销凑、通俗易懂的生信知識平臺。需要幫助或提出意見請后臺留言或發(fā)送郵件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鹰霍,一起剝皮案震驚了整個濱河市闻鉴,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌茂洒,老刑警劉巖孟岛,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異督勺,居然都是意外死亡渠羞,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進(jìn)店門智哀,熙熙樓的掌柜王于貴愁眉苦臉地迎上來次询,“玉大人,你說我怎么就攤上這事瓷叫⊥偷酰” “怎么了?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵摹菠,是天一觀的道長盒卸。 經(jīng)常有香客問我,道長次氨,這世上最難降的妖魔是什么蔽介? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮煮寡,結(jié)果婚禮上虹蓄,老公的妹妹穿的比我還像新娘。我一直安慰自己幸撕,他們只是感情好薇组,可當(dāng)我...
    茶點故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著杈帐,像睡著了一般体箕。 火紅的嫁衣襯著肌膚如雪专钉。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天累铅,我揣著相機(jī)與錄音跃须,去河邊找鬼。 笑死娃兽,一個胖子當(dāng)著我的面吹牛菇民,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播投储,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼第练,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了玛荞?” 一聲冷哼從身側(cè)響起娇掏,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎勋眯,沒想到半個月后婴梧,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡客蹋,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年塞蹭,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片讶坯。...
    茶點故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡番电,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出辆琅,到底是詐尸還是另有隱情漱办,我是刑警寧澤,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布婉烟,位于F島的核電站洼冻,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏隅很。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一率碾、第九天 我趴在偏房一處隱蔽的房頂上張望叔营。 院中可真熱鬧,春花似錦所宰、人聲如沸绒尊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽婴谱。三九已至蟹但,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間谭羔,已是汗流浹背华糖。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留瘟裸,地道東北人客叉。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像话告,于是被迫代替她去往敵國和親兼搏。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內(nèi)容