劉小澤寫于18.9.22
今天先更新一半??
不管是轉(zhuǎn)錄組订讼,還是芯片數(shù)據(jù)髓窜,或者其他有關(guān)基因的組學(xué)分析,每當(dāng)數(shù)據(jù)分析到后面欺殿,要想得到結(jié)果寄纵,都躲不過這個富集分析,因為它是幫助我們從龐雜的組學(xué)數(shù)據(jù)中發(fā)掘規(guī)律重要的一環(huán)脖苏。對基因功能進(jìn)行富集分析, 就有可能發(fā)現(xiàn)在生物學(xué)過程中起關(guān)鍵作用的生物通路, 并且?guī)椭斫馍飳W(xué)過程的分子機(jī)制
現(xiàn)在的高通量測序帶來的巨大數(shù)據(jù)量程拭,讓我們眼界大開,局限于單純的某個基因的做法越來越行不通棍潘,但是想要從龐大的關(guān)系網(wǎng)絡(luò)中挑選出有效信息恃鞋,比如將某幾個基因和某個期待的生物學(xué)現(xiàn)象結(jié)合起來,這個事直接做是很困難的亦歉。因此為了降低研究的復(fù)雜度恤浪,將不同生物學(xué)現(xiàn)象與基因的對應(yīng)關(guān)系做成了多個數(shù)據(jù)庫。于是肴楷,當(dāng)我們手上有成百個差異基因時水由,就去不同數(shù)據(jù)庫比對,這個過程就叫做富集分析赛蔫。
簡而言之砂客,基因富集分析 是在一組基因中找到具有一定基因功能特征和生物過程的基因集泥张,在研究差異表達(dá)基因、篩選基因的后續(xù)分析中經(jīng)常使用鞠值。
基因集媚创,也叫g(shù)ene set,也就是一系列具有相同功能的基因構(gòu)成的集合齿诉,比如某一條代謝通路(pathway)筝野,其中有很多的基因,因此位于同一條通路下的基因就構(gòu)成了一個基因集合粤剧。
組成基因集的最基本元素就是一個一個的基因,在芯片分析中挥唠,結(jié)果往往是差異表達(dá)的探針抵恋,需要先將探針映射到基因上。注意:在映射的過程中宝磨,必須考慮到基因和探針之間的對應(yīng)關(guān)系弧关,會有多個探針對應(yīng)一個基因的情況,雖然比重不大唤锉,卻還是要考慮世囊。比如分析甲基化數(shù)據(jù)時,由于大部分的基因具有多個CpG位點窿祥,因此會對應(yīng)多個探針I(yè)D株憾。有時A、B基因都有探針比對上晒衩,但不能就這樣認(rèn)為他們的差異量一樣嗤瞎,因為A、B的差異CpG位點有時不同听系,A有30個差異CpG位點贝奇,B卻只有3個,他們雖然都叫差異基因靠胜,但差異也分大小掉瞳,不能一概而論
富集分析目的
萬事萬物皆有其因,事實上浪漠,我們做這個富集分析的目的主要包括:
目前正在研究某個基因陕习,想看它在不同樣本中的表達(dá)差異,也就是我們有和課題相關(guān)的目標(biāo)基因郑藏,你認(rèn)為這個基因是處理和對照產(chǎn)生不同的原因之一衡查,但是口說無憑,需要佐證必盖。此時你需要富集分析
跑程序得到的差異基因上千個拌牲,你想知道他們是那些類的俱饿,和物種什么生物過程相關(guān),你會把基因一個一個放到注釋數(shù)據(jù)庫去調(diào)查嗎塌忽?此時你需要富集分析
-
研究某個基因的上下游調(diào)控關(guān)系時拍埠,你可能對KEGG的那個通路圖不陌生,這就是富集分析
它是快速調(diào)查目標(biāo)基因集功能傾向性的方法之一土居。因此你可能還聽過通路分析(pathway)枣购、功能分析。就是說擦耀,手里有基因棉圈、蛋白的,都要經(jīng)歷這一步
舉個生活中的例子:城市中都有生活公園眷蜓,清晨你會看到許多老人在鍛煉身體分瘾,上午游人來玩耍,小商販也不能放過這個機(jī)會吁系,下午到了放學(xué)的點德召,孩子們蜂擁而至,而到了晚上汽纤,中年人群廣場舞激情飄揚∩细冢現(xiàn)在想看看公園哪個時間段更吸引人。假如一天來公園的共1000人蕴坪,現(xiàn)在把這些人都匯集在一起肴掷,從中抽取200人,結(jié)果看到70%以上都是老人辞嗡,那么基本可以確定清晨公園人流量更大捆等。然后針對主要公園人群——老年人,公園管理部門就可以安排更便民的設(shè)施续室。當(dāng)然栋烤,這個例子只是為了理解下面的內(nèi)容
我們上面不同年齡的人群,就對應(yīng)不同功能的基因集挺狰,當(dāng)然人群中的每個人都可能不同時間光顧公園明郭,當(dāng)然基因集中的不同基因也可以參與好幾個生物過程。我們這里做的富集分析丰泊,不是為了分析個體薯定,而是看群體。先判斷出哪些群體的差異是我們想要的瞳购,再看其中的個體~就是這么個過程话侄!
富集分析算法
任何軟件、分析背后都是一套算法,了解算法才能真正坐觀云卷云舒
具體的方法介紹可以參考:Progress in Gene Functional Enrichment
Analysis這篇文章年堆。大體上富集分析有四類算法:ORA吞杭、FCS、PT变丧、NT
1. 【最常用】ORA(Over Representation Analysis):過表達(dá)分析
首先這個名字很奇怪芽狗,但是既然人家取了這個名字,就一定有原因痒蓬。
這個部分很重要童擎,需要重點理解,采用“理論聯(lián)系實際”的方法
理論:
什么是ORA方法攻晒?
它是檢驗?zāi)愁惞δ茉谝粋€數(shù)據(jù)子集中是否表現(xiàn)過度顾复。又稱為“2X2方法”,像上圖一樣炎辨,做一個列聯(lián)表捕透。上圖中的ORA中,藍(lán)圈內(nèi)是感興趣基因(8個)碴萧,綠圈內(nèi)是某個通路的基因(5個);灰點是既不感興趣又不在通路內(nèi)的(6個)末购,藍(lán)點是感興趣但不在通路內(nèi)的(5個)破喻,綠點是在通路內(nèi)但不感興趣的(2個),紅點是既感興趣又在通路內(nèi)的(3個)盟榴,于是就能做出來2X2列聯(lián)表曹质。再利用fisher精確檢驗或超幾何分布得到p值。
簡而言之擎场,需要4類數(shù)據(jù):總共的基因數(shù)(作為背景基因)羽德、總共屬于某分類的基因數(shù)、樣本包含的基因數(shù)(也就是用的差異表達(dá)基因)迅办、樣本中屬于某分類的基因數(shù)
優(yōu)點:出現(xiàn)的最早宅静,最常用,有完善的統(tǒng)計學(xué)理論基礎(chǔ)站欺,結(jié)果比較可靠姨夹;
缺點:
- 僅僅使用了基因的數(shù)目赚楚,但是基因的不同表達(dá)水平?jīng)]有考慮妓忍,為了得到差異基因,需要人為設(shè)置閾值蒸辆,沒有一個設(shè)置規(guī)定贾虽,因此結(jié)果因人而異逃糟;
- 適用于差異最顯著的基因,而差異不顯著的基因就會被忽略,檢測靈敏度會降低
- ORA利用統(tǒng)計學(xué)假設(shè)每個基因相互獨立绰咽,但是就生物體本身而言菇肃,忽略了內(nèi)部的復(fù)雜的相互作用,并且每個基因在不同的生物學(xué)過程中發(fā)揮的作用大小不一樣剃诅,同等看待結(jié)果可能會不準(zhǔn)確
實際:
實際上就是把我們感興趣的基因和背景基因做一個交集巷送。
感興趣的基因也就是差異基因了,包括上調(diào)矛辕、下調(diào)表達(dá)的(利用原始表達(dá)矩陣中p值和logFC進(jìn)行篩選)笑跛,一般人類芯片數(shù)據(jù)會有幾百個
背景基因就是在KEGG等數(shù)據(jù)庫中有注釋的基因【人類基因組有2萬個左右基因,現(xiàn)在總共有已知功能的是7000左右聊品,隨著研究的不斷深入飞蹂,背景基因數(shù)量會越來越多,結(jié)果也會越來越全面】
舉個例子翻屈,KEGG通路hsa05206
指的是MicroRNAs in Cancer
陈哑,包括150個基因,背景基因使用了6517個伸眶;GSE17708芯片得到的差異基因數(shù)是547個惊窖,在KEGG能注釋上的有80個,其中就有10個是MicroRNA通路的厘贼,概率高達(dá)12.5%(enrichKEGG方法都是用能在KEGG注釋上的基因界酒,比如這里用80而不是547),那么這個通路是不是在下調(diào)基因中被顯著改變嘴秸?需要把全部的80個下調(diào)基因毁欣,在KEGG的530個通路中注釋一遍,再一個一個進(jìn)行超幾何分布檢驗岳掐,得到p值凭疮。hsa05206
通路在背景基因中查到的概率是150/6517=2.3%,是顯著低于12.5%的
超幾何分布屬于統(tǒng)計學(xué)上一種離散概率分布串述。它描述了由有限個物件中抽出n個物件执解,成功抽出指定種類的物件的個數(shù)(不歸還)。n=1剖煌,超幾何分布還原為伯努利分布材鹦;n接近∞,超幾何分布可視為二項分布
2. FCS(Functional Class Scoring) 功能集打分法
它比ORA的進(jìn)步就是基本假設(shè)做了改變耕姊,考慮的更加全面桶唐。它認(rèn)為盡管單個基因的改變會造成顯著性影響,但是和它類似的微效基因疊加在一起也能行茉兰。也就是說尤泽,F(xiàn)CS不再像ORA一樣,強(qiáng)調(diào)個人英雄主義,而是把目光轉(zhuǎn)向人民坯约,“星星之火熊咽,可以燎原”
Ten Years of Pathway Analysis: Current Approaches and Outstanding Challenges這篇文章有詳細(xì)的描述。
操作方法:
要求的輸入是一個排序的基因列表和一個基因集合闹丐,不需要設(shè)置閾值
- 計算單個基因表達(dá)水平的統(tǒng)計值横殴,采用如衡量差異基因的ANOVA、Q-statistic卿拴、t檢驗衫仑、Z-score、信噪比堕花,進(jìn)行打分或排序文狱,或者直接使用排序好的基因表達(dá)譜
- 同一通路上所有基因的表達(dá)水平統(tǒng)計值進(jìn)行整合,匯集成單個通路水平的分?jǐn)?shù)或統(tǒng)計值缘挽,采用基因水平統(tǒng)計的和瞄崇、均值或中位數(shù),Wilcoxon rank sum, Maxmean statistic, Kolmogorov-Smirnov statistic
- 對通路水平的顯著性進(jìn)行評估:利用重抽樣(bootstrap)的統(tǒng)計學(xué)方法
優(yōu)點:
考慮了基因表達(dá)值的個體差異化信息壕曼,更加全面
缺點:
FCS仍然和ORA一樣苏研,只能獨立分析每一條通路,但是同一個基因可能設(shè)計多個通路腮郊,不能分析這種情況楣富;它只是根據(jù)特定的通路為差異基因進(jìn)行排序,比如按基因A伴榔、B的一條通路檢測得到他們的表達(dá)量分別改變3倍、10倍庄萎,但是換其他通路踪少,可能排名就發(fā)生改變,不會一直保持B>A
3. PT(Pathway Topology)通路拓?fù)鋵W(xué)
理想很豐滿糠涛,現(xiàn)實很骨感的一個體系
在通路的富集分析中援奢,一般上游基因的表達(dá)水平改變要顯著大于下游基因?qū)φ麄€通路的影響。PT方法就是把基因在通路中的位置忍捡,和其他基因的互作和調(diào)控關(guān)系結(jié)合在一起集漾,評估每個基因?qū)ν返呢暙I(xiàn)并算出權(quán)重,然后把權(quán)重整合到富集分析砸脊。
方法雖好具篇,但是通路拓?fù)浣Y(jié)構(gòu)存在依賴性,而目前的GO等數(shù)據(jù)庫中沒有任何拓?fù)浣Y(jié)構(gòu)信息凌埂,因此限制發(fā)展
4. NT(Network topology)網(wǎng)絡(luò)拓?fù)鋵W(xué)
利用現(xiàn)有的全基因組范圍的生物網(wǎng)絡(luò)驱显,提取數(shù)據(jù)庫的基因相互作用關(guān)系(如:基因連接度、基因在網(wǎng)絡(luò)中的距離),把基因的生物學(xué)屬性整合到功能分析埃疫。利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來計算基因?qū)μ囟ㄉ锿返闹匾圆⒔o予相應(yīng)的權(quán)重伏恐,再利用傳統(tǒng)的ORA 或 FCS 方法來評估特定生物通路的富集程度,如GANPA 和 LEGO栓霜。缺點就是算法太復(fù)雜翠桦,計算速度慢
歡迎關(guān)注我們的公眾號~_~
我們是兩個農(nóng)轉(zhuǎn)生信的小碩,打造生信星球胳蛮,想讓它成為一個不拽術(shù)語销凑、通俗易懂的生信知識平臺。需要幫助或提出意見請后臺留言或發(fā)送郵件到Bioplanet520@outlook.com