一文讀懂：基因的功能富集分析

富集分析

基因富集分析（gene set enrichment analysis）是在一組基因或蛋白中找到一類過表達(dá)的基因或蛋白匣椰。研究方法可分為三種：Over-Repressentation Analysis(ORA)，F(xiàn)unctional Class Scoring(FCS)和Pathway Topology荆残。ORA是目前應(yīng)用最多的方法肋层，GO富集分析和KEGG富集分析就是使用的這種方法亿笤；FCS這種方法應(yīng)用于GSEA分析。

功能分析（functional analysis）/ 通路分析（pathway analysis）是將一堆基因按照基因的功能/通路來進(jìn)行分類栋猖。換句話說净薛，就是把一個基因列表中，具有相似功能的基因放到一起蒲拉，并和生物學(xué)表型關(guān)聯(lián)起來肃拜。GO分析是將基因分門別類放入一個個功能類群，而pathway則是將基因一個個具體放到代謝網(wǎng)絡(luò)中的指定位置雌团。

為了解決將基因按照功能進(jìn)行分類的問題燃领，科學(xué)家們開發(fā)了很多基因功能注釋數(shù)據(jù)庫。這其中比較有名的就是Gene Ontology（基因本體論锦援，GO）和Kyoto Encyclopedia of Genes and Genomes（京都基因與基因組百科全書猛蔽，KEGG）。

GO

GO數(shù)據(jù)庫是基因本體論聯(lián)合會（Gene Ontology Consortium）建立的一個數(shù)據(jù)庫（官網(wǎng)http://geneontology.org/）灵寺，旨在建立一個適用于各種物種的曼库、對基因和蛋白功能進(jìn)行限定和描述的，并能隨著研究不斷深入而更新的語義詞匯標(biāo)準(zhǔn)略板。分別從分子功能毁枯、參與的生物途徑及細(xì)胞中的定位對基因產(chǎn)物進(jìn)行了標(biāo)準(zhǔn)化描述，一個基因?qū)?yīng)有一個或多個GO term（GO功能）叮称，一個term對應(yīng)多個gene种玛。

GO注釋分為三大類藐鹤，分別是：分子生物學(xué)功能（Molecular Function，MF）赂韵、生物學(xué)過程（Biological Process娱节，BP）和細(xì)胞學(xué)組分（Cellular Components，CC）右锨，通過這三個功能大類括堤，對一個基因的功能進(jìn)行多方面的限定和描述。

Cellular component解釋的是基因產(chǎn)物在哪里绍移，在細(xì)胞質(zhì)還是在細(xì)胞核悄窃，如果存在細(xì)胞質(zhì)那在哪個細(xì)胞器上，如果是在線粒體中那是存在線粒體膜上還是在線粒體的基質(zhì)中蹂窖。

Biological process該基因參與了哪些生物學(xué)過程轧抗，比如參與了rRNA的加工或參與了DNA的復(fù)制。

Molecular function該基因在分子層面的功能是什么瞬测，它是催化什么反應(yīng)的横媚。

通常在得到差異表達(dá)基因后，可通過功能富集分析進(jìn)一步篩選對生物體具有重要意義的基因月趟。
將篩選得到的基因分門別類放入細(xì)胞組分CC灯蝴、分子功能MF和生物過程BP三個功能類別中，基因產(chǎn)物被盡可能的富集到最低層的功能term上孝宗。尋找各個基因是否有共同的GO條目穷躁，或者有沒有共同的上級GO條目，可以發(fā)現(xiàn)具有某些共同特點(diǎn)的基因因妇。根據(jù)超幾何分布關(guān)系问潭，GO分析會對涉及的GO返回一個p-value，小的p值表示差異基因在該GO 中出現(xiàn)了富集婚被。GO 分析對實(shí)驗(yàn)結(jié)果有提示的作用狡忙，通過差異基因的GO 分析，可以找到富集差異基因的GO分類條目址芯，尋找不同樣品的差異基因可能和哪些基因功能的改變有關(guān)灾茁。

GO是Gene Ontology的縮寫。本體論是哲學(xué)概念谷炸，它是研究存在的本質(zhì)的哲學(xué)問題北专。后來這個詞被應(yīng)用到計算機(jī)界，定義為概念化的詳細(xì)說明淑廊。在實(shí)現(xiàn)上，一個ontology往往就是一個正式的詞匯表特咆，其核心作用就在于定義某一領(lǐng)域或領(lǐng)域內(nèi)的專業(yè)詞匯以及他們之間的關(guān)系季惩，是領(lǐng)域內(nèi)部不同主體之間進(jìn)行交流的一種語義基礎(chǔ)录粱。

使用GO的時候一般需要GO定義文件和GO關(guān)聯(lián)文件。GO定義文件存放GO詞條的定義画拾，而GO關(guān)聯(lián)文件則是不同命名體系與GO詞條的映射關(guān)系啥繁。條目標(biāo)準(zhǔn)定義：

id：GO編號，如：GO:0031985

name：全稱青抛，Golgi cisterna

ontology：命名空間namespace旗闽，cellular_component

definition：定義，Any of the thin, flattened membrane-bounded compartments that form the central portion of the Golgi complex. Source: GOC:mah

條目之間的關(guān)系蜜另，采用有向無環(huán)圖（Directed Acyclic Graphs适室，DAG）的形式。注釋系統(tǒng)中每一個節(jié)點(diǎn)就代表了一個基本描述單元（term）举瑰，有向指的是term之間的單向指向性關(guān)系捣辆，比如termA是內(nèi)質(zhì)網(wǎng)，termB是細(xì)胞器此迅，規(guī)定A是B汽畴，卻不能說B是A；無環(huán)指的是從任何一點(diǎn)開始沿著規(guī)定的指向都不能回到原點(diǎn)耸序。

KEGG

KEGG是一個整合了基因組忍些、化學(xué)和系統(tǒng)功能信息的綜合數(shù)據(jù)庫。KEGG下屬4個大類和17個子數(shù)據(jù)庫坎怪，而其中有一個數(shù)據(jù)庫叫做KEGG Pathway罢坝，專門存儲不同物種中基因通路的信息，也是用的最多的一個芋忿，所以炸客，久而久之，KEGG就被大家當(dāng)做是一個通路數(shù)據(jù)庫了戈钢。

GO分析好比是將基因分門別類放入一個個功能類群痹仙，而pathway則是將基因一個個具體放到代謝網(wǎng)絡(luò)中的指定位置。根據(jù)挑選出的差異基因殉了，計算這些差異基因同Pathway 的超幾何分布關(guān)系开仰，Pathway 分析會對每個有差異基因存在的pathway 返回一個p-value，小的p 值表示差異基因在該pathway 中出現(xiàn)了富集薪铜。pathway 分析對實(shí)驗(yàn)結(jié)果有提示的作用众弓，通過差異基因的Pathway 分析，可以找到富集差異基因的Pathway 條目隔箍，尋找不同樣品的差異基因可能和哪些細(xì)胞通路的改變有關(guān)谓娃。pathway 是蛋白質(zhì)之間的相互作用，pathway 的變化可以由參與這條pathway 途徑的蛋白的表達(dá)量或者蛋白的活性改變而引起蜒滩，因此pathway 分析的結(jié)果更顯得間接滨达。

Over-Repressentation Analysis（ORA）

過表征分析奶稠，其實(shí)就是想看看某類功能或分類和隨機(jī)事件相比是否有更明顯的趨勢。統(tǒng)計方法包括Fisher精確檢驗(yàn)捡遍、卡方檢驗(yàn)等锌订。Fisher精確檢驗(yàn)是基于超幾何分布計算的，它分為兩種画株，分別是單邊檢驗(yàn)（等同于超幾何檢驗(yàn)）和雙邊檢驗(yàn)辆飘。超幾何分布檢驗(yàn)常用來對venn圖兩個圈overlap的顯著性進(jìn)行檢驗(yàn)，F(xiàn)isher精確檢驗(yàn)常用來對2×2的列聯(lián)表進(jìn)行檢驗(yàn)谓传。

分析列聯(lián)表中兩個變量的關(guān)聯(lián)蜈项，可以采取卡方檢驗(yàn)（Chi-square test）。先假設(shè)兩個變量之間沒有關(guān)系（是否在這個GO term和是否在目標(biāo)基因集沒有關(guān)系良拼，即目標(biāo)基因集在特定GO term沒有富集）战得，計算統(tǒng)計量：Σ(實(shí)際值-理論值)^2/理論值，然后根據(jù)自由度（等于1）查表得到p值庸推。如果p值小于0.05常侦，說明原假設(shè)不成立，即目標(biāo)基因集在特定GO term出現(xiàn)了富集贬媒。

卡方檢驗(yàn)最大的優(yōu)勢在于計算比較簡便聋亡，可以徒手計算，Fisher精確檢驗(yàn)的計算要相對復(fù)雜些际乘，但是現(xiàn)在實(shí)現(xiàn)起來也很容易了坡倔。對于2×2列聯(lián)表來說，卡方檢驗(yàn)通常只能做為近似估計值脖含，特別是當(dāng)總樣本量或理論頻數(shù)比較小的時候罪塔，計算并不準(zhǔn)確。一般情況下养葵，如果總樣本量大于40征堪，最小理論頻數(shù)大于5，可以使用卡方檢驗(yàn)关拒。但是佃蚜，如果采用卡方檢驗(yàn)得到的P值在0.05附近時，應(yīng)該用Fisher確切概率法着绊。如果差異很大谐算，采用卡方檢驗(yàn)和Fisher確切概率法得到的結(jié)果相差不大。現(xiàn)在GO富集分析一般都是使用超幾何分布進(jìn)行計算的归露。

富集分析的超幾何分布檢驗(yàn)的p值計算如下洲脂。N為所有基因中具有pathway/GO term注釋的基因數(shù)目；n為N中差異表達(dá)基因的數(shù)目剧包；M為所有基因中注釋為某特定pathway/GO term的基因數(shù)目恐锦；m為注釋為某特定pathway/GO term的差異表達(dá)基因數(shù)目雇毫。通過計算得到的P value會進(jìn)一步經(jīng)過多重檢驗(yàn)校正，通常應(yīng)用的是BH方法踩蔚，得到FDR值。然后以FDR≤0.05為閾值枚粘，滿足此條件的pathway/GO term定義為在差異表達(dá)基因中顯著富集的pathway/GO term馅闽。此外還有很多其他的算法來試圖解決一個基因?qū)?yīng)多個GO term、一個term對應(yīng)多個gene的問題馍迄，但是本質(zhì)上也是基于Fisher's exact test福也。

常見的富集結(jié)果描述包括：

RichFactor，富集因子攀圈，是指感興趣基因列表中屬于這個term的基因的數(shù)量/背景基因集中富集在這個term中所有基因的數(shù)量暴凑。

p值或q值：代表富集顯著程度，可以映射到圖形顏色赘来。

GeneNumber：感興趣基因列表中屬于這個term的基因數(shù)量耀找。

Gene Percent(%)：感興趣基因列表屬于這個term的基因的數(shù)量占感興趣基因列表所有基因數(shù)量的百分比

富集分析工具

clusterProfiler

clusterProfiler飞蚓，它支持ORA和FCS兩類算法。函數(shù)為：enrichGO, gseGO: GO富集分析；enrichKEGG, gseKEGG: KEGG富集分析丹拯；enrichDAVID: DAVID富集分析。

DAVID（https://david.ncifcrf.gov/）是由美國Leidos 生物醫(yī)學(xué)研究公司的LHRI團(tuán)隊開發(fā)的一個在線基因注釋及功能富集網(wǎng)站奋刽，最為常用且權(quán)威滞磺，引用超高（>21000）。但是它的數(shù)據(jù)庫版本比較老涵卵，目前最新版的DAVID 6.8還是在2016年更新的浴栽，而且基本只更新了GO和ID轉(zhuǎn)換的數(shù)據(jù)，KEGG也沒有更新轿偎。聽說2016年Nature Methods 專門寫了Impact of outdated gene annotations on pathway enrichment analysis 吐槽大家還在用老舊的DAVID典鸡。

GSEA

Gene Set Enrichment Analysis（基因集富集分析）用來評估一個預(yù)先定義的基因集S（已知功能的基因集）的基因在與表型相關(guān)度排序的基因列表L（按照logFC、Signal to Noise Ratio等排序的基因列表）中的分布趨勢（是隨機(jī)分布贴硫，還是主要分布在頂部或底部）椿每，從而判斷其對表型的貢獻(xiàn)。GSEA確定一個預(yù)先定義的基因集是否能在兩個生物學(xué)狀態(tài)中顯示出顯著的一致性的差異英遭，通俗一點(diǎn)就是某個通路/GO條目中的基因集在實(shí)驗(yàn)組和對照組中呈現(xiàn)出一致的上調(diào)或者下調(diào)趨勢间护。

富集分?jǐn)?shù)enrichment score（ES）代表集合S在排序列表L的頂部或底部被過表達(dá)的程度。這個分?jǐn)?shù)是通過遍歷列表L來計算的挖诸，當(dāng)我們遇到一個在S中的基因時增加一個running-sum statistic（類Kolmogorov-Smirnovlike統(tǒng)計量）汁尺，當(dāng)遇到的基因不在S中時減少統(tǒng)計量。增量的大小取決于基因統(tǒng)計（例如基因與表型的相關(guān)性）多律。ES為random walk中遇到的與零的最大偏差（maximum deviation from zero）痴突。GSEA的那條曲曲折折的線就是通過不斷的加分減分做出來的搂蜓，圖中的每一條垂直線表示基因集S中一個基因。

利用置換檢驗(yàn)（permutation test）計算ES的p值辽装。具體地說帮碰，我們對基因列表L的gene labels進(jìn)行重新排列（permute），并為排列后的數(shù)據(jù)重新計算基因集的ES（重復(fù)1000次）拾积，從而為ES生成一個null distribution殉挽。然后相對于這個零分布計算觀察到的ES的p值。并使用FDR調(diào)整計算q值拓巧。

各種方法的特點(diǎn)

ORA方法存在一些問題：僅使用了基因數(shù)目信息斯碌，而沒有利用基因表達(dá)水平或表達(dá)差異值，為了獲得感興趣或者差異表達(dá)基因肛度，需要人為的設(shè)置閾值傻唾。ORA法通常僅使用最顯著的基因，而忽略差異不顯著的基因承耿。在獲得感興趣的基因時, 往往需要選取合適的閾值, 有可能會丟失顯著性較低但比較關(guān)鍵的基因, 導(dǎo)致檢測靈敏性的降低冠骄；假設(shè)每個基因都是獨(dú)立的，忽視了基因在通路內(nèi)部生物學(xué)意義的不同（如調(diào)控和被調(diào)控基因的不同）及基因間復(fù)雜的相互作用加袋；ORA假設(shè)通路與通路間是獨(dú)立的猴抹，但這個前提假設(shè)是錯誤的。

FCS方法相較于ORA 法在理論上有明顯突破锁荔，考慮到了基因表達(dá)值的屬性信息, 以待測基因功能集為對象來進(jìn)行檢驗(yàn), 也使得檢驗(yàn)結(jié)果更加靈敏蟀给。認(rèn)為雖然個體基因表達(dá)改變之后會更多在通路中體現(xiàn)，但是一些功能相關(guān)基因中較弱但協(xié)調(diào)的變化（small but consistent changes）也有明顯的影響阳堕。仍獨(dú)立分析每一條通路跋理，同一個基因可能涉及多條通路，所以不同通路間的基因出現(xiàn)重疊恬总，別的通路可能由于重疊的基因前普，也出現(xiàn)顯著富集；仍然把待測基因功能集中的每個基因作為獨(dú)立的個體, 忽略了基因的生物學(xué)屬性和基因間的復(fù)雜相互作用關(guān)系壹堰。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------I'm a line ! Thanks !---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

參考鏈接：http://www.reibang.com/p/66eb3a16b296

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末拭卿，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子贱纠，更是在濱河造成了極大的恐慌峻厚，老刑警劉巖，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件谆焊，死亡現(xiàn)場離奇詭異惠桃，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門辜王，熙熙樓的掌柜王于貴愁眉苦臉地迎上來劈狐，“玉大人，你說我怎么就攤上這事呐馆》实蓿” “怎么了？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵汹来，是天一觀的道長辫继。經(jīng)常有香客問我，道長俗慈，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任遣耍，我火速辦了婚禮闺阱，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘舵变。我一直安慰自己酣溃，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布纪隙。她就那樣靜靜地躺著赊豌，像睡著了一般。火紅的嫁衣襯著肌膚如雪绵咱。梳的紋絲不亂的頭發(fā)上碘饼，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天，我揣著相機(jī)與錄音悲伶，去河邊找鬼艾恼。笑死，一個胖子當(dāng)著我的面吹牛麸锉，可吹牛的內(nèi)容都是我干的钠绍。我是一名探鬼主播，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼花沉，長吁一口氣：“原來是場噩夢啊……” “哼柳爽！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起碱屁，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤磷脯，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后娩脾，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體争拐，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了架曹。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片隘冲。...
茶點(diǎn)故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖绑雄，靈堂內(nèi)的尸體忽然破棺而出展辞，到底是詐尸還是另有隱情，我是刑警寧澤万牺，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布罗珍，位于F島的核電站，受9級特大地震影響脚粟，放射性物質(zhì)發(fā)生泄漏覆旱。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一核无、第九天我趴在偏房一處隱蔽的房頂上張望扣唱。院中可真熱鬧，春花似錦团南、人聲如沸噪沙。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案吐根，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽正歼。三九已至，卻和暖如春拷橘，著一層夾襖步出監(jiān)牢的瞬間局义，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工冗疮，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留旭咽，地道東北人。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓赌厅，卻偏偏與公主長得像穷绵，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子特愿，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評論 2贊 345