富集分析
基因富集分析(gene set enrichment analysis)是在一組基因或蛋白中找到一類過表達(dá)的基因或蛋白匣椰。研究方法可分為三種:Over-Repressentation Analysis(ORA),F(xiàn)unctional Class Scoring(FCS)和Pathway Topology荆残。ORA是目前應(yīng)用最多的方法肋层,GO富集分析和KEGG富集分析就是使用的這種方法亿笤;FCS這種方法應(yīng)用于GSEA分析。
功能分析(functional analysis)/ 通路分析(pathway analysis)是將一堆基因按照基因的功能/通路來進(jìn)行分類栋猖。換句話說净薛,就是把一個基因列表中,具有相似功能的基因放到一起蒲拉,并和生物學(xué)表型關(guān)聯(lián)起來肃拜。GO分析是將基因分門別類放入一個個功能類群,而pathway則是將基因一個個具體放到代謝網(wǎng)絡(luò)中的指定位置雌团。
為了解決將基因按照功能進(jìn)行分類的問題燃领,科學(xué)家們開發(fā)了很多基因功能注釋數(shù)據(jù)庫。這其中比較有名的就是Gene Ontology(基因本體論锦援,GO)和Kyoto Encyclopedia of Genes and Genomes(京都基因與基因組百科全書猛蔽,KEGG)。
GO
GO數(shù)據(jù)庫是基因本體論聯(lián)合會(Gene Ontology Consortium)建立的一個數(shù)據(jù)庫(官網(wǎng)http://geneontology.org/)灵寺,旨在建立一個適用于各種物種的曼库、對基因和蛋白功能進(jìn)行限定和描述的,并能隨著研究不斷深入而更新的語義詞匯標(biāo)準(zhǔn)略板。分別從分子功能毁枯、參與的生物途徑及細(xì)胞中的定位對基因產(chǎn)物進(jìn)行了標(biāo)準(zhǔn)化描述,一個基因?qū)?yīng)有一個或多個GO term(GO功能)叮称,一個term對應(yīng)多個gene种玛。
GO注釋分為三大類藐鹤,分別是:分子生物學(xué)功能(Molecular Function,MF)赂韵、生物學(xué)過程(Biological Process娱节,BP)和細(xì)胞學(xué)組分(Cellular Components,CC)右锨,通過這三個功能大類括堤,對一個基因的功能進(jìn)行多方面的限定和描述。
Cellular component解釋的是基因產(chǎn)物在哪里绍移,在細(xì)胞質(zhì)還是在細(xì)胞核悄窃,如果存在細(xì)胞質(zhì)那在哪個細(xì)胞器上,如果是在線粒體中那是存在線粒體膜上還是在線粒體的基質(zhì)中蹂窖。
Biological process該基因參與了哪些生物學(xué)過程轧抗,比如參與了rRNA的加工或參與了DNA的復(fù)制。
Molecular function該基因在分子層面的功能是什么瞬测,它是催化什么反應(yīng)的横媚。
通常在得到差異表達(dá)基因后,可通過功能富集分析進(jìn)一步篩選對生物體具有重要意義的基因月趟。
將篩選得到的基因分門別類放入細(xì)胞組分CC灯蝴、分子功能MF和生物過程BP三個功能類別中,基因產(chǎn)物被盡可能的富集到最低層的功能term上孝宗。尋找各個基因是否有共同的GO條目穷躁,或者有沒有共同的上級GO條目,可以發(fā)現(xiàn)具有某些共同特點(diǎn)的基因因妇。根據(jù)超幾何分布關(guān)系问潭,GO分析會對涉及的GO返回一個p-value,小的p值表示差異基因在該GO 中出現(xiàn)了富集婚被。GO 分析對實(shí)驗(yàn)結(jié)果有提示的作用狡忙,通過差異基因的GO 分析,可以找到富集差異基因的GO分類條目址芯,尋找不同樣品的差異基因可能和哪些基因功能的改變有關(guān)灾茁。
GO是Gene Ontology的縮寫。本體論是哲學(xué)概念谷炸,它是研究存在的本質(zhì)的哲學(xué)問題北专。后來這個詞被應(yīng)用到計算機(jī)界,定義為概念化的詳細(xì)說明淑廊。在實(shí)現(xiàn)上,一個ontology往往就是一個正式的詞匯表特咆,其核心作用就在于定義某一領(lǐng)域或領(lǐng)域內(nèi)的專業(yè)詞匯以及他們之間的關(guān)系季惩,是領(lǐng)域內(nèi)部不同主體之間進(jìn)行交流的一種語義基礎(chǔ)录粱。
使用GO的時候一般需要GO定義文件和GO關(guān)聯(lián)文件。GO定義文件存放GO詞條的定義画拾,而GO關(guān)聯(lián)文件則是不同命名體系與GO詞條的映射關(guān)系啥繁。條目標(biāo)準(zhǔn)定義:
id:GO編號,如:GO:0031985
name:全稱青抛,Golgi cisterna
ontology:命名空間namespace旗闽,cellular_component
definition:定義,Any of the thin, flattened membrane-bounded compartments that form the central portion of the Golgi complex. Source: GOC:mah
條目之間的關(guān)系蜜另,采用有向無環(huán)圖(Directed Acyclic Graphs适室,DAG)的形式。注釋系統(tǒng)中每一個節(jié)點(diǎn)就代表了一個基本描述單元(term)举瑰,有向指的是term之間的單向指向性關(guān)系捣辆,比如termA是內(nèi)質(zhì)網(wǎng),termB是細(xì)胞器此迅,規(guī)定A是B汽畴,卻不能說B是A;無環(huán)指的是從任何一點(diǎn)開始沿著規(guī)定的指向都不能回到原點(diǎn)耸序。
KEGG
KEGG是一個整合了基因組忍些、化學(xué)和系統(tǒng)功能信息的綜合數(shù)據(jù)庫。KEGG下屬4個大類和17個子數(shù)據(jù)庫坎怪,而其中有一個數(shù)據(jù)庫叫做KEGG Pathway罢坝,專門存儲不同物種中基因通路的信息,也是用的最多的一個芋忿,所以炸客,久而久之,KEGG就被大家當(dāng)做是一個通路數(shù)據(jù)庫了戈钢。
GO分析好比是將基因分門別類放入一個個功能類群痹仙,而pathway則是將基因一個個具體放到代謝網(wǎng)絡(luò)中的指定位置。根據(jù)挑選出的差異基因殉了,計算這些差異基因同Pathway 的超幾何分布關(guān)系开仰,Pathway 分析會對每個有差異基因存在的pathway 返回一個p-value,小的p 值表示差異基因在該pathway 中出現(xiàn)了富集薪铜。pathway 分析對實(shí)驗(yàn)結(jié)果有提示的作用众弓,通過差異基因的Pathway 分析,可以找到富集差異基因的Pathway 條目隔箍,尋找不同樣品的差異基因可能和哪些細(xì)胞通路的改變有關(guān)谓娃。pathway 是蛋白質(zhì)之間的相互作用,pathway 的變化可以由參與這條pathway 途徑的蛋白的表達(dá)量或者蛋白的活性改變而引起蜒滩,因此pathway 分析的結(jié)果更顯得間接滨达。
Over-Repressentation Analysis(ORA)
過表征分析奶稠,其實(shí)就是想看看某類功能或分類和隨機(jī)事件相比是否有更明顯的趨勢。統(tǒng)計方法包括Fisher精確檢驗(yàn)捡遍、卡方檢驗(yàn)等锌订。Fisher精確檢驗(yàn)是基于超幾何分布計算的,它分為兩種画株,分別是單邊檢驗(yàn)(等同于超幾何檢驗(yàn))和雙邊檢驗(yàn)辆飘。超幾何分布檢驗(yàn)常用來對venn圖兩個圈overlap的顯著性進(jìn)行檢驗(yàn),F(xiàn)isher精確檢驗(yàn)常用來對2×2的列聯(lián)表進(jìn)行檢驗(yàn)谓传。
分析列聯(lián)表中兩個變量的關(guān)聯(lián)蜈项,可以采取卡方檢驗(yàn)(Chi-square test)。先假設(shè)兩個變量之間沒有關(guān)系(是否在這個GO term和是否在目標(biāo)基因集沒有關(guān)系良拼,即目標(biāo)基因集在特定GO term沒有富集)战得,計算統(tǒng)計量:Σ(實(shí)際值-理論值)^2/理論值,然后根據(jù)自由度(等于1)查表得到p值庸推。如果p值小于0.05常侦,說明原假設(shè)不成立,即目標(biāo)基因集在特定GO term出現(xiàn)了富集贬媒。
卡方檢驗(yàn)最大的優(yōu)勢在于計算比較簡便聋亡,可以徒手計算,Fisher精確檢驗(yàn)的計算要相對復(fù)雜些际乘,但是現(xiàn)在實(shí)現(xiàn)起來也很容易了坡倔。對于2×2列聯(lián)表來說,卡方檢驗(yàn)通常只能做為近似估計值脖含,特別是當(dāng)總樣本量或理論頻數(shù)比較小的時候罪塔,計算并不準(zhǔn)確。一般情況下养葵,如果總樣本量大于40征堪,最小理論頻數(shù)大于5,可以使用卡方檢驗(yàn)关拒。但是佃蚜,如果采用卡方檢驗(yàn)得到的P值在0.05附近時,應(yīng)該用Fisher確切概率法着绊。如果差異很大谐算,采用卡方檢驗(yàn)和Fisher確切概率法得到的結(jié)果相差不大。現(xiàn)在GO富集分析一般都是使用超幾何分布進(jìn)行計算的归露。
富集分析的超幾何分布檢驗(yàn)的p值計算如下洲脂。N為所有基因中具有pathway/GO term注釋的基因數(shù)目;n為N中差異表達(dá)基因的數(shù)目剧包;M為所有基因中注釋為某特定pathway/GO term的基因數(shù)目恐锦;m為注釋為某特定pathway/GO term的差異表達(dá)基因數(shù)目雇毫。通過計算得到的P value會進(jìn)一步經(jīng)過多重檢驗(yàn)校正,通常應(yīng)用的是BH方法踩蔚,得到FDR值。然后以FDR≤0.05為閾值枚粘,滿足此條件的pathway/GO term定義為在差異表達(dá)基因中顯著富集的pathway/GO term馅闽。此外還有很多其他的算法來試圖解決一個基因?qū)?yīng)多個GO term、一個term對應(yīng)多個gene的問題馍迄,但是本質(zhì)上也是基于Fisher's exact test福也。
常見的富集結(jié)果描述包括:
RichFactor,富集因子攀圈,是指感興趣基因列表中屬于這個term的基因的數(shù)量/背景基因集中富集在這個term中所有基因的數(shù)量暴凑。
p值或q值:代表富集顯著程度,可以映射到圖形顏色赘来。
GeneNumber:感興趣基因列表中屬于這個term的基因數(shù)量耀找。
Gene Percent(%):感興趣基因列表屬于這個term的基因的數(shù)量占感興趣基因列表所有基因數(shù)量的百分比
富集分析工具
clusterProfiler
clusterProfiler飞蚓,它支持ORA和FCS兩類算法。函數(shù)為:enrichGO, gseGO: GO富集分析;enrichKEGG, gseKEGG: KEGG富集分析丹拯;enrichDAVID: DAVID富集分析。
DAVID(https://david.ncifcrf.gov/)是由美國Leidos 生物醫(yī)學(xué)研究公司的LHRI團(tuán)隊開發(fā)的一個在線基因注釋及功能富集網(wǎng)站奋刽,最為常用且權(quán)威滞磺,引用超高(>21000)。但是它的數(shù)據(jù)庫版本比較老涵卵,目前最新版的DAVID 6.8還是在2016年更新的浴栽,而且基本只更新了GO和ID轉(zhuǎn)換的數(shù)據(jù),KEGG也沒有更新轿偎。聽說2016年Nature Methods 專門寫了Impact of outdated gene annotations on pathway enrichment analysis 吐槽大家還在用老舊的DAVID典鸡。
GSEA
Gene Set Enrichment Analysis(基因集富集分析)用來評估一個預(yù)先定義的基因集S(已知功能的基因集)的基因在與表型相關(guān)度排序的基因列表L(按照logFC、Signal to Noise Ratio等排序的基因列表)中的分布趨勢(是隨機(jī)分布贴硫,還是主要分布在頂部或底部)椿每,從而判斷其對表型的貢獻(xiàn)。GSEA確定一個預(yù)先定義的基因集是否能在兩個生物學(xué)狀態(tài)中顯示出顯著的一致性的差異英遭,通俗一點(diǎn)就是某個通路/GO條目中的基因集在實(shí)驗(yàn)組和對照組中呈現(xiàn)出一 致的上調(diào)或者下調(diào)趨勢间护。
富集分?jǐn)?shù)enrichment score(ES)代表集合S在排序列表L的頂部或底部被過表達(dá)的程度。這個分?jǐn)?shù)是通過遍歷列表L來計算的挖诸,當(dāng)我們遇到一個在S中的基因時增加一個running-sum statistic(類Kolmogorov-Smirnovlike統(tǒng)計量)汁尺,當(dāng)遇到的基因不在S中時減少統(tǒng)計量。增量的大小取決于基因統(tǒng)計(例如基因與表型的相關(guān)性)多律。ES為random walk中遇到的與零的最大偏差(maximum deviation from zero)痴突。GSEA的那條曲曲折折的線就是通過不斷的加分減分做出來的搂蜓,圖中的每一條垂直線表示基因集S中一個基因。
利用置換檢驗(yàn)(permutation test)計算ES的p值辽装。具體地說帮碰,我們對基因列表L的gene labels進(jìn)行重新排列(permute),并為排列后的數(shù)據(jù)重新計算基因集的ES(重復(fù)1000次)拾积,從而為ES生成一個null distribution殉挽。然后相對于這個零分布計算觀察到的ES的p值。并使用FDR調(diào)整計算q值拓巧。
各種方法的特點(diǎn)
ORA方法存在一些問題:僅使用了基因數(shù)目信息斯碌,而沒有利用基因表達(dá)水平或表達(dá)差異值,為了獲得感興趣或者差異表達(dá)基因肛度,需要人為的設(shè)置閾值傻唾。ORA法通常僅使用最顯著的基因,而忽略差異不顯著的基因承耿。在獲得感興趣的基因時, 往往需要選取合適的閾值, 有可能會丟失顯著性較低但比較關(guān)鍵的基因, 導(dǎo)致檢測靈敏性的降低冠骄;假設(shè)每個基因都是獨(dú)立的,忽視了基因在通路內(nèi)部生物學(xué)意義的不同(如調(diào)控和被調(diào)控基因的不同)及基因間復(fù)雜的相互作用加袋;ORA假設(shè)通路與通路間是獨(dú)立的猴抹,但這個前提假設(shè)是錯誤的。
FCS方法相較于ORA 法在理論上有明顯突破锁荔,考慮到了基因表達(dá)值的屬性信息, 以待測基因功能集為對象來進(jìn)行檢驗(yàn), 也使得檢驗(yàn)結(jié)果更加靈敏蟀给。認(rèn)為雖然個體基因表達(dá)改變之后會更多在通路中體現(xiàn),但是一些功能相關(guān)基因中較弱但協(xié)調(diào)的變化(small but consistent changes)也有明顯的影響阳堕。仍獨(dú)立分析每一條通路跋理,同一個基因可能涉及多條通路,所以不同通路間的基因出現(xiàn)重疊恬总,別的通路可能由于重疊的基因前普,也出現(xiàn)顯著富集;仍然把待測基因功能集中的每個基因作為獨(dú)立的個體, 忽略了基因的生物學(xué)屬性和基因間的復(fù)雜相互作用關(guān)系壹堰。
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------I'm a line ! Thanks !---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------