一文讀懂:基因的功能富集分析

富集分析

基因富集分析(gene set enrichment analysis)是在一組基因或蛋白中找到一類過表達(dá)的基因或蛋白匣椰。研究方法可分為三種:Over-Repressentation Analysis(ORA),F(xiàn)unctional Class Scoring(FCS)和Pathway Topology荆残。ORA是目前應(yīng)用最多的方法肋层,GO富集分析和KEGG富集分析就是使用的這種方法亿笤;FCS這種方法應(yīng)用于GSEA分析。

功能分析(functional analysis)/ 通路分析(pathway analysis)是將一堆基因按照基因的功能/通路來進(jìn)行分類栋猖。換句話說净薛,就是把一個基因列表中,具有相似功能的基因放到一起蒲拉,并和生物學(xué)表型關(guān)聯(lián)起來肃拜。GO分析是將基因分門別類放入一個個功能類群,而pathway則是將基因一個個具體放到代謝網(wǎng)絡(luò)中的指定位置雌团。

為了解決將基因按照功能進(jìn)行分類的問題燃领,科學(xué)家們開發(fā)了很多基因功能注釋數(shù)據(jù)庫。這其中比較有名的就是Gene Ontology(基因本體論锦援,GO)和Kyoto Encyclopedia of Genes and Genomes(京都基因與基因組百科全書猛蔽,KEGG)

GO

GO數(shù)據(jù)庫是基因本體論聯(lián)合會(Gene Ontology Consortium)建立的一個數(shù)據(jù)庫(官網(wǎng)http://geneontology.org/)灵寺,旨在建立一個適用于各種物種的曼库、對基因和蛋白功能進(jìn)行限定和描述的,并能隨著研究不斷深入而更新的語義詞匯標(biāo)準(zhǔn)略板。分別從分子功能毁枯、參與的生物途徑及細(xì)胞中的定位對基因產(chǎn)物進(jìn)行了標(biāo)準(zhǔn)化描述,一個基因?qū)?yīng)有一個或多個GO term(GO功能)叮称,一個term對應(yīng)多個gene种玛。

GO注釋分為三大類藐鹤,分別是:分子生物學(xué)功能(Molecular Function,MF)赂韵、生物學(xué)過程(Biological Process娱节,BP)和細(xì)胞學(xué)組分(Cellular Components,CC)右锨,通過這三個功能大類括堤,對一個基因的功能進(jìn)行多方面的限定和描述。

Cellular component解釋的是基因產(chǎn)物在哪里绍移,在細(xì)胞質(zhì)還是在細(xì)胞核悄窃,如果存在細(xì)胞質(zhì)那在哪個細(xì)胞器上,如果是在線粒體中那是存在線粒體膜上還是在線粒體的基質(zhì)中蹂窖。

Biological process該基因參與了哪些生物學(xué)過程轧抗,比如參與了rRNA的加工或參與了DNA的復(fù)制。

Molecular function該基因在分子層面的功能是什么瞬测,它是催化什么反應(yīng)的横媚。

通常在得到差異表達(dá)基因后,可通過功能富集分析進(jìn)一步篩選對生物體具有重要意義的基因月趟。
將篩選得到的基因分門別類放入細(xì)胞組分CC灯蝴、分子功能MF和生物過程BP三個功能類別中,基因產(chǎn)物被盡可能的富集到最低層的功能term上孝宗。尋找各個基因是否有共同的GO條目穷躁,或者有沒有共同的上級GO條目,可以發(fā)現(xiàn)具有某些共同特點(diǎn)的基因因妇。根據(jù)超幾何分布關(guān)系问潭,GO分析會對涉及的GO返回一個p-value,小的p值表示差異基因在該GO 中出現(xiàn)了富集婚被。GO 分析對實(shí)驗(yàn)結(jié)果有提示的作用狡忙,通過差異基因的GO 分析,可以找到富集差異基因的GO分類條目址芯,尋找不同樣品的差異基因可能和哪些基因功能的改變有關(guān)灾茁。

GO是Gene Ontology的縮寫。本體論是哲學(xué)概念谷炸,它是研究存在的本質(zhì)的哲學(xué)問題北专。后來這個詞被應(yīng)用到計算機(jī)界,定義為概念化的詳細(xì)說明淑廊。在實(shí)現(xiàn)上,一個ontology往往就是一個正式的詞匯表特咆,其核心作用就在于定義某一領(lǐng)域或領(lǐng)域內(nèi)的專業(yè)詞匯以及他們之間的關(guān)系季惩,是領(lǐng)域內(nèi)部不同主體之間進(jìn)行交流的一種語義基礎(chǔ)录粱。

使用GO的時候一般需要GO定義文件和GO關(guān)聯(lián)文件。GO定義文件存放GO詞條的定義画拾,而GO關(guān)聯(lián)文件則是不同命名體系與GO詞條的映射關(guān)系啥繁。條目標(biāo)準(zhǔn)定義:

id:GO編號,如:GO:0031985

name:全稱青抛,Golgi cisterna

ontology:命名空間namespace旗闽,cellular_component

definition:定義,Any of the thin, flattened membrane-bounded compartments that form the central portion of the Golgi complex. Source: GOC:mah

條目之間的關(guān)系蜜另,采用有向無環(huán)圖(Directed Acyclic Graphs适室,DAG)的形式。注釋系統(tǒng)中每一個節(jié)點(diǎn)就代表了一個基本描述單元(term)举瑰,有向指的是term之間的單向指向性關(guān)系捣辆,比如termA是內(nèi)質(zhì)網(wǎng),termB是細(xì)胞器此迅,規(guī)定A是B汽畴,卻不能說B是A;無環(huán)指的是從任何一點(diǎn)開始沿著規(guī)定的指向都不能回到原點(diǎn)耸序。

KEGG

KEGG是一個整合了基因組忍些、化學(xué)和系統(tǒng)功能信息的綜合數(shù)據(jù)庫。KEGG下屬4個大類和17個子數(shù)據(jù)庫坎怪,而其中有一個數(shù)據(jù)庫叫做KEGG Pathway罢坝,專門存儲不同物種中基因通路的信息,也是用的最多的一個芋忿,所以炸客,久而久之,KEGG就被大家當(dāng)做是一個通路數(shù)據(jù)庫了戈钢。

GO分析好比是將基因分門別類放入一個個功能類群痹仙,而pathway則是將基因一個個具體放到代謝網(wǎng)絡(luò)中的指定位置根據(jù)挑選出的差異基因殉了,計算這些差異基因同Pathway 的超幾何分布關(guān)系开仰,Pathway 分析會對每個有差異基因存在的pathway 返回一個p-value,小的p 值表示差異基因在該pathway 中出現(xiàn)了富集薪铜。pathway 分析對實(shí)驗(yàn)結(jié)果有提示的作用众弓,通過差異基因的Pathway 分析,可以找到富集差異基因的Pathway 條目隔箍,尋找不同樣品的差異基因可能和哪些細(xì)胞通路的改變有關(guān)谓娃。pathway 是蛋白質(zhì)之間的相互作用,pathway 的變化可以由參與這條pathway 途徑的蛋白的表達(dá)量或者蛋白的活性改變而引起蜒滩,因此pathway 分析的結(jié)果更顯得間接滨达。

Over-Repressentation Analysis(ORA)

過表征分析奶稠,其實(shí)就是想看看某類功能或分類和隨機(jī)事件相比是否有更明顯的趨勢。統(tǒng)計方法包括Fisher精確檢驗(yàn)捡遍、卡方檢驗(yàn)等锌订。Fisher精確檢驗(yàn)是基于超幾何分布計算的,它分為兩種画株,分別是單邊檢驗(yàn)(等同于超幾何檢驗(yàn))和雙邊檢驗(yàn)辆飘。超幾何分布檢驗(yàn)常用來對venn圖兩個圈overlap的顯著性進(jìn)行檢驗(yàn),F(xiàn)isher精確檢驗(yàn)常用來對2×2的列聯(lián)表進(jìn)行檢驗(yàn)谓传。

分析列聯(lián)表中兩個變量的關(guān)聯(lián)蜈项,可以采取卡方檢驗(yàn)(Chi-square test)。先假設(shè)兩個變量之間沒有關(guān)系(是否在這個GO term和是否在目標(biāo)基因集沒有關(guān)系良拼,即目標(biāo)基因集在特定GO term沒有富集)战得,計算統(tǒng)計量:Σ(實(shí)際值-理論值)^2/理論值,然后根據(jù)自由度(等于1)查表得到p值庸推。如果p值小于0.05常侦,說明原假設(shè)不成立,即目標(biāo)基因集在特定GO term出現(xiàn)了富集贬媒。

卡方檢驗(yàn)最大的優(yōu)勢在于計算比較簡便聋亡,可以徒手計算,Fisher精確檢驗(yàn)的計算要相對復(fù)雜些际乘,但是現(xiàn)在實(shí)現(xiàn)起來也很容易了坡倔。對于2×2列聯(lián)表來說,卡方檢驗(yàn)通常只能做為近似估計值脖含,特別是當(dāng)總樣本量或理論頻數(shù)比較小的時候罪塔,計算并不準(zhǔn)確。一般情況下养葵,如果總樣本量大于40征堪,最小理論頻數(shù)大于5,可以使用卡方檢驗(yàn)关拒。但是佃蚜,如果采用卡方檢驗(yàn)得到的P值在0.05附近時,應(yīng)該用Fisher確切概率法着绊。如果差異很大谐算,采用卡方檢驗(yàn)和Fisher確切概率法得到的結(jié)果相差不大。現(xiàn)在GO富集分析一般都是使用超幾何分布進(jìn)行計算的归露。

富集分析的超幾何分布檢驗(yàn)的p值計算如下洲脂。N為所有基因中具有pathway/GO term注釋的基因數(shù)目;n為N中差異表達(dá)基因的數(shù)目剧包;M為所有基因中注釋為某特定pathway/GO term的基因數(shù)目恐锦;m為注釋為某特定pathway/GO term的差異表達(dá)基因數(shù)目雇毫。通過計算得到的P value會進(jìn)一步經(jīng)過多重檢驗(yàn)校正,通常應(yīng)用的是BH方法踩蔚,得到FDR值。然后以FDR≤0.05為閾值枚粘,滿足此條件的pathway/GO term定義為在差異表達(dá)基因中顯著富集的pathway/GO term馅闽。此外還有很多其他的算法來試圖解決一個基因?qū)?yīng)多個GO term、一個term對應(yīng)多個gene的問題馍迄,但是本質(zhì)上也是基于Fisher's exact test福也。

常見的富集結(jié)果描述包括:

RichFactor,富集因子攀圈,是指感興趣基因列表中屬于這個term的基因的數(shù)量/背景基因集中富集在這個term中所有基因的數(shù)量暴凑。

p值或q值:代表富集顯著程度,可以映射到圖形顏色赘来。

GeneNumber:感興趣基因列表中屬于這個term的基因數(shù)量耀找。

Gene Percent(%):感興趣基因列表屬于這個term的基因的數(shù)量占感興趣基因列表所有基因數(shù)量的百分比

富集分析工具

clusterProfiler

clusterProfiler飞蚓,它支持ORA和FCS兩類算法。函數(shù)為:enrichGO, gseGO: GO富集分析;enrichKEGG, gseKEGG: KEGG富集分析丹拯;enrichDAVID: DAVID富集分析。

DAVIDhttps://david.ncifcrf.gov/)是由美國Leidos 生物醫(yī)學(xué)研究公司的LHRI團(tuán)隊開發(fā)的一個在線基因注釋及功能富集網(wǎng)站奋刽,最為常用且權(quán)威滞磺,引用超高(>21000)。但是它的數(shù)據(jù)庫版本比較老涵卵,目前最新版的DAVID 6.8還是在2016年更新的浴栽,而且基本只更新了GO和ID轉(zhuǎn)換的數(shù)據(jù),KEGG也沒有更新轿偎。聽說2016年Nature Methods 專門寫了Impact of outdated gene annotations on pathway enrichment analysis 吐槽大家還在用老舊的DAVID典鸡。

GSEA

Gene Set Enrichment Analysis(基因集富集分析)用來評估一個預(yù)先定義的基因集S(已知功能的基因集)的基因在與表型相關(guān)度排序的基因列表L(按照logFC、Signal to Noise Ratio等排序的基因列表)中的分布趨勢(是隨機(jī)分布贴硫,還是主要分布在頂部或底部)椿每,從而判斷其對表型的貢獻(xiàn)。GSEA確定一個預(yù)先定義的基因集是否能在兩個生物學(xué)狀態(tài)中顯示出顯著的一致性的差異英遭,通俗一點(diǎn)就是某個通路/GO條目中的基因集在實(shí)驗(yàn)組和對照組中呈現(xiàn)出一 致的上調(diào)或者下調(diào)趨勢间护。

富集分?jǐn)?shù)enrichment score(ES)代表集合S在排序列表L的頂部或底部被過表達(dá)的程度。這個分?jǐn)?shù)是通過遍歷列表L來計算的挖诸,當(dāng)我們遇到一個在S中的基因時增加一個running-sum statistic(類Kolmogorov-Smirnovlike統(tǒng)計量)汁尺,當(dāng)遇到的基因不在S中時減少統(tǒng)計量。增量的大小取決于基因統(tǒng)計(例如基因與表型的相關(guān)性)多律。ES為random walk中遇到的與零的最大偏差(maximum deviation from zero)痴突。GSEA的那條曲曲折折的線就是通過不斷的加分減分做出來的搂蜓,圖中的每一條垂直線表示基因集S中一個基因。

利用置換檢驗(yàn)(permutation test)計算ES的p值辽装。具體地說帮碰,我們對基因列表L的gene labels進(jìn)行重新排列(permute),并為排列后的數(shù)據(jù)重新計算基因集的ES(重復(fù)1000次)拾积,從而為ES生成一個null distribution殉挽。然后相對于這個零分布計算觀察到的ES的p值。并使用FDR調(diào)整計算q值拓巧。

各種方法的特點(diǎn)

ORA方法存在一些問題:僅使用了基因數(shù)目信息斯碌,而沒有利用基因表達(dá)水平或表達(dá)差異值,為了獲得感興趣或者差異表達(dá)基因肛度,需要人為的設(shè)置閾值傻唾。ORA法通常僅使用最顯著的基因,而忽略差異不顯著的基因承耿。在獲得感興趣的基因時, 往往需要選取合適的閾值, 有可能會丟失顯著性較低但比較關(guān)鍵的基因, 導(dǎo)致檢測靈敏性的降低冠骄;假設(shè)每個基因都是獨(dú)立的,忽視了基因在通路內(nèi)部生物學(xué)意義的不同(如調(diào)控和被調(diào)控基因的不同)及基因間復(fù)雜的相互作用加袋;ORA假設(shè)通路與通路間是獨(dú)立的猴抹,但這個前提假設(shè)是錯誤的。

FCS方法相較于ORA 法在理論上有明顯突破锁荔,考慮到了基因表達(dá)值的屬性信息, 以待測基因功能集為對象來進(jìn)行檢驗(yàn), 也使得檢驗(yàn)結(jié)果更加靈敏蟀给。認(rèn)為雖然個體基因表達(dá)改變之后會更多在通路中體現(xiàn),但是一些功能相關(guān)基因中較弱但協(xié)調(diào)的變化(small but consistent changes)也有明顯的影響阳堕。仍獨(dú)立分析每一條通路跋理,同一個基因可能涉及多條通路,所以不同通路間的基因出現(xiàn)重疊恬总,別的通路可能由于重疊的基因前普,也出現(xiàn)顯著富集;仍然把待測基因功能集中的每個基因作為獨(dú)立的個體, 忽略了基因的生物學(xué)屬性和基因間的復(fù)雜相互作用關(guān)系壹堰。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------I'm a line ! Thanks !---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

參考鏈接:http://www.reibang.com/p/66eb3a16b296

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末拭卿,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子贱纠,更是在濱河造成了極大的恐慌峻厚,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件谆焊,死亡現(xiàn)場離奇詭異惠桃,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門辜王,熙熙樓的掌柜王于貴愁眉苦臉地迎上來劈狐,“玉大人,你說我怎么就攤上這事呐馆》实蓿” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵汹来,是天一觀的道長辫继。 經(jīng)常有香客問我,道長俗慈,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任遣耍,我火速辦了婚禮闺阱,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘舵变。我一直安慰自己酣溃,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布纪隙。 她就那樣靜靜地躺著赊豌,像睡著了一般。 火紅的嫁衣襯著肌膚如雪绵咱。 梳的紋絲不亂的頭發(fā)上碘饼,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機(jī)與錄音悲伶,去河邊找鬼艾恼。 笑死,一個胖子當(dāng)著我的面吹牛麸锉,可吹牛的內(nèi)容都是我干的钠绍。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼花沉,長吁一口氣:“原來是場噩夢啊……” “哼柳爽!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起碱屁,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤磷脯,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后娩脾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體争拐,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了架曹。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片隘冲。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖绑雄,靈堂內(nèi)的尸體忽然破棺而出展辞,到底是詐尸還是另有隱情,我是刑警寧澤万牺,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布罗珍,位于F島的核電站,受9級特大地震影響脚粟,放射性物質(zhì)發(fā)生泄漏覆旱。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一核无、第九天 我趴在偏房一處隱蔽的房頂上張望扣唱。 院中可真熱鬧,春花似錦团南、人聲如沸噪沙。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽正歼。三九已至,卻和暖如春拷橘,著一層夾襖步出監(jiān)牢的瞬間局义,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工冗疮, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留旭咽,地道東北人。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓赌厅,卻偏偏與公主長得像穷绵,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子特愿,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容