在上一節(jié)我們介紹了如何做差異法分析嚼黔,通過差異分析可以了解在不同處理組存在哪些差異基因代箭,接下來羡铲,我們需要對了解這些差異基因參與哪些生物學(xué)過程嫩与,有哪些生物功能寝姿,這時候需要對差異基因進(jìn)行富集分析。富集分析作為高通量組學(xué)數(shù)據(jù)分析的常規(guī)手段划滋,對于解釋生物醫(yī)學(xué)分子機(jī)制具有哪些重要的意義呢饵筑?
一、為什么做富集分析处坪?
? ? ? ? 隨著高通量測序技術(shù)的高速發(fā)展根资,生物醫(yī)學(xué)等相關(guān)領(lǐng)域已經(jīng)進(jìn)行組學(xué)時代,單基因的研究早已不能滿足人們對于生命奧秘的探索同窘,然而如此龐大的數(shù)據(jù)為信息的有效提取和分析帶來新的挑戰(zhàn)玄帕。不管是高通量測序數(shù)據(jù)還是芯片數(shù)據(jù),分析的結(jié)果往往會得到差異表達(dá)的基因的列表想邦。但對許多研究人員來說裤纹,將這一長串基因與某個待研究的生物學(xué)現(xiàn)象及其潛在機(jī)制聯(lián)系起來是很困難的。應(yīng)對這一挑戰(zhàn)的一種方法就是將一個基因列表分成多個部分丧没,從而減少分析的復(fù)雜度鹰椒。研究人員為了解決分成哪些類,開發(fā)了多個注釋數(shù)據(jù)庫呕童。為了解決怎么分成不同類漆际,研究者通常會對基因功能進(jìn)行富集分析, 期望發(fā)現(xiàn)在生物學(xué)過程中起關(guān)鍵作用的生物通路, 從而揭示和理解生物學(xué)過程的基本分子機(jī)制,在這過程中開發(fā)了多種軟件夺饲。
? ? ? 其中灿椅,功能富集分析可以將成百上千個基因套蒂、蛋白或者其他分子分到不同的通路中,以減少分析的復(fù)雜度茫蛹。另外操刀,在兩種不同實(shí)驗(yàn)條件下,激活的通路顯然比簡單的基因或蛋白列表更有說服力婴洼。
二骨坑、富集分析的數(shù)據(jù)庫及軟件
常見的注釋數(shù)據(jù)庫:GO、KEGG柬采、Reactome欢唾、msigdb等等
三、富集分析的方法
ORA: over-representation analysis 過表達(dá)分析
FCS:functional class scoring 功能集打分
PT:pathway topology 通路拓?fù)浣Y(jié)構(gòu)
NT:network topology 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
1. ORA法
又稱為"2X2法"粉捻;
首先礁遣,獲得一組感興趣的基因(一般是差異表達(dá)基因),然后給定的基因列表與某個通路中的基因集做交集肩刃,找出其中共同的基因并進(jìn)行計(jì)數(shù)(統(tǒng)計(jì)值)祟霍,最后利用統(tǒng)計(jì)檢驗(yàn)的方式來評估觀察的計(jì)數(shù)值是否顯著高于隨機(jī),即待測功能 集在基因列表中是否顯著富集盈包。最常用的統(tǒng)計(jì)檢驗(yàn)包括:超幾何分布沸呐、卡方檢驗(yàn)、二項(xiàng)分布呢燥。
這里常用的軟件或者網(wǎng)站有DAVID等崭添;
優(yōu)點(diǎn):基于完備的統(tǒng)計(jì)學(xué)理論,具有結(jié)果穩(wěn)健叛氨、可靠的優(yōu)點(diǎn)
缺點(diǎn):
(1)僅使用了基因數(shù)目信息呼渣,而沒有利用基因表達(dá)水平或表達(dá)差異值,而為了獲得感興趣或者差異表達(dá)基因寞埠,需要人為的設(shè)置閾值徙邻;
(2)ORA法通常僅使用最顯著的基因,而忽略差異不顯著的基因畸裳。在獲得感興趣的基因時, 往往需要選取合適的閾值, 而這樣有可能會丟失顯著性較低但比較關(guān)鍵的基因, 導(dǎo)致檢測靈敏性的降低;
(3)將基因同等對待淳地,ORA法假設(shè)每個基因都是獨(dú)立的怖糊,忽視了基因在通路內(nèi)部生物學(xué)意義的不同(如調(diào)控和被調(diào)控基因的不同)及基因間復(fù)雜的相互作用;
(4)ORA假設(shè)通路與通路間是獨(dú)立的颇象,但這個前提假設(shè)是錯誤的伍伤。
2. FCS法
首先根據(jù)案例和對照狀態(tài)下的基 因表達(dá)譜對基因組中所有基因表達(dá)水平的差異值進(jìn)行打分或排序,或直接輸入排序好的基因表達(dá)譜遣钳;其次是把待測基因功能集中的每個基因的分?jǐn)?shù)通過特定的統(tǒng)計(jì)模型轉(zhuǎn)換為待測基因功能集的分?jǐn)?shù)或統(tǒng)計(jì)值扰魂;最后利用隨機(jī)抽樣獲得的待測基因功能集統(tǒng)計(jì)值的背景分布來檢驗(yàn)實(shí)際觀測的統(tǒng)計(jì)值的顯著水平,并判斷待測基因功能集在案例和對照實(shí)驗(yàn)狀態(tài)下是否發(fā)生了統(tǒng)計(jì)上的顯著變化。
除了上述處理和對照組比較的方法外劝评,F(xiàn)CS還有一類基于單樣本的分析方法姐直,如PLAGE/ZSCORE/SSGSEA,這些方法的一大優(yōu)點(diǎn)是可以通過調(diào)整相關(guān)協(xié)變量蒋畜,相對簡單地分析一些非常復(fù)雜的声畏,如包含時間進(jìn)度的多樣本設(shè)計(jì)。
優(yōu)點(diǎn):總體而言姻成,F(xiàn)CS相較于ORA的方法插龄,在理論上有明顯的突破,考慮到了基因表達(dá)值的屬性信息科展,而且以待測基因功能集為對象來進(jìn)行檢驗(yàn)均牢,也使得檢驗(yàn)結(jié)果更加靈敏。
缺點(diǎn):
(1)與ORA類似才睹,F(xiàn)CS仍獨(dú)立分析每一條通路徘跪,但同一個基因可能涉及多條通路,所以不同通路間的基因出現(xiàn)重疊砂竖,所以別的通路可能由于重疊的基因真椿,也出現(xiàn)顯著富集;
(2)FCS 方法仍然把待測基因功能集中的每個基因作為獨(dú)立的個體, 忽略了基因的生物學(xué)屬性和基因間的復(fù)雜相互作用關(guān)系乎澄。
3. PT法
ORA和FCS方法在進(jìn)行通路的富集分析時, 都將通路中的每個基因視作獨(dú)立個體突硝,而實(shí)際上通路內(nèi)的基因需要通過調(diào)控、被調(diào)控置济、相互作用等復(fù)雜的關(guān)系一起來影響細(xì)胞的發(fā)育解恰、分化或疾病等生物學(xué)過程。因而浙于,在進(jìn)行通路的富集分析時护盈,尤其是基因表達(dá)的通路富集分析時,有必要考慮到通路中基因的生物學(xué)屬性羞酗。例如腐宋,在一個調(diào)控通路中,上游基因的表達(dá)水平改變顯然要遠(yuǎn)大于下游基因的表達(dá)水平改變對整個通路的影響檀轨⌒鼐海基于通路拓?fù)浣Y(jié)構(gòu)的PT富集分析方法就是把基因在通路中的位置(上下游關(guān)系),與其他基因的連接度和調(diào)控作用類型等信息綜合在一起來評估每個基因?qū)ν返呢暙I(xiàn)并給予相應(yīng)的權(quán)重参萄,然后再把基因的權(quán)重整合入功能富集分析卫枝。不同的PT方法在具體的權(quán)重打分時,采用了不同的方式讹挎。
GO 等注釋數(shù)據(jù)庫中基因功能集中不包含任何拓?fù)浣Y(jié)構(gòu)信息校赤,僅提供了可能屬于同一通路的所有基因列表吆玖。
所以,PT方法不能被用于GO通路的富集分析马篮。
優(yōu)點(diǎn):對于研究較完善沾乘、拓?fù)浣Y(jié)構(gòu)完整的通路,基于PT的基因功能富集算法會有更強(qiáng)大顯著性
缺點(diǎn):對于通路拓?fù)浣Y(jié)構(gòu)存在依賴性积蔚,該類方法對于研究較少意鲸,信息不完善的通路穩(wěn)健性較差,因此目前通路注釋不完善也是限制基于PT的基因功能富集分析方法進(jìn)一步發(fā)展的重要因素尽爆。
4. NT法
目前NT法有一些不同的思路:
(1)有一些基于生物網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的富集分析方法怎顾,它們利用數(shù)據(jù)庫中的基因相互作用關(guān)系來間接地把基因的生物學(xué)屬性整合入功能的富集分析。這些方法的主要思路是利用現(xiàn)有的全基因組范圍的生物網(wǎng)絡(luò)漱贱,如HPRD槐雾、FunCoup、STRING等幅狮,來提取基因間的相互作用關(guān)系募强,包括基因的連接度及基因在網(wǎng)絡(luò)中的距離等,來計(jì)算一給定的基因列表與一待測的基因功能數(shù)據(jù)集在網(wǎng)絡(luò)中的連接關(guān)系崇摄,從而來推測待測基因功能集是否與給定基因列表緊密相關(guān)擎值;如『NEA/EnrichNet等軟件』
(2)另一些方法是利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來計(jì)算基因?qū)μ囟ㄉ锿返闹匾圆⒔o予相應(yīng)的權(quán)重, 然后再利用傳統(tǒng)的ORA 或 FCS 方法來評估特定生物通路的富集程度逐抑,如 GANPA 和 LEGO 等鸠儿;
(3)有些方法是直接把基因列表中的功能富集問題利用網(wǎng)絡(luò)轉(zhuǎn)化為基因?qū)Φ墓δ芨患瘑栴},如 NOA 等厕氨。
優(yōu)點(diǎn):與傳統(tǒng)方法相比进每,基于網(wǎng)絡(luò)的功能富集分析方法加入了系統(tǒng)層面的基因重要性程度及關(guān)聯(lián)信息,使得預(yù)測結(jié)果更加準(zhǔn)確可靠命斧。
缺點(diǎn):更多信息的加入也容易導(dǎo)致算法過于復(fù)雜田晚,計(jì)算速度較慢。
https://www.cnblogs.com/wangshicheng/p/11131086.html
四国葬、如何做富集分析
介紹完了富集分析的原理贤徒,那目前做富集分析比較多的是哪些方法,或者說目前主流做富集分析的方式有哪些汇四?
1接奈、R包---clusterProfiler----ORA
2、在線工具:DAVID---ORA
3船殉、GSEA----FCS
GSEA基于基因的表達(dá)譜矩陣來做富集分析,使用的是FCS的方法斯嚎±妫基于ORA的方式進(jìn)行的富集分析對于背景的依賴性較大挨厚。DAVID對于不會代碼的人來說,操作是非常簡單的糠惫,但是由于DAVID數(shù)據(jù)庫更新較慢疫剃,導(dǎo)致富集分析的結(jié)果不準(zhǔn)確,目前做富集分析使用較多的是Y叔的clusterProfiler包硼讽。
但是大家都知道是使用clusterProfiler包就不可避免要學(xué)習(xí)R語言巢价,如果要學(xué)習(xí)R語言的,網(wǎng)上資料很多固阁,可以去找找壤躲。這里為大家介紹的一個基于clusterProfiler包做富集分析的在線工具
第一個和第二個的區(qū)別在于,一個是用的在線數(shù)據(jù)庫做的富集分析备燃,一個用的本地?cái)?shù)據(jù)庫做的富集分析
對應(yīng)的每一個工具碉克,都有配套的示例數(shù)據(jù)。
同樣的并齐,該網(wǎng)站對應(yīng)有一些富集分析的可視化
只要傳入對應(yīng)的數(shù)據(jù)漏麦,即可繪圖,不管你是在哪里做的富集分析况褪,都可以用此工具進(jìn)行可視化撕贞。