零代碼學(xué)生信第十天-差異基因的富集分析

在上一節(jié)我們介紹了如何做差異法分析嚼黔,通過差異分析可以了解在不同處理組存在哪些差異基因代箭,接下來羡铲,我們需要對了解這些差異基因參與哪些生物學(xué)過程嫩与,有哪些生物功能寝姿,這時候需要對差異基因進(jìn)行富集分析。富集分析作為高通量組學(xué)數(shù)據(jù)分析的常規(guī)手段划滋,對于解釋生物醫(yī)學(xué)分子機(jī)制具有哪些重要的意義呢饵筑?

一、為什么做富集分析处坪?

? ? ? ? 隨著高通量測序技術(shù)的高速發(fā)展根资,生物醫(yī)學(xué)等相關(guān)領(lǐng)域已經(jīng)進(jìn)行組學(xué)時代,單基因的研究早已不能滿足人們對于生命奧秘的探索同窘,然而如此龐大的數(shù)據(jù)為信息的有效提取和分析帶來新的挑戰(zhàn)玄帕。不管是高通量測序數(shù)據(jù)還是芯片數(shù)據(jù),分析的結(jié)果往往會得到差異表達(dá)的基因的列表想邦。但對許多研究人員來說裤纹,將這一長串基因與某個待研究的生物學(xué)現(xiàn)象及其潛在機(jī)制聯(lián)系起來是很困難的。應(yīng)對這一挑戰(zhàn)的一種方法就是將一個基因列表分成多個部分丧没,從而減少分析的復(fù)雜度鹰椒。研究人員為了解決分成哪些類,開發(fā)了多個注釋數(shù)據(jù)庫呕童。為了解決怎么分成不同類漆际,研究者通常會對基因功能進(jìn)行富集分析, 期望發(fā)現(xiàn)在生物學(xué)過程中起關(guān)鍵作用的生物通路, 從而揭示和理解生物學(xué)過程的基本分子機(jī)制,在這過程中開發(fā)了多種軟件夺饲。

? ? ? 其中灿椅,功能富集分析可以將成百上千個基因套蒂、蛋白或者其他分子分到不同的通路中,以減少分析的復(fù)雜度茫蛹。另外操刀,在兩種不同實(shí)驗(yàn)條件下,激活的通路顯然比簡單的基因或蛋白列表更有說服力婴洼。

二骨坑、富集分析的數(shù)據(jù)庫及軟件

常見的注釋數(shù)據(jù)庫:GO、KEGG柬采、Reactome欢唾、msigdb等等



三、富集分析的方法

ORA: over-representation analysis 過表達(dá)分析

FCS:functional class scoring 功能集打分

PT:pathway topology 通路拓?fù)浣Y(jié)構(gòu)

NT:network topology 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)

1. ORA法

又稱為"2X2法"粉捻;

首先礁遣,獲得一組感興趣的基因(一般是差異表達(dá)基因),然后給定的基因列表與某個通路中的基因集做交集肩刃,找出其中共同的基因并進(jìn)行計(jì)數(shù)(統(tǒng)計(jì)值)祟霍,最后利用統(tǒng)計(jì)檢驗(yàn)的方式來評估觀察的計(jì)數(shù)值是否顯著高于隨機(jī),即待測功能 集在基因列表中是否顯著富集盈包。最常用的統(tǒng)計(jì)檢驗(yàn)包括:超幾何分布沸呐、卡方檢驗(yàn)、二項(xiàng)分布呢燥。

這里常用的軟件或者網(wǎng)站有DAVID等崭添;

優(yōu)點(diǎn):基于完備的統(tǒng)計(jì)學(xué)理論,具有結(jié)果穩(wěn)健叛氨、可靠的優(yōu)點(diǎn)

缺點(diǎn):

(1)僅使用了基因數(shù)目信息呼渣,而沒有利用基因表達(dá)水平或表達(dá)差異值,而為了獲得感興趣或者差異表達(dá)基因寞埠,需要人為的設(shè)置閾值徙邻;

(2)ORA法通常僅使用最顯著的基因,而忽略差異不顯著的基因畸裳。在獲得感興趣的基因時, 往往需要選取合適的閾值, 而這樣有可能會丟失顯著性較低但比較關(guān)鍵的基因, 導(dǎo)致檢測靈敏性的降低;

(3)將基因同等對待淳地,ORA法假設(shè)每個基因都是獨(dú)立的怖糊,忽視了基因在通路內(nèi)部生物學(xué)意義的不同(如調(diào)控和被調(diào)控基因的不同)及基因間復(fù)雜的相互作用;

(4)ORA假設(shè)通路與通路間是獨(dú)立的颇象,但這個前提假設(shè)是錯誤的伍伤。

2. FCS法

首先根據(jù)案例和對照狀態(tài)下的基 因表達(dá)譜對基因組中所有基因表達(dá)水平的差異值進(jìn)行打分或排序,或直接輸入排序好的基因表達(dá)譜遣钳;其次是把待測基因功能集中的每個基因的分?jǐn)?shù)通過特定的統(tǒng)計(jì)模型轉(zhuǎn)換為待測基因功能集的分?jǐn)?shù)或統(tǒng)計(jì)值扰魂;最后利用隨機(jī)抽樣獲得的待測基因功能集統(tǒng)計(jì)值的背景分布來檢驗(yàn)實(shí)際觀測的統(tǒng)計(jì)值的顯著水平,并判斷待測基因功能集在案例和對照實(shí)驗(yàn)狀態(tài)下是否發(fā)生了統(tǒng)計(jì)上的顯著變化。

除了上述處理和對照組比較的方法外劝评,F(xiàn)CS還有一類基于單樣本的分析方法姐直,如PLAGE/ZSCORE/SSGSEA,這些方法的一大優(yōu)點(diǎn)是可以通過調(diào)整相關(guān)協(xié)變量蒋畜,相對簡單地分析一些非常復(fù)雜的声畏,如包含時間進(jìn)度的多樣本設(shè)計(jì)。

優(yōu)點(diǎn):總體而言姻成,F(xiàn)CS相較于ORA的方法插龄,在理論上有明顯的突破,考慮到了基因表達(dá)值的屬性信息科展,而且以待測基因功能集為對象來進(jìn)行檢驗(yàn)均牢,也使得檢驗(yàn)結(jié)果更加靈敏。

缺點(diǎn):

(1)與ORA類似才睹,F(xiàn)CS仍獨(dú)立分析每一條通路徘跪,但同一個基因可能涉及多條通路,所以不同通路間的基因出現(xiàn)重疊砂竖,所以別的通路可能由于重疊的基因真椿,也出現(xiàn)顯著富集;

(2)FCS 方法仍然把待測基因功能集中的每個基因作為獨(dú)立的個體, 忽略了基因的生物學(xué)屬性和基因間的復(fù)雜相互作用關(guān)系乎澄。

3. PT法

ORA和FCS方法在進(jìn)行通路的富集分析時, 都將通路中的每個基因視作獨(dú)立個體突硝,而實(shí)際上通路內(nèi)的基因需要通過調(diào)控、被調(diào)控置济、相互作用等復(fù)雜的關(guān)系一起來影響細(xì)胞的發(fā)育解恰、分化或疾病等生物學(xué)過程。因而浙于,在進(jìn)行通路的富集分析時护盈,尤其是基因表達(dá)的通路富集分析時,有必要考慮到通路中基因的生物學(xué)屬性羞酗。例如腐宋,在一個調(diào)控通路中,上游基因的表達(dá)水平改變顯然要遠(yuǎn)大于下游基因的表達(dá)水平改變對整個通路的影響檀轨⌒鼐海基于通路拓?fù)浣Y(jié)構(gòu)的PT富集分析方法就是把基因在通路中的位置(上下游關(guān)系),與其他基因的連接度和調(diào)控作用類型等信息綜合在一起來評估每個基因?qū)ν返呢暙I(xiàn)并給予相應(yīng)的權(quán)重参萄,然后再把基因的權(quán)重整合入功能富集分析卫枝。不同的PT方法在具體的權(quán)重打分時,采用了不同的方式讹挎。

GO 等注釋數(shù)據(jù)庫中基因功能集中不包含任何拓?fù)浣Y(jié)構(gòu)信息校赤,僅提供了可能屬于同一通路的所有基因列表吆玖。

所以,PT方法不能被用于GO通路的富集分析马篮。

優(yōu)點(diǎn):對于研究較完善沾乘、拓?fù)浣Y(jié)構(gòu)完整的通路,基于PT的基因功能富集算法會有更強(qiáng)大顯著性

缺點(diǎn):對于通路拓?fù)浣Y(jié)構(gòu)存在依賴性积蔚,該類方法對于研究較少意鲸,信息不完善的通路穩(wěn)健性較差,因此目前通路注釋不完善也是限制基于PT的基因功能富集分析方法進(jìn)一步發(fā)展的重要因素尽爆。

4. NT法

目前NT法有一些不同的思路:

(1)有一些基于生物網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的富集分析方法怎顾,它們利用數(shù)據(jù)庫中的基因相互作用關(guān)系來間接地把基因的生物學(xué)屬性整合入功能的富集分析。這些方法的主要思路是利用現(xiàn)有的全基因組范圍的生物網(wǎng)絡(luò)漱贱,如HPRD槐雾、FunCoup、STRING等幅狮,來提取基因間的相互作用關(guān)系募强,包括基因的連接度及基因在網(wǎng)絡(luò)中的距離等,來計(jì)算一給定的基因列表與一待測的基因功能數(shù)據(jù)集在網(wǎng)絡(luò)中的連接關(guān)系崇摄,從而來推測待測基因功能集是否與給定基因列表緊密相關(guān)擎值;如『NEA/EnrichNet等軟件』

(2)另一些方法是利用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來計(jì)算基因?qū)μ囟ㄉ锿返闹匾圆⒔o予相應(yīng)的權(quán)重, 然后再利用傳統(tǒng)的ORA 或 FCS 方法來評估特定生物通路的富集程度逐抑,如 GANPA 和 LEGO 等鸠儿;

(3)有些方法是直接把基因列表中的功能富集問題利用網(wǎng)絡(luò)轉(zhuǎn)化為基因?qū)Φ墓δ芨患瘑栴},如 NOA 等厕氨。

優(yōu)點(diǎn):與傳統(tǒng)方法相比进每,基于網(wǎng)絡(luò)的功能富集分析方法加入了系統(tǒng)層面的基因重要性程度及關(guān)聯(lián)信息,使得預(yù)測結(jié)果更加準(zhǔn)確可靠命斧。

缺點(diǎn):更多信息的加入也容易導(dǎo)致算法過于復(fù)雜田晚,計(jì)算速度較慢。

https://www.cnblogs.com/wangshicheng/p/11131086.html

四国葬、如何做富集分析

介紹完了富集分析的原理贤徒,那目前做富集分析比較多的是哪些方法,或者說目前主流做富集分析的方式有哪些汇四?

1接奈、R包---clusterProfiler----ORA

2、在線工具:DAVID---ORA

3船殉、GSEA----FCS

GSEA基于基因的表達(dá)譜矩陣來做富集分析,使用的是FCS的方法斯嚎±妫基于ORA的方式進(jìn)行的富集分析對于背景的依賴性較大挨厚。DAVID對于不會代碼的人來說,操作是非常簡單的糠惫,但是由于DAVID數(shù)據(jù)庫更新較慢疫剃,導(dǎo)致富集分析的結(jié)果不準(zhǔn)確,目前做富集分析使用較多的是Y叔的clusterProfiler包硼讽。

但是大家都知道是使用clusterProfiler包就不可避免要學(xué)習(xí)R語言巢价,如果要學(xué)習(xí)R語言的,網(wǎng)上資料很多固阁,可以去找找壤躲。這里為大家介紹的一個基于clusterProfiler包做富集分析的在線工具



http://www.sxdyc.com/singleCollectionTool

第一個和第二個的區(qū)別在于,一個是用的在線數(shù)據(jù)庫做的富集分析备燃,一個用的本地?cái)?shù)據(jù)庫做的富集分析

對應(yīng)的每一個工具碉克,都有配套的示例數(shù)據(jù)。


同樣的并齐,該網(wǎng)站對應(yīng)有一些富集分析的可視化


只要傳入對應(yīng)的數(shù)據(jù)漏麦,即可繪圖,不管你是在哪里做的富集分析况褪,都可以用此工具進(jìn)行可視化撕贞。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市测垛,隨后出現(xiàn)的幾起案子捏膨,更是在濱河造成了極大的恐慌,老刑警劉巖赐纱,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件脊奋,死亡現(xiàn)場離奇詭異,居然都是意外死亡疙描,警方通過查閱死者的電腦和手機(jī)诚隙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來起胰,“玉大人久又,你說我怎么就攤上這事⌒澹” “怎么了地消?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長畏妖。 經(jīng)常有香客問我脉执,道長,這世上最難降的妖魔是什么戒劫? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任半夷,我火速辦了婚禮婆廊,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘巫橄。我一直安慰自己淘邻,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布湘换。 她就那樣靜靜地躺著宾舅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪彩倚。 梳的紋絲不亂的頭發(fā)上筹我,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天,我揣著相機(jī)與錄音署恍,去河邊找鬼崎溃。 笑死,一個胖子當(dāng)著我的面吹牛盯质,可吹牛的內(nèi)容都是我干的袁串。 我是一名探鬼主播,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼呼巷,長吁一口氣:“原來是場噩夢啊……” “哼囱修!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起王悍,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤破镰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后压储,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鲜漩,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年集惋,在試婚紗的時候發(fā)現(xiàn)自己被綠了孕似。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡刮刑,死狀恐怖喉祭,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情雷绢,我是刑警寧澤泛烙,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站翘紊,受9級特大地震影響蔽氨,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一鹉究、第九天 我趴在偏房一處隱蔽的房頂上張望中捆。 院中可真熱鬧,春花似錦坊饶、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至染厅,卻和暖如春痘绎,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背肖粮。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工孤页, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人涩馆。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓行施,卻偏偏與公主長得像,于是被迫代替她去往敵國和親魂那。 傳聞我的和親對象是個殘疾皇子蛾号,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容