「GO富集分析」從原理到實(shí)踐 ~ 零基礎(chǔ)掌握

寫在前面

原本缸夹,我并無寫這一稿件的想法痪寻。主要原因有二:

  1. 網(wǎng)絡(luò)上已有相關(guān)資料較多,盡管類似的問題天天仍然有人問
  2. 再談起 GO富集分析虽惭,距離上次已是五六年槽华,簡(jiǎn)單來說,不想談

如果要找合理解釋趟妥,那么針對(duì)第一點(diǎn)猫态,就是每天仍然有大量新接觸生信數(shù)據(jù)分析的朋友;針對(duì)第二點(diǎn)披摄,......在前兩天我推的文稿《零基礎(chǔ)快速完成基因功能注釋 / GO / KEGG / PFAM...》中亲雪,評(píng)論區(qū)答應(yīng)了下,閱讀過5000疚膊,那就寫一寫富集分析义辕。于是,如果不寫寓盗,總是不對(duì)灌砖。如果要寫,只能現(xiàn)在寫傀蚌。畢竟有些事情基显,現(xiàn)在不做,以后真的不會(huì)做善炫。

基因集功能富集分析原理

對(duì)于這一塊撩幽,完全陌生的朋友,尤其是不少生物學(xué)背景朋友箩艺,有必要溫習(xí)一下數(shù)理統(tǒng)計(jì)基礎(chǔ)窜醉。這一稿件只做原理最簡(jiǎn)單的但使用最廣泛其速度最快的Over-Represence Analysis模式的富集分析講演。其他模式艺谆,不涉及榨惰。
回到主題,先舉個(gè)經(jīng)典的抽球例子:
小紅小綠小藍(lán)三個(gè)人自稱有超能力静汤,可以用手摸摸球就分辨出黑球白球琅催,于是我們找來黑袋子,放100個(gè)球撒妈,其中20個(gè)白球80個(gè)黑球恢暖,讓三人分別無放回地抽取排监。
小紅隨機(jī)抽出來10個(gè)球狰右,其中2個(gè)白球8個(gè)黑球,情況即舆床,



抽球中白球比例與背景白球比例完全一致棋蚌,說明小紅抽球結(jié)果隨機(jī)嫁佳。
球放回去,小綠來抽球谷暮,抽出來的10個(gè)球蒿往,其中3個(gè)白球7個(gè)黑球,情況即湿弦,



抽球中白球比例比背景白球比例高一些瓤漏,說明小綠似乎更會(huì)抽取到白球
球又返回去,小藍(lán)來抽球颊埃,抽出來的10個(gè)球蔬充,其中10個(gè)白球0個(gè)黑球,情況即班利,

抽球中白球比例比背景白球比例高了非常多饥漫,說明小藍(lán)似乎很會(huì)抽取到白球。
我們關(guān)注的是罗标,誰抽取到更多的白球(相對(duì)于背景)庸队,于是小紅與背景一致,不用看了闯割。小綠和小藍(lán)都比背景多彻消,那么如何判斷小綠或者小藍(lán)是走狗屎運(yùn)還是有超能力?

這是經(jīng)典的抽球案例宙拉,抽取到的白球個(gè)數(shù)的概率分布為超幾何分布证膨。基于此鼓黔,我們可以簡(jiǎn)單計(jì)算抽取到比小綠抽取到球個(gè)數(shù)(或更多即更極端)的概率如何央勒,在 R語言中計(jì)算,即

> 1-phyper(3-1,20,80,10)
[1] 0.3187799

而對(duì)于小藍(lán)的情況澳化,那么概率如何崔步?

> 1-phyper(10-1,20,80,10)
[1] 1.067318e-08

在 TBtools 中也可以計(jì)算,只是寫法有點(diǎn)區(qū)別


可以看到缎谷,盡管這只是一次抽球井濒,小綠抽球中白球比例(或更極端情況)出現(xiàn)的概率是31.88%+,還是挺高的列林,于是我們有較高的把握說瑞你,小綠嘛,只是走了狗屎運(yùn)希痴。相反者甲,小藍(lán)抽球中白球比例或更極端情況出現(xiàn)的概率幾乎為 0 ,我們幾乎沒啥把握說砌创,小藍(lán)走狗屎運(yùn)....換句話說虏缸,我們有理由相信鲫懒,或許小藍(lán)真有抽白球的超能力.....

說了這么多,那么跟基因集合富集分析有啥關(guān)系刽辙?....基因集合功能富集分析窥岩。那么我們就需要有一個(gè)基因集合(如差異表達(dá)基因集合或ChIP-seq的Peaks或GWAS定位的系列區(qū)間),還有一個(gè)功能標(biāo)簽(如 生長(zhǎng)素信號(hào)轉(zhuǎn)導(dǎo)相關(guān) )宰缤。于是黑白球案例可以簡(jiǎn)單調(diào)整一下颂翼。假定現(xiàn)在這個(gè)物種一共有100個(gè)基因,其中20個(gè)基因與生長(zhǎng)素信號(hào)轉(zhuǎn)導(dǎo)相關(guān)慨灭,80個(gè)沒有注釋到與生長(zhǎng)素信號(hào)轉(zhuǎn)導(dǎo)相關(guān)(換句話說疚鲤,約等于無關(guān)),我們做了對(duì)植株做了處理缘挑,和CK分別測(cè)定轉(zhuǎn)錄表達(dá)譜集歇,通過差異表達(dá)分析,鑒定到10個(gè)差異表達(dá)基因语淘,其中2個(gè)與生長(zhǎng)素信號(hào)轉(zhuǎn)導(dǎo)相關(guān)诲宇,而另外8個(gè)則沒注釋到生長(zhǎng)素信號(hào)轉(zhuǎn)導(dǎo)相關(guān),簡(jiǎn)單畫一下惶翻,即


好姑蓝,剩下的兩個(gè)就不替換了。整體上吕粗,ORA模式的富集分析纺荧,本身就是經(jīng)典的抽球案例,感興趣的自行替換就可以了颅筋。

兩三注意點(diǎn)

基本原理宙暇,相信都搞清楚了。不過還是有兩三點(diǎn)需要注意:

  1. 區(qū)別“富集”和“富集顯著”:上述按理议泵,小綠和小藍(lán)抽白球比例都各自超過背景比例占贫,那么這種情況類比上,就是“富集”先口,因?yàn)槠x了背景型奥。但是通過檢驗(yàn),小綠抽白球出現(xiàn)的情況更可能是一種隨機(jī)波動(dòng)碉京,而小藍(lán)抽取白球出現(xiàn)的情況則明顯非正常厢汹,類比下,就是“富集顯著”谐宙。
  2. 富集分析時(shí)烫葬,很多新接觸的,搞錯(cuò)的往往就是沒搞清楚原理卧惜,背景 和 抽球厘灼;基因全集 和 基因選擇集合(如差異表達(dá)基因集合)。一定要注意咽瓷,做基因功能富集分析是设凹,背景注釋指的是這個(gè)物種所有基因的功能注釋信息而不是選擇集的基因功能注釋。比如茅姜,做擬南芥的闪朱,大概有2w+個(gè)基因的功能注釋,拿這個(gè)做背景钻洒;而不是拿差異表達(dá)的幾百上千個(gè)基因的注釋做背景奋姿。(算我求各位了,好好看看教程吧....別再做傻事了......)

具體如何做物種所有基因的背景注釋素标,請(qǐng)參考前述推文《零基礎(chǔ)快速完成基因功能注釋 / GO / KEGG / PFAM...》称诗。

使用 TBtools 進(jìn)行ORA模式的GO富集分析

首先,打開 TBtools GO 富集分析界面



整體如上头遭,一共三個(gè)文件:

  1. go-basic.obo 文件寓免,可以從下述鏈接下載,也可以點(diǎn)擊按鈕下載
http://purl.obolibrary.org/obo/go/go-basic.obo
  1. 一個(gè)物種所有基因的GO注釋信息文件计维,請(qǐng)參考前述推文《零基礎(chǔ)快速完成基因功能注釋 / GO / KEGG / PFAM...》袜香。
  2. 一個(gè)基因選擇集合,如差議表達(dá)基因集合鲫惶,或GWAS篩選出來的集合蜈首,或者其他

具體示例如下



點(diǎn)擊 Start ,隨后等待即可欠母。完成時(shí)會(huì)有彈窗提示欢策。查看輸出文件



一般,建議用戶只看“*.final.xls”文件赏淌。大部分人關(guān)注的是這三列

(寫到這里猬腰,突然覺得這些都沒啥意思,不知為何....就不詳細(xì)寫了猜敢,大伙自己看看列名姑荷,猜猜吧)
很多時(shí)候,我們會(huì)選擇缩擂,篩選第一列鼠冕,只看 Biological Process。一般這些與我們的生物學(xué)認(rèn)知會(huì)貼近一些胯盯。



當(dāng)然懈费,你拿著這個(gè)文件,可以直接在 TBtools 里面可視化

于是你得到

寫在最后

基因集合功能富集分析博脑,是一個(gè)常常被談起的話題憎乙,甚至近期都有不少新方法或算法被提出票罐。感興趣的朋友可以去了解。這份教程泞边,只與大伙說最簡(jiǎn)單该押,但也是使用最為廣泛的一種富集分析模式。無論是不是 TBtools 用戶阵谚,理論上來說蚕礼,都可以輕松理解并掌握,從原理到實(shí)踐梢什。
寫到一半奠蹬,其實(shí)我已經(jīng)不想寫了。原因非常簡(jiǎn)單嗡午,這也是為什么在我之前囤躁,并沒有一個(gè)人寫出來 TBtools 類似的工具。不是寫不了荔睹,而是不想寫割以。有時(shí)候,隨著能力增長(zhǎng)和知識(shí)積累应媚,往往不再愿意做一些簡(jiǎn)單的事情严沥。或許這還涉及到年齡的增長(zhǎng)中姜,角色的轉(zhuǎn)變消玄,責(zé)任的變化....云云。
小時(shí)候丢胚,我以為寫 TBtools 玩玩翩瓜;
后來,我以為我會(huì)一直寫下去携龟;
現(xiàn)在兔跌,,峡蟋,坟桅,,蕊蝗,

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末仅乓,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子蓬戚,更是在濱河造成了極大的恐慌夸楣,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異豫喧,居然都是意外死亡石洗,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門紧显,熙熙樓的掌柜王于貴愁眉苦臉地迎上來讲衫,“玉大人,你說我怎么就攤上這事鸟妙〗谷耍” “怎么了挥吵?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵重父,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我忽匈,道長(zhǎng)房午,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任丹允,我火速辦了婚禮郭厌,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘雕蔽。我一直安慰自己折柠,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布批狐。 她就那樣靜靜地躺著扇售,像睡著了一般。 火紅的嫁衣襯著肌膚如雪嚣艇。 梳的紋絲不亂的頭發(fā)上承冰,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音食零,去河邊找鬼困乒。 笑死,一個(gè)胖子當(dāng)著我的面吹牛贰谣,可吹牛的內(nèi)容都是我干的娜搂。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼吱抚,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼涌攻!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起频伤,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤恳谎,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體因痛,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡婚苹,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了鸵膏。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片膊升。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖谭企,靈堂內(nèi)的尸體忽然破棺而出廓译,到底是詐尸還是另有隱情,我是刑警寧澤债查,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布非区,位于F島的核電站,受9級(jí)特大地震影響盹廷,放射性物質(zhì)發(fā)生泄漏征绸。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一俄占、第九天 我趴在偏房一處隱蔽的房頂上張望管怠。 院中可真熱鬧,春花似錦缸榄、人聲如沸渤弛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)她肯。三九已至,卻和暖如春欲低,著一層夾襖步出監(jiān)牢的瞬間辕宏,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工砾莱, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留瑞筐,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓腊瑟,卻偏偏與公主長(zhǎng)得像聚假,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子闰非,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容