寫在前面
原本缸夹,我并無寫這一稿件的想法痪寻。主要原因有二:
- 網(wǎng)絡(luò)上已有相關(guān)資料較多,盡管類似的問題天天仍然有人問
- 再談起 GO富集分析虽惭,距離上次已是五六年槽华,簡(jiǎn)單來說,不想談
如果要找合理解釋趟妥,那么針對(duì)第一點(diǎn)猫态,就是每天仍然有大量新接觸生信數(shù)據(jù)分析的朋友;針對(duì)第二點(diǎn)披摄,......在前兩天我推的文稿《零基礎(chǔ)快速完成基因功能注釋 / GO / KEGG / PFAM...》中亲雪,評(píng)論區(qū)答應(yīng)了下,閱讀過5000疚膊,那就寫一寫富集分析义辕。于是,如果不寫寓盗,總是不對(duì)灌砖。如果要寫,只能現(xiàn)在寫傀蚌。畢竟有些事情基显,現(xiàn)在不做,以后真的不會(huì)做善炫。
基因集功能富集分析原理
對(duì)于這一塊撩幽,完全陌生的朋友,尤其是不少生物學(xué)背景朋友箩艺,有必要溫習(xí)一下數(shù)理統(tǒng)計(jì)基礎(chǔ)窜醉。這一稿件只做原理最簡(jiǎn)單的但使用最廣泛其速度最快的Over-Represence Analysis模式的富集分析講演。其他模式艺谆,不涉及榨惰。
回到主題,先舉個(gè)經(jīng)典的抽球例子:
小紅小綠小藍(lán)三個(gè)人自稱有超能力静汤,可以用手摸摸球就分辨出黑球白球琅催,于是我們找來黑袋子,放100個(gè)球撒妈,其中20個(gè)白球80個(gè)黑球恢暖,讓三人分別無放回地抽取排监。
小紅隨機(jī)抽出來10個(gè)球狰右,其中2個(gè)白球8個(gè)黑球,情況即舆床,
抽球中白球比例與背景白球比例完全一致棋蚌,說明小紅抽球結(jié)果隨機(jī)嫁佳。
球放回去,小綠來抽球谷暮,抽出來的10個(gè)球蒿往,其中3個(gè)白球7個(gè)黑球,情況即湿弦,
抽球中白球比例比背景白球比例高一些瓤漏,說明小綠似乎更會(huì)抽取到白球
球又返回去,小藍(lán)來抽球颊埃,抽出來的10個(gè)球蔬充,其中10個(gè)白球0個(gè)黑球,情況即班利,
抽球中白球比例比背景白球比例高了非常多饥漫,說明小藍(lán)似乎很會(huì)抽取到白球。
我們關(guān)注的是罗标,誰抽取到更多的白球(相對(duì)于背景)庸队,于是小紅與背景一致,不用看了闯割。小綠和小藍(lán)都比背景多彻消,那么如何判斷小綠或者小藍(lán)是走狗屎運(yùn)還是有超能力?
這是經(jīng)典的抽球案例宙拉,抽取到的白球個(gè)數(shù)的概率分布為超幾何分布证膨。基于此鼓黔,我們可以簡(jiǎn)單計(jì)算抽取到比小綠抽取到球個(gè)數(shù)(或更多即更極端)的概率如何央勒,在 R語言中計(jì)算,即
> 1-phyper(3-1,20,80,10)
[1] 0.3187799
而對(duì)于小藍(lán)的情況澳化,那么概率如何崔步?
> 1-phyper(10-1,20,80,10)
[1] 1.067318e-08
在 TBtools 中也可以計(jì)算,只是寫法有點(diǎn)區(qū)別
可以看到缎谷,盡管這只是一次抽球井濒,小綠抽球中白球比例(或更極端情況)出現(xiàn)的概率是31.88%+,還是挺高的列林,于是我們有較高的把握說瑞你,小綠嘛,只是走了狗屎運(yùn)希痴。相反者甲,小藍(lán)抽球中白球比例或更極端情況出現(xiàn)的概率幾乎為 0 ,我們幾乎沒啥把握說砌创,小藍(lán)走狗屎運(yùn)....換句話說虏缸,我們有理由相信鲫懒,或許小藍(lán)真有抽白球的超能力.....
說了這么多,那么跟基因集合富集分析有啥關(guān)系刽辙?....基因集合功能富集分析窥岩。那么我們就需要有一個(gè)基因集合(如差異表達(dá)基因集合或ChIP-seq的Peaks或GWAS定位的系列區(qū)間),還有一個(gè)功能標(biāo)簽(如 生長(zhǎng)素信號(hào)轉(zhuǎn)導(dǎo)相關(guān) )宰缤。于是黑白球案例可以簡(jiǎn)單調(diào)整一下颂翼。假定現(xiàn)在這個(gè)物種一共有100個(gè)基因,其中20個(gè)基因與生長(zhǎng)素信號(hào)轉(zhuǎn)導(dǎo)相關(guān)慨灭,80個(gè)沒有注釋到與生長(zhǎng)素信號(hào)轉(zhuǎn)導(dǎo)相關(guān)(換句話說疚鲤,約等于無關(guān)),我們做了對(duì)植株做了處理缘挑,和CK分別測(cè)定轉(zhuǎn)錄表達(dá)譜集歇,通過差異表達(dá)分析,鑒定到10個(gè)差異表達(dá)基因语淘,其中2個(gè)與生長(zhǎng)素信號(hào)轉(zhuǎn)導(dǎo)相關(guān)诲宇,而另外8個(gè)則沒注釋到生長(zhǎng)素信號(hào)轉(zhuǎn)導(dǎo)相關(guān),簡(jiǎn)單畫一下惶翻,即
好姑蓝,剩下的兩個(gè)就不替換了。整體上吕粗,ORA模式的富集分析纺荧,本身就是經(jīng)典的抽球案例,感興趣的自行替換就可以了颅筋。
兩三注意點(diǎn)
基本原理宙暇,相信都搞清楚了。不過還是有兩三點(diǎn)需要注意:
- 區(qū)別“富集”和“富集顯著”:上述按理议泵,小綠和小藍(lán)抽白球比例都各自超過背景比例占贫,那么這種情況類比上,就是“富集”先口,因?yàn)槠x了背景型奥。但是通過檢驗(yàn),小綠抽白球出現(xiàn)的情況更可能是一種隨機(jī)波動(dòng)碉京,而小藍(lán)抽取白球出現(xiàn)的情況則明顯非正常厢汹,類比下,就是“富集顯著”谐宙。
- 富集分析時(shí)烫葬,很多新接觸的,搞錯(cuò)的往往就是沒搞清楚原理卧惜,背景 和 抽球厘灼;基因全集 和 基因選擇集合(如差異表達(dá)基因集合)。一定要注意咽瓷,做基因功能富集分析是设凹,背景注釋指的是這個(gè)物種所有基因的功能注釋信息而不是選擇集的基因功能注釋。比如茅姜,做擬南芥的闪朱,大概有2w+個(gè)基因的功能注釋,拿這個(gè)做背景钻洒;而不是拿差異表達(dá)的幾百上千個(gè)基因的注釋做背景奋姿。(算我求各位了,好好看看教程吧....別再做傻事了......)
具體如何做物種所有基因的背景注釋素标,請(qǐng)參考前述推文《零基礎(chǔ)快速完成基因功能注釋 / GO / KEGG / PFAM...》称诗。
使用 TBtools 進(jìn)行ORA模式的GO富集分析
首先,打開 TBtools GO 富集分析界面
整體如上头遭,一共三個(gè)文件:
- go-basic.obo 文件寓免,可以從下述鏈接下載,也可以點(diǎn)擊按鈕下載
http://purl.obolibrary.org/obo/go/go-basic.obo
- 一個(gè)物種所有基因的GO注釋信息文件计维,請(qǐng)參考前述推文《零基礎(chǔ)快速完成基因功能注釋 / GO / KEGG / PFAM...》袜香。
- 一個(gè)基因選擇集合,如差議表達(dá)基因集合鲫惶,或GWAS篩選出來的集合蜈首,或者其他
具體示例如下
點(diǎn)擊 Start ,隨后等待即可欠母。完成時(shí)會(huì)有彈窗提示欢策。查看輸出文件
一般,建議用戶只看“*.final.xls”文件赏淌。大部分人關(guān)注的是這三列
(寫到這里猬腰,突然覺得這些都沒啥意思,不知為何....就不詳細(xì)寫了猜敢,大伙自己看看列名姑荷,猜猜吧)
很多時(shí)候,我們會(huì)選擇缩擂,篩選第一列鼠冕,只看 Biological Process。一般這些與我們的生物學(xué)認(rèn)知會(huì)貼近一些胯盯。
當(dāng)然懈费,你拿著這個(gè)文件,可以直接在 TBtools 里面可視化
于是你得到
寫在最后
基因集合功能富集分析博脑,是一個(gè)常常被談起的話題憎乙,甚至近期都有不少新方法或算法被提出票罐。感興趣的朋友可以去了解。這份教程泞边,只與大伙說最簡(jiǎn)單该押,但也是使用最為廣泛的一種富集分析模式。無論是不是 TBtools 用戶阵谚,理論上來說蚕礼,都可以輕松理解并掌握,從原理到實(shí)踐梢什。
寫到一半奠蹬,其實(shí)我已經(jīng)不想寫了。原因非常簡(jiǎn)單嗡午,這也是為什么在我之前囤躁,并沒有一個(gè)人寫出來 TBtools 類似的工具。不是寫不了荔睹,而是不想寫割以。有時(shí)候,隨著能力增長(zhǎng)和知識(shí)積累应媚,往往不再愿意做一些簡(jiǎn)單的事情严沥。或許這還涉及到年齡的增長(zhǎng)中姜,角色的轉(zhuǎn)變消玄,責(zé)任的變化....云云。
小時(shí)候丢胚,我以為寫 TBtools 玩玩翩瓜;
后來,我以為我會(huì)一直寫下去携龟;
現(xiàn)在兔跌,,峡蟋,坟桅,,蕊蝗,