參考:https://www.omicshare.com/forum/thread-826-1-2.html
https://www.omicshare.com/forum/thread-955-1-1.html
http://www.reibang.com/p/13f46bebebd4
- 什么是GO分析?
Gene Ontology(簡(jiǎn)稱(chēng)GO)是一個(gè)國(guó)際標(biāo)準(zhǔn)化的基因功能分類(lèi)體系衷戈,提供了一套動(dòng)態(tài)更新的標(biāo)準(zhǔn)詞匯表(controlled vocabulary)來(lái)全面描述生物體中基因和基因產(chǎn)物的屬性凹蜂。GO總共有三個(gè)ontology(本體),分別描述基因的分子功能(molecular function)贮庞、細(xì)胞組分(cellular component)边苹、參與的生物過(guò)程(biological process)渔彰。GO的基本單位是term(詞條笋婿、節(jié)點(diǎn))誉裆,每個(gè)term都對(duì)應(yīng)一個(gè)屬性。
- 什么是KEGG分析缸濒?
KEGG(Kyoto Encyclopedia of Genes and Genomes)數(shù)據(jù)庫(kù)是系統(tǒng)地分析基因功能、鏈接基因組信息和功能信息的數(shù)據(jù)庫(kù)粱腻,包括代謝通路(pathway)數(shù)據(jù)庫(kù)庇配、分層分類(lèi)數(shù)據(jù)庫(kù)、基因數(shù)據(jù)庫(kù)绍些、基因組數(shù)據(jù)庫(kù)等捞慌。KEGG的pathway數(shù)據(jù)庫(kù)是應(yīng)用最廣泛的代謝通路公共數(shù)據(jù)庫(kù)。
- 了解富集分析前柬批,一些關(guān)于基因的概念啸澡。
每個(gè)基因都會(huì)對(duì)應(yīng)一個(gè)或者多個(gè)GO term。而一般研究富集會(huì)涉及兩個(gè)概念:前景基因和背景基因氮帐。1)前景基因指研究者關(guān)注的重點(diǎn)研究的基因集嗅虏,而2)背景基因指所有的基因。比如通過(guò)實(shí)驗(yàn)比較實(shí)驗(yàn)組與對(duì)照組的轉(zhuǎn)錄組測(cè)序上沐,前景基因就是對(duì)照組vs處理組的差異基因皮服,背景基因就是這兩個(gè)樣本表達(dá)的全部基因。
- 什么是富集参咙?
富集就是為了比較某個(gè)GO term在所關(guān)注的前景基因中的占比是否要顯著高于在所有背景基因中占有的比例龄广。而這個(gè)的證明就是通過(guò)
顯著性
來(lái)評(píng)判。
- 這里作者舉了一個(gè)生動(dòng)的例子蕴侧。
比較深圳市(前景基因)與整個(gè)廣東试裢(背景基因)的大學(xué)生(某個(gè)GO term)的占比,即相比廣東省净宵,大學(xué)生的數(shù)量所占的比例敲才,在深圳市是否更多。而最終求得的占比數(shù)值塘娶,則通過(guò)比較以證明
顯著性
归斤。
- 如何來(lái)計(jì)算顯著性?
這個(gè)顯著性其實(shí)就是根據(jù)這個(gè)超幾何分布檢驗(yàn)
公式計(jì)算獲得刁岸。
先用個(gè)形象的例子來(lái)理解超幾何分布:在超市抽獎(jiǎng)脏里,要求從商品(N)中抽取獎(jiǎng)品(n),不放回抽取虹曙,其中抽得的商品內(nèi)有指定獎(jiǎng)品(M)迫横,測(cè)定可以抽中指定獎(jiǎng)品(k)的概率番舆。
類(lèi)似的,在GO分析中:
N為數(shù)據(jù)庫(kù)中具有GO注釋的所有基因數(shù)矾踱,n為N中具有差異表達(dá)的基因數(shù)恨狈;
M為數(shù)據(jù)庫(kù)中注釋為某GO term的基因數(shù)目,k為注釋為某特定GO term 的差異基因數(shù)呛讲。
KEGG通路中對(duì)富集的計(jì)算也十分類(lèi)似禾怠。
KEGG 通路富集與GO富集類(lèi)似,分別指贝搁,差異基因(n)中注釋到某個(gè)代謝通路(pathwayX)的基因數(shù)目(k)比例與所有背景基因(N)中注釋到某個(gè)代謝通路(pathwayX)的基因數(shù)目(M)吗氏。
-
超幾何分布的運(yùn)算式:
ps:由于本人能力有限,不是特別理解超幾何分布的數(shù)學(xué)意義與運(yùn)算雷逆,但根據(jù)百度百科定義弦讽,可以按照古典概型的抽樣來(lái)計(jì)算。只是在超幾何分布下膀哲,M可以為任意實(shí)數(shù)往产。(不保證語(yǔ)言正確性,只是方便計(jì)算理解)
這里再補(bǔ)充組合的計(jì)算:
因此通過(guò)上述一頓操作猛如虎后的某宪,即可得到基因n是否在M/k 類(lèi)中富集(N)的概率(P)仿村。
但這樣,似乎還不夠缩抡。即便得到P的數(shù)值很大奠宜,但還需要考慮隨機(jī)情況引起的假陽(yáng)性結(jié)果。
即若從N中提取得到了n瞻想,但由于隨機(jī)概率压真,導(dǎo)致k在M中的概率很高的話(huà),(按照之前大學(xué)生的例子可以理解為:由于隨機(jī)概率蘑险,導(dǎo)致了剛好抽到了多數(shù)的大學(xué)生)可以通過(guò)P-value 檢驗(yàn)概率的顯著性滴肿。即假設(shè)極端條件下的概率,若P值較小佃迄,則可以拒絕極端條件假設(shè)泼差,認(rèn)為極小概率事件可以等同于不能隨機(jī)出現(xiàn)。
既然P-value 針對(duì)的是極端情況呵俏,那就讓情況更極端一些好了堆缘。
即從總的基因N(背景基因)中抽取n個(gè)基因(前景基因),其中由i個(gè)基因落在符合條件的總的M個(gè)基因里普碎。而之前的式子所討論的概率運(yùn)算吼肥,則正是i=k/m 時(shí)的情況下,求得的概率。
為了驗(yàn)證這一概率是否具備顯著性缀皱,就索性計(jì)算 (k/m ~ M)這段更加極端的概率之和斗这,最終得到的P越小,則檢驗(yàn)結(jié)果越顯著啤斗。(P<0.5, P<0.1……)