前言
這次我們談?wù)撓赂患治龅臋z驗踏幻,富集分析通常是來看我們感興趣的內(nèi)容知否在某個數(shù)據(jù)集中有富集
富集分析算法
這里引用大佬之前總結(jié)的:http://www.reibang.com/p/988d90484f77
有興趣的同學(xué)可以進(jìn)去原帖子看一下
Fisher’s Exact test
個人感覺該視頻所介紹的內(nèi)容不太好,這里引用其他同學(xué)的例子:
Fisher’s Exact test檢驗的是行列之間是否有相關(guān)
零假設(shè):行列變量之間不相關(guān)
備擇假設(shè):行列變量相關(guān)
該例子描述的是節(jié)食是否和男女有關(guān)
那么這個的p_value按照超幾何分布來計算
但是這并不是我們最終計算的p_value韩脏,接下來我們介紹個更具體的例子:
假設(shè)是說我的一手?jǐn)?shù)據(jù)是這樣的
我們按照上述公式來計算該情況的p_value
當(dāng)然我們還要計算比這個情況更極端的情況
及當(dāng)左上角的數(shù)據(jù)變?yōu)?的時候的p_value(其他數(shù)據(jù)跟著做調(diào)整)
如果左上角的數(shù)據(jù)不為0宁否,那么依次減一窒升,直到為0,并計算對應(yīng)情形的p_value
此時將每種情況計算的p_value相加慕匠,即為最后的p_value
p-value=0.001346076 + 0.000033652 = 0.001379728
總結(jié)
fisher.test的核心就是比較兩個類群的比例是否有差異
比如上述例子饱须,節(jié)食是否與性別有關(guān),意思是分為男台谊,女兩個類別蓉媳,兩個類別中節(jié)食人數(shù)所占該類別總?cè)藬?shù)的比例是否有統(tǒng)計學(xué)差異
顯然:男,0/12
女锅铅,10/12
這是就有顯著性差異的酪呻,也就是說節(jié)食與性別有關(guān),并且計算p_value的公式為:
再有兩個例子:
我們想看深圳的的大學(xué)人數(shù)在深圳總?cè)藬?shù)的占比是不是顯著高于廣東
也可以分為兩個類別:深圳市和廣東省
我們分別計算深圳市的大學(xué)生人數(shù)占比盐须,和廣東省大學(xué)生人數(shù)占比:
顯然玩荠,深圳市,200/500贼邓;廣東省姨蟋,800/2300
深圳市的占比高于廣東省,所以說明大學(xué)生在深圳是富集的立帖。在深圳市大學(xué)生的成分較廣東省整體要多
那么p_value的計算公式中眼溶,N代表廣東省所有的人口,n代表深圳市所有的人口晓勇,M為廣東省所有的大學(xué)生人數(shù)堂飞,i 為深圳大學(xué)生人口的極端情況的數(shù)值灌旧,在該例子中 i 為 0到199
還有就是GO富集:
在做GO富集時,我們篩選出來的差異基因數(shù)目一共500個绰筛,在A通路的有200個枢泰,而對于該物種,總共有2300個基因铝噩,在A通路的一共800個衡蚂,那么:
在差異基因這個類群中,在A通路的占比為200/500骏庸;從全部基因來看毛甲,在A通路的占比為800/2300
顯然,相比較整體具被,在差異基因這個類別玻募,大部分基因執(zhí)行A通路的功能,那么個體間的這種差異主要體現(xiàn)在A通路上
那么p_value的計算公式中一姿,N代表總的背景基因數(shù)目七咧;n代表所有的差異基因數(shù)目;M為在A通路中叮叹,被注釋到的背景基因數(shù)目艾栋;i 為差異基因的極端情況的數(shù)值,在該例子中 i 為 0到199
所以總結(jié)來說:fisher.test一方面可以檢測矩陣橫縱變量是否有相關(guān)性蛉顽;另一方面可以檢測矩陣兩個類別某項比例是否差異顯著蝗砾,某項指標(biāo)在某一類別內(nèi)是否具有更多的成分