前言
DESeq2的LRT又稱之為似然比檢驗(yàn),用于檢驗(yàn)跨兩個(gè)以上組別評(píng)估表達(dá)變化鱼蝉,比方說以多個(gè)時(shí)間點(diǎn)作為分組洒嗤,
似然比檢驗(yàn)簡(jiǎn)介
似然比檢驗(yàn)是用于研究你的兩個(gè)統(tǒng)計(jì)學(xué)模型是否有差異的一種檢驗(yàn)方式,其基本模型如下:
原假設(shè) H0:θ = θ0魁亦;備擇假設(shè)為 H1 : θ ≠(不等于) θ0(θ = θ1)
從模型中可以看到事實(shí)上 θ0 和 θ1 可以認(rèn)為是代表了兩個(gè)不同的模型渔隶,其含義是你有兩個(gè)統(tǒng)計(jì)學(xué)模型,分別是 p(x; θ1) 和 p(x; θ0) 洁奈。λ 越接近 1 代表兩個(gè)模型差異越屑浒Α;反之利术,兩個(gè)模型差異越大
在R里面實(shí)現(xiàn)LRT:
library(epicalc)
model0 <- glm(case ~ induced + spontaneous, family=binomial, data=infert)
model1 <- glm(case ~ induced, family=binomial, data=infert)
lrtest (model0, model1)
##結(jié)果
Likelihood ratio test for MLE method
Chi-squared 1 d.f. = 36.48675 , P value = 0
在R的代碼里面呈野,我們可以發(fā)現(xiàn) LRT 事實(shí)上是對(duì)兩個(gè)模型進(jìn)行比較,來看兩個(gè)模型之間的差異
對(duì)于回歸模型來說:
我們對(duì)回歸模型的似然值定義如下圖
下面的誤差項(xiàng)定義為真實(shí)值與預(yù)測(cè)值之間的差異
因此印叁,不同的回歸模型被冒,每一項(xiàng)的誤差 ei 是不一樣的军掂,因此基于誤差項(xiàng)ei求出來的似然值也是不一樣的,那么似然值越高昨悼,代表模型的誤差越小蝗锥,擬合效果越好
DESeq2里面的LRT
DESeq2里面也提供了LRT的檢驗(yàn)方法,往往用于兩組以上的比較率触,我們看官網(wǎng)里面的實(shí)例玛追,改編自官網(wǎng):
library("fission")
data("fission")
#以minute(時(shí)間)來建模
ddsTC <- DESeqDataSet(fission, ~ minute )
#作為比較的模型,以 1 作為對(duì)照
ddsTC <- DESeq(ddsTC, test="LRT", reduced = ~ 1)
resTC <- results(ddsTC)
resTC$symbol <- mcols(ddsTC)$symbol
head(resTC[order(resTC$padj),], 4)
結(jié)果為:
注意闲延,這里的log2FoldChange沒有實(shí)際的意義
這里以時(shí)間作為多組的分類變量痊剖,以時(shí)間為自變量來建模;參數(shù) ~ minute 表示的是對(duì)基因表達(dá)量隨時(shí)間變化來建模垒玲;而參數(shù) ~ 1 表示的是對(duì)照陆馁,即基因表達(dá)量和時(shí)間之間沒有任何線性關(guān)系
顯然對(duì)于某基因來說,左圖更加match合愈,可以看出隨時(shí)間變化的趨勢(shì) (時(shí)間點(diǎn)可以不止兩個(gè)叮贩,允許有很多個(gè)時(shí)間點(diǎn)來建立與 gene g 表達(dá)量之間的線性模型;而LRT的思想就是兩個(gè)模型進(jìn)行比較佛析,看哪個(gè)模型與你的數(shù)據(jù)更match)
這是三個(gè)時(shí)間點(diǎn)的情況益老,顯然左邊的線性模型相比于右邊的線性模型誤差更小,故左邊的模型更match此數(shù)據(jù)寸莫,即該基因的表達(dá)是隨時(shí)間的變化而變化
當(dāng)LRT檢測(cè)的p值越顯著捺萌,說明這兩個(gè)模型之間的差異越大,而結(jié)果中的行名代表不同的基因膘茎,p值越小桃纯,則代表接受H1(備擇假設(shè)),即參數(shù) ~ minute 建立的模型更適合你的數(shù)據(jù)披坏,也就意味著基因表達(dá)與時(shí)間這個(gè)變量相關(guān)
將p值顯著的基因挑出來态坦,那么這些基因就是隨時(shí)間變化而波動(dòng)的基因了(相對(duì)于參數(shù) ~ 1 的模型來說)