基因的差異表達(dá),即發(fā)現(xiàn)一組在正常樣本和患病樣本中表達(dá)不同的基因赏寇。
差異基因的篩選方法
1、倍數(shù)變化(fold change)
最簡(jiǎn)單的是閾值法取具,用倍數(shù)分析基因表達(dá)水平差異,即計(jì)算基因在兩個(gè)條件下表達(dá)水平的比值(癌癥和正常)扁耐,確定比值的閾值暇检,將絕對(duì)值大于此閾值的基因判斷為差異基因。
-
差異基因的上調(diào)和下調(diào)
我們一般使用
log2 (fold change)
婉称。當(dāng)expr(A) < expr(B)時(shí)块仆,B對(duì)A的fold change就大于1,log2 fold change就大于0(見下圖)王暗,B相對(duì)A就是上調(diào)悔据;當(dāng)expr(A) > expr(B)時(shí),B對(duì)A的fold change就小于1瘫筐,log2 fold change就小于0;
通常為了防止取log2時(shí)產(chǎn)生NA蜜暑,我們會(huì)給表達(dá)值加1(或者一個(gè)極小的數(shù)),也就是log2(B+1) - log2(A+1).
通常選擇2~3倍作為閾值策肝,但對(duì)于低表達(dá)的基因肛捍,3倍也是噪音,那些高表達(dá)的基因之众,1.1倍都是生物學(xué)顯著了拙毫。更重要的沒有考慮到組內(nèi)變異,沒有統(tǒng)計(jì)學(xué)意義棺禾。
2缀蹄、統(tǒng)計(jì)檢驗(yàn)
最常用的T-test、ANOVA(方差分析)或者稱為F檢驗(yàn)膘婶。
對(duì)于
基因芯片
的數(shù)據(jù)而言缺前,由于樣本服從正態(tài)分布
,所以可以用t-test(雙處理)或anova分析(多處理以上)悬襟。
二代測(cè)序
RNA-Seq
它的抽樣過程是離散的衅码,結(jié)果是count,服從泊松分布脊岳,樣本間的差異是服從負(fù)二向分布
.
- 方差分析(ANOVA)和線性回歸分析(regression)都是同一時(shí)期發(fā)展的兩套緊密相連的理論逝段。方差分析考量的是離散型自變量(因子)對(duì)連續(xù)型應(yīng)變量(響應(yīng)變量)的模型分析,而線性回歸分析只要求響應(yīng)變量是連續(xù)的割捅,對(duì)于自變量無要求奶躯。如果響應(yīng)變量不是連續(xù)型分布,就要使用更加一般化的廣義線性模型(generalized linear model),通過一個(gè)連接函數(shù)變換響應(yīng)變量期望亿驾,將響應(yīng)變量的期望與自變量建立線性關(guān)系嘹黔。
T-test 檢驗(yàn)是差異基因表達(dá)檢測(cè)中常用的統(tǒng)計(jì)方法,通過合并樣本間可變的數(shù)據(jù)莫瞬,來評(píng)價(jià)差異表達(dá)儡蔓,用于判斷某一基因在兩個(gè)樣本中是否有差異表達(dá)醉锄。由于芯片實(shí)驗(yàn)成本較高,樣本量較少浙值,從而對(duì)總體方差的估計(jì)不很準(zhǔn)確恳不,T檢驗(yàn)的檢驗(yàn)效能降低。
3开呐、SAM算法
SAM算法就是通過控制FDR值糾正多重假設(shè)檢驗(yàn)中的假陽性率烟勋。SAM 方法檢驗(yàn)差異表達(dá),通過對(duì)分母增加一個(gè)常量 T 檢驗(yàn)過程減小了假陽性發(fā)生的概率筐付。根據(jù)文獻(xiàn)記載卵惦,相比較其他算法,SAM算法更為穩(wěn)定瓦戚,篩選出的結(jié)果也更為準(zhǔn)確沮尿。SAM方法以q-value< 0.05作為篩選差異表達(dá)基因的標(biāo)準(zhǔn),從公式上來看较解,p-value和q-value較為相似畜疾,而差異篩選是一個(gè)典型的多重假設(shè)檢驗(yàn)過程。對(duì)于多重假設(shè)檢驗(yàn)印衔,單次檢驗(yàn)中差異顯著基因的假陽性率(p-value較小)可能會(huì)較大啡捶,而q-value 和 FDR值較常見的BH校正方法得到的FDR值而言,改進(jìn)了其對(duì)假陽性估計(jì)的保守性奸焙。
火山圖
火山圖可反映總體基因的表達(dá)情況瞎暑,橫坐標(biāo)代表log2(Fold Change),縱坐標(biāo)表示-log10(P值),每個(gè)點(diǎn)代表一個(gè)基因与帆,顏色用以區(qū)分基因是否差異表達(dá)了赌,圖中橙色的點(diǎn)代表差異表達(dá)基因,藍(lán)色的點(diǎn)代表沒有差異表達(dá)的基因玄糟。
聚類圖
聚類圖可以衡量樣本或基因之間表達(dá)的相似性勿她。 如上圖所示的聚類圖中,橫坐標(biāo)代表樣本聚類茶凳,一列代表一個(gè)樣本嫂拴,聚類基于樣本間基因表達(dá)的相似性播揪,樣本間基因表達(dá)越接近贮喧,靠的越近,以此類推猪狈。 縱坐標(biāo)代表基因聚類箱沦,一行代表一個(gè)基因,聚類基于基因在樣本中表達(dá)的相似性雇庙,基因在樣本中表達(dá)越接近谓形,靠的越近灶伊,以此類推。 色階代表基因表達(dá)豐度寒跳,越紅代表上調(diào)得越明顯聘萨,越綠代表下調(diào)得越明顯。
REF:
http://www.reibang.com/p/b55276e46f0c
https://blog.csdn.net/u012325865/article/details/87344725