目前常用的幾款差異表達(dá)進(jìn)識(shí)別方法有:FC、T檢驗(yàn)蒸痹、SAM等
一憎瘸、FC
FC(Fold Change)算法是最早用于識(shí)別兩種不同的實(shí)驗(yàn)條件下基因表達(dá)水平存在差異的算法,其算法的原理是計(jì)算基因在兩類樣本中平均表達(dá)水平的倍數(shù)值谨垃,若該值達(dá)到預(yù)先設(shè)定的閾值(一般設(shè)置為2,在以2為底的對(duì)數(shù)表達(dá)比中為大于1或小于-1)硼控,則判定基因?yàn)椴町惐磉_(dá)(DE刘陶,different expression)基因,計(jì)算公式如下牢撼,其中匙隔,mean(X(i))與mean(Y(i))代表基因i在兩類樣本中的平均表達(dá)值:
FC算法非常簡單、直接熏版,但是它存在一些不足纷责,比如:缺乏嚴(yán)格的統(tǒng)計(jì)控制、人為設(shè)定的閾值具有較大的主觀性纳决。若在一次試驗(yàn)中碰逸,基因表達(dá)水平改變程度較小,則設(shè)定較大的閾值會(huì)導(dǎo)致結(jié)果的假陰性率較高阔加,但如果過多的減小閾值饵史,又可能使結(jié)果的假陽性率升高。其次,由于表達(dá)量低的基因較表達(dá)量高的基因更容易在兩類間產(chǎn)生大的倍數(shù)變化胳喷,導(dǎo)致FC方法偏向于識(shí)別基礎(chǔ)表達(dá)量低的基因作為DE基因湃番。此外,表達(dá)量低的基因更容易因?yàn)闄z測誤差的影響而產(chǎn)生大的波動(dòng)從而被FC方法判斷為DE基因吭露。
在很多實(shí)際應(yīng)用中吠撮,常常有人把FC值做log2轉(zhuǎn)換,log2fc 值相較于fc的有點(diǎn)在于:log2fc的值有正負(fù)值之分讲竿,很容易看出2個(gè)group之間的上下調(diào)關(guān)系>
關(guān)于limma包差異分析結(jié)果的logFC解釋
㈡t檢驗(yàn)
t檢驗(yàn)(t-test)泥兰,常用來識(shí)別兩類樣本中DE基因的算法。其主要原理為:對(duì)每一個(gè)基因計(jì)算一個(gè)t統(tǒng)計(jì)量來衡量兩類樣本中基因表達(dá)的差異题禀,然后根據(jù)t分布計(jì)算顯著性p值來衡量這種差異的顯著性鞋诗。計(jì)算公式如下,其中迈嘹,分子代表基因i在兩類樣本中的平均表達(dá)差值削彬,分母代表基因i在所有樣本中的標(biāo)準(zhǔn)誤:
由于t檢驗(yàn)要求數(shù)據(jù)呈現(xiàn)正太分布,所以公式中基因的表達(dá)值為測量值經(jīng)過標(biāo)準(zhǔn)化后的值秀仲,反應(yīng)的是兩類樣本間基因表達(dá)的倍數(shù)變化融痛,也存在FC方法同樣的偏向性。此外神僵,對(duì)基礎(chǔ)表達(dá)量低的基因來說雁刷,一個(gè)微小變異程度(標(biāo)準(zhǔn)誤)可能導(dǎo)致一個(gè)大的絕對(duì)t統(tǒng)計(jì)值,從而被識(shí)別為DE基因,即使在兩類條件下這個(gè)基因的平均表達(dá)水平的差異很小保礼。低表達(dá)的基因比高表達(dá)的基因更容易產(chǎn)生大的t統(tǒng)計(jì)量安券。已有研究指出,數(shù)據(jù)的信噪比會(huì)隨著基因表達(dá)量的增高而降低氓英,這就意味著,低表達(dá)的基因更容易受到噪聲的影響而產(chǎn)生誤差鹦筹。因此铝阐,t檢驗(yàn)同樣傾向于識(shí)別表達(dá)水平低的基因作為DE基因。
㈢SAM算法
SAM(Significance analysis of microarrays)算法用于微陣列基因表達(dá)譜數(shù)據(jù)識(shí)別DE基因 铐拐。SAM算法與t檢驗(yàn)相似徘键,但為了使具有較小標(biāo)準(zhǔn)誤的基因不會(huì)被誤判為DE基因,SAM在t統(tǒng)計(jì)量的分母中增加了校正值遍蟋,提高了t檢驗(yàn)的穩(wěn)定性吹害。計(jì)算公式如下,其中S0 為樣本殘差標(biāo)準(zhǔn)誤的校正值:
雖然SAM算法通過permutation算法計(jì)算出錯(cuò)誤發(fā)現(xiàn)率(False Discovery Rate, FDR)來控制多重檢驗(yàn)的錯(cuò)誤率虚青,降低了結(jié)果的假陽性率它呀。但由于SAM算法是以t檢驗(yàn)為基礎(chǔ),但它依舊存在與t檢驗(yàn)相似的問題:偏向于識(shí)別在兩類樣本中表達(dá)水平低但倍數(shù)變化大的基因?yàn)镈E基因。
簡書上還有一些關(guān)于差異表達(dá)的文章纵穿,你可以也看看
【r<-生信|實(shí)戰(zhàn)】用方差分析差異表達(dá)基因
基因芯片(Affymetrix)分析3:獲取差異表達(dá)基因
差異表達(dá)基因
差異表達(dá)分析圖標(biāo)結(jié)果釋義
參考資料:
1.趙發(fā)林, 閆曉光, 李康. 幾種差異基因分析方法及篩選效果的比較[J]. 中國衛(wèi)生統(tǒng)計(jì), 2008, 25(4):354-356.
2.黃海燕 基于可重復(fù)性評(píng)價(jià)識(shí)別與癌相關(guān)的高表達(dá)基因