Differential gene expression analysis:差異表達(dá)基因分析
Differentially expressed gene (DEG):差異表達(dá)基因
差異表達(dá)分析是目前比較常用的識別疾病相關(guān)miRNA以及基因的方法晒骇,目前也有很多差異表達(dá)分析的方法,但比較簡單也比較常用的是Fold change方法。
它的優(yōu)點(diǎn)是計(jì)算簡單直觀,缺點(diǎn)是沒有考慮到差異表達(dá)的統(tǒng)計(jì)顯著性近弟;通常以2倍差異為閾值祝峻,判斷基因是否差異表達(dá)晓褪。Fold change的計(jì)算公式如下:
即用疾病樣本的表達(dá)均值除以正常樣本的表達(dá)均值堵漱。
差異表達(dá)分析的目的:識別兩個條件下表達(dá)差異顯著的基因,即一個基因在兩個條件中的表達(dá)水平涣仿,在排除各種偏差后勤庐,其差異具有統(tǒng)計(jì)學(xué)意義。我們利用一種比較常見的T檢驗(yàn)(T-test)方法來尋找差異表達(dá)的miRNA好港。T檢驗(yàn)的主要原理為:對每一個miRNA計(jì)算一個T統(tǒng)計(jì)量來衡量疾病與正常情況下miRNA表達(dá)的差異愉镰,然后根據(jù)t分布計(jì)算顯著性p值來衡量這種差異的顯著性,T統(tǒng)計(jì)量計(jì)算公式如下:
差異倍數(shù)(fold change)
fold change翻譯過來就是倍數(shù)變化钧汹,假設(shè)A基因表達(dá)值為1丈探,B表達(dá)值為3,那么B的表達(dá)就是A的3倍拔莱。一般我們都用count碗降、TPM或FPKM來衡量基因表達(dá)水平,所以基因表達(dá)值肯定是非負(fù)數(shù)塘秦,那么fold change的取值就是(0, +∞).
為什么我們經(jīng)乘显ǎ看到差異基因里負(fù)數(shù)代表下調(diào)、正數(shù)代表上調(diào)尊剔?因?yàn)槲覀冇昧薼og2?fold change爪幻。
當(dāng)expr(A) < expr(B)時,B對A的fold change就大于1须误,log2?fold change就大于0(見下圖)挨稿,B相對A就是上調(diào);
當(dāng)expr(A) > expr(B)時京痢,B對A的fold change就小于1奶甘,log2?fold change就小于0。
通常為了防止取log2時產(chǎn)生NA历造,我們會給表達(dá)值加1(或者一個極小的數(shù)),也就是log2(B+1) - log2(A+1). 【需要一點(diǎn)對數(shù)函數(shù)的基礎(chǔ)知識】
為什么不直接用表達(dá)之差船庇,差值接有正負(fù)翱圆?
假設(shè)A表達(dá)為1鸭轮,B表達(dá)為8臣淤,C表達(dá)為64;直接用差值窃爷,B相對A就上調(diào)了7邑蒋,C就相對B上調(diào)了56姓蜂;用log2 fold change,B相對A就上調(diào)了3医吊,C相對B也只上調(diào)了3.?
通過測序觀察我們發(fā)現(xiàn)钱慢,不同基因在細(xì)胞里的表達(dá)差異非常巨大,所以直接用差顯然不合適卿堂,用log2?fold change更能表示相對的變化趨勢束莫。
雖然大家都在用log2?fold change,但顯然也是有缺點(diǎn)的:
一草描、到底是5到10的變化大览绿,還是100到120的變化大?
二穗慕、5到10可能是由于技術(shù)誤差導(dǎo)致的饿敲。所以當(dāng)基因總的表達(dá)值很低時,log2?fold change的可信度就低了逛绵,尤其是在接近0的時候怀各。
A disadvantage and serious risk of using fold change in this setting is that it is biased[7] and may misclassify differentially expressed genes with large differences (B ? A) but small ratios (B/A), leading to poor identification of changes at high expression levels. Furthermore, when the denominator is close to zero, the ratio is not stable, and the fold change value can be disproportionately affected by measurement noise.
差異的顯著性(P-value)?
這就是統(tǒng)計(jì)學(xué)的范疇了,顯著性就是根據(jù)假設(shè)檢驗(yàn)算出來的暑脆。
假設(shè)檢驗(yàn)首先必須要有假設(shè)渠啤,我們假設(shè)A和B的表達(dá)沒有差異(H0,零假設(shè))添吗,然后基于此假設(shè)沥曹,通過t test(以RT-PCR為例)算出我們觀測到的A和B出現(xiàn)的概率,就得到了P-value碟联,如果P-value<0.05妓美,那么說明小概率事件出現(xiàn)了,我們應(yīng)該拒絕零假設(shè)鲤孵,即A和B的表達(dá)不一樣壶栋,即有顯著差異。
顯著性只能說明我們的數(shù)據(jù)之間具有統(tǒng)計(jì)學(xué)上的顯著性普监,要看上調(diào)下調(diào)必須回去看差異倍數(shù)贵试。
對于得到的顯著性p值,我們需要進(jìn)行多重檢驗(yàn)校正(FDR)凯正,比較常用的是BH方法(Benjamini and Hochberg, 1995)毙玻。
這里只說了最基本的原理,真正的DESeq2等工具里面的算法肯定要復(fù)雜得多廊散。
這張圖對q-value(校正了的p-value)取了負(fù)log桑滩,相當(dāng)于越顯著,負(fù)log就越大允睹,所以在火山圖里运准,越外層的巖漿就越顯著幌氮,差異也就越大。
只需要看懂DEG結(jié)果的可以就此止步胁澳,想深入了解的可以繼續(xù)该互。
下面可以繼續(xù)討論的問題有:
1、RNA-seq基本分析流程/2听哭、
2慢洋、DEG分析的常用算法/3、
3陆盘、常見DEG工具的方法介紹和相互比較
前言
做生物生理生化生信數(shù)據(jù)分析時普筹,最常聽到的肯定是“差異(表達(dá))基因分析”了,從最開始的RT-PCR隘马,到基因芯片microarray太防,再到RNA-seq,最后到現(xiàn)在的single cell RNA-seq酸员,統(tǒng)統(tǒng)都在圍繞著差異表達(dá)基因做文章蜒车。
(開個腦洞:再下一步應(yīng)該會測細(xì)胞內(nèi)特定空間內(nèi)特定基因的動態(tài)表達(dá)水平了)
表達(dá)量:我們假設(shè)基因轉(zhuǎn)錄表達(dá)形成的mRNA的數(shù)量反映了基因的活性,也會影響下游蛋白和代謝物的變化幔嗦。我們關(guān)注的是基因的表達(dá)酿愧,不是結(jié)構(gòu),也是不是isoform邀泉。
為什么差異基因分析這么流行嬉挡?
一是中心法則得到了確立,基因表達(dá)是核心的一個環(huán)節(jié)汇恤,決定了下游的蛋白組和代謝組庞钢;
二是建庫測序的普及,獲取基因的表達(dá)水平變得容易因谎。
在生物體內(nèi)基括,基因的表達(dá)時刻都在動態(tài)變化,不一定服從均勻分布财岔,在不同時間风皿、發(fā)育程度、組織和環(huán)境刺激下匠璧,基因的表達(dá)肯定會發(fā)生變化桐款。
差異基因分析主要應(yīng)用在:
發(fā)育過程中關(guān)鍵基因的表達(dá)變化 - 發(fā)育研究
突變材料里什么核心基因的表達(dá)發(fā)生了變化 - 調(diào)控研究
細(xì)胞在受到藥物處理后哪些基因的表達(dá)發(fā)生了變化 - 藥物研發(fā)
目前我們對基因和轉(zhuǎn)錄組的了解到什么程度了?
基本的建庫方法患朱?建庫直接決定了我們能測到什么序列鲁僚,也決定了我們能做什么分析炊苫!
基因表達(dá)的normalization方法有哪些裁厅?
第一類錯誤冰沙、第二類錯誤是什么?
多重檢驗(yàn)的校正执虹?FDR拓挥?
10x流程解釋
The mean UMI counts per cell of this gene in cluster i
The log2 fold-change of this gene's expression in cluster i relative to other clusters?
The p-value denoting significance of this gene's expression in cluster i relative to other clusters, adjusted to account for the number of hypotheses (i.e. genes) being tested.
The differential expression analysis seeks to find, for each cluster, genes that are more highly expressed in that cluster relative to the rest of the sample. Here a differential expression test was performed between each cluster and the rest of the sample for each gene.
The Log2 fold-change (L2FC) is an estimate of the log2 ratio of expression in a cluster to that in all other cells. A value of 1.0 indicates 2-fold greater expression in the cluster of interest.
The p-value is a measure of the statistical significance of the expression difference and is based on a?negative binomial test. The p-value reported here has been adjusted for multiple testing via the?Benjamini-Hochberg procedure.
In this table you can click on a column to sort by that value. Also, in this table genes were filtered by (Mean UMI counts > 1.0) and the top N genes by L2FC for each cluster were retained. Genes with L2FC < 0 or adjusted p-value >= 0.10 were grayed out. The number of top genes shown per cluster, N, is set to limit the number of table entries shown to 10000; N=10000/K^2 where K is the number of clusters. N can range from 1 to 50. For the full table, please refer to the "differential_expression.csv" files produced by the pipeline.
不同單細(xì)胞DEG鑒定工具的比較
For data with a high level of multimodality, methods that consider the behavior of each individual gene, such as DESeq2, EMDomics, Monocle2, DEsingle, and SigEMD, show better TPRs. 這些工具敏感性高,就是說不會漏掉很多真的DEG袋励,但是會包含很多假的DEG侥啤。
If the level of multimodality is low, however, SCDE, MAST, and edgeR can provide higher precision. 這些工具精準(zhǔn)性很高,意味著得到的DEG里假的很少茬故,所以會漏掉很多真的DEG盖灸,不會引入假的DEG。
time-course DEG analysis
Comparative analysis of differential gene expression tools for RNA sequencing time course data?
參考:
Question: How to calculate "fold changes" in gene expression?