差異表達(dá)基因分析:差異倍數(shù)(fold change), 差異的顯著性(P-value)

Differential gene expression analysis:差異表達(dá)基因分析

Differentially expressed gene (DEG):差異表達(dá)基因

差異表達(dá)分析是目前比較常用的識別疾病相關(guān)miRNA以及基因的方法晒骇,目前也有很多差異表達(dá)分析的方法,但比較簡單也比較常用的是Fold change方法。

它的優(yōu)點(diǎn)是計(jì)算簡單直觀,缺點(diǎn)是沒有考慮到差異表達(dá)的統(tǒng)計(jì)顯著性近弟;通常以2倍差異為閾值祝峻,判斷基因是否差異表達(dá)晓褪。Fold change的計(jì)算公式如下:

即用疾病樣本的表達(dá)均值除以正常樣本的表達(dá)均值堵漱。

差異表達(dá)分析的目的:識別兩個條件下表達(dá)差異顯著的基因,即一個基因在兩個條件中的表達(dá)水平涣仿,在排除各種偏差后勤庐,其差異具有統(tǒng)計(jì)學(xué)意義。我們利用一種比較常見的T檢驗(yàn)(T-test)方法來尋找差異表達(dá)的miRNA好港。T檢驗(yàn)的主要原理為:對每一個miRNA計(jì)算一個T統(tǒng)計(jì)量來衡量疾病與正常情況下miRNA表達(dá)的差異愉镰,然后根據(jù)t分布計(jì)算顯著性p值來衡量這種差異的顯著性,T統(tǒng)計(jì)量計(jì)算公式如下:

差異倍數(shù)(fold change)

fold change翻譯過來就是倍數(shù)變化钧汹,假設(shè)A基因表達(dá)值為1丈探,B表達(dá)值為3,那么B的表達(dá)就是A的3倍拔莱。一般我們都用count碗降、TPM或FPKM來衡量基因表達(dá)水平,所以基因表達(dá)值肯定是非負(fù)數(shù)塘秦,那么fold change的取值就是(0, +∞).

為什么我們經(jīng)乘显ǎ看到差異基因里負(fù)數(shù)代表下調(diào)、正數(shù)代表上調(diào)尊剔?因?yàn)槲覀冇昧薼og2?fold change爪幻。

當(dāng)expr(A) < expr(B)時,B對A的fold change就大于1须误,log2?fold change就大于0(見下圖)挨稿,B相對A就是上調(diào);

當(dāng)expr(A) > expr(B)時京痢,B對A的fold change就小于1奶甘,log2?fold change就小于0。

通常為了防止取log2時產(chǎn)生NA历造,我們會給表達(dá)值加1(或者一個極小的數(shù)),也就是log2(B+1) - log2(A+1). 【需要一點(diǎn)對數(shù)函數(shù)的基礎(chǔ)知識】


為什么不直接用表達(dá)之差船庇,差值接有正負(fù)翱圆?

假設(shè)A表達(dá)為1鸭轮,B表達(dá)為8臣淤,C表達(dá)為64;直接用差值窃爷,B相對A就上調(diào)了7邑蒋,C就相對B上調(diào)了56姓蜂;用log2 fold change,B相對A就上調(diào)了3医吊,C相對B也只上調(diào)了3.?

通過測序觀察我們發(fā)現(xiàn)钱慢,不同基因在細(xì)胞里的表達(dá)差異非常巨大,所以直接用差顯然不合適卿堂,用log2?fold change更能表示相對的變化趨勢束莫。

雖然大家都在用log2?fold change,但顯然也是有缺點(diǎn)的:

一草描、到底是5到10的變化大览绿,還是100到120的變化大?

二穗慕、5到10可能是由于技術(shù)誤差導(dǎo)致的饿敲。所以當(dāng)基因總的表達(dá)值很低時,log2?fold change的可信度就低了逛绵,尤其是在接近0的時候怀各。

A disadvantage and serious risk of using fold change in this setting is that it is biased[7] and may misclassify differentially expressed genes with large differences (B ? A) but small ratios (B/A), leading to poor identification of changes at high expression levels. Furthermore, when the denominator is close to zero, the ratio is not stable, and the fold change value can be disproportionately affected by measurement noise.

差異的顯著性(P-value)?

這就是統(tǒng)計(jì)學(xué)的范疇了,顯著性就是根據(jù)假設(shè)檢驗(yàn)算出來的暑脆。

假設(shè)檢驗(yàn)首先必須要有假設(shè)渠啤,我們假設(shè)A和B的表達(dá)沒有差異(H0,零假設(shè))添吗,然后基于此假設(shè)沥曹,通過t test(以RT-PCR為例)算出我們觀測到的A和B出現(xiàn)的概率,就得到了P-value碟联,如果P-value<0.05妓美,那么說明小概率事件出現(xiàn)了,我們應(yīng)該拒絕零假設(shè)鲤孵,即A和B的表達(dá)不一樣壶栋,即有顯著差異。

顯著性只能說明我們的數(shù)據(jù)之間具有統(tǒng)計(jì)學(xué)上的顯著性普监,要看上調(diào)下調(diào)必須回去看差異倍數(shù)贵试。

對于得到的顯著性p值,我們需要進(jìn)行多重檢驗(yàn)校正(FDR)凯正,比較常用的是BH方法(Benjamini and Hochberg, 1995)毙玻。

這里只說了最基本的原理,真正的DESeq2等工具里面的算法肯定要復(fù)雜得多廊散。

這張圖對q-value(校正了的p-value)取了負(fù)log桑滩,相當(dāng)于越顯著,負(fù)log就越大允睹,所以在火山圖里运准,越外層的巖漿就越顯著幌氮,差異也就越大。

只需要看懂DEG結(jié)果的可以就此止步胁澳,想深入了解的可以繼續(xù)该互。


下面可以繼續(xù)討論的問題有:

1、RNA-seq基本分析流程/2听哭、

2慢洋、DEG分析的常用算法/3、

3陆盘、常見DEG工具的方法介紹和相互比較


前言

做生物生理生化生信數(shù)據(jù)分析時普筹,最常聽到的肯定是“差異(表達(dá))基因分析”了,從最開始的RT-PCR隘马,到基因芯片microarray太防,再到RNA-seq,最后到現(xiàn)在的single cell RNA-seq酸员,統(tǒng)統(tǒng)都在圍繞著差異表達(dá)基因做文章蜒车。

(開個腦洞:再下一步應(yīng)該會測細(xì)胞內(nèi)特定空間內(nèi)特定基因的動態(tài)表達(dá)水平了)

表達(dá)量:我們假設(shè)基因轉(zhuǎn)錄表達(dá)形成的mRNA的數(shù)量反映了基因的活性,也會影響下游蛋白和代謝物的變化幔嗦。我們關(guān)注的是基因的表達(dá)酿愧,不是結(jié)構(gòu),也是不是isoform邀泉。

為什么差異基因分析這么流行嬉挡?

一是中心法則得到了確立,基因表達(dá)是核心的一個環(huán)節(jié)汇恤,決定了下游的蛋白組和代謝組庞钢;

二是建庫測序的普及,獲取基因的表達(dá)水平變得容易因谎。

在生物體內(nèi)基括,基因的表達(dá)時刻都在動態(tài)變化,不一定服從均勻分布财岔,在不同時間风皿、發(fā)育程度、組織和環(huán)境刺激下匠璧,基因的表達(dá)肯定會發(fā)生變化桐款。

差異基因分析主要應(yīng)用在:

發(fā)育過程中關(guān)鍵基因的表達(dá)變化 - 發(fā)育研究

突變材料里什么核心基因的表達(dá)發(fā)生了變化 - 調(diào)控研究

細(xì)胞在受到藥物處理后哪些基因的表達(dá)發(fā)生了變化 - 藥物研發(fā)

目前我們對基因和轉(zhuǎn)錄組的了解到什么程度了?

基本的建庫方法患朱?建庫直接決定了我們能測到什么序列鲁僚,也決定了我們能做什么分析炊苫!

基因表達(dá)的normalization方法有哪些裁厅?

第一類錯誤冰沙、第二類錯誤是什么?

多重檢驗(yàn)的校正执虹?FDR拓挥?


10x流程解釋

The mean UMI counts per cell of this gene in cluster i

The log2 fold-change of this gene's expression in cluster i relative to other clusters?

The p-value denoting significance of this gene's expression in cluster i relative to other clusters, adjusted to account for the number of hypotheses (i.e. genes) being tested.


The differential expression analysis seeks to find, for each cluster, genes that are more highly expressed in that cluster relative to the rest of the sample. Here a differential expression test was performed between each cluster and the rest of the sample for each gene.

The Log2 fold-change (L2FC) is an estimate of the log2 ratio of expression in a cluster to that in all other cells. A value of 1.0 indicates 2-fold greater expression in the cluster of interest.

The p-value is a measure of the statistical significance of the expression difference and is based on a?negative binomial test. The p-value reported here has been adjusted for multiple testing via the?Benjamini-Hochberg procedure.

In this table you can click on a column to sort by that value. Also, in this table genes were filtered by (Mean UMI counts > 1.0) and the top N genes by L2FC for each cluster were retained. Genes with L2FC < 0 or adjusted p-value >= 0.10 were grayed out. The number of top genes shown per cluster, N, is set to limit the number of table entries shown to 10000; N=10000/K^2 where K is the number of clusters. N can range from 1 to 50. For the full table, please refer to the "differential_expression.csv" files produced by the pipeline.


不同單細(xì)胞DEG鑒定工具的比較

Comparative analysis of differential gene expression analysis tools for single-cell RNA sequencing data

For data with a high level of multimodality, methods that consider the behavior of each individual gene, such as DESeq2, EMDomics, Monocle2, DEsingle, and SigEMD, show better TPRs. 這些工具敏感性高,就是說不會漏掉很多真的DEG袋励,但是會包含很多假的DEG侥啤。

If the level of multimodality is low, however, SCDE, MAST, and edgeR can provide higher precision. 這些工具精準(zhǔn)性很高,意味著得到的DEG里假的很少茬故,所以會漏掉很多真的DEG盖灸,不會引入假的DEG。


time-course DEG analysis

Comparative analysis of differential gene expression tools for RNA sequencing time course data?


參考:

Question: How to calculate "fold changes" in gene expression?

Exact Negative Binomial Test with edgeR

Differential gene expression analysis

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末磺芭,一起剝皮案震驚了整個濱河市赁炎,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌钾腺,老刑警劉巖徙垫,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異放棒,居然都是意外死亡姻报,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門间螟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來吴旋,“玉大人,你說我怎么就攤上這事寒亥∮矢” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵溉奕,是天一觀的道長褂傀。 經(jīng)常有香客問我,道長加勤,這世上最難降的妖魔是什么仙辟? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮鳄梅,結(jié)果婚禮上叠国,老公的妹妹穿的比我還像新娘。我一直安慰自己戴尸,他們只是感情好粟焊,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般项棠。 火紅的嫁衣襯著肌膚如雪悲雳。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天香追,我揣著相機(jī)與錄音合瓢,去河邊找鬼。 笑死透典,一個胖子當(dāng)著我的面吹牛晴楔,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播峭咒,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼税弃,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了凑队?” 一聲冷哼從身側(cè)響起钙皮,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎顽决,沒想到半個月后短条,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡才菠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年茸时,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片赋访。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡可都,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蚓耽,到底是詐尸還是另有隱情渠牲,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布步悠,位于F島的核電站签杈,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏鼎兽。R本人自食惡果不足惜答姥,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望谚咬。 院中可真熱鬧鹦付,春花似錦、人聲如沸择卦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至祈噪,卻和暖如春行剂,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背钳降。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留腌巾,地道東北人遂填。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像澈蝙,于是被迫代替她去往敵國和親吓坚。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容