edgeR/DESeq2
1. 標(biāo)準(zhǔn)化:library size/composition
edgeR
1. 過濾低表達(dá)的基因
僅保留在兩個樣品或更多樣本中CPM>1的基因
CPM=Reads/(total reads in the sample/1,000,000)
問題:會受到測序深度的影響
2. 選擇一個the most average sample作為reference sample
????1. 對于每一個sample
????????1. 除以size做normalization
????????2. 選擇top25%的基因表達(dá)值(75%的基因表達(dá)<=這個值)
????2. 對上述取平均值统台,最接近這個平均值的sample就是reference sample贱勃。
????3. 對于非reference sample,分別計算scale factor
????????1. 選擇gene list
????????????1. biased genes:log fold change 仇穗,過濾掉top/down 30%
????????????2. highly/lowly transcribed in both samples:geometric mean仪缸,過濾掉top/down 5%
????????????3. 取交集
????????2. 對log2計算加權(quán)平均
????????????1. scale factor = 2 ^ (weighted average of log2 ratios)
? ? ?4. 對于所有sample的scale factors恰画,center后得到最后的scale factor
DESeq2:
1. 去掉不表達(dá)或者只在一個sample表達(dá)的基因
? ? ? ? DESeq2查看某個基因所有樣本均一化read的平均值
2. Log e (defalut:e為底)
3. 為每一個基因
????1. 計算平均值
????2. 每一個值減去平均值
4. 為每一個sample計算median
5. 將median還原成normal number,得到最終的scale factor
2. 根據(jù)模型求p-value
一般而言片林,樣本間的變異系數(shù)(coefficient of variance端盆,CV)是由兩部分組成的,一是技術(shù)差異(Technical CV)弓摘,另一個是生物學(xué)差異(Biological coefficient of variance韧献,BCV)锤窑。前者是會隨著測序通量的提升而消失的渊啰,而后者則是樣本間真實(shí)存在的差異虽抄。所以,對于一個基因g而言,它的BCV在樣本間足夠大的話车酣,就可以認(rèn)為基因g是一個差異表達(dá)基因湖员。
擬合負(fù)二項(xiàng)廣義對數(shù)線性模型娘摔,如果某個基因的表達(dá)值偏離分布模型,那么該基因?yàn)椴町惐磉_(dá)基因鸭津。
為什么使用負(fù)二項(xiàng)分布而不是泊松分布肠缨?
overdispersion: 真實(shí)數(shù)據(jù)的分布偏離泊松分布(方差=均值)晒奕,方差明顯比均值大
edgeR和后期的DeSeq2使用負(fù)二項(xiàng)式廣義模型中的NB2模型
早期的DeSeq2:the variance is determined by the smoothed function f of the mean
3. p-value矯正
BH等
參考資料:
1. [Gene expression units explained: RPM, RPKM, FPKM, TPM, DESeq, TMM, SCnorm, GeTMM, and ComBat-Seq](https://www.reneshbedre.com/blog/expression_units.html)
2. statquest: DeSeq2/edgeR共三個視頻
3. [廣義典型相關(guān)分析_廣義線性模型(GLM)概述及負(fù)二項(xiàng)回歸應(yīng)用舉例和R計算_weixin_39629467的博客-CSDN博客](https://blog.csdn.net/weixin_39629467/article/details/111341514)
4. [17. 負(fù)二項(xiàng)式模型 — 張振虎的博客 張振虎 文檔](https://zhangzhenhu.github.io/blog/glm/source/%E8%B4%9F%E4%BA%8C%E9%A1%B9%E6%A8%A1%E5%9E%8B/content.html)