DESeq2文庫(kù)標(biāo)準(zhǔn)化
問題1:調(diào)整文庫(kù)大小的差異
樣本1的read是樣本2的一半,樣本2中每個(gè)基因的read是樣本1的兩倍焕毫。這種差異不是生物學(xué)造成的禽翼,而是測(cè)序深度造成的扣墩。RPKM,F(xiàn)PKM鞍爱,TPM和CPM都處理這個(gè)問題。
問題2:調(diào)整文庫(kù)組成的差異:
RNA-seq(和其他高通量測(cè)序)經(jīng)常被用來比較一種組織類型和另一種組織類型专酗。例如睹逃,肝臟vs脾臟。這可能是因?yàn)楦闻K中轉(zhuǎn)錄有很多肝臟特異性基因,而脾臟中卻沒有沉填。這是一個(gè)不同的文庫(kù)組成(library composition)的例子,你也可以想象疗隶,如果你敲除一個(gè)轉(zhuǎn)錄因子,在同一種組織類型中翼闹,你會(huì)發(fā)現(xiàn)不同的文庫(kù)組成斑鼻。
在這個(gè)例子中,兩個(gè)文庫(kù)有相同的大小(read)猎荠,現(xiàn)在坚弱,假設(shè)所有基因的表達(dá)都是一樣的,只有一個(gè)例外关摇。假設(shè)只有樣本1轉(zhuǎn)錄A2M, 這意味著樣本1中A2M消耗掉的563個(gè)reads,這563reads將會(huì)分布到樣本2中的其他基因上荒叶。在樣本2中,除了A2M之外输虱,所有的reads都非常高些楣。然而,唯一的差異表達(dá)基因是A2M宪睹。
上傳失敗...(image-dfdecb-1610511799293)
編寫DESeq2(和edgeR)的人意識(shí)到他們的工具將用于各種類型的數(shù)據(jù)集戈毒,所以他們希望他們的標(biāo)準(zhǔn)化去處理:
問題1:調(diào)整文庫(kù)大小的差異
問題2:調(diào)整文庫(kù)組成的差異:
我們將從一個(gè)小數(shù)據(jù)集開始,說明DESeq2如何縮放(scale)不同的樣本横堡。目標(biāo)是為每個(gè)樣本計(jì)算一個(gè)標(biāo)準(zhǔn)化因子(scaling factor)埋市。標(biāo)準(zhǔn)化因子必須考慮到read depth和library composition。
第一步:對(duì)全部值取log
DESeq2使用了log(“以e為底的log”)
DESeq2可以使用log2或log10命贴,但在R中l(wèi)oge默認(rèn)值道宅。
注意log(0) =-∞,這是因?yàn)镽定義log(0)等于-∞胸蛛。
第二步:每行取平均值
任何時(shí)候你把一個(gè)數(shù)字加到無窮(或-無窮)你會(huì)得到無窮(或-無窮)污茵,這就是為什么這是負(fù)無窮。因?yàn)镚ene1是負(fù)無窮葬项,所以平均值也是負(fù)無窮泞当。
對(duì)數(shù)值的平均值有一件很酷的事情,那就是這個(gè)平均值不容易被異常值所影響民珍。同理襟士,我們可以看Gene3,存在異常值嚷量,取對(duì)數(shù)后陋桂,影響減小。
第三步:過濾掉值為負(fù)無窮的基因
一般來說蝶溶,這一步在一個(gè)或多個(gè)樣本中過濾掉read為零的基因嗜历。
如果你在比較肝臟和脾臟,這將去除所有只在肝臟(或脾臟)轉(zhuǎn)錄的基因。
理論上梨州,這有助于將標(biāo)準(zhǔn)化因子集中在管家基因上——無論組織類型如何痕囱,基因轉(zhuǎn)錄水平都是相似的。
第四步:從log(counts)中減去平均對(duì)數(shù)值
- 我們要檢查的是每個(gè)樣本讀取數(shù)與所有樣本均值的比暴匠。
第五步:計(jì)算每個(gè)樣本比的中位數(shù)(median)
注意:使用中位數(shù)是另一種避免極端基因在一個(gè)方向上過度影響的方法
表達(dá)差異較大的基因?qū)χ形粩?shù)的影響并不比表達(dá)差異較小的基因大咐蝇,因?yàn)榫哂芯薮蟛町惖幕驑O有可能是罕見的,因此巷查,這種效應(yīng)會(huì)給差異較小的和“管家”基因帶來更大的影響有序。
第六步:將中位數(shù)轉(zhuǎn)換為“正態(tài)數(shù)”,得到每個(gè)樣本的最終的標(biāo)準(zhǔn)化因子
這些是對(duì)數(shù)值岛请,所以它們是指數(shù)(這里是e的指數(shù))
太棒了! !我們有三個(gè)樣本的標(biāo)準(zhǔn)化因子旭寿,現(xiàn)在我們要做的就是把原始的reads除以它們。