這是一篇2018年發(fā)表在NBT上的文章婚夫,講述的是兩套單細(xì)胞數(shù)據(jù)如何去除批次效應(yīng)
文章鏈接:
https://www.nature.com/articles/nbt.4091
前言
由于不同的實驗室焊夸,以及各個技術(shù)人員手法不同创葡,在測單細(xì)胞RNA-seq的時候往往會造成批次效應(yīng)空执,從而影響到細(xì)胞亞群的分類改备。
作者提出了基于高維表達(dá)空間中mutual nearest neighbors (MNNs)的檢測方法來進(jìn)行批處理校正。 作者提出來的方法并不依賴批次之間預(yù)定義或相等的種群組成矗积。而傳統(tǒng)的RNA-seq去除批次效應(yīng)往往依賴于廣義線性模型全肮,挖掘潛在的協(xié)變量(批次效應(yīng)因子),并將它去除棘捣。但是對于單細(xì)胞數(shù)據(jù)來說辜腺,由于單細(xì)胞的維數(shù)更高,數(shù)據(jù)量更龐大乍恐,并且像10X這樣的測序手段评疗,每個細(xì)胞的異質(zhì)性比較大,所以用廣義線性模型去除批次效應(yīng)并不理想茵烈。這里有傳送門:關(guān)于批次效應(yīng)的若干問題
在scRNA-seq研究中百匆,批次之間的種群組成通常不同。即使每批中存在相同的細(xì)胞類型呜投,數(shù)據(jù)集中每種細(xì)胞類型的豐度也會根據(jù)過程的細(xì)微差異(造成這種細(xì)微差異的原因可能是細(xì)胞培養(yǎng)或組織提取加匈,解離和分選)
作者提出了一種新的方法,該方法定義了批次之間最相似的相同類型細(xì)胞仑荐,根據(jù)批次之間這些最相似的細(xì)胞來消除生物學(xué)相關(guān)批次之間的差異
因此雕拼,作者提出了一種矯正scRNA-seq的算法:MNN
原理
首先,Batch 1 和 Batch 2 是兩個批次的scRNA-seq粘招,而不同顏色表示不同的細(xì)胞類群(對應(yīng)顏色和字符啥寇,x 對應(yīng) x' ,y 對應(yīng) y')男图。
該算法的步驟為:
-
對數(shù)據(jù)進(jìn)行余弦歸一化
其中式子中的 Yx 表示的是 cell x 的表達(dá)矩陣向量 對余弦歸一化后的數(shù)據(jù)計算細(xì)胞間的歐式距離(利用每個細(xì)胞的表達(dá)譜向量計算細(xì)胞間距離)
-
進(jìn)行鄰近處理
此時示姿,軟件在兩個 Batch 之間找最鄰近的細(xì)胞類群,比方說 Batch 1 的 x' 與 Batch 2 的 x 最鄰近逊笆,Batch 1 的 y' 與 Batch 2 的 y 最鄰近
作者將這些兩個 Batch 之間最鄰近的細(xì)胞類群解釋為盡管屬于不同批次但仍屬于相同細(xì)胞類型或狀態(tài)的細(xì)胞栈戳。
也就是說,兩個 Batch 之間距離最近的兩個細(xì)胞類群难裆,作者仍然把它們看為是同一細(xì)胞類群(忽略批次效應(yīng)帶來的影響) -
對細(xì)胞類群進(jìn)行批次矯正子檀,用高斯核函數(shù)計算兩個 Batch 之間距離最近的兩個細(xì)胞類群,因為作者仍然把它們看為是同一細(xì)胞類群乃戈,所以這兩個Batch 之間褂痰,距離最近的兩個細(xì)胞類群之間的距離即為批次效應(yīng)所帶來的影響
- 將 Batch 2 的細(xì)胞統(tǒng)一減去這一批次效應(yīng)的差異距離,即可投射在 Batch 1 所在的平面內(nèi)症虑,這樣批次效應(yīng)就去除了
如果有 Batch 3 缩歪,重復(fù)上述步驟即可
MNN算法的基本假設(shè)
我們對MNN對的使用涉及三個假設(shè):
(i). 兩個批次中至少存在一個細(xì)胞群在兩個批次中是同一細(xì)胞群
(ii). 批次效應(yīng)幾乎與生物學(xué)子空間正交
(iii). 批次效應(yīng)變化為比不同細(xì)胞類型之間的生物效應(yīng)差異要小得多
結(jié)果比較
作者比較了不去除批次效應(yīng)的數(shù)據(jù),以及利用MNN谍憔,limma和ComBat等軟件去除批次效應(yīng)的結(jié)果匪蝙,可以看到利用MNN去除批次效應(yīng)后主籍,細(xì)胞聚類更為密切
軟件運用
軟件在Github上有:https://github.com/MarioniLab/MNN2017
或者利用R包:batchelor也可以
library(batchelor)
result = mnnCorrect(A1,A2)
#A1,A2為兩個批次的單細(xì)胞表達(dá)矩陣