Preface
隨著單細胞測序技術的迅猛發(fā)展和市場的不斷下沉,越來越多的研究人員都青睞于使用該技術來闡明一些生物學或醫(yī)學問題挥吵,使通過傳統(tǒng)bulk-RNA測序無法解決的事情得以實現(xiàn)成為可能,如細胞圖譜的繪制偿乖、稀有細胞的鑒定與識別冶伞、細胞發(fā)育/分化軌跡的構建、腫瘤的精細化研究等筑凫。與此同時,也產生了海量的單細胞數(shù)據(jù)并村,而這些數(shù)據(jù)通常來源于不同的實驗室巍实,具有不同的構建時間、不同的操作人員以及不同的試劑批次等等哩牍。上述差異往往會對數(shù)據(jù)的合并造成嚴重的影響棚潦,導致批次效應的出現(xiàn),進而干擾對真實的生物學效應的鑒別膝昆,因此丸边,如何將不同來源的數(shù)據(jù)完美地系在一起一直是一個復雜的、具有挑戰(zhàn)性的問題荚孵。在過去的十幾年間妹窖,有數(shù)十種數(shù)據(jù)整合方法相繼被開發(fā)出來,它們基于不同的原理或應用場景實現(xiàn)對數(shù)據(jù)的合并收叶,在保留生物學差異的同時盡可能地去除批次效應骄呼。這里,我們選擇了一些比較常見的工具或方法滔驾,包含ComBat谒麦、BBKNN、Seurat CCA哆致、Seurat RPCA绕德、Harmony、LIGER摊阀、fastMNN耻蛇、Conos踪蹬、Scanorama總共9種,通過應用于同一套數(shù)據(jù)對其進行比較臣咖。
Results
01?Preprocessing
對于每一個獨立的樣本跃捣,我們遵循 Seurat 標準分析流程進行預處理,并且依據(jù)已知的Marker基因和SingleR[1] 預測的細胞類型結果對其進行注釋夺蛇,然后將所有數(shù)據(jù)合并在一起疚漆,分別保存為RDS和Anndata對象以供后續(xù)使用。以其中一例樣本進行演示 (10x, pbmc_1k)刁赦。讀取數(shù)據(jù)創(chuàng)建Seurat對象娶聘,過濾表達基因數(shù)低于200、線粒體基因占比高于5%的細胞甚脉;然后對表達矩陣做標準化處理丸升,結合高變基因(HVGs, High Variable Genes)使用PCA降維,選取前20個主成分(PCs, Principal Components) 進行后續(xù)的聚類及可視化牺氨,并使用SingleR對細胞進行注釋狡耻;最后,結合已知的細胞特異性Marker進行注釋的校驗 (Figure1)猴凹。
02?unIntegration
按照如上方法對每個樣本進行單獨處理孵淘,然后合并所有樣本蒲障。首先歹篓,我們在未矯正的情況下直接對數(shù)據(jù)進行分析,并按照不同的標簽進行分組揉阎,如數(shù)據(jù)來源庄撮、細胞類型等 (Figure2)。其中毙籽,為了方便理解及簡化后續(xù)分析洞斯,我們將細分的細胞類型簡單合并,例如?pre-B_cell_CD34- , pro-B_cell_CD34+?和?B cell?統(tǒng)稱為B細胞坑赡。
03?Seurat CCA
首先使用Seurat-CCA[2]的方法進行數(shù)據(jù)整合。該方法主要通過CCA(Canonical Correlation Analysis) 來對原始數(shù)據(jù)進行降維處理并且捕獲其中的數(shù)據(jù)特征螟加,從而實現(xiàn)數(shù)據(jù)的對齊徘溢,減少批次效應的影響 (Figure4)吞琐。主要步驟包括使用CCA生成亞空間,然后在亞空間內識別互近鄰對然爆,最后將這些互近鄰對作為“錨點”來調整表達值站粟,返回一個矯正的基因表達矩陣。這里曾雕,我們選取了前3000個HVGs奴烙,通過函數(shù) Seurat::FindIntegrationAnchors(reduction='cca') 計算錨點,然后通過 Seurat::IntegrateData 整合數(shù)據(jù)剖张,輸出的結果用于進一步的分析和繪圖缸沃。
04?Seurat RPCA
接下來我們使用Seurat中另一種用于數(shù)據(jù)整合的方法——RPCA(Reciprocal PCA)哄芜,該方法使用RPCA而非CCA來識別數(shù)據(jù)集錨點。使用該方法確定任意數(shù)據(jù)集之間的錨點時柬唯,會將每個數(shù)據(jù)集投影到其他PCA空間中认臊。在分析上,Seurat-RPCA和Seurat-CCA并無太大區(qū)別锄奢。