作者:Holiday
審稿:童蒙
編輯:amethyst
引言
對不同技術和實驗平臺產生的各種各樣的單細胞測序數(shù)據(jù)進行深入的比較疲憋,在目前看來,仍然存在著一定的難度迅腔。這篇文章主要利用不同平臺獲取的數(shù)據(jù)装畅,通過選擇和比較不同的分析方法,最終為得到準確生物學解釋算法提供指導沧烈。使用兩種背景明確的細胞樣本(乳腺癌細胞和B細胞)掠兄,采取單獨捕獲以及群體捕獲的方法,在多個中心使用不同的單細胞平臺獲取的單細胞樣本數(shù)據(jù)锌雀,最終一共獲取24個數(shù)據(jù)集蚂夕。之后,對多種不同的預處理方法腋逆、標準化方法婿牍,批次效應矯正方法分別進行評估,來看各種方法對數(shù)據(jù)集的處理效果惩歉。
研究背景
研究對象
選擇來自同一個人的不同細胞類型:B細胞和乳腺癌細胞等脂,使用不同的平臺進行單獨捕獲和混細胞捕獲。
使用多種單細胞平臺和多個測序中心
四種單細胞平臺:
- 10X
- Fluidigm C1 HT
- Fluidigm C1
- ICELL8
四個測序中心:
- Loma Linda University (LLU),
- the National Cancer Institute (NCI)
- the US Food and Drug Administration (FDA)
- Takara Bio USA (TBU)
測序結果
所有樣品的測序結果如下:
其中每列為:
平臺:不同的單細胞平臺撑蚌;
文庫:建庫的文庫類型上遥,分別有3'文庫和全長文庫;
sampleID:樣本編號争涌,使用下劃線鏈接粉楚,第一組信息為單細胞平臺,第二組信息為測序中心亮垫,第三組信息為細胞類型(A->癌細胞模软,B->B細胞系,Mix->混合樣本)饮潦;
細胞類型:B細胞燃异,癌細胞,或者使用5%癌細胞+95%B細胞继蜡;
測序儀:測序儀類型特铝;
測序讀長:樣本的測序長度暑中;
細胞數(shù):測序后捕獲到的細胞數(shù)量;
單細胞內reads中值:每個細胞中獲取到的reads的中位數(shù)鲫剿。
測評流程
對預處理流程鳄逾、標準化方法、批次效應鑒定以及生物學意義等方面進行全面的測評灵莲,流程圖如下:
結論
預處理效果評估
預處理流程分為10X文庫和非10X文庫的處理雕凹,如上圖所示:
10X文庫的預處理流程效果
圖a是不同軟件處理后得到的細胞數(shù),橫坐標為樣本名政冻,縱坐標為細胞數(shù)枚抵;
圖b是不同軟件處理后的單細胞中表達的基因數(shù)量,橫坐標為樣本名明场,縱坐標為單個細胞中檢測到的基因數(shù)量汽摹;
圖c是兩兩軟件相關性圖。
結論:
- CellRanger軟件在細胞數(shù)量鑒定中最為靈敏苦锨;
- UMI-tools和zUMIs軟件過濾掉比較多的基因表達量低等細胞逼泣,但是獲取到的基因數(shù)量最多的;
- UMI-tools和zUMI軟件相關性比較高舟舒。
最終選用Cell Range 3.1 處理10X文庫(UMI-文庫)進行后續(xù)分析拉庶。
非10X文庫的預處理流程效果
圖d是不同軟件處理非10X文庫得到的單細胞中的表達基因數(shù)量,橫坐標為樣本名(其中由C1_LLU和ICELL8的均為全長轉錄組文庫)秃励,縱坐標為表達基因數(shù)量氏仗;
圖e是兩兩軟件之間的相關性。
結論:
三個流程處理后的數(shù)據(jù)差異比較大夺鲜,其中featureCounts和RSEM流程相關性較高皆尔;
全長轉錄組文庫鑒定到的基因數(shù)相對3’文庫要更多。
標準化流程效果評估
使用8種方法進行標準化處理币励,使用Sihouette指標進行評估床佳,用于評估聚類效果。
使用14個數(shù)據(jù)集(B細胞或者癌細胞樣本)進行標準化處理流程的評估榄审,如上圖。
a-g分別表示不同數(shù)據(jù)集的結果杆麸,橫坐標為未處理和不同標準化流程搁进,縱坐標為Sihouette score。
結論:
TMM和quantitle結果最差昔头,不建議使用饼问;
Sctreansform 流程處理后的數(shù)據(jù)方差最小。
批次效應處理效果評估
一共使用7種算法處理批次效應揭斧,從兩個維度(clusterability和mixability)進行評估莱革。
分別使用:
1)20個數(shù)據(jù)集:評估算法/軟件的clusterability峻堰;
2)10X 癌細胞文庫 :評估算法/軟件的mixability;
3)10X B細胞文庫:評估算法/軟件的mixability盅视;
4)10X 混合細胞文庫:評估算法/軟件的clusterability捐名。
其中:
clusterability:聚類程度,不同的細胞類型是否能夠很好的區(qū)分開闹击;
mixability:混合程度镶蹋,不同批次的相同細胞類型是否能夠聚類到一起。
clusterability評估聚類效果
圖a,d 分別表示20個數(shù)據(jù)集以及10X混樣數(shù)據(jù)集去除批次效應的結果赏半。其中贺归,不同顏色表示不同的樣本,最坐標的ideal為理想的聚類結果断箫。圖e是不同軟件處理20個數(shù)據(jù)集數(shù)據(jù)的結果(對應上面的圖a)拂酣;圖f是不同軟件處理10X混合樣本數(shù)據(jù)的結果(對應上面的圖d)。橫坐標為不同軟件仲义,Uncorrected為未處理數(shù)據(jù)的結果婶熬,縱坐標為Sihouette score,score越高表示該方法的批次效應處理效果越好光坝。
結論:
BBKNN尸诽,Harmony,fastMNN 在20個數(shù)據(jù)集中去除批次效應結果較好;
10X數(shù)據(jù)中BBKNN處理效果最好盯另,其次是Seurat 3性含;
limma和ComBat在兩個數(shù)據(jù)集中的表現(xiàn)均不是很優(yōu)秀。
mixability評估聚類效果
圖b為不同軟件對10X -乳腺癌細胞文庫去除批次效應后的結果鸳惯;圖c為不同軟件處理10X-B細胞文庫去除批次效應后的結果商蕴;圖g為不同軟件處理10X-乳腺癌細胞文庫去除批次效應后的sihouette score;圖h為不同軟件10X-B細胞文庫去除批次效應后的sihouette score芝发。
結論:
Harmmony和Seurat的表現(xiàn)較優(yōu)
BBKNN在B細胞上表現(xiàn)更優(yōu)
limma和Combat在B細胞中的去除批次效應效果更優(yōu)
整體評估結果
綜合評估各個算法/軟件的處理效果:
使用四個評估指標對單細胞處理流程中的三個步驟(數(shù)據(jù)預處理绪商,標準化和批次效應處理)進行評估,點越大表達該方法越好辅鲸。
總結
該文章總結出了一個指導方案格郁,如下圖:
如何選擇預處理流程?
如果是UMI-文庫独悴,使用zUMIs例书,CellRanger進行數(shù)據(jù)預處理,如果是非UMI文庫則使用kallisto等算法刻炒。
如何選擇標準化處理流程决采?
不推薦使用TMM和quantile,其余4種算法可以依次進行選擇坟奥。
如何選擇批次效應處理流程树瞭?
1.如果樣本特征比較相似拇厢,推薦使用Seurat3、Harmony晒喷、astMNN孝偎,如果是10X文庫,也可以使用Scanorama厨埋;
2.如果樣本間有共有的細胞類型(例如不同批次的5%癌細胞和B細胞)則選擇Harmony邪媳、fastMNN、Seurat3荡陷,如果是10X文庫雨效,也可以使用Scanorama;
- 如果樣本間的細胞類型差異比較大(例如分別是B細胞或者是癌細胞)則使用BBKNN废赞,Harmony徽龟,不推薦使用Seurat3。
參考文獻
Chen, W., Zhao, Y., Chen, X. et al. A multicenter study benchmarking single-cell RNA sequencing technologies using reference samples. Nat Biotechnol (2020). (https://doi.org/10.1038/s41587-020-00748-9)