在數(shù)據(jù)分析的時(shí)候神汹,我們的目標(biāo)是一般都是找到樣本之間真實(shí)的生物學(xué)差異数尿。但是這種真實(shí)的生物學(xué)因素往往會(huì)受到各種因素影響仑性,舉幾個(gè)場景:
不同樣本
同一樣本的生物學(xué)重復(fù)
同一樣本的技術(shù)重復(fù)
同一樣本在同一個(gè)實(shí)驗(yàn)室由同一團(tuán)隊(duì)在不同時(shí)間點(diǎn)處理
同一細(xì)胞系/植物組織在不同實(shí)驗(yàn)室
不同建庫策略,10X平臺(tái)右蹦,Drop-seq,SMART2-seq
不同測序平臺(tái)诊杆,BGI/Illumina
不同分析流程(甚至一個(gè)工具的多個(gè)版本,如salmon何陆,CellRanger)
這些因素之間有些是生物學(xué)真實(shí)的差異晨汹,有些是抽樣時(shí)的隨機(jī)波動(dòng)。有些是系統(tǒng)性因素贷盲,統(tǒng)稱為批次效應(yīng)(batch effect)淘这,顧名思義,不同批次帶來的效應(yīng)巩剖。如果效應(yīng)比較小還可以接受铝穷,如果批次效應(yīng)很嚴(yán)重,就可能會(huì)和真實(shí)的生物學(xué)差異相混淆佳魔,讓結(jié)果難以捉摸曙聂。我們需要辨別到底存在多大程度的批次效應(yīng),對我們真實(shí)的生物學(xué)樣本會(huì)不會(huì)產(chǎn)生影響鞠鲜。
如下所示宁脊,這兩個(gè)數(shù)據(jù)是不同時(shí)期做的同一個(gè)細(xì)胞,幾乎沒有交集贤姆,因此榆苞,我們分析的時(shí)候需要去除批次效應(yīng)。
去除批次效應(yīng)之前:
去除批次效應(yīng)之后:
?
從直覺上講庐氮,最好是分析的過程中過濾掉這種批次效應(yīng)语稠。但是即便是同一個(gè)人對同一個(gè)樣本做的相同實(shí)驗(yàn),也有可能因?yàn)闀r(shí)間差異導(dǎo)致批次效應(yīng)弄砍,我們需要對這種數(shù)據(jù)集進(jìn)行批次效應(yīng)校正嗎?我們對批次效應(yīng)進(jìn)行校正的同時(shí)也會(huì)引入新的問題输涕,它很有可能將生物學(xué)本身的差異視為批次效應(yīng)音婶,然后將其去除。校正批次效應(yīng)的目的就是:減少batch之間的差異莱坎,盡量讓多個(gè)batch的數(shù)據(jù)相一致衣式,這樣下游分析就可以只考慮生物學(xué)差異因素。
我們更希望去除的批次效應(yīng),其實(shí)是不同實(shí)驗(yàn)室碴卧,不同建庫手段弱卡,不同測序平臺(tái)所引起的批次效應(yīng)。當(dāng)我們希望通過合并同一組織數(shù)據(jù)挖掘出更有意義的信息時(shí)住册,就不可避免的會(huì)發(fā)現(xiàn)婶博,明明是同個(gè)組織的數(shù)據(jù),表達(dá)量就是存在明顯的差異(PCA, t-SNE降維可視化)荧飞。
?
之前有人用bulk RNA-seq的方法(limma, ComBat凡人,RUVseq, svaseq)對單細(xì)胞數(shù)據(jù)進(jìn)行校正,但是這些工具的基本假設(shè)都是"bulk RNA-seq數(shù)據(jù)中的細(xì)胞組成相似"叹阔,可能適用于一些數(shù)據(jù)集挠轴,但是可推廣性不強(qiáng)(Haghverdi et al., 2018)。于是就有一些專門用于單細(xì)胞轉(zhuǎn)錄組批次校正的工具耳幢,例如:
Seurat/Integration
batchelor/FastMNN
scran/mnnCorrect
Python/BBKNN
BBER
Conos
LIGER
Harmony
最后對于不同的實(shí)驗(yàn)設(shè)計(jì)岸晦,我看帖子上大牛們推薦的批次矯正方法:
??? 技術(shù)重復(fù): ComBat
??? 細(xì)胞系,生物學(xué)重復(fù):ComBat
??? 同一個(gè)人的癌癥和癌旁組織:不校正/Harmony
??? 不同實(shí)驗(yàn)室的同一組織:Harmony
??? 同一個(gè)實(shí)驗(yàn)室做的不同人的樣本: 不校正/Harmony
學(xué)習(xí):https://blog.csdn.net/u012110870/article/details/115511818
本文使用 文章同步助手 同步