問題
怎么去doublet选侨?挑選出某一大類做小類降維聚類的時候,有人仍然會檢查一下各種大類marker的表達情況然走,這一步是否有必要援制?
1
最有效的方法還是從上游入手,控制細胞數(shù)以及優(yōu)化測序之前的流程芍瑞。
2
不過分析數(shù)據(jù)的人只能從分析的角度來看了晨仑。
一般我會先用軟件預(yù)測,可以參考我之前寫的一篇帖子:單細胞分析實錄(4): doublet檢測拆檬。
這里引出一個問題洪己,去doublet是在哪一步進行:
- 跑完cellranger得到矩陣,去doublet竟贯,基本QC(基因數(shù)答捕、UMI數(shù)等等)...
- 跑完cellranger得到矩陣,基本QC(基因數(shù)屑那、UMI數(shù)等等)拱镐,去doublet...
兩種應(yīng)該差別不大。我一般是第一種持际,考慮到基本QC可能會來回換幾次閾值沃琅,所以基本QC這一步應(yīng)該相對靠后,省得再跑doublet這一步
軟件一般我會用多個选酗,兩個軟件同時報告為doublet的cellular barcode阵难,我會挑出來去掉。
3
除此之外芒填,我還會用一些經(jīng)典的marker來找doublet呜叫。(這種方法也能用來注釋細胞)
celltype_marker=c(
"Epcam",#上皮細胞 epithelial
"Pecam1","Cdh5",#內(nèi)皮細胞 endothelial
"Pdgfra","Col1a1","Col3a1",#成纖維細胞 fibroblasts
"Fcgr1","Cd163","Aif1","Cd68",#髓系細胞 myeloid
"Ms4a1",#B細胞
"Cd3g","Cd3e",#T細胞
"Ncr1",#NK細胞
"Ptprc"#免疫細胞
)
VlnPlot(allseu,features = celltype_marker,pt.size = 0,ncol = 2)
類似這樣空繁,如果某群cluster表達了不太可能同時出現(xiàn)的gene,則有可能是doublet朱庆。當(dāng)然也要憑借一些經(jīng)驗盛泡,比如成纖維的marker可能在內(nèi)皮細胞中有一定程度的表達,CD4(一個基因)可能在髓系細胞中有一定程度的表達娱颊,這是可能的傲诵。但T細胞高表達EPCAM,我是不相信的箱硕。
4
還有一個經(jīng)驗之談:用marker鑒定doublet的時候拴竹,被鑒定出來的doublet(這是前提
),可能單獨聚出來成為一個小團剧罩,也有可能看上去像是連接某兩個亞群的橋梁栓拜。
5
另外,上述都是針對大類clustering的描述惠昔,做小類的reclustering的時候幕与,我一般不考慮去小類之間的doublet,一是因為很難區(qū)分镇防,二是小類之間的doublet形成概率比大類doublet形成概率低很多啦鸣。
6
還有一種情況(比較少見),是樣本之間的doublet来氧。這時诫给,利用SNP可以比較精確地區(qū)分出sample1, sample2, 以及doublet(sample1+sample2)。
目前已經(jīng)有一些工具可以從scRNA-seq數(shù)據(jù)中獲取少量SNP信息啦扬,并達到上述目的蝙搔,比如Souporcell(原文https://www.nature.com/articles/s41592-020-0820-1),準確性還可以考传。
但多數(shù)情況還是一個樣本一測吃型,這種思路可行性不大。
回到第2個小問題
挑選出某一大類做小類降維聚類的時候僚楞,有人仍然會檢查一下各種大類marker的表達情況勤晚,這一步是否有必要?
很有必要泉褐。在做reclustering這一步的時候赐写,檢查大類marker的表達,我經(jīng)常會看到其他大類細胞(或者是這類細胞與其他大類細胞組成的doublet)亂入膜赃。之前沒做過這一步的朋友挺邀,可以試試,會有驚喜(嚇)。
這時最嚴謹?shù)淖龇ㄊ前褋y入的其他大類細胞放回它應(yīng)該去的地方,單細胞聚類注釋就是一個“分分合合”的過程,也是最耗時最繁瑣的過程测蹲。
如果數(shù)量不多畸肆,直接去掉鸟悴,影響也不大。
如果是這類細胞與其他大類細胞組成的doublet,直接去掉。