文獻標題:DoubletFinder: Doublet Detection in Single-Cell RNA Sequencing Data Using Artificial Nearest Neighbors
發(fā)表時間:April 03, 2019
發(fā)表雜志:Cell Systems(IF=8.673)
原文鏈接:https://doi.org/10.1016/j.cels.2019.03.003
摘要
單細胞RNA測序數(shù)據(jù)通常容易受doublets引入的技術(shù)誤差影響检号,這一現(xiàn)象限制了單細胞技術(shù)種的細胞通量,并且可能導(dǎo)致欺騙性的下游分析結(jié)果。作者開發(fā)了DoubletFinder沮尿,利用基因表達數(shù)據(jù)鑒定doublets叁丧。DoubletFinder通過隨機選取細胞對組成人造doublets咳蔚,根據(jù)每個真實細胞在基因表達空間中與人造doublets的接近程度來預(yù)測doublets端三。作者首先利用已知doublets信息的單細胞數(shù)據(jù)來展示DoubletFinder如何鑒定由轉(zhuǎn)錄特征不同的細胞形成的doublets耕挨,在移除這些doublets后细卧,差異表達分析得到了改善。其次筒占,作者提供了一種方法估計DoubletFinder的輸入?yún)?shù)贪庙,使其可以用于具有不同異質(zhì)性特點的scRNA-seq數(shù)據(jù)。最后翰苫,作者展示了DoubletFinder的”最佳實踐“止邮,并提示DoubletFinder對具有”雜交“(hybrid)轉(zhuǎn)錄特征的細胞類型不敏感这橙。
引言
在高通量單細胞RNA測序?qū)嶒炛校捎诩毎潜浑S機分配到液滴或納米孔中导披,根據(jù)Poisson統(tǒng)計分布屈扎,單個液滴包含超過一個細胞(doublets或multiplets)的頻率隨著上機細胞的濃度而改變。通常撩匕,如果上樣細胞濃度較高鹰晨,發(fā)生doublets的頻率也會增加。因此止毕,單細胞實驗中的doublets事件限制了實驗時的細胞通量模蜡。
目前有一些樣本復(fù)用(multiplexing)技術(shù)被開發(fā)出來,通常是利用不同樣本的barcode或遺傳學(xué)信息(如SNP)以區(qū)分來自不同樣本的細胞滓技,以及因上樣細胞過濃而形成的doublets哩牍。然而棚潦,它們無法區(qū)分來自相同樣本的doublets令漂。
DoubletFinder原理和流程
DoubletFinder流程可以分成兩個部分:
參數(shù)選擇
- 對原始表達矩陣做基本質(zhì)控(根據(jù)UMI數(shù)、線粒體基因比例等過濾低質(zhì)量細胞)丸边,并完成Seurat一般流程叠必;
- 隨機選擇細胞對,對原始UMI值取平均妹窖,合成人造doublets纬朝,并與原數(shù)據(jù)合并,使得合成doublets占所有細胞的比例為pN骄呼。默認最大pN為25%共苛,目的是生成足夠多的人工doublets;
- 按照原數(shù)據(jù)的參數(shù)蜓萄,對合并數(shù)據(jù)重新運行Seurat流程到主成分分析(PCA)這一步隅茎。需要注意的是,在合并數(shù)據(jù)中嫉沽,不對nUMI進行線性回歸削弱辟犀,目的是保留doublets和singlets的差異;
- 將合并數(shù)據(jù)的細胞在主成分空間的嵌入信息轉(zhuǎn)換成歐幾里得距離矩陣绸硕,基于該距離矩陣定義每個細胞的最近近鄰(nearest neighbors堂竟,NN);
- 用pK表示領(lǐng)域大胁E濉(neighborhood size出嘹,例如對5,000細胞的數(shù)據(jù),pK=0.01時咬崔,相當于尋找給定細胞近鄰的200個細胞)税稼。將人造NN(artificial nearest neighbors,ANN)數(shù)除以領(lǐng)域大小,得到人造NN的比例(pANN)娶聘;
- 對不同的pN-pK組合分別計算pANN闻镶。利用 BCmvn 最大化的方法選擇最優(yōu)pK,而將pN固定為25%丸升,并利用該組合下的pANN鑒別doublets铆农;
鑒定doublets
- 根據(jù)期望doublet rate,估計總doublets數(shù)的期望值狡耻;
- (可選)根據(jù)Poisson doublet形成率估計異型來源的(heterotypic)doublets期望值墩剖。這里涉及一個同型來源(homotypic)doublets的校正步驟,同型doublets的比例(pHomo)等于每個細胞類型頻率的平方和夷狰。將1-pHomo作為異型doublets的頻率pHeter岭皂,計算異型doublets的期望數(shù)量;
- 根據(jù)doublets的期望數(shù)設(shè)置pANN的閾值沼头,鑒定并去除doublets爷绘。
關(guān)于BCmvn
在數(shù)據(jù)分布中,BC(bimodality coefficient)用來衡量與單峰分布的偏離程度进倍。在DoubletFinder里土至,作者假設(shè)最優(yōu)的pK-pN組合應(yīng)該使得pANN呈非單峰分布,也就是說doublet(pANN偏大)和singlet(pANN偏谢ァ)能夠截然分成兩個峰陶因。對于每個pK-pN組合都可以根據(jù)pANN的分布計算BC值。對給定pK值下的所有pN(例如從5%到25%)垂蜗,計算BC值的均值 楷扬,以及方差 ,二者相除得到 BCmvn 值贴见,選取最大值所代表的pK作為最優(yōu)pK烘苹。
結(jié)果
作者以Demuxlet和cell hashing的數(shù)據(jù)作為已知doublet信息(即Ground-truth)的參考,評估DoubletFinder的表現(xiàn)蝇刀。
首先作者評估了pN和pK對分類準確性的影響螟加,結(jié)果發(fā)現(xiàn)單純改變pN參數(shù)幾乎不影響分類效果,因此默認設(shè)置為25%吞琐,為的是生成足夠多的人工doublets捆探。相反,pK過小或過大都會使分類準確性下降站粟。我的理解是黍图,如果doublets本身的表達譜差異較大,pK過小時奴烙,相當于只能找到和人工doublets相似度較高的doublets助被,假陰性率會增加剖张;而pK過大到一定程度時,每個細胞的pANN就被稀釋了揩环。因此pK需要根據(jù)不同數(shù)據(jù)集進行優(yōu)化(圖1C)搔弄。
作者接下來還測試了DoubletFinder和nUMI的分類效果,發(fā)現(xiàn)DoubletFinder顯著優(yōu)于nUMI丰滑,并且即使二者聯(lián)合后也幾乎和單獨使用DoubletFinder沒有差別(圖1D)顾犹。
Ground-truth數(shù)據(jù)包含樣本內(nèi)和樣本間doublets,而Demuxlet鑒定的是樣本間doublets褒墨,因此作者需要結(jié)合期望的doublet rate增加樣本內(nèi)doublets的估計數(shù)量炫刷。最后的結(jié)果顯示DoubletFinder在Demuxlet的基礎(chǔ)上發(fā)現(xiàn)了某些來自樣本內(nèi)、不同細胞類型組成的doublets郁妈,但似乎對同型doublets的鑒定效果不佳(圖1E浑玛、F)。
最后噩咪,作者比較了doublet去除前后對差異表達分析的影響顾彰,意料之中地,去除doublet后各個細胞類型能鑒定出額外的差異基因剧腻。
作者同樣測試了細胞聚類數(shù)和聚類區(qū)分度對DoubletFinder的影響(圖2A拘央、B)。當數(shù)據(jù)中細胞類型較少時书在,pK對結(jié)果的影響不大,而隨著細胞類型的增多拆又,過大的pK反而降低分類的準確性儒旬,因此更加強調(diào)了參數(shù)優(yōu)化的重要性。而當數(shù)據(jù)的異質(zhì)性不大(例如pDE為0.5%)時帖族,無論pK如何改變栈源,其分類效果都不是很好,這也再次強調(diào)了DoubletFinder不適用于異質(zhì)性較低的數(shù)據(jù)集竖般,例如經(jīng)過分選純化的單一細胞類型樣本甚垦。
最后,作者使用真實數(shù)據(jù)測試了DoubletFinder對下游差異表達分析的改善情況涣雕。這套數(shù)據(jù)中包含一類經(jīng)過實驗驗證的新細胞類型(CDTC)艰亮,它同時表達CDIC和CDPC的marker基因,DoubletFinder準確地講64%的CDTC鑒定為singlets挣郭。在校正了同型doublets比例后迄埃,97%的CDTC都被鑒定為singlets。
討論
總的來說兑障,DoubletFinder適用于鑒定來自不同樣本或不同細胞類型的doublets侄非,因為這些doublets具有與singlets明顯不同的轉(zhuǎn)錄組特征蕉汪。對于同型doublets,DoubletFinder的表現(xiàn)較差逞怨。作者認為者疤,與Demuxlet或Cell Hashing聯(lián)合使用能幫助鑒定出來自不同樣本的同型doublets,一定程度上彌補DoubletFinder的缺陷叠赦。但我個人認為宛渐,用到這兩個技術(shù)的單細胞文獻確實也不多,作者的想法可能最多也就稍微解決一下上樣濃度過大的問題眯搭,通俗的說就是擠牙膏般地省一些科研經(jīng)費……
和Scrublet文章的觀點類似窥翩,同型doublets本身難以通過NN的方式對下游分析的影響一般比異型doublets小得多,為了防止doublet效應(yīng)的過度校正(假陽性率過高)鳞仙,兩種方法都傾向于保留這部分細胞寇蚊。DoubletFinder給出了估計同型doublets比例的選項,并提出預(yù)先對細胞類型做注釋可能有助于更準確地估計同型doublets棍好≌贪叮總之,感覺就是你需要在下游分析出問題的時候時不時回顧前期的質(zhì)控借笙。