DoubletFinder:利用人造的最近鄰域檢測單細胞RNA測序中的doublets

文獻標題:DoubletFinder: Doublet Detection in Single-Cell RNA Sequencing Data Using Artificial Nearest Neighbors

發(fā)表時間:April 03, 2019

發(fā)表雜志:Cell Systems(IF=8.673)

原文鏈接:https://doi.org/10.1016/j.cels.2019.03.003

摘要

單細胞RNA測序數(shù)據(jù)通常容易受doublets引入的技術(shù)誤差影響检号,這一現(xiàn)象限制了單細胞技術(shù)種的細胞通量,并且可能導(dǎo)致欺騙性的下游分析結(jié)果。作者開發(fā)了DoubletFinder沮尿,利用基因表達數(shù)據(jù)鑒定doublets叁丧。DoubletFinder通過隨機選取細胞對組成人造doublets咳蔚,根據(jù)每個真實細胞在基因表達空間中與人造doublets的接近程度來預(yù)測doublets端三。作者首先利用已知doublets信息的單細胞數(shù)據(jù)來展示DoubletFinder如何鑒定由轉(zhuǎn)錄特征不同的細胞形成的doublets耕挨,在移除這些doublets后细卧,差異表達分析得到了改善。其次筒占,作者提供了一種方法估計DoubletFinder的輸入?yún)?shù)贪庙,使其可以用于具有不同異質(zhì)性特點的scRNA-seq數(shù)據(jù)。最后翰苫,作者展示了DoubletFinder的”最佳實踐“止邮,并提示DoubletFinder對具有”雜交“(hybrid)轉(zhuǎn)錄特征的細胞類型不敏感这橙。

引言

在高通量單細胞RNA測序?qū)嶒炛校捎诩毎潜浑S機分配到液滴或納米孔中导披,根據(jù)Poisson統(tǒng)計分布屈扎,單個液滴包含超過一個細胞(doublets或multiplets)的頻率隨著上機細胞的濃度而改變。通常撩匕,如果上樣細胞濃度較高鹰晨,發(fā)生doublets的頻率也會增加。因此止毕,單細胞實驗中的doublets事件限制了實驗時的細胞通量模蜡。

目前有一些樣本復(fù)用(multiplexing)技術(shù)被開發(fā)出來,通常是利用不同樣本的barcode或遺傳學(xué)信息(如SNP)以區(qū)分來自不同樣本的細胞滓技,以及因上樣細胞過濃而形成的doublets哩牍。然而棚潦,它們無法區(qū)分來自相同樣本的doublets令漂。

DoubletFinder原理和流程

image

DoubletFinder流程可以分成兩個部分:

參數(shù)選擇

  1. 對原始表達矩陣做基本質(zhì)控(根據(jù)UMI數(shù)、線粒體基因比例等過濾低質(zhì)量細胞)丸边,并完成Seurat一般流程叠必;
  2. 隨機選擇細胞對,對原始UMI值取平均妹窖,合成人造doublets纬朝,并與原數(shù)據(jù)合并,使得合成doublets占所有細胞的比例為pN骄呼。默認最大pN為25%共苛,目的是生成足夠多的人工doublets;
  3. 按照原數(shù)據(jù)的參數(shù)蜓萄,對合并數(shù)據(jù)重新運行Seurat流程到主成分分析(PCA)這一步隅茎。需要注意的是,在合并數(shù)據(jù)中嫉沽,不對nUMI進行線性回歸削弱辟犀,目的是保留doublets和singlets的差異;
  4. 將合并數(shù)據(jù)的細胞在主成分空間的嵌入信息轉(zhuǎn)換成歐幾里得距離矩陣绸硕,基于該距離矩陣定義每個細胞的最近近鄰(nearest neighbors堂竟,NN);
  5. 用pK表示領(lǐng)域大胁E濉(neighborhood size出嘹,例如對5,000細胞的數(shù)據(jù),pK=0.01時咬崔,相當于尋找給定細胞近鄰的200個細胞)税稼。將人造NN(artificial nearest neighbors,ANN)數(shù)除以領(lǐng)域大小,得到人造NN的比例(pANN)娶聘;
  6. 對不同的pN-pK組合分別計算pANN闻镶。利用 BCmvn 最大化的方法選擇最優(yōu)pK,而將pN固定為25%丸升,并利用該組合下的pANN鑒別doublets铆农;

鑒定doublets

  1. 根據(jù)期望doublet rate,估計總doublets數(shù)的期望值狡耻;
  2. (可選)根據(jù)Poisson doublet形成率估計異型來源的(heterotypic)doublets期望值墩剖。這里涉及一個同型來源(homotypic)doublets的校正步驟,同型doublets的比例(pHomo)等于每個細胞類型頻率的平方和夷狰。將1-pHomo作為異型doublets的頻率pHeter岭皂,計算異型doublets的期望數(shù)量;
  3. 根據(jù)doublets的期望數(shù)設(shè)置pANN的閾值沼头,鑒定并去除doublets爷绘。

關(guān)于BCmvn

在數(shù)據(jù)分布中,BC(bimodality coefficient)用來衡量與單峰分布的偏離程度进倍。在DoubletFinder里土至,作者假設(shè)最優(yōu)的pK-pN組合應(yīng)該使得pANN呈非單峰分布,也就是說doublet(pANN偏大)和singlet(pANN偏谢ァ)能夠截然分成兩個峰陶因。對于每個pK-pN組合都可以根據(jù)pANN的分布計算BC值。對給定pK值下的所有pN(例如從5%到25%)垂蜗,計算BC值的均值 \mu_{BC} 楷扬,以及方差 \sigma^{2}_{BC} ,二者相除得到 BCmvn 值贴见,選取最大值所代表的pK作為最優(yōu)pK烘苹。

結(jié)果

image

作者以Demuxlet和cell hashing的數(shù)據(jù)作為已知doublet信息(即Ground-truth)的參考,評估DoubletFinder的表現(xiàn)蝇刀。

首先作者評估了pN和pK對分類準確性的影響螟加,結(jié)果發(fā)現(xiàn)單純改變pN參數(shù)幾乎不影響分類效果,因此默認設(shè)置為25%吞琐,為的是生成足夠多的人工doublets捆探。相反,pK過小或過大都會使分類準確性下降站粟。我的理解是黍图,如果doublets本身的表達譜差異較大,pK過小時奴烙,相當于只能找到和人工doublets相似度較高的doublets助被,假陰性率會增加剖张;而pK過大到一定程度時,每個細胞的pANN就被稀釋了揩环。因此pK需要根據(jù)不同數(shù)據(jù)集進行優(yōu)化(圖1C)搔弄。

作者接下來還測試了DoubletFinder和nUMI的分類效果,發(fā)現(xiàn)DoubletFinder顯著優(yōu)于nUMI丰滑,并且即使二者聯(lián)合后也幾乎和單獨使用DoubletFinder沒有差別(圖1D)顾犹。

Ground-truth數(shù)據(jù)包含樣本內(nèi)和樣本間doublets,而Demuxlet鑒定的是樣本間doublets褒墨,因此作者需要結(jié)合期望的doublet rate增加樣本內(nèi)doublets的估計數(shù)量炫刷。最后的結(jié)果顯示DoubletFinder在Demuxlet的基礎(chǔ)上發(fā)現(xiàn)了某些來自樣本內(nèi)、不同細胞類型組成的doublets郁妈,但似乎對同型doublets的鑒定效果不佳(圖1E浑玛、F)。

最后噩咪,作者比較了doublet去除前后對差異表達分析的影響顾彰,意料之中地,去除doublet后各個細胞類型能鑒定出額外的差異基因剧腻。

image

作者同樣測試了細胞聚類數(shù)和聚類區(qū)分度對DoubletFinder的影響(圖2A拘央、B)。當數(shù)據(jù)中細胞類型較少時书在,pK對結(jié)果的影響不大,而隨著細胞類型的增多拆又,過大的pK反而降低分類的準確性儒旬,因此更加強調(diào)了參數(shù)優(yōu)化的重要性。而當數(shù)據(jù)的異質(zhì)性不大(例如pDE為0.5%)時帖族,無論pK如何改變栈源,其分類效果都不是很好,這也再次強調(diào)了DoubletFinder不適用于異質(zhì)性較低的數(shù)據(jù)集竖般,例如經(jīng)過分選純化的單一細胞類型樣本甚垦。

最后,作者使用真實數(shù)據(jù)測試了DoubletFinder對下游差異表達分析的改善情況涣雕。這套數(shù)據(jù)中包含一類經(jīng)過實驗驗證的新細胞類型(CDTC)艰亮,它同時表達CDIC和CDPC的marker基因,DoubletFinder準確地講64%的CDTC鑒定為singlets挣郭。在校正了同型doublets比例后迄埃,97%的CDTC都被鑒定為singlets。

image

討論

總的來說兑障,DoubletFinder適用于鑒定來自不同樣本或不同細胞類型的doublets侄非,因為這些doublets具有與singlets明顯不同的轉(zhuǎn)錄組特征蕉汪。對于同型doublets,DoubletFinder的表現(xiàn)較差逞怨。作者認為者疤,與Demuxlet或Cell Hashing聯(lián)合使用能幫助鑒定出來自不同樣本的同型doublets,一定程度上彌補DoubletFinder的缺陷叠赦。但我個人認為宛渐,用到這兩個技術(shù)的單細胞文獻確實也不多,作者的想法可能最多也就稍微解決一下上樣濃度過大的問題眯搭,通俗的說就是擠牙膏般地省一些科研經(jīng)費……

和Scrublet文章的觀點類似窥翩,同型doublets本身難以通過NN的方式對下游分析的影響一般比異型doublets小得多,為了防止doublet效應(yīng)的過度校正(假陽性率過高)鳞仙,兩種方法都傾向于保留這部分細胞寇蚊。DoubletFinder給出了估計同型doublets比例的選項,并提出預(yù)先對細胞類型做注釋可能有助于更準確地估計同型doublets棍好≌贪叮總之,感覺就是你需要在下游分析出問題的時候時不時回顧前期的質(zhì)控借笙。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末扒怖,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子业稼,更是在濱河造成了極大的恐慌盗痒,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件低散,死亡現(xiàn)場離奇詭異俯邓,居然都是意外死亡,警方通過查閱死者的電腦和手機熔号,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門稽鞭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人引镊,你說我怎么就攤上這事朦蕴。” “怎么了弟头?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵吩抓,是天一觀的道長。 經(jīng)常有香客問我亮瓷,道長琴拧,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任嘱支,我火速辦了婚禮蚓胸,結(jié)果婚禮上挣饥,老公的妹妹穿的比我還像新娘。我一直安慰自己沛膳,他們只是感情好扔枫,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著锹安,像睡著了一般短荐。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上叹哭,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天忍宋,我揣著相機與錄音,去河邊找鬼风罩。 笑死糠排,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的超升。 我是一名探鬼主播入宦,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼室琢!你這毒婦竟也來了乾闰?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤盈滴,失蹤者是張志新(化名)和其女友劉穎涯肩,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體雹熬,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡宽菜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了竿报。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡继谚,死狀恐怖烈菌,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情花履,我是刑警寧澤芽世,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站诡壁,受9級特大地震影響济瓢,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜妹卿,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一旺矾、第九天 我趴在偏房一處隱蔽的房頂上張望蔑鹦。 院中可真熱鬧,春花似錦箕宙、人聲如沸嚎朽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽哟忍。三九已至,卻和暖如春陷寝,著一層夾襖步出監(jiān)牢的瞬間锅很,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工凤跑, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留爆安,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓饶火,卻偏偏與公主長得像鹏控,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子肤寝,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容