ArchR官網(wǎng)教程學(xué)習(xí)筆記2:基于ArchR推測Doublet

系列回顧:
ArchR官網(wǎng)教程學(xué)習(xí)筆記1:Getting Started with ArchR

(一)什么是Doublets?

單細(xì)胞數(shù)據(jù)的一個(gè)主要問題是“doublets”對分析的影響撑毛。doublets是指單個(gè)液滴捕獲了一個(gè)barcoded珠和多于一個(gè)的核书聚。這就導(dǎo)致了從多個(gè)細(xì)胞讀取的reads顯示為單個(gè)細(xì)胞,該細(xì)胞實(shí)際上是兩個(gè)細(xì)胞的平均值藻雌。在本章中雌续,我們將用計(jì)算方法去除這些doublet,并詳細(xì)描述去除doublet的過程胯杭。

(二)ArchR是如何識(shí)別Doublets的驯杜?

在任何平臺(tái)上生成的單細(xì)胞數(shù)據(jù)都容易受到doublets的影響。doublets是指單個(gè)液滴接收一個(gè)barcode珠和一個(gè)以上的核做个。在10x平臺(tái)下鸽心,總“細(xì)胞”中的doublets實(shí)際上與加載到反應(yīng)中的細(xì)胞數(shù)成正比滚局。即使使用標(biāo)準(zhǔn)試劑盒產(chǎn)生的較低水平的doublets,也有超過5%的數(shù)據(jù)可能來自doublets顽频,這對聚類產(chǎn)生了重大影響藤肢。這個(gè)問題在發(fā)育/軌跡數(shù)據(jù)的背景下變得問題會(huì)嚴(yán)重的多,因?yàn)閐oublets看起來像是兩種細(xì)胞類型之間的混合物糯景,這可能會(huì)與中間細(xì)胞類型或細(xì)胞狀態(tài)相混淆嘁圈。

為了預(yù)測哪些“細(xì)胞”實(shí)際上是doublets,我們合成doublets(通過混合成千上萬個(gè)單獨(dú)細(xì)胞組合數(shù)據(jù))蟀淮。然后將這些合成的doublets投射到UMAP中最住,并識(shí)別它們的近鄰。通過數(shù)千次重復(fù)這一過程灭贷,我們可以在數(shù)據(jù)中識(shí)別出和duoblets信號非常相似的“細(xì)胞”温学。

為了開發(fā)和驗(yàn)證ArchR的doublet識(shí)別,我們從10個(gè)基因不同的細(xì)胞系的混合pool中生成了scATAC-seq數(shù)據(jù)甚疟。在scATAC-seq中仗岖,這10個(gè)細(xì)胞系應(yīng)該形成10個(gè)不同的clusters,但當(dāng)我們故意過量增加10xGenomics的scATAC-seq反應(yīng)览妖,每個(gè)反應(yīng)靶標(biāo)25000個(gè)細(xì)胞轧拄,許多的doublets居然消失了。我們知道這些是doublets因?yàn)槲覀冇?demuxlet 來識(shí)別含有來自兩種不同細(xì)胞基因型的液滴讽膏。

在通過計(jì)算去除了doublets后檩电,數(shù)據(jù)結(jié)構(gòu)與我們預(yù)期的是符合的:

(三)代碼操作:去除doublets

默認(rèn)情況下,ArchR使用doublet 參數(shù)府树。我們鼓勵(lì)所有用戶檢查去除前后的數(shù)據(jù)俐末,以了解doublet 去除是如何影響細(xì)胞的。下面我們將展示一些主要的可調(diào)節(jié)的特性奄侠。

在ArchR中卓箫,使用addDoubletScores()在單個(gè)步驟中執(zhí)行doublets移除。它會(huì)把推斷的doublet分?jǐn)?shù)添加到每個(gè)Arrow file 中垄潮,每個(gè)樣品大概花大約2-5分鐘來處理烹卒。你可以嘗試使用?addDoubletScores來查看有關(guān)doublets識(shí)別參數(shù)的文檔。

> doubScores <- addDoubletScores(
  input = ArrowFiles,
  k = 10, #Refers to how many cells near a "pseudo-doublet" to count.
  knnMethod = "UMAP", #Refers to the embedding to use for nearest neighbor search with doublet projection.
  LSIMethod = 1
)
#運(yùn)行的時(shí)候會(huì)彈出很多信息:
ArchR logging to : ArchRLogs\ArchR-addDoubletScores-537c1086681d-Date-2020-11-18_Time-11-36-10.log
If there is an issue, please report to github with logFile!
2020-11-18 11:36:10 : Batch Execution w/ safelapply!, 0 mins elapsed.
2020-11-18 11:36:10 : scATAC_BMMC_R1 (1 of 3) :  Computing Doublet Statistics, 0 mins elapsed.
scATAC_BMMC_R1 (1 of 3) : UMAP Projection R^2 = 0.98315
2020-11-18 11:39:13 : scATAC_CD34_BMMC_R1 (2 of 3) :  Computing Doublet Statistics, 3.051 mins elapsed.
Biased Clusters : Cluster12 
scATAC_CD34_BMMC_R1 (2 of 3) : UMAP Projection R^2 = 0.9736
2020-11-18 11:41:26 : scATAC_PBMC_R1 (3 of 3) :  Computing Doublet Statistics, 5.266 mins elapsed.
scATAC_PBMC_R1 (3 of 3) : UMAP Projection R^2 = 0.97657
ArchR logging successful to : ArchRLogs\ArchR-addDoubletScores-537c1086681d-Date-2020-11-18_Time-11-36-10.log

在上面代碼運(yùn)行后的輸出文件中弯洗,ArchR報(bào)告了每個(gè)Arrow file的UMAP投影的R2值旅急。如果這些R2值非常低(比如小于0.9),這通常表明Arrow file中的細(xì)胞具有很小的異質(zhì)性牡整。這使得doublets calling的準(zhǔn)確性變差了藐吮,因?yàn)榇蠖鄶?shù)的doublets都是“同型的”(homotypic)——或者是帶有兩個(gè)非常相似細(xì)胞的單個(gè)液滴。在這些情況下,我們建議跳過doublets預(yù)測炎码∶顺伲或者赋访,你可以嘗試設(shè)置knnMethod =“LSI”和force = TRUE(在LSI中執(zhí)行投影)浓体。但是牵啦,你應(yīng)該手動(dòng)評估結(jié)果,并確保其如你預(yù)期的那樣執(zhí)行歉闰。

添加doublets分?jǐn)?shù)將在“QualityControl”文件夾中創(chuàng)建plot圖。在每個(gè)樣品文件夾中各有3個(gè)plots(實(shí)際上3個(gè)plot合并到了一個(gè)pdf文件里):

1.Doublet Enrichments - 這些代表了在每個(gè)細(xì)胞附近的模擬doublets的富集程度卓起,與我們的預(yù)期相比和敬。
2.Doublet Scores - 代表了在每個(gè)單細(xì)胞附近模擬的doublets與預(yù)期相比的顯著性(-log10(binomial adjusted p-value)) 。我們發(fā)現(xiàn)這個(gè)值與Doublet Enrichments不一樣戏阅,所以使用Doublet Enrichments來進(jìn)行doublets的鑒定昼弟。
3.Doublet Density - 表示doublets的密度,表示duoblet在二維空間的投影奕筐。

下面是三個(gè)樣品的結(jié)果圖:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載舱痘,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。
  • 序言:七十年代末离赫,一起剝皮案震驚了整個(gè)濱河市芭逝,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌渊胸,老刑警劉巖旬盯,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異翎猛,居然都是意外死亡胖翰,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門切厘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來萨咳,“玉大人,你說我怎么就攤上這事迂卢∧诚遥” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵而克,是天一觀的道長靶壮。 經(jīng)常有香客問我,道長员萍,這世上最難降的妖魔是什么腾降? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮碎绎,結(jié)果婚禮上螃壤,老公的妹妹穿的比我還像新娘抗果。我一直安慰自己,他們只是感情好奸晴,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布冤馏。 她就那樣靜靜地躺著,像睡著了一般寄啼。 火紅的嫁衣襯著肌膚如雪逮光。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天墩划,我揣著相機(jī)與錄音涕刚,去河邊找鬼。 笑死乙帮,一個(gè)胖子當(dāng)著我的面吹牛杜漠,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播察净,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼驾茴,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了塞绿?” 一聲冷哼從身側(cè)響起沟涨,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎异吻,沒想到半個(gè)月后裹赴,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡诀浪,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年棋返,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片雷猪。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡睛竣,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出求摇,到底是詐尸還是另有隱情射沟,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布与境,位于F島的核電站验夯,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏摔刁。R本人自食惡果不足惜挥转,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧绑谣,春花似錦党窜、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至暇务,卻和暖如春泼掠,著一層夾襖步出監(jiān)牢的瞬間怔软,已是汗流浹背垦细。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留挡逼,地道東北人括改。 一個(gè)月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像家坎,于是被迫代替她去往敵國和親嘱能。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容