scATAC分析神器ArchR初探-ArchR中的偽批次重復(fù)處理(9)

scATAC分析神器ArchR初探-簡(jiǎn)介(1)
scATAC分析神器ArchR初探-ArchR進(jìn)行doublet處理(2)
scATAC分析神器ArchR初探-創(chuàng)建ArchRProject(3)
scATAC分析神器ArchR初探-使用ArchR降維(4)
scATAC分析神器ArchR初探--使用ArchR進(jìn)行聚類(5)
scATAC分析神器ArchR初探-單細(xì)胞嵌入(6)
scATAC分析神器ArchR初探-使用ArchR計(jì)算基因活性值和標(biāo)記基因(7)
scATAC分析神器ArchR初探-scRNA-seq確定細(xì)胞類型(8)
scATAC分析神器ArchR初探-ArchR中的偽批次重復(fù)處理(9)
scATAC分析神器ArchR初探-使用ArchR-peak-calling(10)
scATAC分析神器ArchR初探-使用ArchR識(shí)別標(biāo)記峰(11)
scATAC分析神器ArchR初探-使用ArchR進(jìn)行主題和功能豐富(12)
scATAC分析神器ArchR初探-利用ArchR豐富ChromVAR偏差(13)
scATAC分析神器ArchR初探-使用ArchR進(jìn)行足跡(14)
scATAC分析神器ArchR初探-使用ArchR進(jìn)行整合分析(15)
scATAC分析神器ArchR初探-使用ArchR進(jìn)行軌跡分析(16)

9- ArchR中的偽批次重復(fù)處理

因?yàn)閟cATAC-seq數(shù)據(jù)本質(zhì)上是二進(jìn)制的-意味著任何單個(gè)位點(diǎn)都是可訪問(wèn)的或不可訪問(wèn)的-我們經(jīng)常發(fā)現(xiàn)自己想要執(zhí)行在單個(gè)單元格上不可能進(jìn)行的分析育八。此外,我們要執(zhí)行的許多分析都需要重復(fù)進(jìn)行,以獲得具有統(tǒng)計(jì)意義的度量涡上。在單單元數(shù)據(jù)中作谚,我們通過(guò)創(chuàng)建偽批量復(fù)制來(lái)解決這些問(wèn)題配深。術(shù)語(yǔ)“ 偽批量”是指單個(gè)單元格的分組鹏漆,其中來(lái)自每個(gè)單個(gè)單元格的數(shù)據(jù)被組合成一個(gè)單個(gè)的偽樣本于购,該樣本類似于批量ATAC-seq實(shí)驗(yàn)袍睡。對(duì)于每個(gè)所需的細(xì)胞分組,ArchR都會(huì)制作多個(gè)此類偽大量樣本肋僧,因此術(shù)語(yǔ)“ 偽大量”是重復(fù)的斑胜。在此過(guò)程中的基本假設(shè)是控淡,被分組在一起的單個(gè)單元格足夠相似,因此我們無(wú)需理會(huì)它們之間的差異止潘。這些單元分組幾乎總是從對(duì)應(yīng)于已知單元類型的單個(gè)群集或群集的超集派生的掺炭。本章介紹了ArchR生成這些偽批次重復(fù)的過(guò)程。

9.1 ArchR如何進(jìn)行偽批量復(fù)制覆山?

為了創(chuàng)建偽批量復(fù)制,ArchR采用了分層優(yōu)先級(jí)方法泥栖。用戶指定(i)所需的最小和最大重復(fù)數(shù)簇宽,(ii)每個(gè)重復(fù)的最小和最大細(xì)胞數(shù),以及(iii)如果特定組缺乏足夠的細(xì)胞來(lái)進(jìn)行所需的重復(fù)吧享,則使用的采樣率魏割。例如,采樣率為0.8意味著可以對(duì)每個(gè)單元進(jìn)行采樣而無(wú)需替換钢颂,最多可替換每個(gè)重復(fù)的單元總數(shù)的80%(這將導(dǎo)致在重復(fù)之間進(jìn)行替換采樣)钞它。在這種情況下,多個(gè)重復(fù)可能包含一些相同的單元格殊鞭,但是如果您要從缺少足夠單元格的單元組中生成偽批次重復(fù)遭垛,這是必要的犧牲。

偽批次重復(fù)生成的過(guò)程可以通過(guò)如下所示的決策樹來(lái)描述操灿。


我們?cè)谶@里用文字概述了此過(guò)程的一些關(guān)鍵考慮因素锯仪。首先,用戶確定要使用的單元組-這通常是ArchR調(diào)用的集群趾盐。然后庶喜,對(duì)于每個(gè)單元分組,ArchR嘗試創(chuàng)建所需的偽批量重復(fù)救鲤。理想的偽大量復(fù)制將由單個(gè)樣本中足夠數(shù)量的細(xì)胞組成久窟。這樣可以保持重復(fù)樣品之間的樣品多樣性和生物學(xué)差異。這是ArchR力求獲得的成果本缠,但實(shí)際上在此過(guò)程中有5種可能的結(jié)果斥扛,在ArchR中按優(yōu)先級(jí)排列如下:

  1. 足夠多的不同樣本(至少最大數(shù)量的重復(fù)樣本)每個(gè)都具有比最小數(shù)目更多的細(xì)胞,可以以樣本感知的方式創(chuàng)建偽批量復(fù)制樣本丹锹,僅將來(lái)自同一樣本的細(xì)胞合并為一個(gè)復(fù)制樣本犹赖。
  2. 一些樣本每個(gè)都有超過(guò)最小數(shù)量的單元,以樣本感知方式創(chuàng)建偽大量復(fù)制卷仑。其余所需的重復(fù)項(xiàng)是通過(guò)合并單元而不用樣本感知偽批量中尚未表示的樣本進(jìn)行替換來(lái)創(chuàng)建的峻村。
  3. 創(chuàng)建樣本感知的偽批量復(fù)制時(shí),沒(méi)有任何樣本具有超過(guò)最小數(shù)量的單元格锡凝,但有個(gè)以上的單元格minCells * minReps粘昨。所有需要的重復(fù)通過(guò)結(jié)合細(xì)胞產(chǎn)生無(wú)需更換在樣品無(wú)關(guān)的方式
  4. 單元分組中的單元總數(shù)少于最小單元數(shù)乘以最小重復(fù)數(shù),但大于最小單元數(shù)除以采樣率张肾。通過(guò)采樣來(lái)創(chuàng)建最小數(shù)量的復(fù)制品芭析,而無(wú)需在單個(gè)復(fù)制品中進(jìn)行替換,而可以在多個(gè)復(fù)制品中進(jìn)行替換吞瞪,同時(shí)最大程度地減少多個(gè)偽批量復(fù)制品中存在的細(xì)胞數(shù)量馁启。
  5. 單元格分組內(nèi)的單元格總數(shù)小于最小單元數(shù)除以采樣率。這意味著我們必須通過(guò)在單個(gè)副本內(nèi)以及不同副本之間進(jìn)行替換采樣來(lái)制作副本芍秆。這是最壞的情況惯疙,用戶應(yīng)謹(jǐn)慎使用下游的這些偽批量復(fù)制⊙叮可以使用該minCells參數(shù)在其他各種ArchR函數(shù)中進(jìn)行控制霉颠。

為了說(shuō)明此過(guò)程,我們將使用以下示例數(shù)據(jù)集:

Sample  Cluster1  Cluster2  Cluster3  Cluster4  Cluster5
A       800       600       900       100       75
B       1000      50        400       150       25
C       600       900       100       200       50
D       1200      500       50        50        25
E       900       100       50        150       50
F       700       200       100       100       25

我們將設(shè)置minRep = 3荆虱,maxRep = 5蒿偎,minCells = 300maxCells = 1000怀读,和sampleRatio = 0.8诉位。

9.1.1群集1

對(duì)于Cluster1,我們有6個(gè)樣本(大于maxRep)菜枷,所有樣本均具有多個(gè)minCells單元(300個(gè)單元)不从。這說(shuō)明了上面的選項(xiàng)#1,我們將以示例感知的方式進(jìn)行5次偽批量復(fù)制犁跪,如下所示:

Rep1 = 800 cells from SampleA
Rep2 = 1000 cells from SampleB
Rep3 = 1000 cells from SampleD
Rep4 = 900 cells from SampleE
Rep5 = 700 cells from SampleF

關(guān)于這些復(fù)制椿息,有兩點(diǎn)需要注意:(i)SampleC被省略了,因?yàn)槲覀冇凶銐蚨嗟臉颖緛?lái)進(jìn)行maxRep可感知樣本的偽批量復(fù)制坷衍,而SampleC的單元數(shù)最少寝优。(ii)SampleD只使用了1000個(gè)單元格,因?yàn)檫@是maxCells值枫耳。

9.1.2集群2

對(duì)于Cluster2乏矾,我們有3個(gè)樣本均具有多個(gè)minCells單元格,而另一些樣本則沒(méi)有迁杨。這說(shuō)明了上面的選項(xiàng)2钻心,我們將進(jìn)行以下偽批量復(fù)制:

Rep1 = 600 cells from SampleA
Rep2 = 900 cells from SampleC
Rep3 = 500 cells from SampleD
Rep4 = 350 cells [50 cells from SampleB + 100 from SampleE + 200 from SampleF]

在此示例中,Rep4是通過(guò)無(wú)須抽樣的方式以不可知的方式創(chuàng)建的铅协。

9.1.3群集3

對(duì)于Cluster3捷沸,我們只有2個(gè)樣本的minCells單元格數(shù)量多于所需數(shù)量minReps。但是狐史,如果我們合并其余樣本中的單元格痒给,則可以使用多個(gè)進(jìn)行另外的復(fù)制minCells说墨。這總共給我們提供了3個(gè)偽批量復(fù)制,并代表了上述選項(xiàng)3所示的情況苍柏。我們將進(jìn)行以下復(fù)制:

Rep1 = 900 cells from SampleA
Rep2 = 400 cells from SampleB
Rep3 = 250 cells [100 cells from SampleC + 50 from SampleD + 50 from SampleE + 50 from SampleF]

與上面的Cluster2相似尼斧,Cluster3 Rep3是通過(guò)樣本不可知的方式創(chuàng)建的,無(wú)需采樣即可在多個(gè)樣本之間進(jìn)行替換试吁。

9.1.4集群4

對(duì)于Cluster4棺棵,單元總數(shù)為750,少于minCells * minReps(900個(gè)單元)熄捍。在這種情況下烛恤,minReps至少minCells沒(méi)有某種形式的替換樣本,我們沒(méi)有足夠的單元來(lái)制作治唤。但是棒动,總細(xì)胞數(shù)仍大于minCells / sampleRatio(375個(gè)細(xì)胞)糙申,這意味著我們只需要在不同的偽大量重復(fù)樣本中進(jìn)行替換取樣宾添,而不必在單個(gè)重復(fù)樣本中進(jìn)行替換。這代表了上面選項(xiàng)4中所示的情況柜裸,因此我們將進(jìn)行以下復(fù)制:

Rep1 = 300 cells [250 unique cells + 25 cells overlapping Rep2 + 25 cells overlapping Rep3]
Rep2 = 300 cells [250 unique cells + 25 cells overlapping Rep1 + 25 cells overlapping Rep3]
Rep3 = 300 cells [250 unique cells + 25 cells overlapping Rep1 + 25 cells overlapping Rep2]

在這種情況下缕陕,ArchR將最大程度減少任何兩個(gè)偽批量復(fù)制之間重疊的單元數(shù)量。

9.1.5集群5

對(duì)于Cluster5疙挺,單元總數(shù)為250扛邑,小于minCells * minReps(900個(gè)單元)且小于minCells / sampleRatio(375個(gè)單元)。這意味著我們將不得不在每個(gè)樣本內(nèi)以及跨不同的復(fù)制品進(jìn)行替換采樣铐然,以進(jìn)行偽批量復(fù)制蔬崩。這代表了以上選項(xiàng)5中所示的最不理想的情況,因此在下游分析中使用這些偽大量復(fù)制品時(shí)應(yīng)謹(jǐn)慎搀暑。因此沥阳,我們將進(jìn)行以下復(fù)制:

Rep1 = 300 cells [250 unique cells + 25 cells overlapping Rep2 + 25 cells overlapping Rep3]
Rep2 = 300 cells [250 unique cells + 25 cells overlapping Rep1 + 25 cells overlapping Rep3]
Rep3 = 300 cells [250 unique cells + 25 cells overlapping Rep1 + 25 cells overlapping Rep2]
9.2進(jìn)行偽批量重復(fù)

在ArchR中,使用addGroupCoverages()函數(shù)進(jìn)行偽批量重復(fù)自点。此處的關(guān)鍵參數(shù)groupBy定義了應(yīng)進(jìn)行偽批量重復(fù)的組桐罕。在這里,我們使用的Clusters2是通過(guò)用上一章的scRNA-seq數(shù)據(jù)定義的細(xì)胞類型標(biāo)記簇來(lái)定義的桂敛。

projHeme4 <- addGroupCoverages(ArchRProj = projHeme3, groupBy = "Clusters2")

生成這些偽批量重復(fù)后功炮,我們現(xiàn)在可以在數(shù)據(jù)中調(diào)用峰。如前所述术唬,我們不想在所有單個(gè)像元的合并集合上調(diào)用峰薪伏,因此通過(guò)聚類或其他方式定義這些更細(xì)粒度的像元組,為調(diào)用峰提供了理想的起點(diǎn)粗仓。

參考材料:

https://www.archrproject.com/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末毅该,一起剝皮案震驚了整個(gè)濱河市博秫,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌眶掌,老刑警劉巖挡育,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異朴爬,居然都是意外死亡即寒,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門召噩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)母赵,“玉大人,你說(shuō)我怎么就攤上這事具滴“汲埃” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵构韵,是天一觀的道長(zhǎng)周蹭。 經(jīng)常有香客問(wèn)我,道長(zhǎng)疲恢,這世上最難降的妖魔是什么凶朗? 我笑而不...
    開(kāi)封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮显拳,結(jié)果婚禮上棚愤,老公的妹妹穿的比我還像新娘。我一直安慰自己杂数,他們只是感情好宛畦,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著揍移,像睡著了一般次和。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上羊精,一...
    開(kāi)封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天斯够,我揣著相機(jī)與錄音,去河邊找鬼喧锦。 笑死读规,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的燃少。 我是一名探鬼主播束亏,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼阵具!你這毒婦竟也來(lái)了碍遍?” 一聲冷哼從身側(cè)響起定铜,我...
    開(kāi)封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎怕敬,沒(méi)想到半個(gè)月后揣炕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡东跪,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年畸陡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片虽填。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡丁恭,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出斋日,到底是詐尸還是另有隱情牲览,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布恶守,位于F島的核電站第献,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏熬的。R本人自食惡果不足惜痊硕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一赊级、第九天 我趴在偏房一處隱蔽的房頂上張望押框。 院中可真熱鬧,春花似錦理逊、人聲如沸橡伞。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)兑徘。三九已至,卻和暖如春羡洛,著一層夾襖步出監(jiān)牢的瞬間挂脑,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工欲侮, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留崭闲,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓威蕉,卻偏偏與公主長(zhǎng)得像刁俭,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子韧涨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345