scATAC分析神器ArchR初探-簡(jiǎn)介(1)
scATAC分析神器ArchR初探-ArchR進(jìn)行doublet處理(2)
scATAC分析神器ArchR初探-創(chuàng)建ArchRProject(3)
scATAC分析神器ArchR初探-使用ArchR降維(4)
scATAC分析神器ArchR初探--使用ArchR進(jìn)行聚類(5)
scATAC分析神器ArchR初探-單細(xì)胞嵌入(6)
scATAC分析神器ArchR初探-使用ArchR計(jì)算基因活性值和標(biāo)記基因(7)
scATAC分析神器ArchR初探-scRNA-seq確定細(xì)胞類型(8)
scATAC分析神器ArchR初探-ArchR中的偽批次重復(fù)處理(9)
scATAC分析神器ArchR初探-使用ArchR-peak-calling(10)
scATAC分析神器ArchR初探-使用ArchR識(shí)別標(biāo)記峰(11)
scATAC分析神器ArchR初探-使用ArchR進(jìn)行主題和功能豐富(12)
scATAC分析神器ArchR初探-利用ArchR豐富ChromVAR偏差(13)
scATAC分析神器ArchR初探-使用ArchR進(jìn)行足跡(14)
scATAC分析神器ArchR初探-使用ArchR進(jìn)行整合分析(15)
scATAC分析神器ArchR初探-使用ArchR進(jìn)行軌跡分析(16)
9- ArchR中的偽批次重復(fù)處理
因?yàn)閟cATAC-seq數(shù)據(jù)本質(zhì)上是二進(jìn)制的-意味著任何單個(gè)位點(diǎn)都是可訪問(wèn)的或不可訪問(wèn)的-我們經(jīng)常發(fā)現(xiàn)自己想要執(zhí)行在單個(gè)單元格上不可能進(jìn)行的分析育八。此外,我們要執(zhí)行的許多分析都需要重復(fù)進(jìn)行,以獲得具有統(tǒng)計(jì)意義的度量涡上。在單單元數(shù)據(jù)中作谚,我們通過(guò)創(chuàng)建偽批量復(fù)制來(lái)解決這些問(wèn)題配深。術(shù)語(yǔ)“ 偽批量”是指單個(gè)單元格的分組鹏漆,其中來(lái)自每個(gè)單個(gè)單元格的數(shù)據(jù)被組合成一個(gè)單個(gè)的偽樣本于购,該樣本類似于批量ATAC-seq實(shí)驗(yàn)袍睡。對(duì)于每個(gè)所需的細(xì)胞分組,ArchR都會(huì)制作多個(gè)此類偽大量樣本肋僧,因此術(shù)語(yǔ)“ 偽大量”是重復(fù)的斑胜。在此過(guò)程中的基本假設(shè)是控淡,被分組在一起的單個(gè)單元格足夠相似,因此我們無(wú)需理會(huì)它們之間的差異止潘。這些單元分組幾乎總是從對(duì)應(yīng)于已知單元類型的單個(gè)群集或群集的超集派生的掺炭。本章介紹了ArchR生成這些偽批次重復(fù)的過(guò)程。
9.1 ArchR如何進(jìn)行偽批量復(fù)制覆山?
為了創(chuàng)建偽批量復(fù)制,ArchR采用了分層優(yōu)先級(jí)方法泥栖。用戶指定(i)所需的最小和最大重復(fù)數(shù)簇宽,(ii)每個(gè)重復(fù)的最小和最大細(xì)胞數(shù),以及(iii)如果特定組缺乏足夠的細(xì)胞來(lái)進(jìn)行所需的重復(fù)吧享,則使用的采樣率魏割。例如,采樣率為0.8意味著可以對(duì)每個(gè)單元進(jìn)行采樣而無(wú)需替換钢颂,最多可替換每個(gè)重復(fù)的單元總數(shù)的80%(這將導(dǎo)致在重復(fù)之間進(jìn)行替換采樣)钞它。在這種情況下,多個(gè)重復(fù)可能包含一些相同的單元格殊鞭,但是如果您要從缺少足夠單元格的單元組中生成偽批次重復(fù)遭垛,這是必要的犧牲。
偽批次重復(fù)生成的過(guò)程可以通過(guò)如下所示的決策樹來(lái)描述操灿。
我們?cè)谶@里用文字概述了此過(guò)程的一些關(guān)鍵考慮因素锯仪。首先,用戶確定要使用的單元組-這通常是ArchR調(diào)用的集群趾盐。然后庶喜,對(duì)于每個(gè)單元分組,ArchR嘗試創(chuàng)建所需的偽批量重復(fù)救鲤。理想的偽大量復(fù)制將由單個(gè)樣本中足夠數(shù)量的細(xì)胞組成久窟。這樣可以保持重復(fù)樣品之間的樣品多樣性和生物學(xué)差異。這是ArchR力求獲得的成果本缠,但實(shí)際上在此過(guò)程中有5種可能的結(jié)果斥扛,在ArchR中按優(yōu)先級(jí)排列如下:
- 足夠多的不同樣本(至少最大數(shù)量的重復(fù)樣本)每個(gè)都具有比最小數(shù)目更多的細(xì)胞,可以以樣本感知的方式創(chuàng)建偽批量復(fù)制樣本丹锹,僅將來(lái)自同一樣本的細(xì)胞合并為一個(gè)復(fù)制樣本犹赖。
- 一些樣本每個(gè)都有超過(guò)最小數(shù)量的單元,以樣本感知方式創(chuàng)建偽大量復(fù)制卷仑。其余所需的重復(fù)項(xiàng)是通過(guò)合并單元而不用從樣本感知偽批量中尚未表示的樣本進(jìn)行替換來(lái)創(chuàng)建的峻村。
- 創(chuàng)建樣本感知的偽批量復(fù)制時(shí),沒(méi)有任何樣本具有超過(guò)最小數(shù)量的單元格锡凝,但有個(gè)以上的單元格
minCells * minReps
粘昨。所有需要的重復(fù)通過(guò)結(jié)合細(xì)胞產(chǎn)生無(wú)需更換從在樣品無(wú)關(guān)的方式。 - 單元分組中的單元總數(shù)少于最小單元數(shù)乘以最小重復(fù)數(shù),但大于最小單元數(shù)除以采樣率张肾。通過(guò)采樣來(lái)創(chuàng)建最小數(shù)量的復(fù)制品芭析,而無(wú)需在單個(gè)復(fù)制品中進(jìn)行替換,而可以在多個(gè)復(fù)制品中進(jìn)行替換吞瞪,同時(shí)最大程度地減少多個(gè)偽批量復(fù)制品中存在的細(xì)胞數(shù)量馁启。
- 單元格分組內(nèi)的單元格總數(shù)小于最小單元數(shù)除以采樣率。這意味著我們必須通過(guò)在單個(gè)副本內(nèi)以及不同副本之間進(jìn)行替換采樣來(lái)制作副本芍秆。這是最壞的情況惯疙,用戶應(yīng)謹(jǐn)慎使用下游的這些偽批量復(fù)制⊙叮可以使用該
minCells
參數(shù)在其他各種ArchR函數(shù)中進(jìn)行控制霉颠。
為了說(shuō)明此過(guò)程,我們將使用以下示例數(shù)據(jù)集:
Sample Cluster1 Cluster2 Cluster3 Cluster4 Cluster5
A 800 600 900 100 75
B 1000 50 400 150 25
C 600 900 100 200 50
D 1200 500 50 50 25
E 900 100 50 150 50
F 700 200 100 100 25
我們將設(shè)置minRep = 3
荆虱,maxRep = 5
蒿偎,minCells = 300
,maxCells = 1000
怀读,和sampleRatio = 0.8
诉位。
9.1.1群集1
對(duì)于Cluster1,我們有6個(gè)樣本(大于maxRep
)菜枷,所有樣本均具有多個(gè)minCells
單元(300個(gè)單元)不从。這說(shuō)明了上面的選項(xiàng)#1,我們將以示例感知的方式進(jìn)行5次偽批量復(fù)制犁跪,如下所示:
Rep1 = 800 cells from SampleA
Rep2 = 1000 cells from SampleB
Rep3 = 1000 cells from SampleD
Rep4 = 900 cells from SampleE
Rep5 = 700 cells from SampleF
關(guān)于這些復(fù)制椿息,有兩點(diǎn)需要注意:(i)SampleC被省略了,因?yàn)槲覀冇凶銐蚨嗟臉颖緛?lái)進(jìn)行maxRep
可感知樣本的偽批量復(fù)制坷衍,而SampleC的單元數(shù)最少寝优。(ii)SampleD只使用了1000個(gè)單元格,因?yàn)檫@是maxCells
值枫耳。
9.1.2集群2
對(duì)于Cluster2乏矾,我們有3個(gè)樣本均具有多個(gè)minCells
單元格,而另一些樣本則沒(méi)有迁杨。這說(shuō)明了上面的選項(xiàng)2钻心,我們將進(jìn)行以下偽批量復(fù)制:
Rep1 = 600 cells from SampleA
Rep2 = 900 cells from SampleC
Rep3 = 500 cells from SampleD
Rep4 = 350 cells [50 cells from SampleB + 100 from SampleE + 200 from SampleF]
在此示例中,Rep4是通過(guò)無(wú)須抽樣的方式以不可知的方式創(chuàng)建的铅协。
9.1.3群集3
對(duì)于Cluster3捷沸,我們只有2個(gè)樣本的minCells
單元格數(shù)量多于所需數(shù)量minReps
。但是狐史,如果我們合并其余樣本中的單元格痒给,則可以使用多個(gè)進(jìn)行另外的復(fù)制minCells
说墨。這總共給我們提供了3個(gè)偽批量復(fù)制,并代表了上述選項(xiàng)3所示的情況苍柏。我們將進(jìn)行以下復(fù)制:
Rep1 = 900 cells from SampleA
Rep2 = 400 cells from SampleB
Rep3 = 250 cells [100 cells from SampleC + 50 from SampleD + 50 from SampleE + 50 from SampleF]
與上面的Cluster2相似尼斧,Cluster3 Rep3是通過(guò)樣本不可知的方式創(chuàng)建的,無(wú)需采樣即可在多個(gè)樣本之間進(jìn)行替換试吁。
9.1.4集群4
對(duì)于Cluster4棺棵,單元總數(shù)為750,少于minCells * minReps
(900個(gè)單元)熄捍。在這種情況下烛恤,minReps
至少minCells
沒(méi)有某種形式的替換樣本,我們沒(méi)有足夠的單元來(lái)制作治唤。但是棒动,總細(xì)胞數(shù)仍大于minCells / sampleRatio
(375個(gè)細(xì)胞)糙申,這意味著我們只需要在不同的偽大量重復(fù)樣本中進(jìn)行替換取樣宾添,而不必在單個(gè)重復(fù)樣本中進(jìn)行替換。這代表了上面選項(xiàng)4中所示的情況柜裸,因此我們將進(jìn)行以下復(fù)制:
Rep1 = 300 cells [250 unique cells + 25 cells overlapping Rep2 + 25 cells overlapping Rep3]
Rep2 = 300 cells [250 unique cells + 25 cells overlapping Rep1 + 25 cells overlapping Rep3]
Rep3 = 300 cells [250 unique cells + 25 cells overlapping Rep1 + 25 cells overlapping Rep2]
在這種情況下缕陕,ArchR將最大程度減少任何兩個(gè)偽批量復(fù)制之間重疊的單元數(shù)量。
9.1.5集群5
對(duì)于Cluster5疙挺,單元總數(shù)為250扛邑,小于minCells * minReps
(900個(gè)單元)且小于minCells / sampleRatio
(375個(gè)單元)。這意味著我們將不得不在每個(gè)樣本內(nèi)以及跨不同的復(fù)制品進(jìn)行替換采樣铐然,以進(jìn)行偽批量復(fù)制蔬崩。這代表了以上選項(xiàng)5中所示的最不理想的情況,因此在下游分析中使用這些偽大量復(fù)制品時(shí)應(yīng)謹(jǐn)慎搀暑。因此沥阳,我們將進(jìn)行以下復(fù)制:
Rep1 = 300 cells [250 unique cells + 25 cells overlapping Rep2 + 25 cells overlapping Rep3]
Rep2 = 300 cells [250 unique cells + 25 cells overlapping Rep1 + 25 cells overlapping Rep3]
Rep3 = 300 cells [250 unique cells + 25 cells overlapping Rep1 + 25 cells overlapping Rep2]
9.2進(jìn)行偽批量重復(fù)
在ArchR中,使用addGroupCoverages()
函數(shù)進(jìn)行偽批量重復(fù)自点。此處的關(guān)鍵參數(shù)groupBy
定義了應(yīng)進(jìn)行偽批量重復(fù)的組桐罕。在這里,我們使用的Clusters2
是通過(guò)用上一章的scRNA-seq數(shù)據(jù)定義的細(xì)胞類型標(biāo)記簇來(lái)定義的桂敛。
projHeme4 <- addGroupCoverages(ArchRProj = projHeme3, groupBy = "Clusters2")
生成這些偽批量重復(fù)后功炮,我們現(xiàn)在可以在數(shù)據(jù)中調(diào)用峰。如前所述术唬,我們不想在所有單個(gè)像元的合并集合上調(diào)用峰薪伏,因此通過(guò)聚類或其他方式定義這些更細(xì)粒度的像元組,為調(diào)用峰提供了理想的起點(diǎn)粗仓。