今天我們來(lái)分享一下10X單細(xì)胞ATAC的高級(jí)分析,主要包括以下四個(gè)方面:motif deviation的計(jì)算瞳浦、單細(xì)胞ATAC擬時(shí)間分析、單細(xì)胞RNA與ATAC的整合分析以及peak co-accessibility分析。
motif deviation的計(jì)算
之前第一篇單細(xì)胞ATAC數(shù)據(jù)Greenleaf(Buenrostro, Wu et al. 2015)實(shí)驗(yàn)室的Nature文章橱野,里面算是首次介紹了motif deviation score的概念。簡(jiǎn)單來(lái)說(shuō)赡译,它是通過(guò)一定的算法原理仲吏,利用公共TF motif數(shù)據(jù)庫(kù),給每個(gè)細(xì)胞的每個(gè)TF對(duì)應(yīng)的motif進(jìn)行一個(gè)打分值,值的高低代表該motif在該細(xì)胞的調(diào)控活躍程度裹唆。
以下是具體算法原理誓斥,感興趣的讀者可以移步去看這篇文章。
這一塊的分析许帐,主要是對(duì)未來(lái)基因表達(dá)情況的一個(gè)預(yù)測(cè)劳坑,尤其對(duì)于疾病的樣本(相對(duì)于正常樣本)。
單細(xì)胞ATAC擬時(shí)間分析
以下內(nèi)容主要以ArchR軟件為例講解成畦,目前ArchR軟件1.0.1最新版本給大家提供了3種分析策略距芬,分別是ArchR自帶的、引用monocle3和SlingShot包的循帐。后面還給大家展示stream包的例子框仔。
(1)addMonocleTrajectory()方法
函數(shù)說(shuō)明
注意這里的monocle是指monocle3(monocle3和monocle2的分析原理有較大區(qū)別)。目前monocle3官方教程里不僅提供了單細(xì)胞轉(zhuǎn)錄組的軌跡發(fā)育教程拄养,也比較友好提供了單細(xì)胞ATAC的接口(大家也可以從原始peak matrix出發(fā)离斩,直接用monocle3做擬時(shí)間分析)。ArchR的addMonocleTrajectory函數(shù)實(shí)際上是調(diào)用monocle3包里的函數(shù)瘪匿,便于大家用ArchR里降維的結(jié)果直接做擬時(shí)間分析跛梗。
接下來(lái),讓我們跟著monocle3的官方教程來(lái)了解下它是如何區(qū)別scATAC和scRNA數(shù)據(jù)來(lái)做擬時(shí)間分析的棋弥。首先,看一下scATAC和scRNA的區(qū)別核偿。
Monocle3主要包括以下幾個(gè)步驟來(lái)分析:preprocess_cds(數(shù)據(jù)預(yù)處理,標(biāo)準(zhǔn)化)顽染、reduce_dimension(降維)漾岳、cluster_cells、learn_graph粉寞、order_cells蝗羊、plot_cells。
以下是具體參數(shù)列舉:
scATAC
cds <- preprocess_cds(cds, method='LSI',norm_method='none', num_dim = 50) #ATAC, 需要先用log(TF-IDF)標(biāo)準(zhǔn)化scATAC peak matrix
cds <- reduce_dimension(cds, preprocess_method = "LSI",reduction_method = c("UMAP"))scRNA
cds <- preprocess_cds(cds, method='PCA',norm_method='log', num_dim = 50)
cds <- reduce_dimension(cds, preprocess_method = "PCA",reduction_method = c("UMAP"))
(2)addTrajectory()方法
函數(shù)說(shuō)明
為了在偽時(shí)間中對(duì)細(xì)胞進(jìn)行排序仁锯,ArchR創(chuàng)建細(xì)胞軌跡耀找,在ArchRProject中通過(guò)一個(gè)低n維子空間對(duì)細(xì)胞進(jìn)行排序。以前业崖,我們?cè)诙SUMAP子空間中執(zhí)行過(guò)這種排序(例如monocle3)野芒,但是ArchR改進(jìn)了這種方法,使其能夠在n維子空間(即LSI)中對(duì)齊双炕。
具體原理請(qǐng)移步官方教程狞悲,如下:
[官方教程](https://www.archrproject.com/bookdown/trajectory-analysis-with-archr.html)
值得注意的是,addTrajectory()函數(shù)需要大家指定亞群的大體發(fā)育軌跡(至少3個(gè)點(diǎn))妇斤,例如trajectory =c('C2','C4','C5')摇锋,便是告訴ArchR這些群里的細(xì)胞是按照C2>C4>C5的發(fā)育軌跡的丹拯。(巨坑)
(3)addSlingShotTrajectories()方法
函數(shù)說(shuō)明
提供用于推斷低維數(shù)據(jù)中連續(xù)的分支沿路結(jié)構(gòu)的函數(shù)。Slingshot的設(shè)計(jì)目的是在單細(xì)胞測(cè)序數(shù)據(jù)中模擬發(fā)育軌跡荸恕,并在降維和聚類后作為分析管道的一個(gè)組成部分乖酬。它足夠靈活,可以處理任意多的分支事件融求,并允許通過(guò)監(jiān)督圖的構(gòu)造將先驗(yàn)知識(shí)結(jié)合起來(lái)咬像。
(4)stream包
stream包(Chen, Albergante et al. 2019)同樣也是一款可以做單細(xì)胞轉(zhuǎn)錄組和表觀基因組數(shù)據(jù)發(fā)育軌跡分析的軟件。它的特點(diǎn)是適合多個(gè)平行發(fā)育的分支生宛。如下圖县昂,可以根據(jù)自己數(shù)據(jù)的背景選擇。
單細(xì)胞ATAC與RNA的整合分析
單細(xì)胞ATAC與RNA的整合分析主要目的是幫助scATAC亞群的命名陷舅,依據(jù)scRNA所有基因表達(dá)matrix和scATAC所有基因區(qū)域ATAC信號(hào)打分genescore matrix的相似性而整合預(yù)測(cè)倒彰。
(1)利用Signac整合
Signac作為Seurat的“姐妹”包較好給大家提供了單細(xì)胞ATAC與RNA的整合分析,用的是FindTransferAnchors函數(shù)莱睁。
(2)利用ArchR包整合
ArchR包整合的工作方式是狸驳,通過(guò)比較scATAC-seq基因得分矩陣和scRNA-seq基因表達(dá)矩陣,將來(lái)自scATAC-seq的細(xì)胞與來(lái)自scRNA-seq的細(xì)胞直接對(duì)齊缩赛。在底層,這種對(duì)齊也是使用Seurat包中的FindTransferAnchors函數(shù)執(zhí)行的撰糠,該函數(shù)允許跨兩個(gè)數(shù)據(jù)集對(duì)齊數(shù)據(jù)酥馍。然而,為了將這個(gè)過(guò)程適當(dāng)?shù)財(cái)U(kuò)展到數(shù)十萬(wàn)個(gè)單元阅酪,ArchR通過(guò)將整個(gè)單元?jiǎng)澐譃楦〉膯卧M并執(zhí)行單獨(dú)的對(duì)齊旨袒,提供了這個(gè)過(guò)程的并行化
peak co-accessibility分析
識(shí)別peak co-accessibility可以預(yù)測(cè)調(diào)控元件之間的相互作用,比如enhancer和promoter的loop术辐。這個(gè)是利用兩兩peak(regulator)在多個(gè)細(xì)胞之間的相關(guān)性來(lái)預(yù)測(cè)的砚尽,利用相應(yīng)的閾值(比如SCC 0.5)來(lái)篩選定義。
單細(xì)胞ATAC的高級(jí)分析內(nèi)容先分享這么多辉词,大家多多學(xué)習(xí)
生活很好必孤,等你超越