作者:Jenny
審稿:童蒙
編輯:angelica
前兩篇分享(單細(xì)胞ATAC概述和單細(xì)胞ATAC亞群分析),我們分別給大家介紹了單細(xì)胞ATAC的基礎(chǔ)知識(shí)點(diǎn)和亞群分析检激,這篇分享就是專門給大家?guī)?lái)一些高級(jí)分析的內(nèi)容了婆咸。
主要包括以下四個(gè)方面:motifdeviation的計(jì)算睛驳、單細(xì)胞ATAC擬時(shí)間分析捉偏、單細(xì)胞RNA與ATAC的整合分析以及peak co-accessibility分析鸦做。
一出革、motif deviation的計(jì)算
之前我們有提到過(guò)第一篇單細(xì)胞ATAC數(shù)據(jù)Greenleaf(Buenrostro, Wu et al. 2015)實(shí)驗(yàn)室的Nature文章,里面算是首次介紹了motif deviation score的概念芝发。簡(jiǎn)單來(lái)說(shuō)绪商,它是通過(guò)一定的算法原理,利用公共TF motif數(shù)據(jù)庫(kù)辅鲸,給每個(gè)細(xì)胞的每個(gè)TF對(duì)應(yīng)的motif進(jìn)行一個(gè)打分值格郁,值的高低代表該motif在該細(xì)胞的調(diào)控活躍程度。以下是具體算法原理独悴,感興趣的讀者可以移步去看這篇文章例书。
二、單細(xì)胞ATAC擬時(shí)間分析
以下內(nèi)容主要以ArchR軟件為例講解刻炒,目前ArchR軟件1.0.1最新版本給大家提供了3種分析策略决采,分別是ArchR自帶的、引用monocle3和SlingShot包的坟奥。后面還給大家展示stream包的例子树瞭。
01.addMonocleTrajectory()方法
函數(shù)說(shuō)明:https://www.archrproject.com/reference/addMonocleTrajectory.html
注意這里的monocle是指monocle3(monocle3和monocle2的分析原理有較大區(qū)別)。目前monocle3官方教程里不僅提供了單細(xì)胞轉(zhuǎn)錄組的軌跡發(fā)育教程筏勒,也比較友好提供了單細(xì)胞ATAC的接口(大家也可以從原始peak matrix出發(fā)移迫,直接用monocle3做擬時(shí)間分析)旺嬉。ArchR的addMonocleTrajectory函數(shù)實(shí)際上是調(diào)用monocle3包里的函數(shù)管行,便于大家用ArchR里降維的結(jié)果直接做擬時(shí)間分析。
接下來(lái)邪媳,讓我們跟著monocle3的官方教程來(lái)了解下它是如何區(qū)別scATAC和scRNA數(shù)據(jù)來(lái)做擬時(shí)間分析的捐顷。首先,不知道大家是否還記得上篇”亞群分析“第2部分的降維分群里給大家歸納總結(jié)了二者的區(qū)別雨效。為了加深印象迅涮,這個(gè)給大家再展示下。
Monocle3主要包括以下幾個(gè)步驟來(lái)分析:preprocess_cds(數(shù)據(jù)預(yù)處理徽龟,標(biāo)準(zhǔn)化)叮姑、reduce_dimension(降維)、cluster_cells据悔、learn_graph传透、order_cells、plot_cells极颓。
結(jié)合上面表格對(duì)scATAC和scRNA的總結(jié)朱盐,我們知道二者在用monocle3做擬時(shí)間分析時(shí)主要是preprocess_cds、reduce_dimension函數(shù)的參數(shù)要注意區(qū)別:
以下是具體參數(shù)列舉:
#scATAC
cds <- preprocess_cds(cds, method='LSI',norm_method='none', num_dim = 50) #ATAC, 需要先用log(TF-IDF)標(biāo)準(zhǔn)化scATAC peak matrix
cds <- reduce_dimension(cds, preprocess_method = "LSI",reduction_method = c("UMAP"))
#scRNA
cds <- preprocess_cds(cds, method='PCA',norm_method='log', num_dim = 50)
cds <- reduce_dimension(cds, preprocess_method = "PCA",reduction_method = c("UMAP"))
02.addTrajectory()方法
函數(shù)說(shuō)明:https://www.archrproject.com/reference/addTrajectory.html
為了在偽時(shí)間中對(duì)細(xì)胞進(jìn)行排序菠隆,ArchR創(chuàng)建細(xì)胞軌跡兵琳,在ArchRProject中通過(guò)一個(gè)低n維子空間對(duì)細(xì)胞進(jìn)行排序狂秘。以前,我們?cè)诙SUMAP子空間中執(zhí)行過(guò)這種排序(例如monocle3)躯肌,但是ArchR改進(jìn)了這種方法者春,使其能夠在n維子空間(即LSI)中對(duì)齊。
具體原理請(qǐng)移步官方教程清女,如下:https://www.archrproject.com/bookdown/trajectory-analysis-with-archr.html
值得注意的是碧查,addTrajectory()函數(shù)需要大家指定亞群的大體發(fā)育軌跡(至少3個(gè)點(diǎn)),例如trajectory =c('C2','C4','C5')校仑,便是告訴ArchR這些群里的細(xì)胞是按照C2>C4>C5的發(fā)育軌跡的忠售。
03.addSlingShotTrajectories()方法
函數(shù)說(shuō)明:https://www.archrproject.com/reference/addSlingShotTrajectories.html
提供用于推斷低維數(shù)據(jù)中連續(xù)的分支沿路結(jié)構(gòu)的函數(shù)。Slingshot的設(shè)計(jì)目的是在單細(xì)胞測(cè)序數(shù)據(jù)中模擬發(fā)育軌跡迄沫,并在降維和聚類后作為分析管道的一個(gè)組成部分稻扬。它足夠靈活,可以處理任意多的分支事件羊瘩,并允許通過(guò)監(jiān)督圖的構(gòu)造將先驗(yàn)知識(shí)結(jié)合起來(lái)泰佳。
04.stream包
stream包(Chen, Albergante et al. 2019)同樣也是一款可以做單細(xì)胞轉(zhuǎn)錄組和表觀基因組數(shù)據(jù)發(fā)育軌跡分析的軟件。它的特點(diǎn)是適合多個(gè)平行發(fā)育的分支尘吗。如下圖逝她,可以根據(jù)自己數(shù)據(jù)的背景選擇。
三睬捶、單細(xì)胞ATAC與RNA的整合分析
單細(xì)胞ATAC與RNA的整合分析主要目的是幫助scATAC亞群的命名黔宛,依據(jù)scRNA所有基因表達(dá)matrix和scATAC所有基因區(qū)域ATAC信號(hào)打分genescore matrix的相似性而整合預(yù)測(cè)。
01.利用Signac整合
Signac作為Seurat的“姐妹”包較好給大家提供了單細(xì)胞ATAC與RNA的整合分析擒贸,用的是FindTransferAnchors函數(shù)臀晃。
https://satijalab.org/signac/articles/pbmc_vignette.html#integrating-with-scrna-seq-data-1
02.利用ArchR包整合
ArchR包整合的工作方式是,通過(guò)比較scATAC-seq基因得分矩陣和scRNA-seq基因表達(dá)矩陣介劫,將來(lái)自scATAC-seq的細(xì)胞與來(lái)自scRNA-seq的細(xì)胞直接對(duì)齊徽惋。在底層,這種對(duì)齊也是使用Seurat包中的FindTransferAnchors函數(shù)執(zhí)行的座韵,該函數(shù)允許跨兩個(gè)數(shù)據(jù)集對(duì)齊數(shù)據(jù)险绘。然而,為了將這個(gè)過(guò)程適當(dāng)?shù)財(cái)U(kuò)展到數(shù)十萬(wàn)個(gè)單元誉碴,ArchR通過(guò)將整個(gè)單元?jiǎng)澐譃楦〉膯卧M并執(zhí)行單獨(dú)的對(duì)齊宦棺,提供了這個(gè)過(guò)程的并行化。
四翔烁、peak co-accessibility分析
識(shí)別peak co-accessibility可以預(yù)測(cè)調(diào)控元件之間的相互作用渺氧,比如enhancer和promoter的loop。這個(gè)是利用兩兩peak(regulator)在多個(gè)細(xì)胞之間的相關(guān)性來(lái)預(yù)測(cè)的蹬屹,利用相應(yīng)的閾值(比如SCC 0.5)來(lái)篩選定義侣背。
單細(xì)胞ATAC的三篇分享(基礎(chǔ)知識(shí)點(diǎn)白华、亞群分析、高級(jí)分析)就到這里啦贩耐。有機(jī)會(huì)的話弧腥,小編后面可能還會(huì)給大家?guī)?lái)更多關(guān)于單細(xì)胞ATAC的分享內(nèi)容。
本分享更多是從知識(shí)點(diǎn)和分析原理來(lái)講解和歸納總結(jié)潮太,具體實(shí)現(xiàn)方法和流程腳本可以查看下面參考資料軟件的官方文檔管搪,里面都寫得都很詳細(xì)清楚。
假設(shè)大家對(duì)單細(xì)胞ATAC分析需求很大(歡迎讀者朋友們多多點(diǎn)擊“在看”铡买、收藏和轉(zhuǎn)給需要的朋友呀)更鲁,后期可能會(huì)專門給大家?guī)?lái)一篇ArchR軟件流程實(shí)操的經(jīng)驗(yàn)分享。
五奇钞、參考資料
- https://satijalab.org/signac/articles/pbmc_vignette.html #Signac官方教程
- https://www.archrproject.com/bookdown/creating-arrow-files.html #ArchR官方教程
- Buenrostro JD, Wu B, Litzenburger UM, Ruff D, Gonzales ML, Snyder MP,et al. Single-cell chromatin accessibility reveals principles of regulatory variation. Nature. 2015;523:486–90. #Greenleaf(Buenrostro, Wu et al. 2015)實(shí)驗(yàn)室
- Granja, J. M., et al. (2021). "ArchR is a scalable software package for integrative single-cell chromatin accessibility analysis." Nat Genet 53(3): 403-411.https://www.nature.com/articles/s41588-021-00790-6
- Single-cell multiomic analysis identifies regulatory programs in mixed-phenotype acute leukemia. Nature Biotechnology (Granja JM, Klemm SK, McGinnis LM*, et al. 2019)https://www.nature.com/articles/s41587-019-0332-7 #人scATAC文章
- A cis-regulatory atlas in maize at single-cell resolution. https://www.cell.com/cell/fulltext/S0092-8674(21)00493-1#articleInformation #玉米scATAC文章澡为,5月7日發(fā)表在Cell上。
- https://cole-trapnell-lab.github.io/monocle3/docs/introduction/ #monocle3官方教程
- https://github.com/kstreet13/slingshot #slingshot發(fā)育軌跡分析
- https://nbviewer.jupyter.org/github/pinellolab/STREAM/blob/master/tutorial/2.1-STREAM_scATAC-seq_peaks.ipynb?flush_cache=true #利用stream做scATAC數(shù)據(jù)的發(fā)育軌跡分析
- Chen, H., et al., Single-cell trajectories reconstruction, exploration and mapping of omics data with STREAM. Nat Commun, 2019. 10(1): p. 1903. #stream軟件發(fā)表文章