引言
轉(zhuǎn)坐酶(Transpose)檢測(cè)染色質(zhì)開放性(Accessibility)結(jié)合高通量測(cè)序(Assay for Transposase-Accessible Chromatin with high-throughput sequencing鞍匾,ATAC-Seq)技術(shù)能夠一次性檢測(cè)樣本中染色質(zhì)的開放性您市,無(wú)需像ChIP-Seq技術(shù)一樣需要選擇某一個(gè)TF進(jìn)行試驗(yàn)。另外,由于測(cè)序成本遠(yuǎn)遠(yuǎn)低于它的同行——DNase-Seq怜跑、FAIRE-Seq、DNase-Seq和MNase-Seq,目前ATAC-Seq幾乎終結(jié)了染色質(zhì)開放性領(lǐng)域的競(jìng)爭(zhēng)傲武。ATAC-Seq的技術(shù)幾乎完全移植到了單細(xì)胞領(lǐng)域,實(shí)驗(yàn)包括三個(gè)過(guò)程:細(xì)胞裂解城榛、轉(zhuǎn)座和擴(kuò)增揪利。
一、測(cè)序方法
目前scATAC-Seq主要存在兩類方法——Split-and-Pool方法和微流體方法狠持。前者的代表是美國(guó)華盛頓大學(xué)的Cole Trapnell實(shí)驗(yàn)室的sci-ATAC-Seq技術(shù)疟位;后者的代表是Integrated Fluidics Circuit(IFC)和已經(jīng)商業(yè)化的10X Genomics Chromium Single Cell ATAC。
1. sci-ATAC-Seq
- sci-ATAC-Seq是先后用多個(gè)具有編碼功能的Plate來(lái)標(biāo)記核質(zhì)所屬的細(xì)胞ID喘垂,過(guò)程如下:首先甜刻,把裂解后的細(xì)胞核質(zhì)均勻分配到第一個(gè)Plate(包含96個(gè)Well)中绍撞,每個(gè)Well擁有一個(gè)唯一的Barcode,用來(lái)標(biāo)記這個(gè)Well下的轉(zhuǎn)座酶得院。也就是說(shuō)傻铣,一個(gè)Well下所有的轉(zhuǎn)座酶具有同樣的Barcode。然而祥绞,96個(gè)Barcode顯然不能標(biāo)記上千個(gè)細(xì)胞非洲,因此我們?cè)诤竺孢€需要第二個(gè)Barcode。然后蜕径,這96個(gè)Well中的核質(zhì)充分混合后两踏,我們用Fluorescence-Activated Cell Sorting(FCS)技術(shù)對(duì)細(xì)胞進(jìn)行排序,均勻分配到第二個(gè)Plate中丧荐。第二個(gè)Plate也是由96個(gè)Well組成缆瓣。隨后,我們用聚合酶鏈?zhǔn)椒磻?yīng)(Polymerase Chain Reaction虹统,PCR)在第二個(gè)Plate中對(duì)核質(zhì)進(jìn)行擴(kuò)增弓坞。擴(kuò)增的引物(Primer)上含有第二個(gè)Barcode,與第二個(gè)Plate中的Well一一對(duì)應(yīng)车荔。兩個(gè)Barcode能形成96 * 96 = 9216個(gè)組合渡冻,用來(lái)作為上千個(gè)細(xì)胞的ID。根據(jù)經(jīng)驗(yàn)忧便,sci-ATAC-Seq能夠檢測(cè)1500左右的細(xì)胞族吻,其中每個(gè)細(xì)胞中所包含的Read含量中位數(shù)約為2500,ID中有11%的沖突率珠增,也就是兩個(gè)細(xì)胞共用了同一個(gè)ID超歌。如果想蹭更大規(guī)模的細(xì)胞樣本,我們只需要增加Plate的數(shù)量蒂教。
- sci-ATAC-Seq技術(shù)的缺點(diǎn)有二:
1)隨著Plate數(shù)量的增加巍举,測(cè)序成本大大增加;
2)sci-ATAC-Seq沒(méi)有實(shí)現(xiàn)商業(yè)化凝垛,因此在實(shí)際操作中缺乏客觀有效的操作流程懊悯,往往需要針對(duì)不同的批次(Batch)進(jìn)行定制和微調(diào)。
2. 基于微流體方法的scATAC-seq
- 我們以10X Genomics Chromium Single Cell ATAC為例梦皮,介紹基于微流體方法的技術(shù)炭分。首先細(xì)胞核質(zhì)和標(biāo)有Barcode的凝膠珠(Barcoded Gel Beads)分別保存在一個(gè)容器中。然后剑肯,兩者分別從兩條管道以垂直角度往關(guān)島的十字交叉口運(yùn)動(dòng)捧毛。這樣,有的凝膠珠會(huì)粘住一個(gè)核質(zhì),然后它們會(huì)被一個(gè)油滴包裹住岖妄,凝膠珠上的Barcode會(huì)與核質(zhì)結(jié)合并作為其ID型将。然后,已經(jīng)擁有Barcode的核質(zhì)通過(guò)PCR進(jìn)行擴(kuò)增荐虐。最后,清洗油滴并且測(cè)序丸凭。
以上是scATAC-Seq測(cè)序技術(shù)的介紹福扬。與scRNA-Seq一樣,scATAC-Seq的測(cè)序數(shù)據(jù)需要大量的預(yù)處理才能進(jìn)行下游分析惜犀。關(guān)于scATAC-Seq的預(yù)處理和下游分析铛碑,這篇文獻(xiàn)介紹得最詳盡。scATAC-Seq的預(yù)處理包括六步——讀段(Read)預(yù)處理虽界、質(zhì)量控制(Quality Control汽烦,QC)、峰(Peak)注釋莉御、矩陣構(gòu)建撇吞、矯正批次效應(yīng)(Batch Effect Removal)以及降維(Dimensionality Reduction)/可視化/聚類。
二礁叔、Read預(yù)處理
這一步包括三小步——Demultiplexing牍颈、Adaptor Trimming和比對(duì)(Alignment)。
- 為了節(jié)省成本琅关,我們往往將多個(gè)樣本(Sample)混合同時(shí)測(cè)序煮岁,并用Index Adaptor Sequence標(biāo)記出樣本。因此涣易,Demultiplexing要做的就是把樣本的ID和細(xì)胞的ID(Barcode)拷貝到這個(gè)細(xì)胞下的每個(gè)Read中画机。我們通常用Illumina的bcl2fastq進(jìn)行Demultiplexing。
- Adapter Trimming的目的就是把測(cè)序中添加的Adaptor Sequence和Primer序列切除掉新症,工具是AdapterRemoval和Trimmomatic步氏。
- Alignment的作用是把測(cè)序Read比對(duì)到參考基因組上,常用工具是Bowtie2账劲、BWA和STAR戳护。并不是所有Read都能比對(duì)到基因組上,比對(duì)成功的一對(duì)Read稱為片段(Fragment)瀑焦。sci-ATAC-Seq數(shù)據(jù)預(yù)處理后得到的是二進(jìn)制BAM文件(參考文獻(xiàn))腌且,10X Genomics Chromium Single Cell ATAC數(shù)據(jù)預(yù)處理后的得到的是Fragments文本文檔。10X Genomics Chromium Single Cell ATAC配套有“御用”預(yù)處理工具箱CellRanger榛瓮,可以完成所有Read的預(yù)處理步驟铺董。
三、QC
這一步最主流的工具是Seurat工具箱下的Signac軟件,目標(biāo)是通過(guò)五個(gè)標(biāo)準(zhǔn)刪減質(zhì)量低的細(xì)胞精续。
1. Nucleosome Banding Pattern
- 染色質(zhì)是纏繞在組蛋白上形成核小體(Nucleosome)的坝锰。核小體的體積是固定的,因此轉(zhuǎn)座酶切割染色質(zhì)的時(shí)候是避開核小體區(qū)域的重付,所以核小體附近切割下來(lái)的Fragment長(zhǎng)度(Insert Size)是200 bp的倍數(shù)顷级,也就是200,400和600 bp确垫。Signac能夠根據(jù)這些模式識(shí)別核小體附近的Fragment和染色質(zhì)開放區(qū)域的Fragment弓颈。對(duì)每一個(gè)細(xì)胞,Signac計(jì)算核小體附近Fragment的數(shù)量與開放區(qū)域Fragment的數(shù)量的比值删掀。這個(gè)比值越小越好翔冀。
2. 轉(zhuǎn)錄起始位點(diǎn)豐度得分(Transcription Start Site Enrichment Score,TSS Enrichment Score)
- ENCODE數(shù)據(jù)庫(kù)提供了一個(gè)得分披泪,計(jì)算TSS附近區(qū)域Fragment的數(shù)量和TSS側(cè)翼區(qū)域Fragment的數(shù)量的比值纤子,作為TSS豐度得分枚钓。通常光戈,測(cè)序質(zhì)量低的ATAC Fragment的TSS豐度得分會(huì)很低。因此戳杀,TSS豐度得分越高越好徽职。
3/4. Peak中的Fragment數(shù)量/比例
- 這一步在完成Peak注釋后才能做象颖。類似地,我們也可以計(jì)算Peak中的Read數(shù)量/比例姆钉。比例越大越好说订,數(shù)量適中即可。如果Fragment或Read的數(shù)量太低潮瓶,表示這個(gè)細(xì)胞中的Read沒(méi)有被充分測(cè)得陶冷,是低質(zhì)量細(xì)胞;如果Fragment或Read的數(shù)量太高毯辅,表示我們可能把多個(gè)細(xì)胞核質(zhì)錯(cuò)當(dāng)作一個(gè)核質(zhì)對(duì)待了埂伦,這種情況也要去除。
5. Blacklist區(qū)域
- ENCODE數(shù)據(jù)庫(kù)提供了Blacklist區(qū)域列表(人類思恐、小鼠沾谜、果蠅和線蟲)。這些區(qū)域傾向于被大量的Read覆蓋胀莹,是需要被去除的技術(shù)假陽(yáng)性基跑。這些區(qū)域也被移植到了Signac工具箱中。
四描焰、Peak注釋媳否。
Peak注釋不等于Peak Calling,而是包含Peak Calling。這一步是為第四步的矩陣構(gòu)建做準(zhǔn)備篱竭。Peak注釋包括以下7種:
- TF模體(Motif):也就是轉(zhuǎn)錄因子在Peak上的結(jié)合位點(diǎn)力图。斯坦福大學(xué)的William Greenleaf開發(fā)的chromVAR工具就做了這種注釋。
- k-mer:即4k種ACGT的字符串掺逼。chromVAR中也采用了這種注釋吃媒。
- TSS:基因的轉(zhuǎn)錄起始位點(diǎn)承載了較多的信息,因此有些研究順式(cis-)轉(zhuǎn)錄調(diào)控的工具(例如Trapnell的Cicero)會(huì)采用這種注釋吕喘。
- Bin/Window:把基因組切割成不重疊的固定長(zhǎng)度的區(qū)間(通常是5 kb)晓折,在下游分析中做降維或者聚類。UCSD的任兵開發(fā)的snapATAC和Greenleaf開發(fā)的ArchR都采用了這種注釋兽泄,只是Bin的長(zhǎng)度不同,ArchR用的長(zhǎng)度是500 bp漾月。這種小的Bin能夠更精確地檢測(cè)到TF的結(jié)合位點(diǎn)的位置范圍(300-500 bp)病梢。
- Peak:這是最主流、最復(fù)雜的注釋方式梁肿,需要Peak Calling工具(Peak Caller)完成蜓陌。多數(shù)軟件(cisTopic、snapATAC吩蔑、SCALE钮热、scATAC-pro、Signac和ArchR)都采用了這種注釋烛芬。
- 基因:與TSS類似隧期,區(qū)別就在于TSS只考慮聚集在TSS附近的Fragment,而基因則考慮整個(gè)基因的區(qū)域(尤其是編碼區(qū))檢測(cè)到的Fragment赘娄。
- Topic:類似于雙聚類(Bicluster)仆潮,與雙聚類的區(qū)別就在于它描述的是與Peak或者細(xì)胞的概率上的關(guān)系,而不是硬性的0-1關(guān)系遣臼。目前只有cisTopic采用這種注釋性置。
1-4)和6-7)等方法比較簡(jiǎn)單。但是揍堰,由于單細(xì)胞中Read數(shù)量太少鹏浅,ChIP-Seq用的Peak Caller無(wú)法檢測(cè)到Peak。因此Peak Calling都是在Bulk規(guī)模上進(jìn)行屏歹,也就是大量細(xì)胞的混合物隐砸。
目前存在五種Peak Calling方法:
- 直接使用數(shù)據(jù)庫(kù)中的DNase-Seq和ChIP-Seq的Peak,例如:cisTopic西采;
- 使用整套數(shù)據(jù)集上的所有Read進(jìn)行Peak Calling凰萨,例如:CellRanger和Cicero;
- 使用一個(gè)細(xì)胞系(Cell Line)上所有的Read進(jìn)行Peak Calling,例如:chromVAR胖眷;
- 使用一個(gè)細(xì)胞類型(Cell Type)下的所有Read武通,例如:snapATAC;
- 兩階段方法珊搀,即先用其他注釋(例如:Bin)得到Feature-Cell矩陣冶忱,并作聚類,然后把每一個(gè)類中所有的Read匯總起來(lái)做Peak Calling境析,例如:scATAC-pro和ArchR囚枪。
需要強(qiáng)調(diào)的是,在目前的單細(xì)胞多組學(xué)(RNA+ATAC)數(shù)據(jù)中劳淆,也存在三種Peak Calling方法:
- 用所有細(xì)胞的Read链沼;
- 用一個(gè)細(xì)胞系下的Read;
- 先用整合算法對(duì)RNA+ATAC數(shù)據(jù)進(jìn)行聚類沛鸵,或者只對(duì)scRNA-Seq進(jìn)行聚類括勺,然后在每個(gè)類中分別作Peak Calling。
五曲掰、矩陣構(gòu)建
針對(duì)不同的注釋疾捍,矩陣元素有不同的計(jì)算方法。
- 對(duì)TF Motif或者k-mer栏妖,我們首先要得到Peak乱豆,然后在Peak上搜索TF的Motif和k-mer。計(jì)算方法是先對(duì)TF Motif/k-mer所處的Peak的開放性數(shù)值相加吊趾,然后計(jì)算這個(gè)值在所有細(xì)胞中的z值宛裕。
- 對(duì)基因/TSS,我們需要計(jì)算基因活性得分(Gene Activity Score)趾徽。Cicero采用的是線性模型续滋,把與這個(gè)基因具有順式調(diào)控關(guān)系的Peak的開放性數(shù)值疊加。然而孵奶,scATAC-Seq矩陣具有很高的稀疏性疲酌,平均每個(gè)細(xì)胞只能覆蓋1~10%的Peak×嗽考慮到scATAC-Seq是二進(jìn)制朗恳,因此矩陣的信息量很低。為了提高信息量载绿,我們需要把scATAC-Seq矩陣的0-1值根據(jù)Peak的唯一性轉(zhuǎn)化為浮點(diǎn)數(shù)粥诫,使得越罕見的Peak,分?jǐn)?shù)越高崭庸。
目前存在三種方法:- 文本挖掘算法Term-frequency inverse-document-frequency(TF-IDF):這是最主流的算法怀浆,它會(huì)給罕見的Peak更高的分值谊囚,構(gòu)造出新矩陣。轉(zhuǎn)化后的矩陣有利于識(shí)別不同細(xì)胞類型之間高度可變的Peak执赡。
- Jaccard指數(shù):它通過(guò)計(jì)算兩個(gè)細(xì)胞之間共有的Peak來(lái)發(fā)現(xiàn)某一個(gè)細(xì)胞所特有的Peak镰踏。
- 測(cè)序深度:另外一類算法不用0-1值構(gòu)造矩陣,而是用一個(gè)細(xì)胞內(nèi)的測(cè)序深度作為矩陣的值沙合。
六奠伪、矯正批次效應(yīng)
矯正批次效應(yīng)的問(wèn)題等價(jià)于Intra-Modality的多數(shù)據(jù)整合。
目前的算法大多基于這樣一個(gè)假設(shè):不同的Batch之間至少共享一個(gè)細(xì)胞類型首懈;另外绊率,Batch之間的差異要小于細(xì)胞類型之間的差異。這些算法在矯正批次效應(yīng)的過(guò)程中究履,有時(shí)候會(huì)把一些生物本身的特征消除滤否,從而導(dǎo)致過(guò)度矯正。與scRNA-Seq不同最仑,目前還不存在整合scATAC-Seq數(shù)據(jù)的算法顽聂。一項(xiàng)Benchmark的研究比較了不同的scRNA-Seq整合工具在scATAC-Seq數(shù)據(jù)上的性能。結(jié)果顯示盯仪,大多數(shù)工具的表現(xiàn)都不盡如人意。只有Harmony蜜葱、Seurat v3和scVI相對(duì)來(lái)說(shuō)表現(xiàn)較為突出全景。
七、降維/可視化/聚類
scATAC-Seq具有比scRNA-Seq更高的稀疏性和維度牵囤。維度越高爸黄,我們?cè)诫y以對(duì)細(xì)胞進(jìn)行分類。舉個(gè)例子揭鳞,我們可以把測(cè)序數(shù)據(jù)理解為從全體細(xì)胞中隨機(jī)均勻抽取的一個(gè)樣本炕贵。如果只有一個(gè)Peak,也就是說(shuō)數(shù)據(jù)是一維的(一個(gè)0-1之間的浮點(diǎn)數(shù)就是特征的所有信息)野崇,如果要保證每隔一段距離(0.01)就選一個(gè)細(xì)胞称开,我們只需要選取100個(gè)細(xì)胞。如果有兩個(gè)Peak(一對(duì)0-1之間的浮點(diǎn)數(shù)就是特征的全部信息)乓梨,全集就是一個(gè)邊長(zhǎng)為1的正方形鳖轰。如果保證每隔0.01就隨機(jī)選取一個(gè)細(xì)胞,我們需要1002 = 10000個(gè)細(xì)胞扶镀。以此類推蕴侣,維度越高,樣本就越難以覆蓋全集臭觉。因此昆雀,全集中某些區(qū)域可能一個(gè)細(xì)胞都沒(méi)被抽取辱志。所以,降維的性能嚴(yán)重影響下游的分析狞膘。
目前scATAC_Seq數(shù)據(jù)的降維算法有五種:
- 主成分分析(Principal Component Analysis揩懒,PCA):是一種線性降維算法,計(jì)算速度快客冈,但是難以反映數(shù)據(jù)內(nèi)部的非線性關(guān)系旭从。BROCKMAN、SnapATAC和Cusanovich2018都采用了PCA场仲。但是只用PCA會(huì)造成大量細(xì)胞之間具有很高的相似性和悦,因?yàn)槊總€(gè)細(xì)胞的剖面(Profile)中都含有大量的零值。因此渠缕,PCA通常與非線性降維算法一起使用鸽素。
- Topic:它是基于Latent Dirichlet Allocation(LDA)的降維算法。它運(yùn)算速度很慢亦鳞,但是能夠識(shí)別出具有細(xì)胞類型特異性的特征馍忽,能夠顯著提高其他下游分析(例如:聚類)的準(zhǔn)確性。cisTopic采用了該算法燕差。
- Latent Semantic Indexing(LSI):它結(jié)合了TF-IDF和奇異值分解(Singular Value Decomposition遭笋,SVD)。Seurat v4徒探、Signac瓦呼、ArchR、BROCKMAN测暗、Cusanovich2018和Signac都采用了這種方法央串。需要注意的是,LSI的第一個(gè)維度會(huì)高度地與測(cè)序深度相關(guān)碗啄,因此在下游分析中我們會(huì)丟棄第一個(gè)維度质和。
- Multimensional Scaling(MDS):原理很簡(jiǎn)單,它通過(guò)描述細(xì)胞之間的剖面的相似性完成降維稚字。Scasat采用了MDS算法饲宿。
- Diffusion Map:是一種非線性降維算法。它對(duì)噪音具有較高的魯棒性(Robustness)胆描。snapATAC采用了該算法褒傅。
通常,先用線性降維算法然后在其基礎(chǔ)上使用非線性降維袄友,會(huì)有更好的聚類性能殿托。目前最流行的非線性降維算法是t-分布隨機(jī)鄰近嵌入(t-distributed stochastic neighbor embedding,t-SNE)和統(tǒng)一流形逼近與投影(Uniform Manifold Approximation and Projection剧蚣,UMAP)支竹。t-SNE適合發(fā)覺(jué)細(xì)胞之間的局部鄰近信息旋廷,UMAP擅長(zhǎng)發(fā)現(xiàn)全局鄰近信息。但是t-SNE和UMAP只能用前兩個(gè)維度做可視化礼搁,不適合把降維信息用于下游分析饶碘。Cicero使用t-SNE或UMAP的降維信息構(gòu)造k最鄰近圖(k Nearest Neighbor Graph),實(shí)際上是不恰當(dāng)?shù)穆狻jP(guān)于聚類扎运,這項(xiàng)Benchmark的研究的結(jié)果顯示,Louvain算法具有最好的性能饮戳;k-medoids算法具有最高的魯棒性豪治。
八、細(xì)胞類型注釋
盡管有許多工具可以對(duì)scRNA-seq數(shù)據(jù)自動(dòng)進(jìn)行細(xì)胞類型注釋扯罐,還可以從各種數(shù)據(jù)庫(kù)中獲得細(xì)胞marker基因列表负拟,但對(duì)于 scATAC-seq 數(shù)據(jù),僅有有限的工具和特定細(xì)胞類型染色質(zhì)可及性的參考數(shù)據(jù)集歹河。因此掩浙,對(duì)于 scATAC-seq 數(shù)據(jù),必須結(jié)合使用補(bǔ)充方法進(jìn)行細(xì)胞群注釋秸歧。
目前有兩種方法進(jìn)行細(xì)胞類型注釋:
1. 基于ATAC peak的特征注釋
- 細(xì)胞聚類后厨姚,每個(gè)細(xì)胞群的差異可及性區(qū)域可能包含不同的調(diào)控元件。細(xì)胞身份注釋的第一種方法使用細(xì)胞群特異性的 peak 進(jìn)行注釋键菱,監(jiān)督或手動(dòng)注釋細(xì)胞群身份需要參考數(shù)據(jù)庫(kù)或有關(guān)細(xì)胞類型特定基因組特征(例如TF motif遣蚀,增強(qiáng)子,啟動(dòng)子和TSS)的文獻(xiàn)纱耻。基于細(xì)胞類型特異的基因列表险耀,啟動(dòng)子和 TSS 被最廣泛地用于細(xì)胞群注釋弄喘。一些簡(jiǎn)易的方法通過(guò)啟動(dòng)子或 TSS 上游一定距離內(nèi) peak 的存在來(lái)定義細(xì)胞類型特異性基因的可及性,而高級(jí)的分析則考慮了遠(yuǎn)端和近端調(diào)控因子的影響甩牺∧⒅荆“基因活性分?jǐn)?shù)”對(duì)與基因啟動(dòng)子區(qū)共開放元件給予不同權(quán)重,從而可以更準(zhǔn)確地利用染色質(zhì)可及性推斷基因表達(dá)水平贬派。與簡(jiǎn)單的使用啟動(dòng)子區(qū)可及性相比急但,基因活性分?jǐn)?shù)能更好的表征基因表達(dá)。Garnett 軟件利用基因活性分?jǐn)?shù)和已知細(xì)胞類型的先驗(yàn)特征及標(biāo)記基因?qū)?xì)胞類型進(jìn)行監(jiān)督分類搞乏。
2. 利用與參考 scRNA-seq 數(shù)據(jù)的整合進(jìn)行注釋
- 這種方法將來(lái)自 scRNA-seq 數(shù)據(jù)的基因表達(dá)矩陣與來(lái)自相同細(xì)胞類型的 scATAC-seq 數(shù)據(jù)的基因活性矩陣整合在一起波桩。將它們投影到最大相關(guān)維度后,使用 MNN 算法將細(xì)胞標(biāo)記從 scRNA-seq 數(shù)據(jù)轉(zhuǎn)移到 scATAC-seq 數(shù)據(jù)请敦。盡管具有高度主導(dǎo)的細(xì)胞類型或與其他組學(xué)數(shù)據(jù)不匹配的細(xì)胞類型的樣本顯示出準(zhǔn)確性方面的局限性镐躲,但細(xì)胞身份注釋的總體結(jié)果與匹配的數(shù)據(jù)集一致储玫。通過(guò)對(duì) scATAC-seq 數(shù)據(jù)中的細(xì)胞群體進(jìn)行半監(jiān)督識(shí)別,現(xiàn)有的參考 scRNA-seq 和 bulk ATAC-seq 數(shù)據(jù)可用于生成 scATAC-seq 樣本的網(wǎng)絡(luò)萤皂,進(jìn)而將標(biāo)簽進(jìn)行轉(zhuǎn)移撒穷。
以上便是關(guān)于scATAC-Seq的預(yù)處理分析和主要工具。實(shí)際上裆熙,我們一般選用一個(gè)集成化的工具箱完成所有分析端礼,從而避免選擇困難。
目前功能最全的scATAC-Seq分析工具有兩個(gè):哈佛大學(xué)Shirley Liu團(tuán)隊(duì)的MAESTRO和Greenleaf的ArchR入录。尤其是ArchR蛤奥,它能夠完成:Read預(yù)處理、QC纷跛、Peak Calling喻括、矩陣構(gòu)建、降維贫奠、可視化唬血、聚類、足跡(Footprinting)分析唤崭、共開放性(Co-accessibility)分析拷恨、軌跡(Trajectory)分析、整合分析和連接Peak和基因谢肾,等等腕侄。注意:ArchR除了采用MACS2對(duì)Fragments坐Peak Calling之外,它還具備一個(gè)基于Tile矩陣(即Bin = 500 bp的Bin-Cell矩陣)新的Peak Calling算法芦疏。兩者性能類似冕杠,但是作者更推薦用MACS2。關(guān)于足跡分析酸茴,ArchR能構(gòu)造出每個(gè)TF所結(jié)合的位點(diǎn)附近的Fragment覆蓋情況分预。
參考
http://blog.sciencenet.cn/home.php?mod=space&uid=3447504&do=blog&id=1301515