ATAC-seq
ATAC-seq(Assay for Transposase-Accessible Chromatin with highthroughput sequencing)是利用轉(zhuǎn)座酶研究染色質(zhì)可及性的高通量測序技術(shù)熟嫩。
染色質(zhì)可及性
首先介紹一下什么是染色質(zhì)可及性勾效。正常情況下衩匣,DNA與核小體纏繞折疊在一起形成染色質(zhì),但是DNA的復(fù)制原押、轉(zhuǎn)錄都需要將染色體的高級(jí)結(jié)構(gòu)解開周崭,然而解開并不需要打開全部染色體察绷,只需要打開表達(dá)基因的區(qū)域炮叶,這部分打開的染色質(zhì)答朋,就叫開放染色質(zhì)(open chromatin)贷揽。而染色質(zhì)一旦打開,就允許一些調(diào)控蛋白(比如轉(zhuǎn)錄因子和輔因子)跑過來與之相結(jié)合梦碗。而染色質(zhì)的這種特性禽绪,就叫做染色質(zhì)的可及性(chromatin accessibility)。
ATAC-seq原理
DNA轉(zhuǎn)座洪规,是一種把DNA序列從染色體的一個(gè)區(qū)域搬運(yùn)到另外一個(gè)區(qū)域的現(xiàn)象印屁,由DNA轉(zhuǎn)座酶來實(shí)現(xiàn)。這種轉(zhuǎn)座插入DNA斩例,需要插入位點(diǎn)的染色質(zhì)是開放的雄人,因此,如下圖A念赶,我們只要人為地將攜帶已知DNA序列標(biāo)簽的轉(zhuǎn)座復(fù)合物(即帶著紅色藍(lán)色測序標(biāo)簽的轉(zhuǎn)座酶Tn5)加入到細(xì)胞核中础钠,這樣他就會(huì)插入到開放的染色質(zhì)區(qū)域,再利用已知序列的標(biāo)簽進(jìn)行PCR后測序叉谜,就知道哪些區(qū)域是開放染色質(zhì)了旗吁,這也就是ATAC-seq的原理。最后得到的DNA片段停局,包括了開放區(qū)域的剪切片段很钓,也包括了橫跨一個(gè)或多個(gè)核小體的長片段。
根據(jù)片段長度董栽,可以將片段分為分為Fragments in nucleosome-free regions(<147 base pairs)(不包含核小體的片段)履怯、Fragments flanking a single nucleosome (147~294 base pairs)(包含一個(gè)核小體的片段), 以及更長的多核片段。片段長度分布如下圖裆泳,不包含核小體的片段最多叹洲,其次是單核片段,依次遞減工禾。
ATAC-seq出來的結(jié)果运提,和傳統(tǒng)方法出來的結(jié)果具有很強(qiáng)的一致性,同時(shí)也和基于組蛋白修飾marker的ChIP-seq有較高的吻合程度闻葵。也就是說民泵,ATAC-seq中的peak,往往是啟動(dòng)子槽畔、增強(qiáng)子序列栈妆,以及一些反式調(diào)控因子結(jié)合的位點(diǎn)。
scATAC-seq建庫原理
ATAC-seq是把所有實(shí)驗(yàn)細(xì)胞看作了一個(gè)整體,獲得所有細(xì)胞混合的基因信息鳞尔。scATAC-seq是在ATAC-seq的基礎(chǔ)上嬉橙,進(jìn)行細(xì)胞核的分選和標(biāo)記通過barcode識(shí)別細(xì)胞核,解決了不同細(xì)胞群體的異質(zhì)性的問題寥假,能夠檢測出混雜樣品測序所無法得到的異質(zhì)性信息市框。
以10x 建庫方法為例,比較scATAC-seq 和scRNA-seq建庫方法的異同
二者都用膠珠(GEMs)的方法糕韧,不一樣的是ATAC膠珠上的序列中不用UMI枫振,因?yàn)榛蚪M只有一對(duì)序列,無需像RNA一樣定量萤彩。另外序列末端用接頭引物Read 1N代替PolyT粪滤。
scRNA-seq通過結(jié)合cDNA的PolyA尾進(jìn)行擴(kuò)增,而scATAC-seq的DNA片段沒有PolyA尾雀扶,取而代之的是Tn5酶轉(zhuǎn)座剪切時(shí)插入的adaptors片段杖小,可以與膠珠上的Read 1N序列互補(bǔ)。
DNA片段接上膠珠后怕吴,在另一端加Read2和Sample index序列窍侧。在此之前,scRNA-seq需要將cDNA酶切至合適的片段長度转绷,而scATAC-seq的片段不進(jìn)行打碎伟件,接上Sample index和P7序列后進(jìn)行擴(kuò)增。
最后上機(jī)測序议经。scRNAseq如果是3‘單端測序斧账,Read2讀取最近的100bp讀長,而Read1只讀取16bp的細(xì)胞barcode序列和10bp的UMI序列煞肾,共26bp咧织。scATAC-seq則用雙末端測序,讀長一般不低于45bp籍救。
scATAC-seq最后可以得到4個(gè)原始文件:
其中I1/2分別是barcode和sample index习绢,R1/2是目的片段的雙末端。
下游分析(以Signac為例)
Signac包由Seurat同一團(tuán)隊(duì)開發(fā)蝙昙,獨(dú)立于Seurat包闪萄,在2020年8月開始發(fā)布在GitHub上。目前仍是1.0.0版本奇颠。
1.?加載peaks, 細(xì)胞注釋和片段分布數(shù)據(jù)败去,并創(chuàng)建object。這個(gè)object和Seurat object類似烈拒,只是在assay里多了peaks等信息圆裕。這里的features不是基因广鳍,而是基因組的注釋區(qū)域,如啟動(dòng)子吓妆,增強(qiáng)子等赊时。
2.?質(zhì)控
3.?降維聚類
4.?創(chuàng)建基因活性矩陣。之前的聚類區(qū)域所用的features是peaks耿战,為了展示不同分群基因活性的差異蛋叼,首先要將scATAC-seq數(shù)據(jù)產(chǎn)生的peak matrix轉(zhuǎn)換整合成一個(gè)gene activity matrix(基因活性矩陣)焊傅。我們基于這樣一個(gè)簡單的假設(shè):基因的表達(dá)活性可以簡單的通過基因上下游2kb范圍內(nèi)覆蓋的reads數(shù)的加和進(jìn)行定量剂陡,最后獲得一個(gè)gene * cell的表達(dá)矩陣
5.?與scRNA-seq數(shù)據(jù)的整合分析
6.?尋找細(xì)胞分群特異的peaks
7.?展示基因在不同細(xì)胞類型的開放程度
8.?此外還有其他分析,如TF footprinting等狐胎。footprinting顧名思義是指轉(zhuǎn)錄因子留下的印記鸭栖,由于Tn5酶不能剪切到TF結(jié)合的區(qū)域,所以footprinting圖相對(duì)與TSS圖握巢,中間有“凹陷”晕鹊,凹陷的程度根據(jù)TF結(jié)合的時(shí)間確定