ATAC-seq 全稱是 Assay for Transposase-Accessible Chromatin with high-throughput sequencing 可以理解為借助轉(zhuǎn)座酶對(duì)開放染色質(zhì)區(qū)域進(jìn)行高通量測(cè)序矮台。參見下面示意圖,它的主要原理是 Tn5 轉(zhuǎn)座酶可以對(duì)染色質(zhì)開放區(qū)域DNA切割并添加測(cè)序接頭熊锭,然后進(jìn)行高通量測(cè)序就取得了開放染色質(zhì)區(qū)域的測(cè)序數(shù)據(jù)舰讹。與其他技術(shù)比較(DNase-Seq, FAIRE-Seq) ATAC-seq 需要的細(xì)胞數(shù)目更少怠硼,同時(shí)實(shí)驗(yàn)步驟更簡(jiǎn)單耗時(shí)更少,高通量也是一個(gè)優(yōu)點(diǎn)一次性取得了所有的開放染色質(zhì)區(qū)域。
文章 From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis 給出了完整的 ATAC-seq 分析流程忆家,我這里做個(gè)縮減版搬運(yùn)段审,文獻(xiàn)很簡(jiǎn)單感興趣的朋友建議看原文全蝶。同時(shí)部分圖片和知識(shí)點(diǎn)來(lái)源于別的文獻(xiàn),在參考部分列出寺枉。
總體分析步驟見下圖抑淫,主要包含三大部分。第一是數(shù)據(jù)前期處理姥闪,包含質(zhì)控以及比對(duì)等始苇;第二是各種相關(guān)的分析,其中最核心的是 Peak calling 也即分析有哪些區(qū)域是開放染色質(zhì)的筐喳;第三是與其他技術(shù)數(shù)據(jù)的聯(lián)合分析催式。
下面簡(jiǎn)單介紹一些步驟的分析內(nèi)容,抑或是分析要求注意事項(xiàng)等避归。
質(zhì)控
與常規(guī)高通量測(cè)序無(wú)異荣月。
比對(duì)
要有 80% 以上比對(duì)率,于人種而言要進(jìn)行開放染色質(zhì)檢測(cè)和差異分析梳毙,最低匹配 reads 數(shù)應(yīng)是 50000000, TF footprinting 分析要求 200000000 哺窄。
比對(duì)后需要移除 線粒體和 ENCODE blacklist 區(qū)域。線粒體基因組因?yàn)闊o(wú)染色質(zhì)結(jié)構(gòu)是完全開放的會(huì)信號(hào)很強(qiáng)顿天;ENCODE blacklisted 區(qū)域是高通量測(cè)序在人基因組一些異常堂氯、無(wú)信號(hào)或高信號(hào)區(qū)域,這些區(qū)域異常情況跟實(shí)驗(yàn)無(wú)關(guān)牌废,應(yīng)是技術(shù)問題咽白,所以也要移除。
Here, we define the ENCODE blacklist- a comprehensive set of regions in the human, mouse, worm, and fly genomes that have anomalous, unstructured, or high signal in next-generation sequencing experiments independent of cell line or experiment. The removal of the ENCODE blacklist is an essential quality measure when analyzing functional genomics data.
Duplicated reads 也應(yīng)進(jìn)行移除鸟缕。
除此之外晶框,ATAC-seq 對(duì) reads 長(zhǎng)度分布有所要求,如下面兩圖所示懂从。reads 長(zhǎng)度分布應(yīng)該是下降的授段,但是對(duì)應(yīng)于無(wú)核糖體區(qū)域(nucleosome-free regions, NFR)、單番甩、雙侵贵、三(甚至更多)核小體長(zhǎng)度(~ 200, 400, 600 bp)有凸起小峰。下面第三圖展示NFR區(qū)域往往是TSS區(qū)域缘薛,而TSS側(cè)翼往往是單核小體區(qū)域窍育。最后卡睦,要注意因?yàn)檗D(zhuǎn)座酶導(dǎo)致的9BP的重復(fù),reads應(yīng)在正負(fù)鏈分別移動(dòng) +4 和 -5 bp.
Peak calling & Peak differential analysis
依據(jù)算法不同漱抓,文章將軟件如下圖分類表锻,其中只有 MACS2 是專門為 ATAC-seq 開發(fā)軟件,推薦使用 MACS2 和 HOMER 進(jìn)行 Peak calling.
至于 Peak differential analysis 目前沒有針對(duì) ATAC-seq 專門開發(fā)的工具乞娄,對(duì)于那些借鑒 RNA-seq 差異基因分析的工具/方法瞬逊,考慮到峰形狀和分布也是非常重要的差異信息,作者認(rèn)為如果有工具能夠包含這點(diǎn)仪或,應(yīng)該能取得更好的結(jié)果确镊。
Peak annotation
取得峰后進(jìn)行 feature 注釋,像基因范删、外顯子骚腥、5'UTR、3'UTR等等瓶逃。注釋后也可以進(jìn)行一些通路富集分析等束铭。
Motifs
轉(zhuǎn)錄因子往往需要識(shí)別和結(jié)合在特定序列上,這些特定序列就叫 motif厢绝,結(jié)合的區(qū)域稱為 TFBS(TF binding sites). ASPAR 就是個(gè)包含許多物種的 TFBS 數(shù)據(jù)庫(kù)契沫。有了 motif 數(shù)據(jù)庫(kù)后就可以分析那些 peaks 是富集了 motifs 的,要注意的是這些分析都是基于 peak 區(qū)域的序列進(jìn)行的昔汉,容易有假陽(yáng)性懈万。
Footprints
Footprints 是指在開放染色質(zhì)區(qū)域有部分區(qū)域因?yàn)檗D(zhuǎn)錄因子結(jié)合阻止了 Tn5 轉(zhuǎn)錄酶的結(jié)合切割,導(dǎo)致該區(qū)域的 reads 比同開放染色質(zhì)其他區(qū)域少靶病。尋找 Footprint 工具可以分為 de novo 和 motif-centric 2類会通,前者根據(jù) reads 在 Footprint 區(qū)域減少的特征尋找出全部 Footprint,后者根據(jù)已有的 TFBS 數(shù)據(jù)娄周,來(lái)分析相應(yīng) TFBS 是處于結(jié)合還是非結(jié)合狀態(tài)涕侈。
[參考]
What is ATAC-Seq & How Does it Work?
Amemiya, H.M., Kundaje, A. & Boyle, A.P. The ENCODE Blacklist: Identification of Problematic Regions of the Genome. Sci Rep 9, 9354 (2019). https://doi.org/10.1038/s41598-019-45839-z
Yan, F., Powell, D.R., Curtis, D.J. et al. From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis. Genome Biol 21, 22 (2020). https://doi.org/10.1186/s13059-020-1929-3
Buenrostro, Jason D., et al. "Transposition of native chromatin for multimodal regulatory analysis and personal epigenomics." Nature methods 10.12 (2013): 1213.