ATAC-seq 分析流程入門

ATAC-seq 全稱是 Assay for Transposase-Accessible Chromatin with high-throughput sequencing 可以理解為借助轉(zhuǎn)座酶對(duì)開放染色質(zhì)區(qū)域進(jìn)行高通量測(cè)序矮台。參見下面示意圖，它的主要原理是 Tn5 轉(zhuǎn)座酶可以對(duì)染色質(zhì)開放區(qū)域DNA切割并添加測(cè)序接頭熊锭，然后進(jìn)行高通量測(cè)序就取得了開放染色質(zhì)區(qū)域的測(cè)序數(shù)據(jù)舰讹。與其他技術(shù)比較(DNase-Seq, FAIRE-Seq) ATAC-seq 需要的細(xì)胞數(shù)目更少怠硼，同時(shí)實(shí)驗(yàn)步驟更簡(jiǎn)單耗時(shí)更少，高通量也是一個(gè)優(yōu)點(diǎn)一次性取得了所有的開放染色質(zhì)區(qū)域。

原理圖

文章 From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis 給出了完整的 ATAC-seq 分析流程忆家，我這里做個(gè)縮減版搬運(yùn)段审，文獻(xiàn)很簡(jiǎn)單感興趣的朋友建議看原文全蝶。同時(shí)部分圖片和知識(shí)點(diǎn)來(lái)源于別的文獻(xiàn)，在參考部分列出寺枉。

總體分析步驟見下圖抑淫，主要包含三大部分。第一是數(shù)據(jù)前期處理姥闪，包含質(zhì)控以及比對(duì)等始苇；第二是各種相關(guān)的分析，其中最核心的是 Peak calling 也即分析有哪些區(qū)域是開放染色質(zhì)的筐喳；第三是與其他技術(shù)數(shù)據(jù)的聯(lián)合分析催式。

流程圖

下面簡(jiǎn)單介紹一些步驟的分析內(nèi)容，抑或是分析要求注意事項(xiàng)等避归。

質(zhì)控
與常規(guī)高通量測(cè)序無(wú)異荣月。

比對(duì)
要有 80% 以上比對(duì)率，于人種而言要進(jìn)行開放染色質(zhì)檢測(cè)和差異分析梳毙，最低匹配 reads 數(shù)應(yīng)是 50000000, TF footprinting 分析要求 200000000 哺窄。
比對(duì)后需要移除 線粒體和 ENCODE blacklist 區(qū)域。線粒體基因組因?yàn)闊o(wú)染色質(zhì)結(jié)構(gòu)是完全開放的會(huì)信號(hào)很強(qiáng)顿天；ENCODE blacklisted 區(qū)域是高通量測(cè)序在人基因組一些異常堂氯、無(wú)信號(hào)或高信號(hào)區(qū)域，這些區(qū)域異常情況跟實(shí)驗(yàn)無(wú)關(guān)牌废，應(yīng)是技術(shù)問題咽白，所以也要移除。

Here, we define the ENCODE blacklist- a comprehensive set of regions in the human, mouse, worm, and fly genomes that have anomalous, unstructured, or high signal in next-generation sequencing experiments independent of cell line or experiment. The removal of the ENCODE blacklist is an essential quality measure when analyzing functional genomics data.

Duplicated reads 也應(yīng)進(jìn)行移除鸟缕。
除此之外晶框，ATAC-seq 對(duì) reads 長(zhǎng)度分布有所要求，如下面兩圖所示懂从。reads 長(zhǎng)度分布應(yīng)該是下降的授段，但是對(duì)應(yīng)于無(wú)核糖體區(qū)域(nucleosome-free regions, NFR)、單番甩、雙侵贵、三(甚至更多)核小體長(zhǎng)度(~ 200, 400, 600 bp)有凸起小峰。下面第三圖展示NFR區(qū)域往往是TSS區(qū)域缘薛，而TSS側(cè)翼往往是單核小體區(qū)域窍育。最后卡睦，要注意因?yàn)檗D(zhuǎn)座酶導(dǎo)致的9BP的重復(fù)，reads應(yīng)在正負(fù)鏈分別移動(dòng) +4 和 -5 bp.

Reads分布1

Reads分布2

NFR_TSS.

Peak calling & Peak differential analysis
依據(jù)算法不同漱抓，文章將軟件如下圖分類表锻，其中只有 MACS2 是專門為 ATAC-seq 開發(fā)軟件，推薦使用 MACS2 和 HOMER 進(jìn)行 Peak calling.
至于 Peak differential analysis 目前沒有針對(duì) ATAC-seq 專門開發(fā)的工具乞娄，對(duì)于那些借鑒 RNA-seq 差異基因分析的工具/方法瞬逊，考慮到峰形狀和分布也是非常重要的差異信息，作者認(rèn)為如果有工具能夠包含這點(diǎn)仪或，應(yīng)該能取得更好的結(jié)果确镊。

Peak annotation
取得峰后進(jìn)行 feature 注釋，像基因范删、外顯子骚腥、5'UTR、3'UTR等等瓶逃。注釋后也可以進(jìn)行一些通路富集分析等束铭。

Motifs
轉(zhuǎn)錄因子往往需要識(shí)別和結(jié)合在特定序列上，這些特定序列就叫 motif厢绝，結(jié)合的區(qū)域稱為 TFBS(TF binding sites). ASPAR 就是個(gè)包含許多物種的 TFBS 數(shù)據(jù)庫(kù)契沫。有了 motif 數(shù)據(jù)庫(kù)后就可以分析那些 peaks 是富集了 motifs 的，要注意的是這些分析都是基于 peak 區(qū)域的序列進(jìn)行的昔汉，容易有假陽(yáng)性懈万。

Footprints
Footprints 是指在開放染色質(zhì)區(qū)域有部分區(qū)域因?yàn)檗D(zhuǎn)錄因子結(jié)合阻止了 Tn5 轉(zhuǎn)錄酶的結(jié)合切割，導(dǎo)致該區(qū)域的 reads 比同開放染色質(zhì)其他區(qū)域少靶病。尋找 Footprint 工具可以分為 de novo 和 motif-centric 2類会通，前者根據(jù) reads 在 Footprint 區(qū)域減少的特征尋找出全部 Footprint，后者根據(jù)已有的 TFBS 數(shù)據(jù)娄周，來(lái)分析相應(yīng) TFBS 是處于結(jié)合還是非結(jié)合狀態(tài)涕侈。

[參考]
What is ATAC-Seq & How Does it Work?
Amemiya, H.M., Kundaje, A. & Boyle, A.P. The ENCODE Blacklist: Identification of Problematic Regions of the Genome. Sci Rep 9, 9354 (2019). https://doi.org/10.1038/s41598-019-45839-z
Yan, F., Powell, D.R., Curtis, D.J. et al. From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis. Genome Biol 21, 22 (2020). https://doi.org/10.1186/s13059-020-1929-3
Buenrostro, Jason D., et al. "Transposition of native chromatin for multimodal regulatory analysis and personal epigenomics." Nature methods 10.12 (2013): 1213.

最后編輯于：2020.07.17 16:39:20

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市煤辨，隨后出現(xiàn)的幾起案子裳涛，更是在濱河造成了極大的恐慌，老刑警劉巖众辨，帶你破解...
沈念sama閱讀 222,807評(píng)論 6贊 518
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件端三，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡鹃彻，警方通過(guò)查閱死者的電腦和手機(jī)郊闯，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,284評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人团赁，你說(shuō)我怎么就攤上這事旋奢。” “怎么了然痊？”我有些...
開封第一講書人閱讀 169,589評(píng)論 0贊 363
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)屉符。經(jīng)常有香客問我剧浸，道長(zhǎng)，這世上最難降的妖魔是什么矗钟？我笑而不...
開封第一講書人閱讀 60,188評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任唆香，我火速辦了婚禮，結(jié)果婚禮上吨艇，老公的妹妹穿的比我還像新娘躬它。我一直安慰自己，他們只是感情好东涡，可當(dāng)我...
茶點(diǎn)故事閱讀 69,185評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布冯吓。她就那樣靜靜地躺著，像睡著了一般疮跑。火紅的嫁衣襯著肌膚如雪组贺。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,785評(píng)論 1贊 314
城市分裂傳說(shuō)
那天祖娘，我揣著相機(jī)與錄音失尖，去河邊找鬼。笑死渐苏，一個(gè)胖子當(dāng)著我的面吹牛掀潮，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播琼富，決...
沈念sama閱讀 41,220評(píng)論 3贊 423
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼仪吧，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了鞠眉？” 一聲冷哼從身側(cè)響起邑商，我...
開封第一講書人閱讀 40,167評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎凡蚜，沒想到半個(gè)月后人断，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,698評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡朝蜘，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,767評(píng)論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年恶迈，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,912評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡暇仲，死狀恐怖步做，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情奈附，我是刑警寧澤全度，帶...
沈念sama閱讀 36,572評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站斥滤，受9級(jí)特大地震影響将鸵，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜佑颇，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,254評(píng)論 3贊 336
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一顶掉、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧挑胸，春花似錦痒筒、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,746評(píng)論 0贊 25
一樁弒父案簿透，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至解藻，卻和暖如春萎战，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背舆逃。一陣腳步聲響...
開封第一講書人閱讀 33,859評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工蚂维，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人路狮。一個(gè)月前我還...
沈念sama閱讀 49,359評(píng)論 3贊 379
代替公主和親
正文我出身青樓虫啥，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親奄妨。傳聞我的和親對(duì)象是個(gè)殘疾皇子涂籽，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,922評(píng)論 2贊 361

ATAC-seq 分析流程入門

推薦閱讀更多精彩內(nèi)容