ATAC-seq 分析流程入門

ATAC-seq 全稱是 Assay for Transposase-Accessible Chromatin with high-throughput sequencing 可以理解為借助轉(zhuǎn)座酶對(duì)開放染色質(zhì)區(qū)域進(jìn)行高通量測(cè)序矮台。參見下面示意圖,它的主要原理是 Tn5 轉(zhuǎn)座酶可以對(duì)染色質(zhì)開放區(qū)域DNA切割并添加測(cè)序接頭熊锭,然后進(jìn)行高通量測(cè)序就取得了開放染色質(zhì)區(qū)域的測(cè)序數(shù)據(jù)舰讹。與其他技術(shù)比較(DNase-Seq, FAIRE-Seq) ATAC-seq 需要的細(xì)胞數(shù)目更少怠硼,同時(shí)實(shí)驗(yàn)步驟更簡(jiǎn)單耗時(shí)更少,高通量也是一個(gè)優(yōu)點(diǎn)一次性取得了所有的開放染色質(zhì)區(qū)域。


原理圖

文章 From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis 給出了完整的 ATAC-seq 分析流程忆家,我這里做個(gè)縮減版搬運(yùn)段审,文獻(xiàn)很簡(jiǎn)單感興趣的朋友建議看原文全蝶。同時(shí)部分圖片和知識(shí)點(diǎn)來(lái)源于別的文獻(xiàn),在參考部分列出寺枉。

總體分析步驟見下圖抑淫,主要包含三大部分。第一是數(shù)據(jù)前期處理姥闪,包含質(zhì)控以及比對(duì)等始苇;第二是各種相關(guān)的分析,其中最核心的是 Peak calling 也即分析有哪些區(qū)域是開放染色質(zhì)的筐喳;第三是與其他技術(shù)數(shù)據(jù)的聯(lián)合分析催式。


流程圖

下面簡(jiǎn)單介紹一些步驟的分析內(nèi)容,抑或是分析要求注意事項(xiàng)等避归。

質(zhì)控
與常規(guī)高通量測(cè)序無(wú)異荣月。

比對(duì)
要有 80% 以上比對(duì)率,于人種而言要進(jìn)行開放染色質(zhì)檢測(cè)和差異分析梳毙,最低匹配 reads 數(shù)應(yīng)是 50000000, TF footprinting 分析要求 200000000 哺窄。
比對(duì)后需要移除 線粒體和 ENCODE blacklist 區(qū)域。線粒體基因組因?yàn)闊o(wú)染色質(zhì)結(jié)構(gòu)是完全開放的會(huì)信號(hào)很強(qiáng)顿天;ENCODE blacklisted 區(qū)域是高通量測(cè)序在人基因組一些異常堂氯、無(wú)信號(hào)或高信號(hào)區(qū)域,這些區(qū)域異常情況跟實(shí)驗(yàn)無(wú)關(guān)牌废,應(yīng)是技術(shù)問題咽白,所以也要移除。

Here, we define the ENCODE blacklist- a comprehensive set of regions in the human, mouse, worm, and fly genomes that have anomalous, unstructured, or high signal in next-generation sequencing experiments independent of cell line or experiment. The removal of the ENCODE blacklist is an essential quality measure when analyzing functional genomics data.

Duplicated reads 也應(yīng)進(jìn)行移除鸟缕。
除此之外晶框,ATAC-seq 對(duì) reads 長(zhǎng)度分布有所要求,如下面兩圖所示懂从。reads 長(zhǎng)度分布應(yīng)該是下降的授段,但是對(duì)應(yīng)于無(wú)核糖體區(qū)域(nucleosome-free regions, NFR)、單番甩、雙侵贵、三(甚至更多)核小體長(zhǎng)度(~ 200, 400, 600 bp)有凸起小峰。下面第三圖展示NFR區(qū)域往往是TSS區(qū)域缘薛,而TSS側(cè)翼往往是單核小體區(qū)域窍育。最后卡睦,要注意因?yàn)檗D(zhuǎn)座酶導(dǎo)致的9BP的重復(fù),reads應(yīng)在正負(fù)鏈分別移動(dòng) +4 和 -5 bp.


Reads分布1
Reads分布2
NFR_TSS.

Peak calling & Peak differential analysis
依據(jù)算法不同漱抓,文章將軟件如下圖分類表锻,其中只有 MACS2 是專門為 ATAC-seq 開發(fā)軟件,推薦使用 MACS2HOMER 進(jìn)行 Peak calling.
至于 Peak differential analysis 目前沒有針對(duì) ATAC-seq 專門開發(fā)的工具乞娄,對(duì)于那些借鑒 RNA-seq 差異基因分析的工具/方法瞬逊,考慮到峰形狀和分布也是非常重要的差異信息,作者認(rèn)為如果有工具能夠包含這點(diǎn)仪或,應(yīng)該能取得更好的結(jié)果确镊。

Peak annotation
取得峰后進(jìn)行 feature 注釋,像基因范删、外顯子骚腥、5'UTR、3'UTR等等瓶逃。注釋后也可以進(jìn)行一些通路富集分析等束铭。

Motifs
轉(zhuǎn)錄因子往往需要識(shí)別和結(jié)合在特定序列上,這些特定序列就叫 motif厢绝,結(jié)合的區(qū)域稱為 TFBS(TF binding sites). ASPAR 就是個(gè)包含許多物種的 TFBS 數(shù)據(jù)庫(kù)契沫。有了 motif 數(shù)據(jù)庫(kù)后就可以分析那些 peaks 是富集了 motifs 的,要注意的是這些分析都是基于 peak 區(qū)域的序列進(jìn)行的昔汉,容易有假陽(yáng)性懈万。

Footprints
Footprints 是指在開放染色質(zhì)區(qū)域有部分區(qū)域因?yàn)檗D(zhuǎn)錄因子結(jié)合阻止了 Tn5 轉(zhuǎn)錄酶的結(jié)合切割,導(dǎo)致該區(qū)域的 reads 比同開放染色質(zhì)其他區(qū)域少靶病。尋找 Footprint 工具可以分為 de novo 和 motif-centric 2類会通,前者根據(jù) reads 在 Footprint 區(qū)域減少的特征尋找出全部 Footprint,后者根據(jù)已有的 TFBS 數(shù)據(jù)娄周,來(lái)分析相應(yīng) TFBS 是處于結(jié)合還是非結(jié)合狀態(tài)涕侈。

[參考]
What is ATAC-Seq & How Does it Work?
Amemiya, H.M., Kundaje, A. & Boyle, A.P. The ENCODE Blacklist: Identification of Problematic Regions of the Genome. Sci Rep 9, 9354 (2019). https://doi.org/10.1038/s41598-019-45839-z
Yan, F., Powell, D.R., Curtis, D.J. et al. From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis. Genome Biol 21, 22 (2020). https://doi.org/10.1186/s13059-020-1929-3
Buenrostro, Jason D., et al. "Transposition of native chromatin for multimodal regulatory analysis and personal epigenomics." Nature methods 10.12 (2013): 1213.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市煤辨,隨后出現(xiàn)的幾起案子裳涛,更是在濱河造成了極大的恐慌,老刑警劉巖众辨,帶你破解...
    沈念sama閱讀 222,807評(píng)論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件端三,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡鹃彻,警方通過(guò)查閱死者的電腦和手機(jī)郊闯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,284評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人团赁,你說(shuō)我怎么就攤上這事旋奢。” “怎么了然痊?”我有些...
    開封第一講書人閱讀 169,589評(píng)論 0 363
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)屉符。 經(jīng)常有香客問我剧浸,道長(zhǎng),這世上最難降的妖魔是什么矗钟? 我笑而不...
    開封第一講書人閱讀 60,188評(píng)論 1 300
  • 正文 為了忘掉前任唆香,我火速辦了婚禮,結(jié)果婚禮上吨艇,老公的妹妹穿的比我還像新娘躬它。我一直安慰自己,他們只是感情好东涡,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,185評(píng)論 6 398
  • 文/花漫 我一把揭開白布冯吓。 她就那樣靜靜地躺著,像睡著了一般疮跑。 火紅的嫁衣襯著肌膚如雪组贺。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,785評(píng)論 1 314
  • 那天祖娘,我揣著相機(jī)與錄音失尖,去河邊找鬼。 笑死渐苏,一個(gè)胖子當(dāng)著我的面吹牛掀潮,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播琼富,決...
    沈念sama閱讀 41,220評(píng)論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼仪吧,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了鞠眉?” 一聲冷哼從身側(cè)響起邑商,我...
    開封第一講書人閱讀 40,167評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎凡蚜,沒想到半個(gè)月后人断,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,698評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡朝蜘,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,767評(píng)論 3 343
  • 正文 我和宋清朗相戀三年恶迈,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,912評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡暇仲,死狀恐怖步做,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情奈附,我是刑警寧澤全度,帶...
    沈念sama閱讀 36,572評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站斥滤,受9級(jí)特大地震影響将鸵,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜佑颇,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,254評(píng)論 3 336
  • 文/蒙蒙 一顶掉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧挑胸,春花似錦痒筒、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,746評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至解藻,卻和暖如春萎战,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背舆逃。 一陣腳步聲響...
    開封第一講書人閱讀 33,859評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工蚂维, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人路狮。 一個(gè)月前我還...
    沈念sama閱讀 49,359評(píng)論 3 379
  • 正文 我出身青樓虫啥,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親奄妨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子涂籽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,922評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • 作者 | Arno審稿 | 童蒙編輯 | amethyst 上一期我們介紹了ATAC-seq相關(guān)的背景知識(shí)。ATA...
    生信阿拉丁閱讀 18,321評(píng)論 5 40
  • 背景: 染色質(zhì)和染色體的結(jié)構(gòu)和功能 每一條染色單體由單個(gè)線性DNA分子組成砸抛。細(xì)胞核中的DNA是經(jīng)過(guò)高度有序的包裝评雌,...
    xuzhougeng閱讀 36,168評(píng)論 10 93
  • 理解ChIP-Seq 到了目前這個(gè)水平,我學(xué)習(xí)新的高通量數(shù)據(jù)分析流程時(shí)已經(jīng)不再考慮代碼應(yīng)該如何寫的問題了直焙。我更多要...
    xuzhougeng閱讀 66,750評(píng)論 11 154
  • 作者 | Arno審稿 | 童蒙編輯 | amethyst ATAC-seq技術(shù)由于其要求細(xì)胞量少景东,實(shí)驗(yàn)簡(jiǎn)單、快速...
    生信阿拉丁閱讀 4,732評(píng)論 0 11
  • ATAC-Seq簡(jiǎn)介 ATAC-seq(Assay for Transposase-Accessible Chro...
    六六_ryx閱讀 52,101評(píng)論 10 122