背景知識
????真核生物的?DNA?并不是裸露的饭于,而是會(huì)與組蛋白結(jié)合翘簇。DNA?纏繞在組蛋白上撬码,形成串珠式結(jié)構(gòu),珠是組蛋白版保,線是DNA耍群。這樣的結(jié)構(gòu)進(jìn)一步折疊,并在其它蛋白的輔助下形成染色質(zhì)找筝。
????染色質(zhì),染色體
????在細(xì)胞周期的不同時(shí)期慷吊,DNA的濃縮程度不同袖裕,間期表現(xiàn)為染色質(zhì)具有轉(zhuǎn)錄活性,而中期染色體是轉(zhuǎn)錄惰性溉瓶。細(xì)胞主要處于分裂間期急鳄,所以DNA大部分時(shí)間都是染色質(zhì)而不是染色體,只不過大家喜歡用染色體泛指染色質(zhì)和染色體堰酿。間期染色體其實(shí)并非隨機(jī)地彌漫在細(xì)胞核中疾宏,不同的染色體占據(jù)相對獨(dú)立的空間,染色體在細(xì)胞核所占的空間稱之為染色體領(lǐng)地(chromosome territory, CT)触创。研究發(fā)現(xiàn)坎藐,貧基因(gene-poor)的染色體領(lǐng)域一般傾向于靠近核膜,而富含基因(gene-rich)的染色體領(lǐng)地通常位于細(xì)胞核內(nèi)部哼绑。這也反應(yīng)了人類社會(huì)的情況岩馍,富人處于核心區(qū),窮人在邊緣地帶(xuzhougeng)抖韩。
????核小體
? ??核小體是真核細(xì)胞染色質(zhì)的基本結(jié)構(gòu)單位蛀恩,由DNA和組蛋白構(gòu)成。每個(gè)核小體由146bp(147茂浮?)的DNA纏繞在八聚體的組蛋白上形成双谆,兩個(gè)核小體之間通過一段連接DNA相連壳咕,DNA與組蛋白的結(jié)合可以發(fā)生動(dòng)態(tài)變化。兩個(gè)核小體之間通過一段連接DNA相連顽馋。纏繞在組蛋白上的DNA不易被核酸酶消化谓厘,也不易與其它蛋白結(jié)合,這些DNA通常處于表達(dá)抑制的狀態(tài)趣避。
????組蛋白:histone庞呕,通常含有H1,H2A程帕,H2B住练,H3,H4等5種成分愁拭,其中H1與H3極度富含賴氨酸(lysine)讲逛,H1不保守,其他組蛋白的基因非常保守岭埠。除H1外盏混,其他4種組蛋白均分別以二聚體(共八聚體)相結(jié)合,形成核小體核心惜论。DNA便纏繞在核小體的核心上许赃。而H1則與核小體間的DNA結(jié)合。
????染色質(zhì)開放區(qū)沟于,染色質(zhì)的可及性
? ? DNA內(nèi)切酶可以對染色質(zhì)進(jìn)行切割咳胃,這些切割位點(diǎn)稱為DNA超敏感位點(diǎn)。沒有核小體結(jié)合的DNA區(qū)域容易被核酸酶切割旷太,DNA超敏感位點(diǎn)就位于這個(gè)區(qū)域展懈,這些位點(diǎn)的分布往往具有一定的規(guī)律性——切割后的DNA片段都在100-200bp左右。這些DNA片段就稱為染色質(zhì)開放區(qū)或者開放染色質(zhì)(accessible chromatin regions供璧,ACRs)标沪。(開放染色質(zhì)區(qū)沒有核小體結(jié)合)
????開放染色質(zhì)區(qū)通常包含的功能元件有啟動(dòng)子、增強(qiáng)子嗜傅,沉默子金句、絕緣子等。調(diào)控蛋白(如轉(zhuǎn)錄因子)過來結(jié)合吕嘀,可以影響細(xì)胞內(nèi)基因復(fù)制以及調(diào)控基因的轉(zhuǎn)錄活性违寞。DNA的這種被結(jié)合的特性稱為染色質(zhì)的可及性(chromatin accessibility)贞瞒。
? ??這篇【NP | 2019】根據(jù)ACRs距離最近基因的距離將ACRs分為三種類型:genic (gACRs; overlapping a gene), proximal (pACRs; within 2?kb of a gene) or distal (dACRs; >2?kb from a gene),分別是跨越基因的趁曼,近端的军浆,遠(yuǎn)端的染色質(zhì)開放區(qū)。
ATAC-seq
??????ATAC-seq(Assay for Transposase-Accessible Chromatin with highthroughput sequencing)
????科學(xué)家們設(shè)計(jì)了實(shí)驗(yàn)方法挡闰,利用?Tn5?酶可以進(jìn)入細(xì)胞核并切割暴露的?DNA乒融,并且?Tn5?酶在切割的同時(shí)可以在?DNA?的兩端連上已知?DNA?序列標(biāo)簽,利用已知?DNA?序列的標(biāo)簽進(jìn)行?PCR?擴(kuò)增后測序摄悯,就可以識別出染色質(zhì)開放區(qū)域赞季,從而捕獲調(diào)控序列的信息。
主要實(shí)驗(yàn)流程
? ??詳:
?????1?提取細(xì)胞核:對于組織樣品而言奢驯,首先是要提取細(xì)胞核申钩,提取完成后,利用細(xì)胞計(jì)數(shù)儀計(jì)數(shù)瘪阁,并取5萬個(gè)細(xì)胞核備用撒遣;而對于細(xì)胞樣品而言,就不需要提取細(xì)胞核這一步了管跺,而是將梯度降溫保存的細(xì)胞在?37℃?下復(fù)蘇义黎、洗滌后,利用細(xì)胞計(jì)數(shù)儀計(jì)數(shù)豁跑,取5萬個(gè)細(xì)胞備用轩缤。
????2 Tn5?轉(zhuǎn)座酶切割:將攜帶部分接頭的?Tn5?轉(zhuǎn)座酶和5萬個(gè)細(xì)胞核(或細(xì)胞)進(jìn)行孵育。Tn5?轉(zhuǎn)座酶可以進(jìn)入并切割染色質(zhì)開放區(qū)域贩绕,同時(shí)將部分接頭連到?DNA?的兩端。
????3?提取?DNA:從染色質(zhì)開放區(qū)域切割下來壶愤,并連有部分接頭的?DNA?序列已經(jīng)游離在細(xì)胞核外了淑倾,直接用過柱法將?DNA?純化出來即可。
????4 PCR?擴(kuò)增:根據(jù)?Tn5?轉(zhuǎn)座酶帶入的部分接頭序列征椒,設(shè)計(jì)?PCR?擴(kuò)增引物娇哆,然后進(jìn)行?PCR?擴(kuò)增就可以將目的片段富集出來,同時(shí)完成文庫的構(gòu)建勃救。
????5?片段篩選:利用?XP?磁珠不同用量碍讨,篩選到我們需要的片段大小。
????6?上機(jī)測序:使用?illumina?平臺(tái)進(jìn)行測序蒙秒,推薦的測序數(shù)據(jù)量為?15G?左右勃黍。
????簡:
????①?收集細(xì)胞或組織,制備細(xì)胞懸液晕讲;
????②?加入含NP40的裂解液覆获,裂解細(xì)胞膜马澈,獲得細(xì)胞核;
????③?加入Tn5轉(zhuǎn)座酶弄息,對處于開放狀態(tài)的DNA進(jìn)行酶切痊班;
????④?回收酶切下來的DNA片段,進(jìn)行二代高通量測序摹量。
技術(shù)特點(diǎn)
????ATAC-seq?技術(shù)有兩大特點(diǎn):一是轉(zhuǎn)座酶更容易對開放的染色質(zhì)區(qū)域進(jìn)行切割涤伐,二是轉(zhuǎn)座酶可以同時(shí)對切割下來的DNA片段的兩端添加測序接頭。因此缨称,回收切割下來的DNA片段后可以直接上機(jī)測序凝果,獲得在特定時(shí)空下全基因組的活性調(diào)控序列。后續(xù)對這些序列進(jìn)行分析具钥,挖掘這些開放位點(diǎn)的潛在結(jié)合轉(zhuǎn)錄因子豆村,結(jié)合基因表達(dá)水平數(shù)據(jù),發(fā)現(xiàn)關(guān)鍵的轉(zhuǎn)錄因子。
? ? 各類技術(shù)對比:
????ChIP-seq:檢測目標(biāo)蛋白所結(jié)合的DNA序列揪罕,一次實(shí)驗(yàn)獲得一個(gè)蛋白結(jié)合的序列信息挣棕。
????DNase-seq:使用DNaseI切割開放狀態(tài)的DNA序列,對獲得的片段進(jìn)行文庫構(gòu)建和測序粗恢,該技術(shù)對細(xì)胞起始量的要求較高(106-107),實(shí)驗(yàn)耗時(shí)也較長欧瘪。
????MNase-seq:使用限制性外切酶(微球菌核酸酶)消化開放狀態(tài)的DNA眷射,獲得被核小體包裹或者被轉(zhuǎn)錄因子等蛋白結(jié)合的區(qū)域,與DNaseI獲得的序列相反佛掖。用內(nèi)切核糖酶--微球菌核酸酶(micrococcal nuclease, MNase, MN酶)處理染色質(zhì)可以得到單個(gè)核小體妖碉。
????FAIRE-seq:使用甲醛對染色質(zhì)中的DNA與蛋白進(jìn)行交聯(lián)固定,超聲波打斷后通過酚氯仿抽提獲得開放狀態(tài)的DNA芥被,實(shí)驗(yàn)過程更復(fù)雜且耗時(shí)更長欧宜。
????ATAC-seq:使用Tn5轉(zhuǎn)座酶在切割DNA時(shí)同時(shí)添加測序接頭,經(jīng)過PCR擴(kuò)增即可獲得測序文庫拴魄,相比DNase-seq更為簡單冗茸,需要的細(xì)胞也更少(500或50000),一天即可完成匹中。經(jīng)過一次ATAC-seq夏漱,可以獲得某特定時(shí)空下所有開放的染色質(zhì)區(qū)域,不僅僅只局限于分析某一個(gè)轉(zhuǎn)錄因子的結(jié)合位點(diǎn)顶捷。
ATAC-seq主要作用
????①?獲得在特定時(shí)空下基因組中所有處于開放狀態(tài)的序列挂绰,分析調(diào)控元件
????②?分析染色質(zhì)開放區(qū)域的motif,獲得潛在的與其結(jié)合的轉(zhuǎn)錄因子等調(diào)控蛋白
????③?樣本間差異開放區(qū)比較分析服赎,結(jié)合轉(zhuǎn)錄組差異表達(dá)數(shù)據(jù)扮授,揭示調(diào)控網(wǎng)絡(luò)機(jī)制
????ATAC-Seq能從全基因組范圍內(nèi)推測可能的轉(zhuǎn)錄因子芳室,還能通過比較不同時(shí)間的染色質(zhì)開放區(qū)域解答發(fā)育問題。
????分析ATAC-Seq從本質(zhì)上來看和分析ChIP-Seq沒啥區(qū)別刹勃,都是peak-calling堪侯,也就是從比對得到BAM文件中找出reads覆蓋區(qū),也就是peaks峰荔仁。peaks: 峰伍宦。用來表示染色質(zhì)的開放程度,因?yàn)槭菧y序的reads落在了染色質(zhì)的開放區(qū)乏梁,堆疊后被可視化的一種豐度的體現(xiàn)次洼。找到了peak,并不意味著我們找到轉(zhuǎn)錄因子了遇骑,因?yàn)锳TAC-Seq只是找到了全基因組范圍的開放區(qū)域卖毁,而這些開放區(qū)域的產(chǎn)生未必是轉(zhuǎn)錄因子引起,所以還需要一些預(yù)測性工作如homer尋找motif等落萎。
????轉(zhuǎn)錄因子結(jié)合位點(diǎn) transcription factor binding site亥啦,TFBS:轉(zhuǎn)錄因子調(diào)節(jié)基因表達(dá)時(shí),與基因模板鏈結(jié)合的區(qū)域练链。一般應(yīng)該分布在基因前端(但:人21和22號染色體上翔脱,只有22%的轉(zhuǎn)錄因子結(jié)合位點(diǎn)分布在蛋白編碼基因的5'端)
Peak Calling,MACS2
????Peak calling媒鼓,用于識別ChIP届吁,ATAC測序?qū)嶒?yàn)產(chǎn)生的數(shù)據(jù)比對到基因組中的reads富集的區(qū)域。
????MACS:一種常用的識別轉(zhuǎn)錄因子結(jié)合位點(diǎn)的工具绿鸣,叫做ChIP-seq模型分析(Model-based Analysis of ChIP-seq疚沐,MACS)
????對于ATAC-seq,ChIP-seq實(shí)驗(yàn)潮模,我們可以從比對文件中觀察到亮蛔,以結(jié)合位點(diǎn)為中心,read密度在+/-鏈上的分布不對稱再登。所選片段的5 '端將在正鏈和負(fù)鏈上形成group。然后用統(tǒng)計(jì)方法評估這些group的分布晾剖,并與背景(輸入或模擬IP樣本)進(jìn)行比較锉矢,以確定富集位點(diǎn)是否可能是一個(gè)真正的結(jié)合位點(diǎn)。有各種工具可用于peak calling齿尽,而MACS2是最常用的程序之一沽损。原理詳情見生信技能樹MACS原理。
Peaks motif 富集分析 —— homer
????轉(zhuǎn)錄因子通過識別并結(jié)合到 DNA 上的特定序列來促進(jìn)特定基因的轉(zhuǎn)錄循头,而這種結(jié)合受染色質(zhì)狀態(tài)的影響绵估。多數(shù)轉(zhuǎn)錄因子喜歡結(jié)合在染色質(zhì)開放的區(qū)域炎疆。因此,可以通過鑒定染色質(zhì)開放區(qū)域并結(jié)合 motif 和基因表達(dá)等信息国裳,建立轉(zhuǎn)錄因子-靶基因互作網(wǎng)絡(luò)形入。
????所以 motif(也可稱為轉(zhuǎn)錄因子結(jié)合位點(diǎn))就成了鑒定轉(zhuǎn)錄因子結(jié)合的一個(gè)間接的指標(biāo)。但是缝左,我們一般不會(huì)直接用全部的peak去富集轉(zhuǎn)錄因子亿遂。例如,2016年渺杉,有研究者利用不同發(fā)育時(shí)期的番茄果實(shí)的轉(zhuǎn)錄組數(shù)據(jù)和染色質(zhì)可及性數(shù)據(jù)解析了果實(shí)發(fā)育相關(guān)的關(guān)鍵轉(zhuǎn)錄調(diào)控因子(Identification of Regulatory DNA Elements Using Genome-wide Mapping of DNase I Hypersensitive Sites during Tomato Fruit Development蛇数,他們使用的是DNaseI-seq,和ATAC-seq類似的技術(shù))是越。研究者首先對不同發(fā)育時(shí)期的RNA-seq數(shù)據(jù)進(jìn)行聚類耳舅,獲得了時(shí)期特定性表達(dá)基因。接著倚评,他們基于一個(gè)假設(shè)“具有相同表達(dá)模式的基因或許參與同樣的生物學(xué)過程浦徊,并且被相似的轉(zhuǎn)錄因子所調(diào)控”。因此蔓纠,他們接著對這些不同時(shí)期特定轉(zhuǎn)錄基因的轉(zhuǎn)錄起始位點(diǎn)附近的特異性開放區(qū)進(jìn)行motif富集分析辑畦,發(fā)現(xiàn)MYB12特異性調(diào)控番茄果實(shí)發(fā)育的20 DAP時(shí)期,而RIN特異性調(diào)控番茄果實(shí)發(fā)育的成熟時(shí)期(Break Stage, 作者定義為果皮顏色部分變紅)(徐寅生)腿倚。
????HOMER軟件進(jìn)行motif富集分析纯出。首先基于已知的一些轉(zhuǎn)錄因子的 motif 可以計(jì)算每個(gè)motif 在peak里的頻率,接著和隨機(jī)的背景進(jìn)行比較敷燎,采用超幾何檢驗(yàn)方法暂筝,對每個(gè)motif 計(jì)算一個(gè)p值,然后得到q值硬贯。
????HOMER 是一個(gè)常用的motif分析軟件焕襟。它通過比較兩個(gè)序列集,并使用ZOOPS scoring和超幾何分布(或者負(fù)二項(xiàng)分布)進(jìn)行motif的富集分析饭豹。它主要用于ChIP-seq和promoter分析鸵赖,但也可以用于核酸序列的motif分析問題。HOMER軟件可以進(jìn)行多種類型的motif分析拄衰,如 promoter motif analysis 它褪,基因組位置motif分析(ChIP-seq分析中的motif分析),利用自定義的fasta文件進(jìn)行motif分析翘悉,RNA序列的motif分析(分析CLIP-seq數(shù)據(jù)中的RNA binding elements)
????HOMER進(jìn)行motif分析時(shí)茫打,需要兩個(gè)數(shù)據(jù)集:感興趣的目標(biāo)序列,如ATAC-seq分析中的peak文件;背景序列老赤,如ATAC-seq分析中的物種全基因組序列轮洋。
ATAC-seq實(shí)戰(zhàn)分析
優(yōu)秀大佬總結(jié)的教程,受益匪淺抬旺,感謝
生信 | ATAC-Seq基礎(chǔ)分析+高級分析+多組學(xué)分析?????Bioinfo魚
ATAC-seq分析實(shí)操生信技能樹健明教程????熱衷組培的二貨潛
ATAC-seq實(shí)戰(zhàn)教程:從SRA數(shù)據(jù)下載到高分辨率論文主圖繪制? ? ?徐寅生
IDR評估FRiP評估及查看peaks在全基因組上的分布? ? ?生信技能樹
聲明:本篇多為資料整理總結(jié)弊予,僅用于自學(xué)記錄,侵刪嚷狞,謝謝各位大佬块促。參考:
http://www.reibang.com/p/b272c846ef28????xuzhougeng
https://mp.weixin.qq.com/s/s9zcMvGd6fGbkdzSVdi2-Q
https://mp.weixin.qq.com/s/AuA-ADlHaADkPPwzF_oQhA
http://www.reibang.com/p/9aa719faa4b5????Bioinfo魚
https://wemp.app/posts/d32f7273-8aa6-46c4-abca-8637b7404096????
https://hbctraining.github.io/Intro-to-ChIPseq/lessons/05_peak_calling_macs.html
https://mp.weixin.qq.com/s/XoydYyDG9KJvK3PhevlAFg#tocbar--51452e????徐寅生
http://www.reibang.com/p/9a31f5f01e7b#tocbar--17ap0ds????鹿無為