ATAC-seq全稱Assay for Transposase Accessible Chromatin with high-throughput sequencing,即利用轉座酶研究染色質可進入性的高通量測序技術角雷。
要理解這項技術的作用祸穷,首先需要認識染色體/質的結構。
啟動子(promoter):與RNA聚合酶結合并能起始mRNA合成的序列勺三。
轉錄起始點(TSS):轉錄時雷滚,mRNA鏈第一個核苷酸相對應DNA鏈上的堿基,通常為一個嘌呤吗坚。
UTR(Untranslated Regions):即非翻譯區(qū)祈远,是信使RNA(mRNA)分子兩端的非編碼片段。
5'-UTR從mRNA起點的甲基化鳥嘌呤核苷酸帽延伸至AUG起始密碼子商源,3'-UTR從編碼區(qū)末端的終止密碼子延伸至多聚A尾巴(Poly-A)的末端车份。
ATAC-seq和ChIP-seq有啥區(qū)別?
ChIP-Seq是實驗前明確有一個感興趣的轉錄因子牡彻,根據(jù)目標轉錄因子設計抗體去做ChIP實驗拉DNA扫沼,驗證感興趣的轉錄因子是否與DNA存在相互作用;
而ATAC-Seq沒有落腳到具體哪個轉錄因子,是在全基因組范圍內(nèi)檢測染色質的開放程度缎除,可以得到全基因組范圍內(nèi)的蛋白質可能結合的位點信息严就,用這個技術方法與其他方法結合是想去篩感興趣的調(diào)控因子。
那么常見的染色質開放區(qū)有哪些呢器罐?
常見的染色質開放區(qū)主要是基因上游的啟動子和遠端的調(diào)控元件比如增強子和沉默子梢为,啟動子是靠近轉錄起始點(TSS)的DNA區(qū)域,它包含轉錄因子的結合位點(transcription factor binding site技矮,TFBS)抖誉,所以轉錄因子能夠結合在啟動子上TFBS,招募RNA聚合酶進而轉錄基因衰倦。增強子一般位于啟動子下游或上游1Mb的DNA區(qū)域袒炉,轉錄因子與增強子結合,并與啟動子區(qū)域接觸時樊零,能夠促進基因的轉錄我磁。相反,沉默子會減少或抑制基因的表達驻襟。
所以說夺艰,ATAC-seq可以幫助識別啟動子區(qū)域、潛在的增強子或沉默子沉衣,也就是說郁副,ATAC-seq中的peak,往往是啟動子豌习、增強子序列存谎,以及一些反式調(diào)控因子結合的位點。
那基因的body不是染色質開放區(qū)嗎肥隆?是的~但是基因body區(qū)的染色質開放并不是穩(wěn)定的既荚,當進行轉錄時,body區(qū)域每往前走一步栋艳,開放后進行轉錄恰聘,轉錄后迅速回復原有狀態(tài)。
ATAC-seq歸根結底能用來干什么吸占?
1晴叨、鑒定重要轉錄因子:根據(jù)原理可以知道,ATAC所捕獲染色質開放區(qū)一般是正在轉錄的那部分DNA序列的上下游矾屯,得到這些序列我們就可以對富集到的序列結合motif 分析篙螟,識別哪種轉錄因子參與了基因表達調(diào)控,最常見的就是去研究轉錄因子結合的啟動子區(qū)域(對于抗體質量不好的轉錄因子问拘,尤其有效)
2遍略、生成轉錄因子結合區(qū)域的特征(footprinting):轉錄因子結合在DNA上后惧所,它占有的空間阻礙了轉座酶Tn5酶切在其他無核小體區(qū)域,這樣就會留下一個一個小區(qū)域绪杏,稱為足跡(footprint)下愈,在這些區(qū)域中,reads由高覆蓋率峰值突然下降蕾久。所以ATAC-seq footprints可以幫助我們查看轉錄因子在全基因組上結合的狀態(tài)势似,主要應用于研究細胞重編程機制,染色質重塑因子僧著,表觀修飾對疾病的作用域履因、T細胞耗竭等等。下面這張圖就是已知motif的足跡分析盹愚,大概會看到有9個堿基作用的motif栅迄。
motif分析.
在DNA或蛋白的同源序列中,不同位點的保守程度是不一樣的皆怕,一般來說毅舆,對DNA或蛋白質功能和結構影響比較大的位點會比較保守,其它位點則不是很保守愈腾。. 這些保守的位點就稱為“模體(motif)憋活。
ATAC-seq預分析
ATAC-seq分析的第一步是預分析,主要包括三個部分:1. 測序原始數(shù)據(jù)質控虱黄;2. 序列比對(Mapping)悦即;3. 比對后處理和質控。
測序原始數(shù)據(jù)質控
對ATAC-seq的測序原始數(shù)據(jù)質控和序列比對的流程與其它二代測序數(shù)據(jù)標準分析流程基本相同橱乱,比如可以選擇FastQC軟件來可視化堿基質量得分盐欺、GC含量、序列長度分布仅醇、序列重復水平、k-mer比例是否過高以及引物二聚體和接頭自連情況等魔种。ATAC-seq文庫一般采用的是Illumina Nextera建庫方法析二,接頭和Truseq文庫不一樣,所以使用去除接頭序列軟件cutadapt节预、AdapterRemoval v2叶摄、Skewer或trimmomatic時需要提供Nextera文庫的接頭序列。
序列比對
去除低質量堿基和接頭序列后安拟,可以再用FastQC軟件做一下質控蛤吓。質控合格的reads就可以比對(Mapping)到參考基因組上。BWA-MEM和Bowtie2這兩種軟件用于雙端短序列比對上更快糠赦,這兩個軟件中的soft-clip策略保留了突出和沒有比對上的堿基会傲,可以增加在參考序列上有唯1比對位置的序列數(shù)目(Unique比對率)锅棕。對于哺乳動物來說,Unique比對率大于80%的數(shù)據(jù)是比較成功的ATAC-seq文庫淌山。
比對后處理和質控
序列比對后可以得到BAM后綴的文件裸燎,可以用Picard和SAMtools軟件來統(tǒng)計Unique比對率、重復reads比例和片段大小分布泼疑。Mapping后需要去除對后續(xù)分析產(chǎn)生干擾的reads:1. 配對錯誤和比對質量比較低的reads需要被剔除德绿;2. 線粒體基因組由于沒有染色質組裝,處于開放狀態(tài)退渗,更容易被Tn5酶切割移稳,所以線粒體序列需要去除;3. ENCODE數(shù)據(jù)庫中黑名單區(qū)域(blacklisted regions)包含了一些異常会油、read覆蓋度很高的區(qū)域个粱,在這些區(qū)域的reads需要去除;4. 由PCR建庫過程產(chǎn)生钞啸、重復率過高的reads也需要去除几蜻。
除此之外,測序文庫插入片段大小的分布也可以用來判斷ATAC-seq實驗的質量体斩。插入片段大小的理論分布為:NFR fragments(<100 bp)梭稚、核小體單體(~200 bp)、核小體二聚體(~400 bp)和核小體三聚體(~600 bp)絮吵,每個位置上都會有對應的特征性的峰分布(見下圖左)弧烤。NFR fragments應該富集在轉錄起始位點(TSS)附近(見下圖右黑色實線),而結合核小體的區(qū)域在TSS位置應該缺失且在TSS兩側相對富集(見下圖右紅色虛線)蹬敲。
文章推薦軟件組合:FastQC → trimmomatic → BWA-MEM → ATACseqQC
康測科技軟件組合:FastQC → trimmomatic →** Bowtie2 → Picard+RSeQC**
ATAC-seq核心分析:Peak Calling
ATAC-seq分析的第二步是識別染色質開放區(qū)域暇昂,即Peak Calling伴嗡。許多分析ChIP-seq數(shù)據(jù)的Peak Calling軟件可用于ATAC-seq數(shù)據(jù)瘪校,而ENCODE選擇MACS2作為ATAC-seq的標準Peak Calling軟件泣懊。與ChIP-seq不同的是馍刮,由于Tn5酶切割的隨機性和成本原因卡啰,ATAC-seq沒有Input數(shù)據(jù)作為對照碎乃,所以需要Input數(shù)據(jù)的Peak Calling軟件不能用于分析ATAC-seq數(shù)據(jù)恰梢。ATAC-seq數(shù)據(jù)中包含了NFR reads和DNA與核小體結合區(qū)域的reads梗掰,而ATAC-seq主要關注NFR部分的reads摧茴,所以不能直接用所有reads進行Peak Calling苛白。一種方式是把NFR reads單獨提取出來進行分析;另一種方式是采用shift-extend的方法進行分析躏率,這種方法嘗試對Tn5酶切口的末端平滑化事件進行計數(shù)(見下圖)薇芝。第二種方法更為通用,因為這種方法幾乎適用所有為ChIP-seq數(shù)據(jù)開發(fā)的Peak Calling軟件耍贾,并且不受插入片段大小的影響优床。
ChIP-seq Peak Calling軟件根據(jù)原理主要分為兩大類:Count-based方法和Shaped-based方法着帽。一般Count-based方法的軟件更易于使用和解釋結果仍翰。這些軟件采用不同的統(tǒng)計方法比較目標區(qū)域和隨機背景區(qū)域的reads分布形狀予借,常用的軟件包括:
- 假設片段分布為泊松分布:MACS2秦叛、HOMER挣跋、SICER/epic2
- 假設片段分布為零膨脹負二項分布:ZINBA
- 核密度估計來判斷片段分布:F-seq避咆、PeakDEck
- 不使用片段分布假設但通過軟件打分:SPP
- 混合模型:JAMM
其中F-seq和ZINBA軟件更新維護不及時,使用的時候應該注意膨报。
Shaped-based方法直接或者間接利用reads的密度分布信息進行Peak Calling,包括PICS够吩、PolyaPeaK和CLC等軟件周循,但這些軟件暫時還沒有用于ATAC-seq數(shù)據(jù)的分析。
目前專門為ATAC-seq開發(fā)的Peak Calling軟件只有HMMRATAC嚎研。該軟件通過三狀態(tài)半監(jiān)督隱馬爾科夫模型算法把基因組分成高信號強度的活性染色質區(qū)域论矾、中等信號強度的核小體區(qū)域和低信號強度的背景區(qū)域贪壳。雖然HMMRATAC計算量偏大,耗時較長传黄,但其結果表現(xiàn)比MACS2和F-seq更好,還可以同時提供核小體的位置信息识埋。
通過上述軟件分析得到的Peak可視化情況如上圖诵盼。Count-based方法的軟件結果表現(xiàn)差異不大洁墙,但Shaped-based方法的軟件結果與Count-based軟件結果非常不同。
目前仍沒有綜合性指標來評估這些Peak Calling軟件的結果表現(xiàn)孝扛。
以上分析了各個Peak Calling軟件的結果表現(xiàn),但是并沒有針對存在生物學重復設置的Peak Calling結果可信度進行探討∧停康測科技引入IDR分析來判斷存在生物學重復時Peak Calling結果的可信度(見下圖)。IDR(Irreproducibility Discovery Rate)是指不可重現(xiàn)的發(fā)現(xiàn)率,用于測量生物學重復中的可重現(xiàn)性瓢谢。ATAC-seq分析中是通過比較一對經(jīng)過排序的regions/peaks的列表论笔,然后計算反映其重復性的值蒜埋。因此通過IDR分析結果得到的Peak即是可信度更高的Peak。康測建議每組樣品設置2個及以上的生物學重復。
文章推薦Peak Calling軟件:MACS2****/****HOMER****/****HMMRATAC
康測科技Peak Calling軟件:**MACS2 **(shift-extend method) + IDR
IDR分析結果展示
ATAC-seq高級分析
ATAC-seq的主要功能是揭示轉錄調(diào)控的各個方面犹菇,其第三步分析要在4種水平對結果進行分析和解釋:1. Peak注釋和差異Peak分析;2. Motif分析筷转;3. 核小體占位分析;4. 轉錄因子足跡分析。
Peak注釋和差異Peak分析
一般情況下到腥,軟件會關聯(lián)Peak與其最近的基因或者調(diào)控元件來進行Peak注釋篓足,HOMER没陡、ChIPseeker和ChIPpeakAnno這三個軟件都可以把Peak分配到最近或重疊的基因埃儿、外顯子精钮、內(nèi)含子、啟動子剃斧、5’UTR轨香、3’UTR和其它基因組功能區(qū)奸忽。隨后可以用Gene Ontology(GO)俯抖、KEGG和Reactome等數(shù)據(jù)庫做Peak關聯(lián)基因功能富集分析。ChIPseeker和ChIPpeakAnno軟件都具有可視化功能范删。
目前還沒有專門為ATAC-seq開發(fā)的差異Peak分析軟件。差異Peak分析首先通過尋找候選區(qū)域(共有Peak或根據(jù)bin劃分的基因組)脓杉,然后進行標準化糟秘,再對落在這些區(qū)域里的片段進行計數(shù),最后在相同坐標內(nèi)與其它處理條件的樣本進行統(tǒng)計學比較球散。在以共有Peak為基礎分析的軟件中蚌堵,HOMER、DBChIP和DiffBind依賴RNA-seq差異表達基因分析中使用的R包計算差異Peak沛婴,例如edgeR、DESeq和DESeq2等督赤,所以這些軟件分析時都要求設置生物學重復嘁灯。
HOMER把所有生物學重復樣品的數(shù)據(jù)合并到一起以減少差異peak的假陽性結果。DBChIP和DiffBind通過取交集或并集的方法得到共有Peak躲舌,不過取交集的方法有時會忽略一些樣本或特殊的Peak丑婿,而取并集則會使假陽性結果增多。另外一些不依賴RNA-seq分析R包的軟件包括PePr没卸、DiffReps和ChIPDiff羹奉,還有一種edgeR包的擴展軟件csaw,這些軟件使用滑窗(Sliding window)的方法進行分析约计,但是得到的結果假陽性率很高诀拭,需要設置比較嚴格的FDR。
文章推薦Peak注釋與差異分析軟件:HOMER/ChIPseeker/ChIPpeakAnno + csaw
康測科技Peak注釋與差異分析軟件:**Bedtools **+ edgeR
Motif分析
開放的染色質區(qū)域一般可以結合特定的轉錄因子進而影響轉錄過程煤蚌,轉錄因子結合識別的DNA序列即為motif耕挨,人體中大約有1600種轉錄因子,其中一半多已經(jīng)有明確報道的motif尉桩。對motif的分析包括motif富集分析和轉錄因子Footprint(足跡)分析筒占。
-
Motif富集分析
目前有很多motif數(shù)據(jù)庫,其中使用最普遍的是JASPAR數(shù)據(jù)庫蜘犁,該數(shù)據(jù)庫收錄了很多物種的motif數(shù)據(jù)翰苫,可以通過APIs或者Bioconductor的R包下載相關數(shù)據(jù)。除此之外这橙,CIS-BP和TRANSFAC數(shù)據(jù)庫收錄了真核生物轉錄因子的motif信息奏窑,HOCOMOCO數(shù)據(jù)庫則專門收錄了人和小鼠的motif,RegulonDB為大腸桿菌的motif數(shù)據(jù)庫屈扎。
Motif富集分析過程如下:首先獲得每個Peak區(qū)域里motif的位置和頻率良哲,然后與隨機背景或另一種條件的背景進行比較,最后得到motif富集的結果助隧。HOMER筑凫、MEME-AME滑沧、MEME-CentriMo和DAStk分別采用不同的統(tǒng)計檢驗的方法來比較Peak和背景區(qū)域的motif出現(xiàn)的頻率差異。
文章推薦Motif富集分析軟件:MEME-CentriMo
康測科技Motif富集分析軟件:HOMER
-
轉錄因子足跡分析
另一種通過ATAC-seq解釋轉錄因子調(diào)控方式的是足跡分析巍实。轉錄因子的足跡是指一個轉錄因子結合在DNA上滓技,阻止Tn5酶切割,在染色質開放區(qū)域留下一個相對缺失的位置棚潦。然而令漂,做足跡分析有三個問題需要解決:1)由于建庫時Tn5酶切時會產(chǎn)生9 bp的粘性末端切口,經(jīng)過末端修復補齊后丸边,原始reads在預處理時需要經(jīng)過移位才可以準確檢測到Footprint叠必;2)Tn5酶切具有5’端偏好性;3)某些瞬時結合的轉錄因子足跡信號比較弱妹窖。
足跡分析軟件根據(jù)算法可以分為兩大類:de novo和Motif-centric纬朝。de novo類型的軟件需要通過理論計算來鑒別轉錄因子的足跡信息,并且消除Tn5酶切時的5’偏好性骄呼。目前只有HINT-ATAC可以處理ATAC-seq數(shù)據(jù)特有的偏好性共苛。
Motif-centric方法主要關注已知TF的結合位點,主要軟件有MILLIPEDE蜓萄、DeFCoM等隅茎。聯(lián)合ChIP-seq數(shù)據(jù)的Motif-centric方法在足跡分析上優(yōu)于de nove的方法,但是這些ChIP-seq數(shù)據(jù)來源于特定的轉錄因子和特定的細胞類型嫉沽,通用性并不強辟犀。而de novo的方法在一些低質量和新發(fā)現(xiàn)的一些motif上具有優(yōu)勢。
文章推薦轉錄因子足跡分析軟件:HINT-ATAC
康測科技轉錄因子足跡分析軟件:HOMER + Bedtools自編腳本
核小體占位分析
核小體單體可以結合大約147 bp的DNA绸硕,在標準的ATAC-seq文庫中踪蹬,較長的插入片段對應DNA與核小體結合的區(qū)域。ATAC-seq數(shù)據(jù)中核小體結合區(qū)域比染色質開放區(qū)域reads覆蓋度更低臣咖,所以相比MNase-seq跃捣,ATAC-seq的核小體占位分析難度更高。在一般情況下夺蛇,為MNase-seq開發(fā)的軟件(比如DNAPOS2疚漆、PuFFIN、iNPS和NucTools)可用于ATAC-seq刁赦。專門為ATAC-seq開發(fā)的軟件包括NuleoATAC和HMMRATAC娶聘。NuleoATAC比DANPOS2結果表現(xiàn)更好,而HMMRATAC可以同時完成Peak Calling和核小體占位分析甚脉。
文章推薦核小體占位分析軟件:NuleoATAC****/HMMRATAC
康測科技核小體占位分析軟件:Samtools自編腳本
ATAC-seq與多組學數(shù)據(jù)聯(lián)合分析
- 轉錄因子ChIP-seq:由于大部分轉錄因子結合的是染色質開放區(qū)域丸升,所以ATAC-seq的Peak可能和轉錄因子ChIP-seq的Peak存在部分重疊的情況,而且ATAC-seq得到的Peak長度往往更長牺氨,因此ATAC-seq數(shù)據(jù)和轉錄因子ChIP-seq數(shù)據(jù)可以相互驗證狡耻。轉錄因子在ChIP-seq中獨有的Peak暗示這個轉錄因子可能是結合在異染色質區(qū)域的驅動型轉錄因子(Pioneer TFs)墩剖,驅動型轉錄因子隨后招募染色質重塑復合體以及其它轉錄因子開始轉錄。另外夷狰,聯(lián)合分析已經(jīng)報道的ChIP-seq數(shù)據(jù)可以更準確地分析轉錄因子的足跡岭皂。
- 組蛋白修飾ChIP-seq:ATAC-seq數(shù)據(jù)同樣可以和組蛋白修飾ChIP-seq數(shù)據(jù)進行聯(lián)合分析,其中轉錄激活性修飾(H3K4me3沼头,H3K4me1和H3K27ac等)與染色質開放程度呈正相關爷绘,轉錄抑制性修飾(H3K27me3)與染色質開放程度呈負相關。聯(lián)合已知的增強子和啟動子之間的相互作用數(shù)據(jù)也可以幫助構建調(diào)控網(wǎng)絡进倍。
- RNA-seq:ATAC-seq數(shù)據(jù)可以通過聯(lián)合分析RNA-seq數(shù)據(jù)來發(fā)現(xiàn)哪些差異表達的基因是受染色質可及性調(diào)控的土至,進一步可以推測這些差異表達的基因哪些是受開放染色質中具有motif和footprint的轉錄因子調(diào)控的,因此ATAC-seq與RNA-seq的聯(lián)合分析有助于破譯基因調(diào)控網(wǎng)絡和細胞異質性猾昆。
總結
ATAC-seq近年來發(fā)展迅速陶因,已成為研究染色質可及性的主流方法。該review系統(tǒng)性地描述了ATAC-seq生信分析的主要流程毡庆,并推薦了相關軟件:使用FastQC進行質控;trimmomatic去除低質量堿基和接頭序列烙如;使用BWA-MEM作為序列比對軟件么抗;使用MACS2進行Peak Calling;使用csaw進行差異Peak分析亚铁;使用MEME-CentriMo尋找motif以及富集分析蝇刀;使用ChIPseeker用來進行Peak注釋和可視化;使用HMMRATAC來分析核小體占位徘溢;使用HINT-ATAC進行轉錄因子的Footprint分析吞琐。
康測科技與這篇綜述推薦的ATAC-seq分析流程相比稍有不同:在Peak Calling步驟引入IDR分析來判斷Peak可信度;差異Peak分析使用bedtools和單獨的edgeR包結合自編腳本提高差異Peak分析中參數(shù)設置自由度等然爆,本質都是為了得到準確度和可信度更高的分析結果站粟。
該review對于大家理解ATAC-seq分析的流程,解釋ATAC-seq分析結果有著非常大的幫助曾雕,不失為一篇參考價值極高的文章奴烙。
分析軟件對比匯總
參考文獻
[1] Buenrostro, J.D., et al. Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position. Nat Methods, 2013, 10(12): p. 1213-8.