這是目前為止我看到過的關(guān)于ATAC-seq的最新綜述亥鬓,感興趣的話值得一讀茂缚。
2020.4.22更新:我看到一個公眾號也翻譯了這篇文章驯击,而且正好跟我這篇翻譯是在同一天發(fā)表https://mp.weixin.qq.com/s/7JAEPDuEEsmRxXI3UZDZHQ。他的文字比我流暢很多,排版也比較舒服转晰,推薦給大家~
基本信息
From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis
2020年2月3日發(fā)表在Genome Biology,一作為Feng Yan支示,通訊作者是Nicholas C. Wong。
原文鏈接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-1929-3#Abs1
摘要
轉(zhuǎn)座酶可及染色質(zhì)測序法(ATAC-seq)已廣泛用于研究染色質(zhì)生物學(xué)鄙才,但分析工具的全面性綜述尚未完成颂鸿。在這里,我們討論ATAC-seq數(shù)據(jù)分析的主要步驟攒庵,包括預(yù)分析(質(zhì)量檢查和比對)嘴纺,核心分析(peak calling)和高級分析(peak差異分析和注釋,motif富集浓冒,footprint分析栽渴,以及核小體定位分析)。我們還回顧了利用多組學(xué)數(shù)據(jù)重建轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)的過程稳懒,并重點(diǎn)指出了每個步驟當(dāng)前面臨的挑戰(zhàn)闲擦。最后,我們描述了單細(xì)胞ATAC-seq的潛力僚祷,并強(qiáng)調(diào)了開發(fā)ATAC-seq特定分析工具以獲得有生物學(xué)意義的深入理解的必要性佛致。
介紹
哺乳動物的DNA通過三個主要的層次尺度進(jìn)行高度濃縮:第一層次是核小體贮缕,然后包裝到染色質(zhì)辙谜,再通向第三層次——染色體[ 1,2感昼,3装哆,4,5定嗓,6 ]蜕琴。染色質(zhì)可以在轉(zhuǎn)錄活躍的常染色質(zhì)和不活躍的異染色質(zhì)之間進(jìn)行動態(tài)切換[7,8 ]宵溅。DNA壓縮的三個尺度及其相互作用共同造就了基因的表達(dá)調(diào)控凌简。
最近的基因調(diào)控研究集中在表觀遺傳學(xué)上。高通量測序技術(shù)的進(jìn)步給我們提供了各種破譯表觀遺傳學(xué)圖譜的方法恃逻。其中包括測定染色質(zhì)可及性的轉(zhuǎn)座可接近的染色質(zhì)測序(ATAC-seq)[9雏搂,10 ]藕施,DNA酶I高敏位點(diǎn)測序(DNase-seq)[ 11,12凸郑,13 ]和甲醛輔助隔離調(diào)控元件測序(FAIRE-seq) [ 14 ]裳食;其測量轉(zhuǎn)錄因子(TF)結(jié)合[ 15,16芙沥,17]和組蛋白修飾[ 18诲祸,19 ]的染色質(zhì)免疫沉淀測序(ChIP-seq); 檢測核小體定位和占位[ 20,21 ]的微球菌核酸酶測序(MNase-seq)而昨。這些測定的詳細(xì)步驟不在本綜述的范圍之內(nèi)救氯,在其他文章中[ 22 ]進(jìn)行了詳細(xì)討論。
自2013年發(fā)明以來歌憨,ATAC-seq在各種染色質(zhì)可及性的檢測方法中特別受歡迎径密。經(jīng)過整理的ATAC-seq數(shù)據(jù)集和出版物呈指數(shù)增長,表明其在廣泛的生物學(xué)問題中的價值(圖1a)躺孝,例如如描繪哺乳動物健康組織和細(xì)胞類型中的增強(qiáng)子圖譜[ 23享扔,24,25 ]植袍,研究正常造血和白血病之間的可及性變化[26惧眠,27],以及精神分裂癥患者和癌癥基因組圖譜(TCGA)泛癌隊列中的染色質(zhì)狀態(tài)[ 28于个,29]氛魁。圖3a展示了這項(xiàng)尖端技術(shù)在基礎(chǔ)和轉(zhuǎn)化研究中的示意圖 。簡而言之厅篓,ATAC-seq整合了基因工程修飾的高活性Tn5轉(zhuǎn)座酶秀存,可以同時切割開放的染色質(zhì)、留下9 bp的交錯缺口羽氮,并將高通量測序接頭連接到這些區(qū)域或链。在此過程中,切口被修復(fù)档押,留下了9-bp的重復(fù)序列[ 30澳盐,31 ]。然后進(jìn)行雙端測序以使這些開放區(qū)域有更高的非重復(fù)比對率[ 32 ]令宿。
圖1 ATAC-seq數(shù)據(jù)集增長叼耙,以及預(yù)分析和高級分析的樣本數(shù)總覽。a* 從2013年1月1日至2019年10月1日粒没,PubMed中ATAC-seq數(shù)據(jù)集筛婉、ATAC-seq出版物、DNase-seq數(shù)據(jù)集癞松、FAIRE-seq的數(shù)據(jù)集爽撒、MNase-seq的數(shù)據(jù)集在的數(shù)量 b典型片段大小分布曲線顯示100bp和200 bp附近的富集冕碟,表明無核小體結(jié)合和單核小體結(jié)合的片段。c典型的TSS富集圖顯示匆浙,不含核小體的片段在TSS富集安寺,而單核小體的片段在TSS處耗盡,但在側(cè)翼區(qū)域富集首尼。d典型的峰注釋餅圖顯示挑庶,超過一半的峰落入增強(qiáng)子區(qū)域(遠(yuǎn)端基因間區(qū)和內(nèi)含子區(qū)域),只有約25%的峰在啟動子區(qū)域软能。TSS:轉(zhuǎn)錄起始位點(diǎn)*
Tn5轉(zhuǎn)座酶的高活性使ATAC-seq protocol成為一種簡單迎捺、省時的方法,需要500-50,000個細(xì)胞[ 9 ]查排。靈敏度和特異性與DNase-seq相當(dāng)凳枝,但優(yōu)于FAIRE-seq,這兩種方法都需要數(shù)百萬個細(xì)胞作為輸入材料[ 9 ]跋核。由于ATAC-seq在文庫制備過程中不涉及嚴(yán)格的大小選擇岖瑰,因此它也可以使用代表核小體單體和多聚體的片段來鑒定核小體位置[ 9 ]。最近砂代,單細(xì)胞ATAC-seq(scATAC-seq)已被報道蹋订,依賴的方法有流式細(xì)胞分選(FACS)、微流體刻伊、基于納米孔等不同類型[ 33露戒,34,35]捶箱。scATAC-seq可以在多種情況下(包括臨床標(biāo)本和發(fā)育生物學(xué)等)被應(yīng)用于單細(xì)胞分辨率水平研究異質(zhì)性的細(xì)胞群[23智什,29 ]。
盡管ATAC-seq簡單且魯棒丁屎,但它存在一個主要的障礙——專門為ATAC-seq數(shù)據(jù)開發(fā)的生物信息學(xué)分析工具很少[32荠锭,36 ]。ChIP-seq和DNase-seq中使用的分析工具已應(yīng)用于ATAC-seq [ 37 ]悦屏,基于它們數(shù)據(jù)特征相似的假設(shè)节沦。但是,此假設(shè)尚未得到系統(tǒng)地評估础爬。
這篇綜述的主要重點(diǎn)是討論ATAC-seq分析的現(xiàn)有資源。我們旨在為ATAC-seq數(shù)據(jù)分析提供帶注釋的指南吼鳞,而不是詳盡的工具集看蚜。此前關(guān)于ATAC-seq數(shù)據(jù)分析的綜述都集中在peak calling和調(diào)控網(wǎng)絡(luò)建模[ 37,38 ]赔桌,但現(xiàn)在我們迫切需要一篇涵蓋ATAC-seq數(shù)據(jù)分析各個主要部分的系統(tǒng)性綜述供炎。這篇綜述將涵蓋流程圖(圖 2)中列出的四個最重要的步驟渴逻。其中包括(1)預(yù)分析(質(zhì)量控制(QC)和比對),(2)核心分析(peak calling)音诫,(3)peak惨奕,motif,核小體和TF footprint水平的高級分析竭钝,以及(4) 與多組學(xué)數(shù)據(jù)整合以重建調(diào)控網(wǎng)絡(luò)梨撞。這些步驟將使研究人員能夠?qū)TAC-seq數(shù)據(jù)進(jìn)行魯棒的分析,并產(chǎn)生更具生物學(xué)意義的結(jié)果香罐。最后卧波,我們將介紹ATAC-seq分析和scATAC-seq的挑戰(zhàn)和機(jī)遇。
圖2 經(jīng)典ATAC-seq分析的路線圖庇茫。列出了四個主要步驟港粱,包括預(yù)分析、核心分析旦签、高級分析以及與多組學(xué)數(shù)據(jù)的集成查坪。預(yù)分析包括比對前質(zhì)量控制、比對和比對后處理以及質(zhì)量控制宁炫。核心分析包括peak calling咪惠。高級分析包括peak,motif淋淀,footprint和核小體分析遥昧。多組學(xué)數(shù)據(jù)集成包括與ChIP-seq和RNA-seq數(shù)據(jù)整合以及調(diào)控網(wǎng)絡(luò)重建。每個框中的文本強(qiáng)調(diào)每個分析步驟中的重要注意事項(xiàng)朵纷。我們建議研究人員用FastQC炭臭,trimmomatic和BWA-MEM進(jìn)行預(yù)分析,用MACS2進(jìn)行peak calling袍辞,用csaw進(jìn)行peak差異分析鞋仍,用ChIPseeker進(jìn)行注釋和可視化,用MEME系列進(jìn)行motif檢測和富集搅吁,以HMMRATAC進(jìn)行核小體檢測威创,HINT-ATAC用于footprint分析,用PCEA整合RNA-seq進(jìn)行調(diào)控網(wǎng)絡(luò)重建谎懦。QC:質(zhì)量檢查肚豺;TSS:轉(zhuǎn)錄起始位點(diǎn);TF:轉(zhuǎn)錄因子界拦;DEG:差異表達(dá)基因
預(yù)分析:質(zhì)量控制和比對
ATAC-seq分析的第一步包括比對前QC吸申,read比對到參考基因組,和比對后QC和處理(圖 2 A)[ 32 ]。
比對前質(zhì)量控制
比對前質(zhì)量控制和read比對步驟是大多數(shù)高通量測序技術(shù)的標(biāo)準(zhǔn)配置截碴。例如梳侨,F(xiàn)astQC [ 39 ]可用于在測序數(shù)據(jù)中可視化堿基質(zhì)量得分、GC含量日丹、序列長度分布走哺、序列重復(fù)水平、k-mer過高以及引物和銜接子的污染哲虾”铮總體高的堿基質(zhì)量評分下,read 3'端評分略有下降是可以接受的妒牙。與預(yù)期的GC含量和read序列長度之間不應(yīng)該有明顯的偏差彼哼。此外,在同一實(shí)驗(yàn)批次和測序操作的所有樣品中湘今,指標(biāo)應(yīng)均一敢朱。
當(dāng)前,由于ATAC-seq普遍使用Illumina的Nextera文庫摩瞎,經(jīng)常會觀察到Nextera測序接頭比例過高拴签,應(yīng)將其刪除以進(jìn)行準(zhǔn)確的read比對。大多數(shù)去除接頭的工具采用不同的動態(tài)編程旗们,例如 cutadapt [ 40 ]蚓哩,AdapterRemoval v2 [ 41 ],Skewer [ 42 ]和trimmomatic [ 43 ] 都需要輸入已知的接頭序列上渴。例如岸梨,對Nextera和Truseq文庫使用trimmomatic和內(nèi)置接頭序列是一種直接簡單的辦法。使用這些工具也可以去除低質(zhì)量的堿基稠氮。根據(jù)我們的經(jīng)驗(yàn)曹阔,各種read過濾工具在有效去除低質(zhì)量和污染接頭序列的性能方面通常表現(xiàn)差不多。
比對
過濾后隔披,可以再次執(zhí)行FastQC赃份,以檢查接頭和低質(zhì)量堿基是否已成功移除。然后將過濾的read比對到參考基因組奢米。BWA-MEM [ 44 ]和Bowtie2 [ 45 ] 對于短的雙端read存儲效率高且快速抓韩。兩個比對工具的軟限位策略允許在read的兩端有突出堿基,這可以進(jìn)一步提高unique mapping rate[ 46 ]鬓长。我們建議谒拴,unique mapping rate達(dá)到80%以上時認(rèn)為ATAC-seq實(shí)驗(yàn)成功。對于哺乳動物物種痢士,基于經(jīng)驗(yàn)和計算估計彪薛,建議染色質(zhì)開放區(qū)域檢測和差異分析至少需要5000萬mapped read茂装,TF footprinting至少需要2億[ 10怠蹂,12善延,47,48城侧,49 ]易遣。
比對后處理和質(zhì)量控制
序列比對后,就像大多數(shù)DNA測序數(shù)據(jù)一樣嫌佑,可以使用Picard [ 50 ]和SAMtools [ 51 ] 收集比對BAM文件的基本指標(biāo)豆茫,例如unique mapping reads/rate,duplicated read的百分比以及片段大小分布屋摇。此外揩魂,如果read比對不正確或mapping質(zhì)量不佳,則應(yīng)將其刪除炮温。線粒體基因組(由于缺乏染色質(zhì)包裝而更可及 [ 52 ] )和ENCODE列入黑名單的區(qū)域[ 53火脉,54 ]通常具有非常高的read覆蓋度,應(yīng)該去除 [33]柒啤。重復(fù)的read(很可能已作為PCR產(chǎn)物出現(xiàn))也應(yīng)去除倦挂,以顯著提高生物學(xué)的可重復(fù)性[ 48 ]。這些步驟將共同提高開放染色質(zhì)檢測的能力担巩,并減少假陽性方援。
還有其他需要評估的ATAC-seq特定質(zhì)量指標(biāo)。通常涛癌,成功的ATAC-seq實(shí)驗(yàn)應(yīng)生成片段大小分布圖犯戏,其具有遞減的和周期性的峰,對應(yīng)于無核小體區(qū)域(NFR)(<100 bp)和單核拳话、雙核和三核小體(?200先匪, 400,600堿基對)(圖 1 b)[ 9假颇,55 ]胚鸯。NFR的片段應(yīng)該在基因的轉(zhuǎn)錄起始位點(diǎn)(TSS)周圍富集,而核小體結(jié)合區(qū)域的片段應(yīng)該在TSS處被形成低谷笨鸡,TSS周圍的側(cè)翼區(qū)域會稍微富集(圖 1 c)[ 55 ]姜钳。可以使用工具ATACseqQC [ 55 ]進(jìn)行評估形耗。最后哥桥,對于正鏈和負(fù)鏈,read應(yīng)分別偏移 +4 bp和 -5 bp激涤,以便實(shí)現(xiàn)TF足跡和基序的堿基對解析相關(guān)分析[ 9拟糕,33判呕,56 ],因?yàn)門n5轉(zhuǎn)座酶對缺口進(jìn)行DNA修復(fù)產(chǎn)生了9 bp重復(fù)送滞。大多數(shù)上述質(zhì)量控制和分析報告可以使用MultiQC [ 57 ] 匯總以進(jìn)行集成的侠草、用戶友好的交互式的呈現(xiàn)。
合適工具的選擇主要是考慮計算出結(jié)果所需的時間犁嗅。read過濾和比對可能很耗時边涕,并且在速度和準(zhǔn)確性之間始終要取舍。根據(jù)我們的經(jīng)驗(yàn)褂微,以下管道的性能相當(dāng)好:FastQC?trimmomatic?BWA-MEM?ATACseqQC功蜓,我們建議這是處理ATAC-seq數(shù)據(jù)的良好起點(diǎn)。
核心分析:peak calling
ATAC-seq數(shù)據(jù)分析的第二個主要步驟是識別可及區(qū)域(也稱為peak)宠蚂,并且是進(jìn)行高級分析的基礎(chǔ)式撼。對于ChIP-seq[ 58,59 ]和DNase-seq [ 60 ]求厕,類似的過程已被全面綜述著隆。當(dāng)前,MACS2是ENCODE ATAC-seq管道的默認(rèn)call peaks工具甘改。據(jù)我們所知旅东,專門針對ATAC-seq開發(fā)的call peak工具只有一個[ 61 ]。其他都是從ChIP-seq和DNase-seq中借用過來的十艾,這基于一個假設(shè)——ATAC-seq peak模式與ChIP-seq/DNase-seq有相同的性質(zhì)抵代。因此,我們將集中于當(dāng)前用于ATAC-seq的工具忘嫉,并提供潛在的替代品(圖 4 a)荤牍。
與ChIP-seq不同,ATAC-seq通常沒有input control(Tn5轉(zhuǎn)座酶隨機(jī)切割沒有蛋白結(jié)合的DNA)庆冕,因?yàn)楂@得與樣本相同覆蓋率的input control測序成本較高康吵。因此,需要input control的call peak工具對于ATAC-seq是不切實(shí)際的访递。此外晦嵌,來自ATAC-seq的雙端片段的直接堆積代表了無核小體區(qū)(NFR)和核小體結(jié)合區(qū)(圖 3a)。開放染色質(zhì)區(qū)可以通過NFR的短片段堆疊來檢測拷姿,或使用一個移位延伸的方法——嘗試對通過延伸尺寸來平滑化的切割事件進(jìn)行計數(shù)(圖 3 B惭载,右框)[ 61,62]响巢。此方法更為通用描滔,因?yàn)樗梢詰?yīng)用于幾乎所有的ChIP-seq call peak工具,并且不受數(shù)據(jù)片段大小的影響踪古。
圖3 核心和高級分析的示意圖和實(shí)際ATAC-seq數(shù)據(jù)含长。a在ATAC-seq實(shí)驗(yàn)中券腔,Tn5結(jié)合并切割開放的染色質(zhì),同時加上接頭拘泞。對片段進(jìn)行測序以鑒定開放的染色質(zhì)區(qū)域(黑色)和footprint(藍(lán)色)纷纫。NFR片段代表開放的染色質(zhì),而核小體結(jié)合的片段則反映了核小體的位置(灰色陰影軌跡)田弥。b實(shí)際的ATAC序列數(shù)據(jù)涛酗。從BAM文件(原始)生成信號軌铡原,并通過HINT-ATAC校正偏差(校正了偏差)偷厦。峰集由三種類型的call peak工具生成:基于計數(shù)的(紅色),基于形狀的(藍(lán)色)和基于HMM(黑色)燕刻。對于MACS2只泼,使用兩種策略(雙端和移位擴(kuò)展)。對于HMMRATAC卵洗,兩側(cè)的擴(kuò)展范圍表示核小體请唱。HINT-ATAC軌是由HINT-ATAC檢測到的footprint,而RUNX1 motif軌是與JASPAR數(shù)據(jù)庫中的RUNX1 motif匹配的footprint过蹂。K562 ChIP-seq軌是ENCODE的RUNX1 ChIP-seq十绑,表明足跡檢測可以重現(xiàn)真實(shí)的TF結(jié)合。右邊的方框說明了移位擴(kuò)展方法酷勺。首先本橙,它將兩端s-bp移至外部,然后將2s-bp移至內(nèi)部脆诉。C通過ATAC-seq數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)重建的圖示甚亭。TF的存在可以通過上述方法檢測到的motif或footprint來表示。NFR:無核小體區(qū)域击胜;TF:轉(zhuǎn)錄因子亏狰;HMM:隱馬爾可夫模型
針對ATAC-seq的熱門call peak工具可以分為兩大類:基于計數(shù)的或基于形狀的∨妓ぃ基于計數(shù)的call peak工具采用不同的統(tǒng)計方法將候選區(qū)域中的read分布形狀與隨機(jī)背景進(jìn)行比較暇唾。MACS2 [ 63 ],HOMER [ 64 ]辰斋,和SICER / epic2 [ 65策州,66,67 ]假定泊松分布亡呵,而ZINBA [ 68 ]假設(shè)零膨脹的負(fù)二項(xiàng)式分布抽活。F-seq [ 69 ]和PeakDEck [ 70 ]使用核密度估計來分析片段分布。SPP [ 71]沒有片段分布的假設(shè)锰什,但是使用滑窗下硕,根據(jù)來自上下游側(cè)翼窗口的片段counts來計算分?jǐn)?shù)丁逝。請記住,某些工具(例如F-seq和ZINBA)并未得到積極維護(hù)梭姓,因此應(yīng)謹(jǐn)慎使用霜幼。當(dāng)將混合模型聚類應(yīng)用于生物重復(fù)時,JAMM可以更準(zhǔn)確地確定峰寬和邊界[ 72 ]誉尖。通常罪既,基于計數(shù)的方法更易于解釋和廣泛使用。
基于形狀的call peak工具當(dāng)前沒有在ATAC-seq中使用铡恕,但它們直接或間接利用讀取的密度分布信息琢感,并被認(rèn)為可以改善ChIP-seq中的peak calling [ 73 ]。PICS [ 74 ] 對除counts以外的片段位置進(jìn)行建模探熔,并計算每個候選區(qū)域的富集得分驹针。PolyaPeak [ 75 ] 使用描述峰形的統(tǒng)計數(shù)據(jù)對峰進(jìn)行排名。CLC [ 76 ]從正峰和負(fù)峰中學(xué)習(xí)了一種用于峰形的高斯濾波器诀艰。
當(dāng)前柬甥,HMMRATAC是ATAC-seq [ 61 ] 獨(dú)有的call peak工具。它采用三態(tài)半監(jiān)督隱馬爾可夫模型(HMM),分別將基因組分割為信號強(qiáng)度高的開放染色質(zhì)區(qū)域,信號強(qiáng)度適中的核小體區(qū)域和信號強(qiáng)度低的背景區(qū)域佑笋。盡管HMMRATAC在計算上更加密集员串,但其性能優(yōu)于MACS2和F-seq,并同時提供核小體位置信息。
其他考慮因素應(yīng)包括call peak工具是否解釋了Tn5切割的偏好性以及如何處理生物學(xué)重復(fù)。類似于DNase-seq,Tn5酶促切割將引入偏誤寄月,因?yàn)樗薪Y(jié)合偏好性[ 30,31无牵,77 ]漾肮。這與GC含量相關(guān),并且在call peak時應(yīng)調(diào)整[ 22茎毁,56 ]克懊。生物學(xué)重復(fù)可以提高可重復(fù)性并減少假陽性峰。通過合并原始read或合并各個樣品的峰集七蜘,可以將大多數(shù)工具應(yīng)用于重復(fù)谭溉。重復(fù)也可以使用混合模型來集成[ 72 ]。
這些工具所產(chǎn)生的peak tracks可以在圖 3b 中可視化橡卤“缒睿基于計數(shù)的工具表現(xiàn)類似,但是與基于形狀的工具相當(dāng)不同碧库。此外柜与,使用神經(jīng)網(wǎng)絡(luò)提取了這些peak的潛在序列特征巧勤,并展示出來以概括已知的TF motif。這證實(shí)了轉(zhuǎn)錄因子通過開放的弄匕、可接近的染色質(zhì)在基因調(diào)控中起重要作用 [78颅悉,79 ]。參數(shù)微調(diào)是所有上述工具必不可少的[ 9迁匠,33 ]剩瓶,因?yàn)殚_放染色質(zhì)的寬度會發(fā)生變化[ 32]。將鄰近的窄峰接合以產(chǎn)生寬峰的工具(例如MACS2城丧,HOMER和SICER / epic2)也被認(rèn)為可提供更有意義的結(jié)果延曙。但是,迄今為止芙贫,尚無關(guān)于ATAC-seq call peak工具的全面基準(zhǔn)性研究搂鲫。我們建議使用積極維護(hù)的工具(例如MACS2和HOMER)進(jìn)行call peak。并且如果計算資源足夠磺平,HMMRATAC可用于ATAC- seq call peak。
進(jìn)階分析
Peak
由于其性質(zhì)拐辽,ATAC-seq揭示了轉(zhuǎn)錄調(diào)控的多個方面拣挪,因此第三個主要步驟涉及四個不同水平的解析:峰,基序俱诸,核小體和TF足跡菠劝。但是,只有少數(shù)工具是專門為ATAC-seq設(shè)計的睁搭。
Peak差異分析
當(dāng)前赶诊,尚未專門開發(fā)用于ATAC-seq數(shù)據(jù)分析的差分峰分析工具。一種簡單的方法是找到候選區(qū)域(共有峰或分箱的基因組)园骆,進(jìn)行normalize舔痪,對這些區(qū)域中的片段進(jìn)行計數(shù),并與其他條件進(jìn)行統(tǒng)計學(xué)比較[ 80 ]锌唾。這可以手動地實(shí)現(xiàn)锄码,或使用自動化工具,如基于共有峰或基于滑窗的工具(圖 4 b)晌涕。
圖4 call peak和peak差異分析工具總結(jié)滋捶。acall peak工具可分為基于計數(shù)的,基于形狀的余黎,和馬爾可夫模型方法重窟。根據(jù)使用的統(tǒng)計學(xué)方法或模型不同,它們可以進(jìn)一步劃分惧财。b峰差分分析工具可以分為基于峰集的方法和滑動窗口方法巡扇〕纯迹基于峰集的方法根據(jù)外部call peak工具和RNA-seq DE包的使用情況進(jìn)行劃分■龋滑動窗口方法根據(jù)使用的統(tǒng)計方法或模型進(jìn)行劃分斋枢。ZINB:零膨脹負(fù)二項(xiàng)式;HMM:隱馬爾可夫模型知给;DE:差異表達(dá)瓤帚;NB:負(fù)二項(xiàng)式
在基于共同峰的工具中,HOMER涩赢,DBChIP [ 81 ]和DiffBind [ 82 ]依賴于RNA-seq差異表達(dá)(DE)分析包戈次,例如edgeR [ 83 ],DEseq [ 84 ]或DEseq2 [ 85 ]筒扒。 因此怯邪,它們都假設(shè)負(fù)二項(xiàng)式(NB)分布,并且需要生物學(xué)復(fù)制以估計分散度花墩。有人建議通過合并所有樣本來call consensus peak悬秉,以減少假陽性差異peak,這是HOMER的默認(rèn)行為[ 86 ]冰蘑。但是和泌,DBChIP和DiffBind通過交集或并集操作生成共識峰。但是祠肥,交集操作會忽略樣本或條件特定性的峰武氓,而并集操作通常導(dǎo)致較低的p值和更多的假陽性[ 86 ]。
滑動窗口方法不需要預(yù)先生成的峰集仇箱。相反县恕,他們對分箱基因組的所有窗口進(jìn)行評估,并傾向于產(chǎn)生更多的假陽性剂桥,并需要嚴(yán)格的過濾和錯誤發(fā)現(xiàn)率(FDR)控制忠烛。PePr [ 87 ]和DiffReps [ 88 ]根據(jù)重復(fù)的情況決定使用NB測試、G檢驗(yàn)或卡方檢驗(yàn)渊额。對于更寬的峰况木,ChIPDiff [ 89,90 ]采用HMM來解釋相鄰窗口之間的相關(guān)性旬迹。這三個工具獨(dú)立于RNA-seq DE分析軟件包火惊。相反,csaw是將edgeR框架擴(kuò)展到分箱基因組[ 91]奔垦∫倌停滑動窗口方法被認(rèn)為可以更無偏地估計全基因組的read count,但是需要嚴(yán)格的FDR控制才能正確合并相鄰窗口。
當(dāng)前惶岭,大多數(shù)研究假設(shè)峰區(qū)域中的ATAC-seq讀數(shù)遵循NB分布寿弱,RNA-seq數(shù)據(jù)也是如此。但是按灶,基于形狀的ATAC-seq數(shù)據(jù)差異分析工具并不存在症革。峰不僅包含read count信息,還包含分布形狀輪廓鸯旁。這對于寬峰尤為重要噪矛,因?yàn)閷挿蹇赡馨鄠€局部最大值,并且這些偏移可以指示生物學(xué)上相關(guān)的擾動铺罢,這可以在滑動窗口或基于形狀的方法中檢測到艇挨。盡管尚未進(jìn)行系統(tǒng)性研究,但我們認(rèn)為合并形狀信息將改善差分峰分析韭赘。但是缩滨,考慮到對于重復(fù)的處理、外部call peak工具依賴性以及后端統(tǒng)計方法泉瞻,由于csaw的edgeR框架易于解釋脉漏,因此值得一試。
Peak注釋
獲得峰集后瓦灶,峰的注釋可將染色質(zhì)的可及性與基因調(diào)控聯(lián)系起來鸠删。通常,峰會被注釋到最接近的基因或調(diào)控元件贼陶。HOMER,ChIPseeker [ 92 ]和ChIPpeakAnno [ 93 ]被廣泛用于將peak注釋到最接近或重疊的基因巧娱、外顯子碉怔、內(nèi)含子、啟動子禁添、5'非翻譯區(qū)(UTR)撮胧,3'UTR和其他基因組特征。ChIPseeker和ChIPpeakAnno還具有豐富的可視化功能來解釋注釋結(jié)果老翘,例如帶注釋的基因組特征的餅圖(圖1 d中的示例 )芹啥。通常,來自ATAC-seq的峰將代表包括增強(qiáng)子和啟動子在內(nèi)的不同順式調(diào)控元件的混合[ 12]铺峭。獲得諸如最接近的基因之類的基因組特征列表后墓怀,還可以使用GO[ 94 ],KEGG [ 95 ]和Reactome [ 96 ] 等數(shù)據(jù)庫進(jìn)行功能富集分析卫键。通常傀履,峰注釋會產(chǎn)生生物學(xué)和功能上有意義的結(jié)果,以供進(jìn)一步研究莉炉。
Motif
盡管峰注釋提供了功能解釋钓账,但它不能直接解釋潛在的機(jī)制碴犬。開放染色質(zhì)可以通過TF的影響轉(zhuǎn)錄,即TF通過識別并結(jié)合到DNA上的特定序列來促進(jìn)轉(zhuǎn)錄梆暮。該序列稱為基序(motif)服协,結(jié)合位置稱為TF結(jié)合位點(diǎn)(TFBS)。人類中大約有1600個TF啦粹,一半以上具有通過實(shí)驗(yàn)或計算得到的基序[ 97 ]偿荷。大多數(shù)轉(zhuǎn)錄因子需要染色質(zhì)開放才能結(jié)合,但某些先驅(qū)轉(zhuǎn)錄因子可以結(jié)合不開放的核小體DNA [ 98卖陵,99 ]遭顶。轉(zhuǎn)錄因子通過與組蛋白或非組蛋白競爭[100,101]以及與輔助因子配合[ 102 ]來調(diào)節(jié)轉(zhuǎn)錄泪蔫。這些染色質(zhì)可訪問性重塑過程已由Klemm棒旗,Shipony和Greenleaf等人在最近的出版物[ 103 ]中詳細(xì)綜述。因此撩荣,了解motif使用或活性變化可能有助于破譯潛在的調(diào)控網(wǎng)絡(luò)铣揉,并確定關(guān)鍵調(diào)控元件[ 104 ]。有兩種類型的基于motif或基于TF的分析方法:基于序列的motif頻率或活性預(yù)測餐曹,以及針對TF占位的footprint分析(在下一節(jié)中討論)逛拱。
Motif數(shù)據(jù)庫和掃描
為了利用基序信息,已經(jīng)作出很大的努力來從實(shí)驗(yàn)方法或計算預(yù)測中編譯基序序列的數(shù)據(jù)庫台猴。流行的數(shù)據(jù)庫如JASPAR [ 105 ]包含多個種類朽合,并且可以使用應(yīng)用程序編程接口(API)或Bioconductor的封裝[容易地檢索到106,107 ]饱狂。僅舉幾個數(shù)據(jù)庫為例曹步,CIS-BP [ 108 ]和TRANSFAC [ 109 ]包含真核TF基序,HOCOMOCO [ 110 ]專注于人和小鼠休讳,RegulonDB [ 111 ]專用于大腸桿菌讲婚。。但是俊柔,沒有中央數(shù)據(jù)庫筹麸,該數(shù)據(jù)庫包含全面且一致的基序信息,并且差異可能源自原始ChIP-seq實(shí)驗(yàn)和用于進(jìn)行從頭基序發(fā)現(xiàn)的軟件的差異雏婶。
圖案信息主要以文本格式存儲物赶,例如,作為位置權(quán)重矩陣(PWM)尚骄。HOMER和Bioconductor軟件包TFBSTools [ 112 ]和基序匹配器[ 113 ]能夠使用PWM在給定的核苷酸序列中尋找推定的TFBS块差。PWMScan [ 114 ]提供了一個Web服務(wù)器,用于使用Bowtie索引基因組進(jìn)行快速基序掃描。另一廣泛使用的工具是MEME套件[ 115憨闰,116 ]状蜗,其包括FIMO [ 117 ]來搜索個體基序,MAST [ 118 ]用于從多個基序聚集搜索結(jié)果鹉动,并且MCAST [ 119]來推斷由多個基序形成的調(diào)控模塊轧坎。這些工具基于統(tǒng)計匹配生成推定的TFBS列表。其中泽示,由于MEME套件和PWMScan具有Web應(yīng)用程序界面缸血,因此更易于訪問。
Motif富集和活性分析
基于上述主題搜索工具械筛,可以獲得每個峰值區(qū)域中主題的位置和頻率捎泻,并將其與隨機(jī)背景或其他條件進(jìn)行比較。HOMER使用超幾何檢驗(yàn)埋哟,而MEME-AME [ 120 ]使用秩和檢驗(yàn)來比較峰內(nèi)的基元頻率笆豁。MEME-CentriMo [ 121 ]進(jìn)一步確定了峰中心附近富集的基序。DAStk [ 62 ]生成MD分?jǐn)?shù)(基序位移分?jǐn)?shù))[ 122 ]赤赊。這是通過計算從每個峰中心開始的小窗口(150 bp)與大半徑(1500 bp)內(nèi)基序出現(xiàn)的比率來實(shí)現(xiàn)的闯狱。MD得分也可以在不同條件下用Z進(jìn)行比較-測試。這些方法采用不同的統(tǒng)計測試來比較峰和背景區(qū)域中的圖案頻率抛计。
除了超額測試外哄孤,每個假定的TFBS的可訪問性都被認(rèn)為與TF活動相關(guān)聯(lián),并且可以通過片段計數(shù)來衡量吹截。ChromVAR [ 56 ]使用Z得分計算每個條件在多個條件下的可及性偏差瘦陈,并針對已知技術(shù)偏差(GC偏差,平均可及性和峰讀取分?jǐn)?shù))進(jìn)行調(diào)整波俄。它是專門針對具有大量可被視為重復(fù)單元的scATAC-seq數(shù)據(jù)而設(shè)計的双饥。但是,尚未評估其在批量ATAC-seq中的性能弟断。DiffTF會針對所有TFBS生成可訪問性倍數(shù)變化的分布,并針對每個基序的GC含量進(jìn)行調(diào)整趴生,然后將其與重排的零背景進(jìn)行比較以評估顯著性[ 123阀趴,124 ]〔源遥總之刘急,MEME-CentriMo是一種廣泛使用的Web應(yīng)用程序,可以生成可視報告浸踩,而在scATAC-seq中chromVAR可作為其替代叔汁。
到目前為止提到的所有工具都根據(jù)峰區(qū)內(nèi)發(fā)現(xiàn)的序列間接預(yù)測推定TFBS。此類TFBS可能包含很大比例的假陽性,并且可能不完整且令人困惑据块。這是因?yàn)椴⒎撬蠺F都具有確定的基序码邻,并且同一家族的TF可以共享非常相似的基序[ 125 ]。而且另假,預(yù)測的富集或活性變化可能沒有顯著的生物學(xué)意義像屋,這妨礙了對基于序列的motif分析結(jié)果的解釋。
Footprint
解密TF調(diào)控的另一種方法是使用footprint边篮。ATAC-seq中的足跡是指活性TF與DNA結(jié)合并阻止Tn5在結(jié)合位點(diǎn)切割的圖式己莺。這使得開放的染色質(zhì)區(qū)域內(nèi)出現(xiàn)一個信號低谷(圖 3 A)[ 47,126戈轿,127 ]凌受。因此,活躍結(jié)合的TF的足跡可以用于重建專門針對某些樣本的調(diào)控網(wǎng)絡(luò)思杯。
但是胜蛉,ATAC-seq足跡分析存在一些障礙。首先智蝠,在預(yù)處理步驟中腾么,由于9-bp的重復(fù)序列的存在,原始read的shift對于足跡的精準(zhǔn)檢測很重要9杈湾,33 ]解虱。其次,由于Tn5具有結(jié)合偏好性[ 32漆撞,128 ]殴泰,且瞬時TF結(jié)合的信號弱[ 129 ],足跡檢測在實(shí)驗(yàn)上和計算上都很困難[ 130 ]浮驳。在DNase-seq中悍汛,人們在footprinting方面已經(jīng)做出了巨大的努力。除了酶促偏好性不同外至会,其他方面兩者面臨著類似的挑戰(zhàn)离咐。然而,只有少數(shù)足跡工具已經(jīng)對ATAC-seq進(jìn)行過測試奉件,尚未有系統(tǒng)性的評估完成[ 48宵蛀,131,132 ]县貌。
足跡分析工具主要分為兩類:從頭和以motif為中心的方法术陶。從頭計算方法根據(jù)典型足跡模式(峰-谷-峰)的特征,預(yù)測峰上的所有足跡位置煤痕。然后梧宫,將這些假定的足跡位置用于匹配已知motif或識別新D的motif接谨。而以motif為中心的方法則需要先驗(yàn)TFBS的輸入,并使用監(jiān)督或無監(jiān)督的方法將這些位點(diǎn)區(qū)分為結(jié)合或未結(jié)合(表 1)塘匣。
表1 footprinting工具的總結(jié)脓豪,包括軟件類別,編程語言馆铁,算法或統(tǒng)計方法跑揉,DNase-seq或ATAC-seq的偏差校正以及輸出的統(tǒng)計量。此外埠巨,倒數(shù)第二欄舉例說明了工具在ATAC-seq數(shù)據(jù)中的應(yīng)用
從頭(de novo)工具
對于從頭方法历谍,在數(shù)學(xué)上定義什么是足跡并對Tn5的切割偏好性進(jìn)行去噪非常重要 [128,134 ]辣垒。Boyle等人[ 135 ]提出了一種HMM望侈,在每個堿基處使用標(biāo)準(zhǔn)化和平滑化的fragment counts來檢測不同的狀態(tài),如足跡勋桶、側(cè)翼和背景脱衙。HINT,HINT-BC(用于DNase-seq偏誤校正)例驹,和最近HINT-ATAC也采用HMM捐韩,但只有HINT-ATAC對鏈特異性的Tn5切割偏好進(jìn)行了校正(圖 3 b)[ 130,133鹃锈,134 ]荤胁。一個例子如圖3b所示:通過HINT-ATAC在白血病樣本中檢測到的足跡在K562細(xì)胞系中通過RUNX1 ChIP-seq得到了驗(yàn)證。由于這些基于HMM的方法需要使用人工注釋的基因組區(qū)域進(jìn)行監(jiān)督式訓(xùn)練屎债,因此需要進(jìn)一步評估它們在較大數(shù)據(jù)集中的通用性仅政。Wellington和Wellington-bootstrap[ 136,137 ]比較側(cè)翼和候選足跡區(qū)域的Tn5切割數(shù)以找到局部極小值盆驹。Neph’s method, Boyle’s method, HINT, and Wellington都沒有考慮偏好校正圆丹,而DNase2TF和HINT-BC按照DNase-seq的模式進(jìn)行偏好矯正[ 47,129]躯喇。參數(shù)調(diào)整是一個關(guān)鍵的考慮因素辫封,它將影響最終的調(diào)用。一種使用HINT和Wellington的優(yōu)化管線已經(jīng)被報道廉丽,該管線將ChIP-seq結(jié)合位點(diǎn)視為真陽性秸讹,使用曲線下面積(AUC)分析評估結(jié)果[ 48 ]⊙诺梗總之,目前只有HINT-ATAC能夠處理ATAC-seq特易的偏好性弧可。
以motif為中心的工具
相比于從頭方法蔑匣,以motif為中心的方法著重于先驗(yàn)TFBS劣欢,考慮了TF特異性的足跡輪廓。它面臨的挑戰(zhàn)是在具有高質(zhì)量motif的TF豐富時避免確定性偏倚裁良。
無監(jiān)督的motif中心方法根據(jù)基因組區(qū)域中提取的特征(例如到TSS距離凿将、PWM匹配分?jǐn)?shù)、序列保守得分[145价脾,146 ])牧抵,以及從測序reads中提取的特征(例如putative TFBSs附近的read數(shù)量和形狀分布[139,140侨把,141犀变,147 ],將推定的TFBSs分為結(jié)合或不結(jié)合秋柄。其中获枝,CENTIPEDE模型假定read符合多項(xiàng)式分布,其性能對于不同的TF和細(xì)胞類型具有特異性的參數(shù)敏感性 [133骇笔,139省店,143 ],而msCentipede和Romulus考慮了這些具有異質(zhì)性的足跡輪廓[ 140笨触,141 ]懦傍。此外,msCentipde可以對Tn5偏好性進(jìn)行建模芦劣,而Romulus可以改善低深度數(shù)據(jù)和低質(zhì)量motif的性能粗俱。PIQ [ 147 ]使用高斯過程對read分布進(jìn)行建模,并且在有重復(fù)時可以進(jìn)一步提高魯棒性持寄。無監(jiān)督工具的準(zhǔn)確性在很大程度上取決于特征選擇和構(gòu)建源梭,因此可以嘗試進(jìn)行特征工程和選擇技術(shù),例如單熱編碼稍味、分箱和聚類废麻,可以進(jìn)一步提高性能。
相比之下模庐,監(jiān)督式的以motif為中心的工具需要高質(zhì)量的ChIP-seq才能注釋真實(shí)的TFBS烛愧,使其成為訓(xùn)練數(shù)據(jù)。MILLIPEDE和BinDNase都使用logistic回歸[ 142掂碱,143 ]怜姿,而DeFCoM使用支持向量機(jī)(SVM),BPAC使用隨機(jī)森林分類[ 131疼燥,144 ]沧卢。具體來說,BinDNase為每個TF分別訓(xùn)練一個模型醉者,以解釋TF特定的足跡模式但狭。與邏輯回歸相比披诗,DeFCoM中使用的SVM方法對異常值的魯棒性更高[ 131]。此外立磁,在ATAC-seq數(shù)據(jù)上對DeFCoM進(jìn)行了測試呈队,與DNase-seq相比,DeFCoM的性能略有下降唱歧,讀取次數(shù)是原來的兩倍宪摧。對于所有監(jiān)督式的工具,由于可變的足跡模式颅崩,跨TF /細(xì)胞類型驗(yàn)證的性能會降低[ 142 ]几于。這可能會阻礙其在稀有細(xì)胞群體或異質(zhì)癌癥樣本中的應(yīng)用。更大量挨摸、更多樣化的訓(xùn)練數(shù)據(jù)合在一起可以改善足跡分析的效果[ 144]孩革,并且我們猜測集成學(xué)習(xí)是有益的,因?yàn)榕嘤?xùn)了多個學(xué)習(xí)器以進(jìn)行集體預(yù)測得运。此外膝蜈,所有這些工具都是使用DNase-seq數(shù)據(jù)進(jìn)行訓(xùn)練的,所以應(yīng)使用ATAC-seq數(shù)據(jù)對其進(jìn)行重新訓(xùn)練熔掺,以解決不同數(shù)據(jù)的內(nèi)在偏差饱搏。通常,由于TF和細(xì)胞類型特異性的足跡模式具有很大的可變性置逻,所以建模仍然很困難推沸。
如果你對全局TF足跡模式在不同條件之間的變化感興趣,則可以使用BaGFoot [ 132 ]券坞。在序列深度歸一化和偏差校正之后强经,它會計算所有TF的足跡深度和側(cè)翼可及性帮掉。該方法對測序類型(DNase-seq或ATAC-seq)壮锻、call peak工具以及偏好校正方法[ 132 ]均很魯棒瞳收。
關(guān)于足跡分析的評論
足跡分析有幾個注意事項(xiàng)。首先猴伶,監(jiān)督的motif為中心的足跡工具通常優(yōu)于無監(jiān)督的對應(yīng)工具以及從頭方法课舍,但是其通用性就稍遜一籌 [130,131 ]他挎。目前已經(jīng)使用特定細(xì)胞類型中特定TF的ChIP-seq和DNase-seq數(shù)據(jù)對它們進(jìn)行了訓(xùn)練筝尾。因此,它們的context可能無法推廣應(yīng)用于ATAC-seq办桨。此外筹淫,感興趣樣品的訓(xùn)練數(shù)據(jù)不一定有,并且跨TF /細(xì)胞類型進(jìn)行預(yù)測應(yīng)謹(jǐn)慎131呢撞,144]贸街。這些工具對ATAC-seq的通用性仍然需要廣泛的評估庵寞。其次,偏差校正在DNase-seq和ATAC-seq足跡檢測中都很重要薛匪。最近,Tn5偏好的基序已被鑒定出來脓鹃,它顯示與一些C2H2鋅指TF容易混淆 [ 128 ]逸尖。第三,能夠有效實(shí)現(xiàn)足跡分析的ATAC-seq最小測序深度是多少瘸右,尚未有通用的指南娇跟。雖然建議每個樣品read數(shù)超過2億,但有報道稱DeFCoM對于更少的測序read數(shù)也能有相當(dāng)?shù)男阅?[ 10太颤,48苞俘,131 ]。footprinting的性能隨著深度的增加而改善龄章,但改善的程度在不同的TF和細(xì)胞類型之間不同吃谣,因?yàn)樗鼈兘Y(jié)合的親和力和脫離力不同 [ 131]]。但是做裙,我們需要進(jìn)行飽和度分析才能為每種樣品的測序深度提供合理的建議岗憋。第四,對于低質(zhì)量motif和novel motif锚贱,從頭方法仍然具有優(yōu)勢仔戈。盡管不同的研究中對足跡方法的評價不一致(因?yàn)榉治龉ぞ叩倪x擇、參數(shù)設(shè)置和評價標(biāo)準(zhǔn)不同)拧廊,我們認(rèn)為HINT-ATAC可以是一個不錯的選擇监徘,因?yàn)樗哂蠥TAC-seq特異性的偏好校正[ 130,131]吧碾。此外凰盔,研究人員可以結(jié)合多種工具的結(jié)果來獲得高度可靠的足跡。盡管如此滤港,ATAC-seq中的足跡分析對于理解TF調(diào)控和進(jìn)一步重建細(xì)胞特異性的調(diào)控網(wǎng)絡(luò)很有用廊蜒,因此需要針對特定情況下的軟件比較和開發(fā)進(jìn)行廣泛的基準(zhǔn)測試。
核小體定位
核小體由組蛋白八聚體和大約147bpDNA組成溅漾,通過改變?nèi)旧|(zhì)開放性來影響TF結(jié)合(圖 3 a)2山叮,103,148 ]添履。在標(biāo)準(zhǔn)ATAC-seq文庫中屁倔,較長片段對應(yīng)于核小體相關(guān)區(qū)域(圖 3a)[ 9 ]。已有分析工具可以檢測核小體片段富集的區(qū)域暮胧。但是Schep等人報道锐借,ATAC-seq中的核小體檢測要比MNase-seq中更困難问麸,因?yàn)槿旧|(zhì)開放區(qū)以外的read覆蓋度更低[ 149 ]。
針對MNase-seq開發(fā)的軟件如DANPOS2钞翔,PuFFIN严卖,INPS,和NucTools布轿,可以在ATAC-seq數(shù)據(jù)過濾得到核小體相關(guān)片段后使用 [149哮笆,150,151汰扭,152稠肘,153 ],而NucleoATAC和HMMRATAC是專為ATAC-seq開發(fā)的萝毛。通過將位置信號與V-plots互相關(guān)聯(lián)來計算每個堿基的信號得分项阴,NucleoATAC優(yōu)于DANPOS2。V-圖是對片段大小和中點(diǎn)位置進(jìn)行可視化的點(diǎn)圖笆包,和跨物種[是保守的149环揽,154,155]色查。信號分?jǐn)?shù)被歸一化和平滑化薯演,并且通過對數(shù)似然來找到局部最大值。HMMRATAC可以同時檢測開放的染色質(zhì)和核小體相關(guān)聯(lián)的區(qū)域秧了,如前文所述(圖 3 b)中[ 61 ]跨扮。此外,DANPOS2和NucTools可以檢測不同條件之間的核小體占位變化和位置偏移[150验毡,151 ]衡创。INPS采用小波去噪方法,而PuFFIN通過片段大小加權(quán)累加的核小體片段分布來識別核小體[152晶通,153璃氢,156 ]。
但是狮辽,所有這些工具都具有典型ATAC-seq實(shí)驗(yàn)的相同潛在缺點(diǎn)一也,即染色質(zhì)開放區(qū)之外的覆蓋率較低。將來喉脖,將需要新的實(shí)驗(yàn)方案以及用于ATAC-seq的生物信息學(xué)方法椰苟,以更有效和精確地捕獲核小體的占位。在這里树叽,我們認(rèn)為HMMRATAC和NucleoATAC是用于ATAC-seq核小體檢測的兩個有用且特異性的工具舆蝴。
與多組學(xué)數(shù)據(jù)集成以重建調(diào)控網(wǎng)絡(luò)
到目前為止,我們已經(jīng)闡明了ATAC-seq數(shù)據(jù)分析的特定要求,將ATAC-seq與其他高通量測序技術(shù)(如RNA-seq和ChIP-seq)的集成越來越引起人們對基因調(diào)控的興趣洁仗。
與ChIP-seq整合
由于開放染色質(zhì)是大多數(shù)TF結(jié)合的先決條件层皱,因此ATAC-seq峰通常與TF ChIP-seq峰重疊,但通常更寬赠潦。因此叫胖,TF ChIP-seq和ATAC-seq可以在同一實(shí)驗(yàn)系統(tǒng)中相互驗(yàn)證彼此的質(zhì)量和可靠性[ 157 ]。TF ChIP-seq的unique peaks可能指示了先驅(qū)轉(zhuǎn)錄因子她奥,它結(jié)合到封閉染色質(zhì)臭家,然后招募染色質(zhì)重塑因子或其他轉(zhuǎn)錄因子并起始轉(zhuǎn)錄[ 98,103 ]方淤。通過結(jié)合真實(shí)的TF ChIP-seq峰以減少假陽性,可以進(jìn)一步改善基于推定TFBS的分析蹄殃,例如motif富集和footprint檢測[ 54]携茂。ATAC-seq也可以與組蛋白標(biāo)記ChIP-seq集成,并發(fā)現(xiàn)與活躍染色質(zhì)標(biāo)記(H3K4me3的诅岩,H3K4me1讳苦,H3K27ac等)正相關(guān),與不活躍的染色質(zhì)標(biāo)記(的H3K27me3)負(fù)相關(guān)[9吩谦,157鸳谜,158 ] ∈酵ⅲ總之咐扭,整合ChIP-seq和ATAC-seq有助于理解TF和組蛋白促進(jìn)了染色質(zhì)可及性的變化。由于protocol的簡便性和樣品需求較少滑废,我們預(yù)見在特定的TF ChIP-seq實(shí)驗(yàn)之前蝗肪,ATAC-seq可以成為一種預(yù)實(shí)驗(yàn)方法。
與RNA-seq整合
研究人員還對染色質(zhì)可及性與RNA-seq基因表達(dá)變化的定性或定量關(guān)聯(lián)感興趣蠕趁。直觀地薛闪,研究人員可以發(fā)現(xiàn)DE基因在各自的TSS周圍是否也具有明顯的染色質(zhì)可及性差異[ 159 ]。此外俺陋,可以推定DE基因受到開放染色質(zhì)中特定基序或足跡相關(guān)的TF的調(diào)控豁延。在單細(xì)胞水平,Litzenburger等試圖結(jié)合scRNA-seq和scATAC-seq來鑒定TF靶基因(當(dāng)GATA結(jié)合位點(diǎn)可及性改變時腊状,其靶基因的表達(dá)量會隨之改變)[ 160 ]诱咏。Cao等使用LASSO回歸模型來識別導(dǎo)致目標(biāo)基因表達(dá)變化的遠(yuǎn)端峰[ 161]。結(jié)合scATAC-seq和scRNA-seq的耦合聚類已被驗(yàn)證可提高亞群檢測的準(zhǔn)確性[ 162 ]寿酌。ATAC-seq與RNA-seq的整合有助于破譯基因調(diào)控和細(xì)胞異質(zhì)性胰苏。
重建調(diào)控網(wǎng)絡(luò)
盡管ATAC-seq可以同時檢測數(shù)百個TF基序的出現(xiàn)或足跡,但可以通過將足跡/基序與下游基因聯(lián)系來重建細(xì)胞特異性的調(diào)控網(wǎng)絡(luò)。類似的方法已在DNase-seq中被報道(圖 3 C)[ 104硕并,163 ]法焰。但是,以前在DNase-seq中的嘗試僅限于啟動子區(qū)域倔毙,僅研究TF-TF調(diào)控[ 104 ]埃仪。啟動子內(nèi)的峰僅占所有ATAC-seq峰的一小部分,而大多數(shù)峰位于遠(yuǎn)端增強(qiáng)子中陕赃,從而降低了推斷調(diào)控網(wǎng)絡(luò)的能力[ 9]卵蛉。增強(qiáng)子在線性基因組中可能非常遙遠(yuǎn),但在空間上接近其目標(biāo)基因(3D模式)么库。這導(dǎo)致增強(qiáng)子的直接靶基因難以預(yù)測傻丝。許多研究認(rèn)為遠(yuǎn)端峰是增強(qiáng)子,并像啟動子分析一樣將遠(yuǎn)端峰聯(lián)系到最近的基因[ 164诉儒,165葡缰,166 ]。對于scATAC-seq忱反,Pliner等人推出了Cicero泛释,準(zhǔn)確地概括了可開放的峰,并將增強(qiáng)子和啟動子聯(lián)系到同一靶基因温算。該方法已通過正交方法驗(yàn)證[ 167]怜校。盡管已證明Cicero可以用于scATAC-seq,但尚不清楚此方法是否適用于樣本量小得多的常規(guī)ATAC-seq注竿。盡管如此茄茁,Cicero是使用ATAC-seq將遠(yuǎn)端增強(qiáng)子與基因調(diào)控相聯(lián)系的先驅(qū)。
盡管可以單獨(dú)使用ATAC-seq重建無方向的TF基因調(diào)控網(wǎng)絡(luò)蔓搞,但當(dāng)整合RNA-seq時胰丁,有向調(diào)控可以進(jìn)一步推斷為激活或抑制。Duren等提出了一個基于基因表達(dá)和染色質(zhì)可及性配對(PECA)數(shù)據(jù)的模型喂分,以預(yù)測目標(biāo)基因的表達(dá)與TF表達(dá)锦庸、染色質(zhì)重塑因子表達(dá)和染色質(zhì)可及性的關(guān)系[ 168 ]。Miraldi等使用ATAC-seq衍生的二元TF-基因相互作用作為先驗(yàn)網(wǎng)絡(luò)蒲祈,以進(jìn)一步完善從RNA-seq數(shù)據(jù)推斷出的調(diào)控網(wǎng)絡(luò)[ 166 ]甘萧。Berest等根據(jù)全基因組中TFBS的開放性和TF的表達(dá)量,將TF分類為激活因子和抑制因子[ 124]]與該可訪問性梆掸。該分類依賴于一個假設(shè)——類似于組蛋白標(biāo)記扬卷,染色質(zhì)開放性與激活型轉(zhuǎn)錄因子的表達(dá)量呈正相關(guān),與抑制型TF表達(dá)呈負(fù)相關(guān)[124酸钦,169 ]怪得。此方法僅允許以全局方式進(jìn)行分類。
為了進(jìn)一步優(yōu)化網(wǎng)絡(luò)重建,可以集成可用的ChIP-seq公共數(shù)據(jù)集以提高footprinting的準(zhǔn)確性徒恋。從染色質(zhì)構(gòu)象數(shù)據(jù)中整合已知的增強(qiáng)子-啟動子相互作用也將有所幫助蚕断。隨著深度學(xué)習(xí)的興起,為了構(gòu)建有效的算法來預(yù)測轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)入挣,需要在特征構(gòu)建和選擇方面進(jìn)行更多工作亿乳。總而言之径筏,將ATAC-seq與多組學(xué)數(shù)據(jù)整合在一起會產(chǎn)生生物學(xué)上有意義的結(jié)果葛假,從而可以揭示基因調(diào)控的潛在機(jī)制。
ATAC-seq數(shù)據(jù)的管道
處理ATAC-seq數(shù)據(jù)的集成管道日益重要滋恬。目前已經(jīng)開發(fā)了幾種工具聊训,通過將前面討論的工具組合在一起,可以將重點(diǎn)放在下游分析的不同方面恢氯。
僅舉幾個例子魔眨,esATAC [ 170 ]和CIPHER [ 171 ]專注于peak注釋,而圖形用戶界面(GUI)工具GUAVA [ 172 ]則專注于差異peak檢測以及功能注釋酿雪。ATAC2GRN [ 48 ]是另一種專門為footprinting而優(yōu)化的管道。
這些管道將為研究人員提供便利而方便的入門侄刽,使研究人員可以用最少的編程技能來探索ATAC-seq數(shù)據(jù)指黎。但是,這些管道的普遍缺乏參數(shù)調(diào)整的靈活性州丹。大多數(shù)參數(shù)都是憑經(jīng)驗(yàn)進(jìn)行硬編碼的醋安,因?yàn)樗鼈兊慕M合會隨著工具數(shù)量的增加而呈指數(shù)增長,因而難以在特定的條件下修改管道墓毒∠啪荆總體而言,具有可視化和用戶界面的管道將更適合非程序員探索數(shù)據(jù)所计。
單細(xì)胞ATAC-seq
通過微流體柠辞、納米孔或組合索引技術(shù),scATAC-seq現(xiàn)在能夠以低成本和方便的protocol測量數(shù)千細(xì)胞的染色質(zhì)可及性[33主胧,34叭首,35 ]。由于每個堿基的染色質(zhì)可及性將是二元的踪栋,scATAC-seq數(shù)據(jù)將是稀疏的焙格,因?yàn)樵诙扼w生物中只有兩個DNA拷貝。這是分析scATAC-seq數(shù)據(jù)的挑戰(zhàn)夷都。盡管針對常規(guī)ATAC-seq的分析已列出眷唉,單細(xì)胞的還有一個重要分析是聚類。Chen等人最近的scATAC-seq聚類方法基準(zhǔn)研究表明,SnapATAC冬阳,Cusanovich2018和cisTopic優(yōu)于其他方法[ 23蛤虐,173,174摩泪,175 ]笆焰。這三種方法的特點(diǎn)是結(jié)合了基于window的基因組分箱、可及性的二值化见坑、覆蓋率偏好校正和使用主成分分析降維的流程嚷掠,專門用于處理稀疏的scATAC-seq數(shù)據(jù)[ 175 ]。這項(xiàng)研究為將來的scATAC-seq軟件開發(fā)提供了有用的見解荞驴。
最近開發(fā)了同時測定同個細(xì)胞中的染色質(zhì)可及性不皆、轉(zhuǎn)錄組以及蛋白質(zhì)組的新技術(shù),如scNMT-seq熊楼,sci-CAR霹娄,和Pi-ATAC[161,176鲫骗,177 ]犬耻。這些實(shí)驗(yàn)的數(shù)據(jù)可以幫助推斷表觀基因組、轉(zhuǎn)錄組和蛋白質(zhì)組之間的復(fù)雜相互作用执泰,并有助于我們理解為什么不同的細(xì)胞表現(xiàn)出不同的行為枕磁。盡管單細(xì)胞分析的優(yōu)勢很明顯,但仍然存在挑戰(zhàn)术吝。單細(xì)胞技術(shù)的成本和時間效率提升以及生物信息學(xué)工具開發(fā)仍然是活躍的研究和開發(fā)領(lǐng)域计济。
未來展望和總結(jié)
ATAC-seq近年來發(fā)展迅速,已成為研究染色質(zhì)可及性的一種可選方法排苍。對單細(xì)胞沦寂、血液樣品和冷凍組織,現(xiàn)在有優(yōu)化的protocol[26淘衙,33传藏,34,35彤守,178 ]漩氨。盡管protocol取得了進(jìn)展,但生物信息學(xué)分析工具的進(jìn)展緩慢遗增,沒有定義全面的分析管道叫惊。這對今后ATAC-seq結(jié)果的解釋造成了障礙。
在這篇綜述中做修,我們系統(tǒng)地討論了ATAC-seq分析流程中的所有主要步驟霍狰,從原始read讀取開始抡草,到最終生物學(xué)意義的解釋,供讀者參考蔗坯。在這里康震,我們提供了可用工具的指南,并提出了可以考慮的分析步驟的建議宾濒,以促進(jìn)對ATAC-seq數(shù)據(jù)進(jìn)行合理的生物學(xué)解釋腿短。比對和QC步驟類似于RNA-seq和ChIP-seq。至于call peak绘梦,大多數(shù)ChIP-seq衍生工具都與ATAC-seq數(shù)據(jù)兼容橘忱,但是全面的基準(zhǔn)測試將有助于選擇合適的工具,并指導(dǎo)未來ATAC-seq特異性的call peak工具發(fā)展卸奉。越來越多的證據(jù)表明钝诚,當(dāng)前工具改進(jìn)或參數(shù)化之后可以適用于ATAC-seq數(shù)據(jù)。
對于下游分析榄棵,peak差異分析可以概述染色質(zhì)可及性的變化凝颇。但是,這些變化可能來自read數(shù)和峰的形狀疹鳄,并且可以通過基于計數(shù)或滑動窗口的方法來檢測拧略。這兩種方法在ATAC-seq中的性能仍需要進(jìn)行進(jìn)一步評估,并且可能對于特定環(huán)境具有特異性瘪弓。為了推斷生物學(xué)功能和相關(guān)的TF辑鲤,peak注釋和motif富集分析是初步了解的首選。
motif和footprint分別是調(diào)控事件的直接和間接指標(biāo)杠茬。檢測足跡的困難來自酶切偏倚和瞬時TF結(jié)合信號微弱。最近的出版物第一次嘗試擁抱快速發(fā)展的監(jiān)督式機(jī)器學(xué)習(xí)算法[131弛随,144 ]瓢喉,以取代用數(shù)學(xué)公式定義footprint。此外舀透,由于ATAC-seq數(shù)據(jù)固有的弱點(diǎn)(峰以外的區(qū)域read覆蓋率很低)栓票,核小體檢測仍然很困難。NucleoATAC和HMMRATAC曾嘗試這樣做愕够,但是該領(lǐng)域的檢測方法仍存在巨大的空白走贪。
單獨(dú)用ATAC-seq數(shù)據(jù)或與多組學(xué)數(shù)據(jù)整合來重建是基因調(diào)控網(wǎng)絡(luò)分析的另一個考慮因素。由于ATAC-seq所需細(xì)胞量可以低至500個惑芭,尤其是在發(fā)育生物學(xué)和臨床樣品中坠狡,可以研究明確定義的亞群,這特別誘人遂跟。scATAC-seq為研究異質(zhì)細(xì)胞群體中的染色質(zhì)生物學(xué)提供了另一種選擇逃沿。
綜上所述婴渡,作為一種信息豐富的研究方法,ATAC-seq十分需要特定的生物信息學(xué)分析工具凯亮,以便進(jìn)一步分析染色質(zhì)狀態(tài)边臼、TF足跡、核小體位置以及調(diào)節(jié)網(wǎng)絡(luò)重建假消。對于初級分析柠并,我們建議研究者不妨通過組合如下軟件來搭建有效的分析流程:用FastQC,trimmomatic和BWA-MEM進(jìn)行預(yù)分析富拗,用MACS2進(jìn)行peak calling臼予。對于高級分析,我們建議使用csaw進(jìn)行peak差異分析媒峡,使用MEME系列軟件進(jìn)行motif檢測和富集瘟栖,使用ChIPseeker進(jìn)行注釋和可視化,使用HMMRATAC進(jìn)行核小體檢測谅阿,使用HINT-ATAC進(jìn)行足跡分析半哟。如果可獲得RNA-seq數(shù)據(jù),則可以使用PECA方法重建調(diào)控網(wǎng)絡(luò)签餐。不過寓涨,研究者可以根據(jù)這篇綜述對每個步驟所需的工具進(jìn)行替換,我們推薦根據(jù)實(shí)驗(yàn)體系和數(shù)據(jù)的具體情況選擇工具氯檐。
我們設(shè)想戒良,這篇綜述將鼓勵研究人員認(rèn)識到ATAC-seq數(shù)據(jù)分析的復(fù)雜性和當(dāng)前的主要障礙。新的ATAC-seq特異性的工具和全面的基準(zhǔn)研究將使ATAC-seq在不久的將來能夠回答更多的生物學(xué)問題冠摄。
參考文獻(xiàn)
見原文糯崎,此處略。