Base-pair-resolution genome-wide mapping of active RNA polymerases using precision nuclear run-on (PRO-seq)
發(fā)表時(shí)間:online 21 July 2016
雜志:nature protocols
這篇筆記我翻譯了一部分巾乳,并沒(méi)有全文翻譯腊嗡,因?yàn)槲墨I(xiàn)里有一部分是非常詳細(xì)的實(shí)驗(yàn)步驟。有需要的同學(xué)可以自行下載參考實(shí)驗(yàn)步驟先朦,本篇筆記旨在了解Pro-seq的一些背景知識(shí)祈惶。
摘要
作者提供了一個(gè)Pro-seq的protocol柒瓣,和pro-cap的實(shí)驗(yàn)方法,這個(gè)方法可以繪制處于激活狀態(tài)下的RNA聚合酶的位置(pro-seq)撵枢,并且可以高分辨率的鑒定基因組范圍內(nèi)的轉(zhuǎn)錄起始位點(diǎn)(pro-cap)民晒。RNA聚合酶在基因組某一個(gè)特定位點(diǎn)的密度,直接影響了該區(qū)域新生轉(zhuǎn)錄的水平锄禽。把細(xì)胞核從細(xì)胞中分離出來(lái)潜必,在核run-on條件下,處于轉(zhuǎn)錄活化狀態(tài)的RNA聚合酶將1個(gè)或者幾個(gè)標(biāo)記有生物素的核苷酸三磷酸(biotin-ntps) 加入到新生的RNA的3'端沟绪。這些標(biāo)記的新生RNA被用來(lái)制備測(cè)序文庫(kù)刮便。從3’端測(cè)序,提供高分辨率的RNA聚合酶的位置信息绽慈。Pro-seq的靈敏度遠(yuǎn)遠(yuǎn)高于Chip-seq恨旱,相比于Chip-seq,它可以產(chǎn)生更大的可測(cè)序的reads片段坝疼。與net-seq類似搜贤,pro-seq對(duì)RNA聚合酶進(jìn)行map可達(dá)到堿基對(duì)分辨率,并具有鏈特異性钝凶;但與net-seq不同的是仪芒,Pro-seq不需要免疫沉淀唁影。根據(jù)這篇文獻(xiàn)的protocol,可以在4-5天內(nèi)生成用于高通量測(cè)序的pro-seq(或pro-cap)文庫(kù)掂名。該方法已應(yīng)用于人据沈、小鼠、黑腹果蠅和秀麗隱桿線蟲細(xì)胞饺蔑,以及酵母锌介。
Introduction
在基因組范圍內(nèi)測(cè)定RNA聚合酶密度為研究轉(zhuǎn)錄提供了全面的、瞬時(shí)定量猾警。收集這些調(diào)控過(guò)程中的瞬時(shí)的信息孔祸,可以鑒定哪些基因?qū)μ厥庑盘?hào)首先做出回應(yīng),哪些基因是其次回應(yīng)发皿。這就可以提示一些重要的調(diào)控機(jī)制崔慧。沿基因?qū)NA聚合酶密度的定量,對(duì)于破譯相關(guān)的調(diào)控步驟也是至關(guān)重要的穴墅。
除了編碼蛋白質(zhì)的基因惶室,基因組上許多其他區(qū)域(如上游分化區(qū)、下游polyA區(qū)封救、增強(qiáng)子)也有不同程度的轉(zhuǎn)錄拇涤。增強(qiáng)子產(chǎn)生短的、不穩(wěn)定的RNAs (eRNAs)誉结,它們不編碼蛋白質(zhì)鹅士,但描繪了主要的轉(zhuǎn)錄調(diào)節(jié)中心。增強(qiáng)子介導(dǎo)的轉(zhuǎn)錄調(diào)節(jié)差異涉及到各種疾病惩坑,了解這種調(diào)節(jié)對(duì)于破譯發(fā)育掉盅、營(yíng)養(yǎng)及環(huán)境因素應(yīng)答的轉(zhuǎn)錄是很重要。而對(duì)總RNA的測(cè)序沒(méi)辦法檢測(cè)這些不穩(wěn)定的RNA以舒。目前有好幾種方法已被記錄可以富集并測(cè)序這些RNA聚合酶相關(guān)的新生RNA序列趾痘。這些方法都是基于RNA聚合酶的免疫沉淀,或依賴于不溶性染色質(zhì)的純化蔓钟。因此永票,這些方法是高度依賴的抗體特異性或染色質(zhì)純度。作者已經(jīng)開發(fā)了基于核run-on的方法在全基因組范圍內(nèi)繪制活性RNA聚合酶及其起始位點(diǎn)滥沫,分辨率可達(dá)到1bp侣集。
在這些方法中,利用RNA聚合酶的內(nèi)源活性進(jìn)行選擇性標(biāo)記新生的RNA兰绣。在文庫(kù)準(zhǔn)備過(guò)程中世分,親和純化多次核run-on RNA為新生RNA提供了大約數(shù)百萬(wàn)倍的富集(相比其他形式的RNA),從而有效地消除背景缀辩。此外臭埋,由于RNA是被測(cè)序的踪央,轉(zhuǎn)錄的方向也可以明確地鑒定。
PRO-seq的發(fā)展
PRO-seq是基于global run-on測(cè)序(GRO-seq)的瓢阴、一種全基因組的核run-on試驗(yàn)畅蹂,它被用于測(cè)量靶基因的轉(zhuǎn)錄。在GEO-seq中荣恐,溴吡啶(BrU)標(biāo)記的新生RNA被親和純化魁莉,并通過(guò)高通量測(cè)序分析來(lái)繪制RNA聚合酶位置。通過(guò)多重親和純化步驟得到極高的靈敏度和特異性募胃。GEO-seq使用BrU作為核run-on反應(yīng)的底物,使RNA聚合酶能夠向新生RNA里添加多個(gè)核苷酸畦浓。因此痹束,GRO-seq的分辨率是幾十個(gè)堿基。
但是讶请,要了解轉(zhuǎn)錄延長(zhǎng)和啟動(dòng)子近端暫停的分子機(jī)制祷嘶,RNA聚合酶的定位在堿基對(duì)數(shù)量級(jí)的分辨率是必需的。這樣的分辨率能夠建立一個(gè)機(jī)制模型夺溢,比如DNA如何測(cè)序论巍、核小體或其他DNA結(jié)合因子影響RNA聚合酶的延伸與基因表達(dá)。為了實(shí)現(xiàn)堿基對(duì)級(jí)的分辨率风响,作者使用了一個(gè)修飾過(guò)的核run-on分析嘉汰,這個(gè)分析限制添加到新生RNA中的標(biāo)記核苷酸的數(shù)量。在PRO-seq中状勤,生物素標(biāo)記的NTPs為核run-on反應(yīng)的底物鞋怀。通過(guò)RNA聚合酶,被標(biāo)記的NTP抑制更多的生物素-NTP進(jìn)一步加入到新生RNA里持搜。測(cè)序從3’端進(jìn)行密似,因此,可以識(shí)別最后一個(gè)加入進(jìn)去的NTP葫盼,準(zhǔn)確的揭示了活性RNA聚合酶與其新生RNA的結(jié)合位點(diǎn)残腌。
鑒定TSSs的準(zhǔn)確位置對(duì)理解DNA元件、通用轉(zhuǎn)錄因子和轉(zhuǎn)錄激活因子如何將RNA聚合酶招募到基因和增強(qiáng)子上也很重要贫导。RNA聚合酶在一個(gè)TSS處啟動(dòng)轉(zhuǎn)錄抛猫,并在啟動(dòng)子近端位點(diǎn)暫停前快速轉(zhuǎn)錄一個(gè)短區(qū)域。然而脱盲,在PRO-seq中由于新生轉(zhuǎn)錄本是從3 '端開始測(cè)序的邑滨,RNA聚合酶開始轉(zhuǎn)錄的位置信息大部分都丟失了。因此钱反,作者通過(guò)修改PRO-seq的測(cè)序策略掖看,從5 '端開始對(duì)加了cap的新生RNA進(jìn)行測(cè)序(PRO-cap)匣距,使TSSs能夠在RNA合成水平上被識(shí)別。
過(guò)程概述
PRO-seq和PRO-cap實(shí)驗(yàn)過(guò)程如上圖所示哎壳。將細(xì)胞核迅速?gòu)募?xì)胞中分離出來(lái)毅待,天然核苷酸被沖走,以停止轉(zhuǎn)錄归榕。然而尸红,RNA聚合酶仍然在DNA上,并保持其酶活性刹泄。把分離出來(lái)的細(xì)胞核與生物素標(biāo)記的NTPs孵育外里,使RNA聚合酶延長(zhǎng)并標(biāo)記新生RNA。對(duì)PRO-seq而言特石,將標(biāo)記的新生RNA用NaOH水解盅蝗,生成適合測(cè)序的RNA片段(約100 bp長(zhǎng))。然后利用鏈霉親和素包覆的磁珠通過(guò)親和純化富集含有生物素的RNA姆蘸。生物素-鏈霉親和素之間的相互作用非常穩(wěn)定(Kd ~ 10?14 mol/l)墩莫,允許比較徹底的清洗磁珠,以最大限度地減少未標(biāo)記RNA的污染逞敷。
然后將一個(gè)3 '測(cè)序接頭連接到新生RNA 3 '端羥基(OH)上狂秦,再進(jìn)行一次親和純化,進(jìn)一步富集新生RNA推捐,去除沒(méi)連上接頭的序列裂问。PRO-seq中5 '測(cè)序接頭連接與PRO-cap不同。對(duì)于PRO-seq牛柒,使用煙草酸焦磷酸酶(TAP)或RNA 5 '焦磷酸水解酶(RppH)從沒(méi)有水解的短的新生RNA中去除5 'cap愕秫。通過(guò)堿水解生成的5 ' OH在PNK作用下轉(zhuǎn)化為5 '磷酸。而對(duì)于PRO-cap來(lái)說(shuō)焰络,帶5 ' -單磷酸的無(wú)帽RNA戴甩,被5′-磷酸依賴的核酸外切酶降解。5′三磷酸和單磷酸用堿性磷酸酶從殘留的無(wú)帽RNA中去除闪彼。只有這樣甜孤,新生RNA的5 '帽才能通過(guò)TAP或RppH處理去除。經(jīng)過(guò)這些化學(xué)修飾畏腕,一個(gè)5 '測(cè)序接頭連接到新生RNA缴川,進(jìn)行第三輪親和純化,通過(guò)兩端的測(cè)序接頭對(duì)新生RNA進(jìn)行富集描馅。然后對(duì)新生RNA進(jìn)行逆轉(zhuǎn)錄和PCR擴(kuò)增把夸,以確定適當(dāng)?shù)腜CR循環(huán)數(shù)。這一步是至關(guān)重要的铭污,避免過(guò)度擴(kuò)增恋日。在最后的擴(kuò)增過(guò)程中膀篮,可以添加barcode,這樣可以進(jìn)行多個(gè)庫(kù)的測(cè)序岂膳。最后誓竿,PCR擴(kuò)增的文庫(kù)大小選擇為140-350 bp,進(jìn)行高通量測(cè)序谈截。哺乳動(dòng)物細(xì)胞的測(cè)序深度為2500 - 5000萬(wàn)筷屡,基因組較小的生物,比如果蠅的測(cè)序深度為1000 - 2000萬(wàn)簸喂,酵母細(xì)胞的測(cè)序深度為500 - 1000萬(wàn)毙死。相對(duì)較短的reads長(zhǎng)度(比如40-50 bp)就足夠了。測(cè)序生成基于文本的短核苷酸序列的列表喻鳄,用fastq檢測(cè)測(cè)序質(zhì)量规哲。序列可能還包含不同長(zhǎng)度的adapter序列,需要進(jìn)行trimming诽表,再進(jìn)行基因組比對(duì)。最后隅肥,比對(duì)的序列用于生成coverage文件竿奏,可以用于可視化和分析。
PRO-seq的優(yōu)點(diǎn)和局限性
優(yōu)點(diǎn):
(1)提供了RNA聚合酶站位腥放,并且是堿基對(duì)級(jí)的分辨率泛啸,以及鏈特異性信息。
(2)因?yàn)槭抢蒙镉H和純化的新生RNA秃症,所以背景RNA污染被大大的降低候址。
(3)高靈敏性
(4)可以從增強(qiáng)子區(qū)域鑒定短的、不穩(wěn)定的新生RNA轉(zhuǎn)錄本种柑。
局限性:
(1)原則上岗仑,PRO-seq的測(cè)序結(jié)果是潛在的異質(zhì)性細(xì)胞群的集合,這通常對(duì)所有多細(xì)胞聚请、高通量測(cè)序分析都是正確的荠雕。與成熟的RNA分子有多個(gè)拷貝不同的是,RNA聚合酶在特定的基因組位置最多只能產(chǎn)生兩個(gè)新生RNA拷貝驶赏。因此炸卑,雖然可以采用PRO-seq來(lái)測(cè)量單細(xì)胞中高表達(dá)基因的新生轉(zhuǎn)錄水平,但在單細(xì)胞中繪制RNA聚合酶的圖譜仍是一個(gè)挑戰(zhàn)煤傍。
(2)PRO-seq只檢測(cè)活性的RNA聚合酶盖文,因此無(wú)法檢測(cè)起始前復(fù)合物中的RNA聚合酶。還有一種可能蚯姆,其他形式的停滯RNA聚合酶五续,如反向跟蹤聚合酶洒敏,可能也不能被檢測(cè)到。雖然核run-on條件允許這些聚合酶重新調(diào)整活性位點(diǎn)返帕。一般來(lái)說(shuō)桐玻,RNA聚合酶II (Pol II)的ChIP-seq所看到的信號(hào)和我們的全基因組run-on方法在數(shù)量上一致,所以大部分Pol II可以通過(guò)GRO-seq或者PRO-seq方法檢測(cè)出來(lái)荆萤。
(3)與GRO-seq(新生RNA的3 '端長(zhǎng)度更長(zhǎng))相比镊靴,PRO-seq只添加一個(gè)或幾個(gè)核苷酸,以提供更高的分辨率链韭。然而偏竟,有一種可能性是,RNA聚合酶的位置非常接近TSS敞峭,以至于無(wú)法被檢測(cè)到踊谋。因?yàn)樾律腞NA可能不夠長(zhǎng),不能被唯一地比對(duì)到基因組上旋讹。在這種情況下殖蚕,GRO-seq可以提供更準(zhǔn)確的定量在啟動(dòng)子近端的RNA聚合酶。同樣沉迹,RNA聚合酶定位在基因組的重復(fù)序列區(qū)域也很難準(zhǔn)確地映射到一個(gè)特定的repeat上睦疫。
(4)PRO-seq不能區(qū)分初生轉(zhuǎn)錄來(lái)源,即不同區(qū)分不同的RNA聚合酶(Pol I鞭呕、Pol II蛤育、Pol III)除非在特殊RNA聚合酶抑制劑存在的情況下進(jìn)行。此外葫松,與NET-seq不同的是瓦糕,與特定RNA聚合酶修飾(如c末端區(qū)域的磷酸化)相關(guān)的新生RNA不能被選擇性的檢測(cè)到。
PRO-seq和PRO-cap的應(yīng)用
PRO-seq最常見的應(yīng)用是分析全基因組轉(zhuǎn)錄水平腋么,它具有定向信息咕娄,比RNA聚合酶ChIP-seq分析具有更高的分辨率和靈敏性。PRO-seq提供了一個(gè)獨(dú)立的基因表達(dá)分析層次(不同于mRNA-seq)珊擂,揭示了調(diào)控轉(zhuǎn)錄的不同階段谭胚,比如mRNA加工或穩(wěn)定。增加的分辨率和方向性信息在區(qū)分上游發(fā)散性轉(zhuǎn)錄很有用未玻。
PRO-cap可以在RNA合成初期捕獲TSSs灾而,相反,其他TSS分析使用的都是成熟的RNA扳剿。這為檢測(cè)增強(qiáng)子轉(zhuǎn)錄子旁趟、上游反義轉(zhuǎn)錄本、或其他類型的不穩(wěn)定轉(zhuǎn)錄本提供了優(yōu)勢(shì),避免轉(zhuǎn)錄后修飾事件锡搜。
替代PRO-seq的方法
RNA聚合酶可以有不同的方法定位到基因組上:
(1)ChIP-seq
在這種方法中橙困,RNA聚合酶蛋白與DNA交聯(lián),然后通過(guò)免疫沉淀純化Pol II耕餐。通過(guò)高通量測(cè)序鑒定和定量Pol-II相關(guān)的DNA凡傅,從而估算基因組不同位點(diǎn)的Pol-II含量。ChIP的分辨率通常受到染色質(zhì)DNA片段大小的限制肠缔。這種方法有一種類似的實(shí)驗(yàn)夏跷,叫做CHIP-exo,通過(guò)處理Pol II CHIP的DNA片段(使用DNA外切酶)明未。核酸外切酶消化DNA兩條鏈的3 '端槽华,停在交聯(lián)聚合酶復(fù)合體附近。ChIPseq的另一個(gè)限制是趟妥,由于使用了交聯(lián)猫态,所以,Pol-II結(jié)合區(qū)域與Pol-II非結(jié)合基因組區(qū)域通過(guò)三維loop相互作用披摄,從而出現(xiàn)假陽(yáng)性亲雪。最后,ChIP-seq將繪制所有形式的Pol II疚膊,包括反義方向上Pol IIs义辕,以及轉(zhuǎn)錄不活躍的Pol IIs。因此酿联,轉(zhuǎn)錄的方向并沒(méi)有直接揭示。
(2)高錳酸鹽footprinting
該方法可用于鑒定單鏈DNA上由RNA聚合酶產(chǎn)生的轉(zhuǎn)錄“bubble”夺巩。通過(guò)一系列化學(xué)處理贞让,DNA非模板鏈暴露T殘基。一種稱為高錳酸鹽-CHIP-seq的方法將高錳酸鹽足跡與Pol II CHIP結(jié)合柳譬,從而從單鏈轉(zhuǎn)錄bubble區(qū)域繪制出DNA裂解末端喳张。這直接以高分辨率映射了轉(zhuǎn)錄活性位點(diǎn)。高錳酸鹽mapping依賴于非模板鏈DNA中bubble里T堿基的存在美澳,這些殘基沒(méi)有被蛋白質(zhì)結(jié)合销部。雖然這個(gè)方法在一條富集了Pol II,但其他區(qū)域暴露單鏈胸腺嘧啶制跟,比如其他DNA-RNA雜交體或鏈內(nèi)DNA hairpin——有可能增加背景噪音舅桩。
(3)NET-seq
許多基于染色質(zhì)結(jié)合新生RNA的方法,包括NET-seq和它的類似方法雨膨,已經(jīng)被用于RNA聚合的定位擂涛。在最初的NET-seq方法中,RNA聚合酶復(fù)合物被免疫沉淀聊记,與天然RNA共同純化進(jìn)行測(cè)序撒妈。新生RNA的3 '端提供了高分辨率的RNA聚合酶圖譜恢暖。這種方法非常適合于檢查不同修飾的RNA聚合酶的占位情況。在實(shí)踐中狰右,NET-seq的效率依賴于單一免疫沉淀步驟所提供的富集程度杰捂。由于該方法檢測(cè)所有與Pol II相關(guān)的RNA的3 '端,所以它也同時(shí)捕獲了共轉(zhuǎn)錄剪接的中間產(chǎn)物的3 '端和micro-RNA棋蚌,使得繪制Pol II圖譜更加困難嫁佳。
文獻(xiàn)中間很長(zhǎng)篇幅介紹了實(shí)驗(yàn)的具體操作,這里就不贅述了附鸽。
分析數(shù)據(jù)
最后來(lái)看一下數(shù)據(jù)分析的大致流程:
在PRO-seq里脱拼,新生RNA的3’端對(duì)應(yīng)基因組上RNA聚合酶活性位點(diǎn)。修飾的RNA接頭為了新生RNA的反向互補(bǔ)測(cè)序而設(shè)計(jì)的坷备。因此熄浓,測(cè)序得到的reads的3'端的反向互補(bǔ)反映了RNA聚合酶的活性位點(diǎn)。
在PRO-cap里省撑,使用的是傳統(tǒng)的RNA接頭赌蔑,測(cè)序得到的reads的5'端反映了相同方向的TSSs。下面竟秫,作者只列出了3個(gè)需要注意的步驟:
原始數(shù)據(jù)的預(yù)處理:
把低質(zhì)量的reads過(guò)濾掉娃惯,trimming去掉接頭序列(TGGAATTCTCGGGTGCCAAGG)。你可以使用cutadapt軟件來(lái)進(jìn)行操作肥败。根據(jù)文庫(kù)的質(zhì)量趾浅,測(cè)序只包含最多5%的接頭序列。
比對(duì):
絕大多數(shù)的新生RNA的reads是在RNA編輯和剪切前捕捉的馒稍,它們?cè)诒葘?duì)中不包含大的gaps皿哨。因此,許多比對(duì)程序(基于bwa和bowtie)可以使用纽谒。對(duì)于multiple比對(duì)通常需要舍棄掉证膨。有時(shí),比對(duì)到核糖體基因組上的reads可以去除掉鼓黔,它們大概占所有轉(zhuǎn)錄活性的30-40%央勒。一般,原始reads有55-70%是唯一比對(duì)到基因組上的澳化。
Generate the coverage of the aligned sequence reads
用samtools把bam文件進(jìn)行sort崔步;然后使用bedtools進(jìn)行處理。對(duì)于PRO-seq數(shù)據(jù)缎谷,交換正鏈和負(fù)鏈數(shù)據(jù)使之處于正確方向刷晋。這些數(shù)據(jù)可以在IGV中可視化,用于進(jìn)一步的下游分析。