Nature重磅綜述 |關于RNA-seq饭弓,你想知道的都在這

摘要

RNA測序(RNA-seq)在過往十年里逐漸成為全轉(zhuǎn)錄組水平分析差異基因表達和研究mRNA差異剪接必不可少的工具修陡。隨著二代測序技術 (NGS)的發(fā)展邀桑,RNA-seq的應用也越來越廣∷钍矗現(xiàn)已經(jīng)可以應用于很多RNA層面的研究工窍,比如單細胞基因表達、RNA翻譯(translatome)和RNA結(jié)構(gòu)組(structurome結(jié)構(gòu)組學)前酿。新的有意思的應用患雏,如空間轉(zhuǎn)錄組學(spatialomics)也在積極研究中。通過結(jié)合新興的三代長讀長long-readdirect RNA-seq技術罢维,以及更好的計算分析工具淹仑,RNA-seq幫助大家對RNA生物學的理解會越來越全面:從轉(zhuǎn)錄本在何時何地轉(zhuǎn)錄RNA折疊以及分子互作發(fā)揮功能等。

前言

RNA測序(RNA-seq)自誕生起就應用于分子生物學肺孵,幫助理解各個層面的基因功能≡冉瑁現(xiàn)在的RNA-seq更常用于分析差異基因(DGE, differential gene expression),而從得到差異基因表達矩陣平窘,該標準工作流程的基本分析步驟一直是沒有太大變化:

  • 始于濕實驗怀吻,提取RNA,富集mRNA或消除rRNA初婆,合成cDNA和構(gòu)建測序文庫蓬坡。

  • 然后在高通量平臺(通常是Illumina)上進行測序,每個樣本測序reads深度為10-30 Million reads磅叛。

  • 最后一步是計算:比對/拼裝測序reads到轉(zhuǎn)錄本屑咳,計數(shù)與轉(zhuǎn)錄本比對上的reads數(shù)定量,樣本間過濾標準化弊琴,樣本組間基因/轉(zhuǎn)錄本統(tǒng)計差異分析兆龙。

早期的RNA-seq實驗從細胞群(如來源于某個組織或器官的細胞)中得到DGE數(shù)據(jù),并可以應用于很多物種,如玉米(Zea mays)紫皇,擬南芥(Arabiodopsis thaliana)慰安,釀酒酵母(Saccharomyces cerevisae),鼠(Mus musculus)和人(Homo sapiens)聪铺。雖然RNA-seq這個詞通常包含很多不同的RNA相關的方法或生物應用化焕,但DGE分析始終是它的主要應用(表1),并且是DGE研究的常規(guī)工具铃剔。

RNA-seq的廣泛應用促進了對許多生物層面的理解撒桨,如揭示了mRNA剪接的復雜性、非編碼RNA和增強子RNA調(diào)控基因表達的機制键兜。RNA-seq的發(fā)展和進步一直離不開技術發(fā)展的支持(濕實驗方面和計算分析方面)凤类,且與先前的基于基因芯片的技術比起來,獲得的信息更多普气、偏好性更小谜疤。到目前為止,已從標準的RNA-seq流程中衍生出多達100種不同的應用现诀。大部分應用都是基于Illumina short-read測序夷磕,但最近基于long-read RNA-seqdirect RNA sequencing (dRNA-seq)的方法可以幫助解決Illumina short-read技術處理不了的問題。

本文中赶盔,我們先熟悉'baseline'流程企锌,用short-read RNA-seq技術分析DGE榆浓。先描述短讀長測序的文庫構(gòu)建過程于未、實驗設計注意事項和計算分析流程,探究其應用如此廣泛的原因陡鹃。然后描述單細胞轉(zhuǎn)錄組和空間轉(zhuǎn)錄組的發(fā)展和應用烘浦。我們會舉例說明RNA-seq在RNA生物學關鍵研究中的應用,包括轉(zhuǎn)錄和翻譯的動力學分析萍鲸,RNA結(jié)構(gòu)闷叉,RNA-RNA和RNA-蛋白質(zhì)間相互作用等。最后我們小小地展望一下RNA-seq的未來脊阴,如單細胞和空間轉(zhuǎn)錄組是否也會是以后的常規(guī)分析握侧,在什么情況下long reads會替代short reads RNA-seq。不過篇幅有限嘿期,本文對RNA-seq分析還是有照顧不到的地方品擎,比如典型的有非編碼轉(zhuǎn)錄組,原核轉(zhuǎn)錄組和表觀轉(zhuǎn)錄組备徐。

圖一:short-read,long-read和direct RNA-seq技術和工作流程

image

圖一:****A

3種RNA測序方式的建庫方法概覽:short-read測序(黑色)萄传,long-read cDNA測序(綠色)和long-read direct RNA-seq(藍色)。根據(jù)不同的應用目的蜜猾,文庫構(gòu)建的復雜性和偏好性不同秀菱。short-read和long-read cDNA的建庫方案在很多步驟是一樣的振诬,比如在所有建庫方案中接頭連接是共有的。三種方法都會受到樣本質(zhì)量和文庫構(gòu)建上下游的計算問題影響衍菱。

image

圖一:****B

三種主要測序技術的比較赶么。

  • Illumina workflow(左):

    建庫之后,單獨的cDNA分子在流動槽中構(gòu)建測序簇梦碗,使用3’阻斷的熒光標記的核苷酸進行邊合成邊測序禽绪。在每一輪測序中,高速攝像機拍照捕獲當前激發(fā)的熒光洪规,來判斷當前是哪個核苷酸合成進來印屁,測序長度在50-500 bp

  • The Pacific Biosciences workflow(中):

    建庫之后斩例,每個分子與固定在納米孔底部的聚合酶結(jié)合雄人。然后是邊合成邊測序,測序長度可以高達50 kb念赶。

  • The Oxford Nanopore workflow(右):

    建庫后础钠,將單個分子加載到流動槽中,在接頭連接過程中加上的分子馬達會與生物納米孔結(jié)合叉谜。馬達蛋白控制RNA鏈穿過生物納米孔旗吁,引起電流變化,從而推測出經(jīng)過的堿基序列停局,生成的測序reads大小為1-10 kb很钓。

image.gif

圖一:****C

short-read,long-readdirect RNA-seq分析:

人體中,超過90%的基因(gene n)會發(fā)生可變剪接董栽,并生成至少兩種不同的表達形式(轉(zhuǎn)錄本x,y)码倦。相比于long-read測序可以直接測到每一種不同的轉(zhuǎn)錄本,從而獲得更全面的信息锭碳,short-read的測序在檢測轉(zhuǎn)錄本上受限于短reads比對的模糊性袁稽。在short-read cDNA測序中,有很多reads比對回兩個不同轉(zhuǎn)錄本共享的外顯子上導致無法確定其真實來源擒抛⊥破跨越2個或多個外顯子的Junction reads可以改善轉(zhuǎn)錄異構(gòu)體的分析,但當兩種轉(zhuǎn)錄異構(gòu)體共享剪接斷點時就無能為力了歧沪。這些問題都增加了分析和解讀結(jié)果的復雜度歹撒。long-read cDNA方法能直接檢測全長轉(zhuǎn)錄異構(gòu)體,從而移除或大幅減少檢測偏好,提高差異表達轉(zhuǎn)錄本分析的準確率槽畔。

而以上這些方法都依賴于cDNA轉(zhuǎn)換栈妆,這一過程抹去了有關RNA堿基修飾的信息,而且也只能粗略估計多聚腺苷酸(poly(A))尾巴的長度,而direct RNA-seq可以直接分析全長轉(zhuǎn)錄本異構(gòu)體鳞尔、度量堿基修飾(比如N6-甲基腺苷(M6A))和檢測poly(A)尾巴長度嬉橙。

RNA-seq技術的進步

**NCBI **Short Read Archive (SRA)數(shù)據(jù)共享平臺中多于95%的數(shù)據(jù)來自于Illumina short-read測序技術(表2)。目前幾乎所有已發(fā)布的mRNA-seq數(shù)據(jù)都是short-read測序所得寥假,所以我們認為這是RNA-seq技術的常規(guī)操作市框,接下來討論它的主要流程和限制。不過在轉(zhuǎn)錄異構(gòu)體檢測的研究(圖一糕韧;表1)方面枫振,不斷進步的long-read cDNA測序和dRNA-seq技術將向short-read測序技術的主導地位發(fā)起挑戰(zhàn)。

測序技術 平臺 優(yōu)勢 劣勢 重要應用
short-read cDNA llumina, Ion Torrent ①高通量萤彩,每次運行產(chǎn)生的reads數(shù)是long-read平臺的100-1000倍之多粪滤;②測序偏好和錯誤模式研究透徹(同聚物homopolymers對于Ion Torrent來說仍然是個問題);③可使用的方法和計算流程很多雀扶;④可用于降解了的RNA的分析 樣品制備過程如反轉(zhuǎn)錄杖小,PCR和片段選擇都會引入偏好性;轉(zhuǎn)錄異構(gòu)體的檢測和定量受限愚墓;新轉(zhuǎn)錄本的鑒定基于轉(zhuǎn)錄本拼裝步驟 幾乎所有的RNA-seq應用都是基于short-read cDNA測序:DGE (differential gene expression), WTA (whole- transcriptome analysis),小RNA予权,單細胞,空間轉(zhuǎn)錄組浪册,新生轉(zhuǎn)錄本扫腺,翻譯組,RNA結(jié)構(gòu)組和RNA-蛋白質(zhì)相互作用分析等等村象。
long-read cDNA PacBio, ONT ①1–50kb的長reads可以檢測很多全長轉(zhuǎn)錄本 ②用于de novo轉(zhuǎn)錄組分析的計算方法簡化很多 ①低-中通量笆环,每個run獲得0.5 M-10 Million reads②樣品制備過程如反轉(zhuǎn)錄,PCR和片段選擇(部分方法需要)都會引入偏好性③不太適合降解了的RNA 尤其適用于轉(zhuǎn)錄異構(gòu)體的發(fā)現(xiàn)煞肾,無參轉(zhuǎn)錄組的de novo分析咧织,融合轉(zhuǎn)錄本的發(fā)現(xiàn)嗓袱,HL A (human leukocyte antigen)和MHC (major histocompatibility complex)等復雜轉(zhuǎn)錄本分析
Long-read RNA ONT ①1–50kb的長reads可以檢測很多全長轉(zhuǎn)錄本②用于de novo轉(zhuǎn)錄組分析的計算方法簡化很多 ③樣品制備不需要反轉(zhuǎn)錄或PCR籍救,降低了偏好性 ④可以檢測RNA堿基修飾 ⑤單分子測序直接估計poly(A)全長 ①通量低,每個run僅生產(chǎn)0.5 M-1 Million reads②樣品準備和測序過程偏好性不明確③不太適合降解了的RNA ①尤其適用于轉(zhuǎn)錄異構(gòu)體的發(fā)現(xiàn)渠抹,無參轉(zhuǎn)錄組的de novo分析蝙昙,融合轉(zhuǎn)錄本的發(fā)現(xiàn),MHC和HLA等復雜轉(zhuǎn)錄本分析 ②適用于檢測核糖核酸修飾

表1

short-read cDNA測序用于差異基因分析

short-read測序是檢測和定量轉(zhuǎn)錄組范圍基因表達的最常見方式梧却,部分原因是因為它比表達芯片更便宜奇颠、更易于應用,但更主要的是它可以獲得全轉(zhuǎn)錄組水平高質(zhì)量的表達數(shù)據(jù)放航。采用Illumina的short-read測序做DGE分析的核心步驟包括RNA提取烈拒,cDNA合成,接頭連接,PCR擴增荆几,測序和數(shù)據(jù)分析(圖一)吓妆。由于mRNA片段化和基于beads的文庫純化過程中偏好150-200 bp的片段,導致這個方案最后獲得的cDNA片段都在200 bp以下吨铸。每個樣本平均測20-30 million reads行拢,對每個基因或轉(zhuǎn)錄本進行定量,再統(tǒng)計分析差異基因(參考RNA-seq數(shù)據(jù)分析部分)诞吱。short-read RNA-seq結(jié)果很穩(wěn)定舟奠,對RNA-seq的short-read測序技術多次測試比較發(fā)現(xiàn),其平臺內(nèi)和平臺間的相關性都很好房维。然而在樣本準備和計算分析階段有一些步驟也會引入偏好性沼瘫。這些限制會影響特定生物問題的解釋,比如正確地識別和定量一個基因的多個轉(zhuǎn)錄異構(gòu)體咙俩。這一局限與研究特別長或特別多變的轉(zhuǎn)錄異構(gòu)體尤其相關晕鹊。如人的轉(zhuǎn)錄組中,50%的轉(zhuǎn)錄本長度大于2500 bp暴浦,轉(zhuǎn)錄本長度范圍在186 bp到109 kb溅话。盡管short-read RNA-seq 可以對更長的轉(zhuǎn)錄本進行細致的分析,但相應的方法很難高通量化用于全轉(zhuǎn)錄組范圍的分析歌焦。其它的偏好性和限制可能來自于RNA-seq數(shù)據(jù)分析的計算方法飞几,比如怎么處理在基因組上有多個匹配位置的序列。一個新的稱為合成長讀長測序 (synthetic long reads)可以進行全長mRNA測序和解決一部分存在的問題独撇。在short-read RNA-seq建庫前利用唯一分子標識符(UMI標記cDNA分子韵吨,從而解決短讀長問題做到測序全長mRNA雪猪。基于這個技術可以對長達4 kb的轉(zhuǎn)錄本異構(gòu)體進行鑒定和定量。從根本上解決short-cDNA測序固有限制的最有效的方法還是long-read cDNA測序和dRNA-seq方法刊苍。

long-read cDNA 測序

盡管Illumina是目前主流的RNA-seq平臺,但Pacific Biosciences(PacBio)和Oxford Nanopore(ONT)能在完整的RNA分子反轉(zhuǎn)錄為cDNA后進行單分子長讀長測序棘街。因為消除了short RNA-seq reads需要的組裝步驟刮吧,可以解決short reads測序相關的一些問題。例如:序列比對的模糊性降低啄踊,可以鑒定更長的轉(zhuǎn)錄本忧设,這些有助于更好地檢測轉(zhuǎn)錄異構(gòu)體的多樣性。同時還可以降低許多short-read RNA-seq計算工具引入的剪接位點檢測的高假陽性率颠通。

基于PacBio技術的Iso-Seq能夠檢測長達15 kb的全長轉(zhuǎn)錄本cDNA reads址晕,這有助于發(fā)現(xiàn)大量先前未注釋的轉(zhuǎn)錄本,并通過全長測序確認了早期基于跨物種同源序列的基因預測結(jié)果顿锰。在標準的Iso-Seq實驗流程中谨垃,模板置換逆轉(zhuǎn)錄酶可以將高質(zhì)量RNA轉(zhuǎn)化為用來測序的全長cDNA启搂。然后將得到的cDNA進行PCR擴增,并構(gòu)建PacBio單分子實時(single-molecule, real-time刘陶,SMRT)文庫狐血。因為短轉(zhuǎn)錄本可以很快地擴散到測序芯片的活性表面造成一定的測序偏好,建議選擇1至4 kb長度的轉(zhuǎn)錄本一起測序易核,以保證這一長度范圍的長短轉(zhuǎn)錄本有同等幾率進行測序匈织。同時PacBio測序?qū)δ0辶啃枨蠛艽螅筮M行大體積PCR牡直,需要優(yōu)化反應體系降低過擴增的影響缀匕。PCR末端修復和PacBio SMRT 接頭連接后,就可以進行l(wèi)ong-read測序了;通過調(diào)整測序芯片的上樣條件可以進一步控制測序片段的大小選擇偏好碰逸。

ONT cDNA測序也可以測序全長轉(zhuǎn)錄本乡小,而且適用于單細胞測序。同樣使用模板置換逆轉(zhuǎn)錄來制備全長cDNA饵史,在加接頭制備測序文庫之前满钟,可以自己決定是否進行PCR擴增。Direct cDNA測序可消除PCR偏差胳喷,獲得的測序結(jié)果質(zhì)量更高 湃番;PCR擴增的cDNA文庫的測序產(chǎn)出(測序獲得的reads數(shù))更高,適用于樣本中RNA含量較少的情況吭露。而目前還未在ONT cDNA測序中發(fā)現(xiàn)PacBio測序存在的轉(zhuǎn)錄本長短選擇偏好吠撮。

這些long-read cDNA方法都受模板置換逆轉(zhuǎn)錄酶限制。這個酶可以把全長和截斷的RNA都轉(zhuǎn)換成cDNA讲竿。反轉(zhuǎn)錄酶只將5’-capped mRNA轉(zhuǎn)換成cDNA泥兰,這樣就降低了由于RNA降解、RNA斷裂導致的轉(zhuǎn)錄本截斷生成的cDNA和不完整的cDNA合成题禀,從而提高數(shù)據(jù)質(zhì)量鞋诗。但是這些逆轉(zhuǎn)錄酶對ONT平臺的測序reads讀長有反作用

Long-read direct RNA 測序

正如上面所討論的迈嘹,long-read和baseline short-read 平臺一樣削彬,都需要在測序之前將mRNA轉(zhuǎn)化成cDNA。近期Oxford Nanopore展示他們的納米孔測序技術能直接測序RNA江锨,也就是說吃警,建庫過程中沒有修復糕篇、cDNA合成啄育、PCR擴增這些過程,移除了這些操作過程的偏好并且保留了RNA上的表觀修飾信息拌消,這一技術也稱為dRNA-seq挑豌。直接從RNA建庫需要兩步接頭連接安券。首先,帶有oligo(dT)懸臂的duplex adaptor與mRNA的PolyA尾巴退火連接氓英。后續(xù)是一個可選的逆轉(zhuǎn)錄操作侯勉,用于提高測序通量(一般推薦做)。第二個連接操作就是添加連有分子馬達的測序接頭用于后續(xù)測序铝阐。隨后文庫加載入MinION址貌,啟動3?poly(A)尾巴向5?cap端的RNA測序。早期研究表明徘键,dRNA-seq的測序長度在1000 bp左右练对,最大測序長度超過10 kb。與短讀長測序相比吹害,長讀長測序可以改善轉(zhuǎn)錄異構(gòu)體的檢測螟凭,估計PolyA尾巴的長度進行選擇性多腺苷酸化分析。Nanopolish-polya工具可以分析納米孔測序得到的數(shù)據(jù)它呀,計算基因間或轉(zhuǎn)錄本間的poly(A)尾的長度螺男。結(jié)果表明內(nèi)含子保留的轉(zhuǎn)錄本相比于完全剪切的轉(zhuǎn)錄本具有稍長的PolyA尾巴。雖然dRNA-seq還處于起步階段纵穿,但是其能直接檢測RNA堿基修飾的潛力有望在表觀轉(zhuǎn)錄組領域促進更新的發(fā)現(xiàn)下隧。

長讀長測序與短讀長測序技術的比較

雖然長讀長測序技術在轉(zhuǎn)錄本分析方面比短讀長測序技術有一些明顯的優(yōu)勢,但是也存在一些局限谓媒。跟成熟的短讀長技術平臺相比汪拥,長讀長測序技術的測序通量低很多,錯誤率更高篙耗。而長讀長測序技術的主要優(yōu)勢即能測序更多的獨立轉(zhuǎn)錄本全長迫筑,依賴于高質(zhì)量的RNA文庫。這些局限會影響那些特別依賴長讀長測序?qū)嶒灥撵`敏性和特異性宗弯。

當前長讀長測序方法的主要局限就是其通量低脯燃。在Illumina平臺上,一個RUN可以生成109-1010條reads蒙保,而PacBio和ONT平臺上辕棚,一個RNA-seq RUN只能產(chǎn)生106-107 reads。這種低通量限制了應用長讀長測序的項目的大械瞬蕖(實驗樣本的數(shù)目)逝嚎,并降低了差異基因表達檢測的靈敏性。當然也不是所有的應用都需要很高的測序深度详恼。比如如果研究者關注的是轉(zhuǎn)錄異構(gòu)體的發(fā)現(xiàn)和鑒定补君,測序長度比測序深度更重要。測序1百萬個PacBio環(huán)形一致性序列 (circular consensus-sequencing, CCS) 可以保證長度大于1 kb的高表達基因測通昧互,ONT測序技術也是如此挽铁。因此伟桅,測序深度主要影響低中表達的基因。低通量的局限性在研究功能基因組進行大規(guī)模差異基因分析時會更明顯叽掘。為了獲得足夠的以保證轉(zhuǎn)錄組表達變化檢測的準確性楣铁,需要對多個樣品組的多個生物學重復同時進行測序分析。在這些應用上更扁,長讀長技術不太可能取代短讀長技術盖腕,除非它們的通量能提高2個數(shù)量級。隨著全長RNA-seq reads數(shù)目增加浓镜,轉(zhuǎn)錄本檢測的靈敏度將會達到Illumina平臺的水平赊堪,但有著更高的特異性。通過將Illumina 的短讀長RNA-Seq與PacBio的長讀長Iso-Seq結(jié)合 (并且可能還與ONT方法結(jié)合)竖哩,在保留轉(zhuǎn)錄本定量質(zhì)量的基礎上哭廉,可以增加RefSeq注釋的全長轉(zhuǎn)錄異構(gòu)體檢測的數(shù)量、靈敏性和特異性相叁。盡管當前長讀長RNA-seq方法實驗成本更高遵绰,但它們可以檢測短讀長方法所遺漏的轉(zhuǎn)錄異構(gòu)體,尤其是那些難以測序但與臨床相關的區(qū)域增淹,例如高度多態(tài)的人類主要組織相容性復合體MHC或雄激素受體椿访。

長讀長測序平臺的第二個主要限制是其高錯誤率,比成熟的Illumina測序儀要高出一到兩個數(shù)量級虑润。長讀長測序平臺上生成的數(shù)據(jù)還包含更多的插入-缺失錯誤成玫。如果是做突變位點檢測這些錯誤率/錯誤形式會影響很大,但是對轉(zhuǎn)錄組分析影響并不是太大拳喻,只要能區(qū)分轉(zhuǎn)錄本和轉(zhuǎn)錄異構(gòu)體即可哭当。如果是應用于對錯誤率敏感的項目,也有一些辦法進行補救冗澈。PacBio SMRT測序平臺出現(xiàn)的典型測序錯誤是隨機錯誤钦勘,可以通過增加測序深度來進行CCS序列矯正解決。在測序過程中亚亲,cDNA的長度是人為選擇控制的彻采,連接接頭后形成環(huán)形模板,每個分子可以被測序多次捌归,從而產(chǎn)生長度范圍是10-60 kb的連續(xù)長序列肛响,里面包含了原始cDNA的多份拷貝。這些長序列經(jīng)過計算拆分成為單個cDNA子讀長 (subreads)惜索,并比對在一起互相校正獲得一致性序列特笋。插入的cDNA分子測序到的次數(shù)越多,校正后錯誤率越低门扇;研究表明CCS可以將錯誤率降低到與短讀長相當甚至更低的水平雹有。但是偿渡,把平臺的測序能力用于讀取相同的分子更加加劇了其測序通量低的問題臼寄,更少的獨立轉(zhuǎn)錄本會被測到霸奕。

長讀長RNA-seq方法的敏感性還受到其他幾個因素的影響。首先吉拳,用于建庫的RNA分子需要是全長轉(zhuǎn)錄本质帅,但由于RNA提取、分離過程中會導致RNA斷裂或?qū)嶒炦^程中RNA降解留攒,使得理想狀態(tài)并非總能實現(xiàn)煤惩。這種情況在短讀長RNA-seq中也會導致可控的3?端偏好,但對定位于應用長讀長的RNA-seq分析全長轉(zhuǎn)錄組的研究者來說炼邀,即使是低水平的RNA降解魄揉,效果也會受限。因此拭宁,相關研究者需要在RNA提取后進行嚴格質(zhì)控洛退。其次,中位讀長長度也會受到文庫制備中的技術問題與技術偏好的限制杰标,例如cDNA合成過程中的截斷或降解的mRNA反轉(zhuǎn)錄成的降解cDNA兵怯。最近研發(fā)的高效逆轉(zhuǎn)錄酶具有更好的鏈特異性和更均一的3’-5’轉(zhuǎn)錄本覆蓋,可能會改善這一過程腔剂。雖然還沒有廣泛使用媒区,但是這些高效逆轉(zhuǎn)錄酶也提高了對結(jié)構(gòu)穩(wěn)定的RNAs(如tRNAs)的覆蓋檢測,這是其它在基于oligo-dT和全轉(zhuǎn)錄組分析 (WTA) 的方法中使用的逆轉(zhuǎn)錄酶很難達到的效果掸犬。第三袜漩,長讀長測序平臺固有的偏好(如長插入文庫在測序芯片上的更不容易進行測序)會降低更長轉(zhuǎn)錄本的覆蓋率。

長讀長測序 (不管是基于cDNA還是RNA) 因為讀長長湾碎,解決了短讀長測序方法用于轉(zhuǎn)錄異構(gòu)體分析的短板噪服。長讀長方法可以獲得從Poly(A)尾巴到5?帽子的全長轉(zhuǎn)錄本讀長。因此胜茧,這些方法對轉(zhuǎn)錄本和轉(zhuǎn)錄異構(gòu)體的分析不再依賴于短序列重構(gòu)轉(zhuǎn)錄本或推測轉(zhuǎn)錄本的存在粘优;而是每個測序到的reads都代表它所來源的RNA分子∩胪纾基于全長cDNA測序或dRNA-seq的差異基因分析依賴于PacBio和ONT技術的通量提高雹顺。長讀長RNA-seq與深度短讀長RNA-seq技術結(jié)合的思路正在迅速被研究者用于更全面的分析,這非常類似于基因組組裝所采取的混合組裝方式廊遍。隨著研究的深入嬉愧,長讀長和dRNA-seq方法將會揭示:即便在研究的很透徹的物種中,已經(jīng)鑒定出的基因和轉(zhuǎn)錄本可能也只是冰山一角喉前。隨著方法的成熟和測序通量的增加没酣,基于長讀長的差異轉(zhuǎn)錄本分析將會成為常規(guī)研究王财。基于組裝的長讀長RNA-seq (synthetic long-read RNA-seq)或其它技術的發(fā)展對這個領域的影響還有待觀察裕便。從目前來看绒净,Illumina短讀長RNA-seq依然占據(jù)了該領域的主導地位。后面我們只會集中討論短讀長測序偿衰。

改良RNA-seq建庫方法

RNA-seq方法源于早期的表達序列標簽 (expressed-sequence tag)和表達芯片技術挂疆,最初用于分析多聚腺苷酸化的轉(zhuǎn)錄本。但是下翎,二代測序的應用發(fā)現(xiàn)了這些方法的局限性缤言,雖然在表達芯片中并不明顯。因此视事,在RNA-seq技術首次發(fā)表后不久胆萧,許多文庫制備方法的改進相繼推出。例如俐东,片段化RNA而非cDNA可以降低3'/5'偏好跌穗,鏈特異性文庫制備方法能夠更好的區(qū)分正鏈和負鏈轉(zhuǎn)錄的基因,這些改進都能獲得更準確的轉(zhuǎn)錄本豐度估計犬性。片段化RNA和構(gòu)建鏈特異性文庫很快成了大部分RNA-seq文庫制備試劑盒的標配瞻离。這里我們簡要描述了RNA-seq方法的其它改進,以便研究者可以根據(jù)特定的生物學問題或樣本自身特征進行選擇乒裆。這些改進包括不基于oligo-dT的RNA富集方法套利,特異性富集3?或5?末端轉(zhuǎn)錄本的方法使用UMIs區(qū)分PCR duplicates的方法鹤耍,以及針對降解的RNA構(gòu)建文庫的方法肉迫。這些方法的組合(也包括dRNA-seq和后面提到的分析其它狀態(tài)的RNA的方法)允許研究者揭示由可變poly(A) (alternative poly(A), APA),或選擇性啟動子 (alternative promoter)和可變剪接 (alternative splicing)導致的轉(zhuǎn)錄組的復雜性稿黄。

Poly(A)富集的替代方法

大多數(shù)發(fā)表的RNA-seq數(shù)據(jù)都是基于oligo-dT方法富集包含poly(A)尾巴的轉(zhuǎn)錄本喊衫,定位于分析轉(zhuǎn)錄組上的蛋白質(zhì)編碼區(qū) (生信寶典注部分lncRNA也有poly(A)尾巴)。但是這種方法除了會導致3?端偏好外杆怕,很多不含Poly-A尾巴的非編碼RNA族购,例如miRNA和增強子RNA不會被測到。完全不進行選擇而使用全部提取的RNA也不合適陵珍,因為這會導致高達95%的測序數(shù)據(jù)來源于rRNA寝杖。因此,研究者選擇將oligo-dT富集用于mRNA-seq互纯,移除rRNA進行全轉(zhuǎn)錄組測序(WTA)瑟幕。短鏈非編碼RNAs(如miRNA)既無法用oligo-dT方法富集,WTA測序中也很難覆蓋,因此對其研究需要特定的分離建庫方法只盹,一般是切膠或磁珠分選后直接連接接頭 (sequential RNA ligation辣往,通常構(gòu)建出來都是鏈特異性文庫) (生信寶典注:這一點尤其要注意)。

WTA生成的RNA-seq數(shù)據(jù)包含編碼和一些非編碼RNA殖卑。WTA方法也適用于Poly-A尾巴與轉(zhuǎn)錄本其它部分分開了的降解了的樣品站削。移除rRNA有兩種方法,一種是將rRNAs從總RNA中分離出來(所謂的pull-out法)懦鼠,另一種是使用RNAse H酶降解rRNA钻哩。這兩種方法都需要使用序列特異性和物種特異性的屹堰、能與細胞質(zhì)rRNA (5S rRNA肛冶,5.8S rRNA,18S rRNA和28S rRNA)和線粒體rRNA (12S rRNA和16S rRNA)互補的寡核苷酸探針扯键。為了簡化人類睦袖、大鼠、小鼠或細菌 (16S和23S rRNA)樣本的處理荣刑,上述探針混合后再加入提取的總RNA中馅笙,與其中的rRNA雜交以便下一步的清除。其它高豐度的轉(zhuǎn)錄本厉亏,例如珠蛋白RNA (globin)或線粒體RNA也可以按照類似的方法去除董习。Pull-out方法中探針是帶有生物素的,然后使用鏈霉素包裹的磁珠從總RNA溶液中除去探針-rRNA復合物爱只,剩余的RNA用于建庫測序皿淋,試劑盒有Ribo-Zero (Illumina,USA) (生信寶典注:還是Illumina取名字霸氣)和RiboMinus (Thermo Fisher恬试,USA)窝趣。RNAse H方法使用RNAse H (NEBNext RNA depletion(NEB,USA))和RiboErase (Kapa Biossystems训柴,USA)降解oligo-DNA:RNA復合物哑舒。最近的比較表明,在RNA質(zhì)量高的前提下幻馁,這兩種方法都可以將產(chǎn)出數(shù)據(jù)中rRNA的比例降低至20%以下洗鸵。但是,研究還表示RNase H方法比pull-out法的穩(wěn)定性要好仗嗦。另外對應用不同試劑盒獲得的數(shù)據(jù)進行差異基因分析時要注意轉(zhuǎn)錄本長度的偏好性的影響膘滨。作者還描述了另外一種類似于RNase H的方法,效果也不錯但之前沒有報道過儒将。ZapR方法是Takara Bio的專利技術吏祸,它使用一種酶來降解RNA-seq文庫中的rRNA片段。相比于oligo-dT RNA測序方法,rRNA移除建庫方法的一個局限是需要更高的測序深度贡翘,主要是因為文庫中還有一定的rRNA留存蹈矮。

Oligo-dT和rRNA移除法都可以用于后續(xù)實驗的DGE分析,研究者們通常會延續(xù)實驗室一直使用的方法或最容易使用的方法鸣驱。然而泛鸟,對于這些方法的選擇需要根據(jù)情況做一些考量,尤其是那些易降解的樣本踊东,如果采用WTA方法會檢測到更多的轉(zhuǎn)錄本北滥,但是其實驗成本也高于oligo-dT方法。

富集RNA 3?端用于Tag RNA-seq以及可變多聚腺苷酸分析 (Enriching RNA 3?ends for Tag RNA- seq and alternative polyadenylation analysis)

標準的短讀長Illumina方法應用于高質(zhì)量差異基因分析時需要對每個樣本測序1000萬到3000萬條(10M到30M條)reads闸翅。如果研究者只關注基因水平的表達再芋,并且樣本數(shù)目比較多和生物重復比較多時,或者實驗樣品材料受限時坚冀,建議采用3?tag計數(shù)济赎。由于測序集中在轉(zhuǎn)錄本的3?末端,需要的測序深度會降低记某,就可以降低成本或同時測序更多樣本豆瘫。富集3?末端也可以用于檢測由于mRNA前體上發(fā)生的選擇性多聚腺苷酸化導致的單個轉(zhuǎn)錄本的poly(A)位點的變化撒踪。

3? mRNA-seq方法中每個轉(zhuǎn)錄本獲得一條測序片段 (tag read)果漾,通常是對其3’末端的測序枚赡。tag read的數(shù)目理論上與轉(zhuǎn)錄本的豐度是成正比的。標簽測序法 (tag-sequencing protocols)滑凉,例如QuantSeq (Lexogen, Austria)通常比標準RNA-seq實驗流程更為簡單统扳。標簽測序法采用隨機引物或帶有oligo-dT的引物進行PCR擴增分選出轉(zhuǎn)錄本的3’末端的同時加上接頭序列,優(yōu)化掉了poly(A)富集譬涡、rRNA移除和接頭連接等步驟闪幽。這一方法可以在更低的測序深度條件下達到與標準RNA-seq相當?shù)拿舾行裕虼丝梢曰旌细鄻颖就瑫r測序涡匀。因為不需要考慮外顯子連接檢測 (exon junction)和基因長度歸一化盯腌,這一方法的數(shù)據(jù)分析也簡化了(生信寶典注:其實也是需要考慮的,轉(zhuǎn)錄本末端或UTR區(qū)也會存在剪接陨瘩,具體取決于測序讀長和特定基因的結(jié)構(gòu)腕够。不過如果使用STAR/BWA等有soft-clip機制的比對工具也可以不考慮。)舌劳。但是帚湘,3? mRNA-seq方法可能會受到轉(zhuǎn)錄本序列相似區(qū)域 (homopolymeric region) 導致的引物結(jié)合錯誤進而導致擴增出錯誤的片段的影響;也只能進行非常有限的轉(zhuǎn)錄異構(gòu)體分析甚淡,這會抵消這一方法因為測序深度需求低帶來的高性價比大诸,尤其是對于那些僅夠一次使用的樣本。

mRNAs的選擇性多腺苷酸化(APA)會產(chǎn)生3? UTR長度不等的轉(zhuǎn)錄異構(gòu)體。對于一個特定的基因來說资柔,這不只是多轉(zhuǎn)錄出幾個異構(gòu)體焙贷,而是3?UTR中存在的順式調(diào)控元件會影響轉(zhuǎn)錄本自身的調(diào)控。能夠研究APA的方法可以讓研究者們對miRNA的調(diào)控贿堰、mRNA的穩(wěn)定性和定位辙芍、以及mRNA的翻譯有更多理解。APA法要求是富集轉(zhuǎn)錄本的3?末端羹与,從而提升檢測信號和靈敏度故硅,而前面提到的3? mRNA-seq標簽測序法則正合適。其它方法如多聚腺苷酸位點測序 (polyadenylation site sequencing, PAS-seq)法纵搁,首先將mRNA打斷為150 bp左右的片段吃衅,然后使用帶有oligo-dT的引物進行模板置換生成cDNA用于后續(xù)測序,其中的80%的測序序列來源于3?UTR诡渴。TAIL-seq則避免使用oligo-dT捐晶,RNA打斷前菲语,先移除rRNA妄辩,然后在轉(zhuǎn)錄本poly(A)尾巴連接3?接頭。片段化后山上,再加上5?接頭就完成了文庫制備眼耀。在RNA-蛋白互作分析方法如交聯(lián)免疫沉淀 (cross-linking immunoprecipitation, CLIP)測序和dRNA-seq中也能評估APA。

富集RNA 5?末端用于轉(zhuǎn)錄起始位點鑒定 (Enriching RNA 5?ends for transcription start- site mapping)

富集5?端RNA (7-methylguanosine 5?-capped RNA)的測序的方法常用來鑒定啟動子和轉(zhuǎn)錄起始位點(TSSs)佩憾,可以做為DGE分析的補充哮伟。有多種方法都可以實現(xiàn)這個操作,但很少作為常規(guī)使用妄帘。在CAGE (cap analysis of gene expression)RAMPAGE (RNA annotation and mapping of promoters for analysis of gene expression)方法中楞黄,使用隨機引物完成cDNA第一條鏈合成后,mRNA 5?帽子結(jié)構(gòu)上用生物素標記抡驼,然后使用鏈霉親和素富集5’ cDNA鬼廓。CAGE使用II型限制性內(nèi)切酶切割5?端接頭下游21-27 bp位置生成短cDNA序列。而RAMPAGE則使用模板置換 (template switching)來生成稍微長一些的cDNA致盟,進行富集測序碎税。單細胞標簽逆轉(zhuǎn)錄測序技術 (single-cell-tagged reverse transcription sequencing, STRT-seq)能夠在單細胞水平上鑒定TSS位點。這一方法使用生物素標記的模板置換寡核苷酸來合成cDNA馏锡,磁珠捕獲并在5’端片段化然后測序雷蹂。CAGE應用到的5?末端標記技術是由日本理化所 (Riken)開發(fā)用于在早期功能基因研究中最大化獲得全長cDNA的方法。日本理化所領導的小鼠功能注釋 (FANTOM, Functional Annotation of the Mouse)項目中使用CAGE技術鑒定了1300多個人類和小鼠原代細胞杯道、組織和細胞系的TSSs (轉(zhuǎn)錄起始位點)匪煌,這充分顯示了CAGE的強大。在最近的一個方法比較研究中,CAGE也表現(xiàn)最佳萎庭。但是作者同時也說到玛歌,僅使用5?末端捕獲測序鑒定出的TSS位點假陽性比較多,建議結(jié)合其他獨立的方法進一步驗證擎椰,如DNase I測序或H3K4me3染色質(zhì)免疫共沉淀測序 (ChIP-seq)支子。

使用唯一分子標識符來檢測PCR重復

RNA-seq數(shù)據(jù)通常有較高的重復率 (duplication rates),即許多測序序列會比對到轉(zhuǎn)錄組的相同位置达舒。在全基因組測序中值朋,比對到同一位置的序列被認為是PCR擴增引入的技術噪音,通常只保留1條用于后續(xù)分析巩搏;而在RNA-seq中昨登,這些重復的序列則因為可能是真實的生物信號而被保留。高表達的轉(zhuǎn)錄本在樣本中可能有數(shù)百萬份RNA拷貝贯底,當做為cDNA測序時丰辣,產(chǎn)生相同的片段也是合理的。因此禽捆,在比對 (alignment)過程中笙什,不建議計算去除比對到同一位置的序列,因為它們代表了真正的生物信號胚想。尤其是在使用單端測序 (single-end sequencing)時更是如此琐凭,因為一對片段只要一端序列相同就會被認為是一個重復 (duplicate);而雙端測序 (paired-end sequencing)中浊服,片段化的兩端必須發(fā)生在同樣位置才會導致duplicate统屈,而這個的發(fā)生概率比較低。但是牙躺,在制備cDNA文庫時愁憔,由于PCR的偏好性,還是會引入duplication reads孽拷;很難去評估PCR引入的重復reads和生物重復reads的比例并把其作為一個質(zhì)控因素校正RNA-seq實驗的結(jié)果吨掌。

UMIs被認為是一個處理擴增偏好性的方法。在cDNA分子擴增前加入隨機UMIs可以用于識別并計算移除PCR引入的重復乓搬,而不影響到基因自身表達引入的重復思犁,進而改善基因表達定量的結(jié)果和評估等位基因的轉(zhuǎn)錄。如果一對測序reads包含有相同的UMI并且比對到轉(zhuǎn)錄組的同樣位置进肯,則被認為是技術引入的重復 (對單端測序來說激蹲,這里的一對測序reads是測序生成的兩條序列;對雙端測序來說江掩,一對測序reads指同時包含左端和右端的兩條測序序列)学辱。

UMIs已經(jīng)被證明能夠通過降低檢測到的基因表達變化波動和假陽性率改善RNA-seq差異基因的統(tǒng)計分析乘瓤。因為單細胞數(shù)據(jù)的擴增偏好更嚴重,UMI的使用對單細胞數(shù)據(jù)結(jié)果可靠性至關重要策泣。當使用RNA-seq數(shù)據(jù)進行變異檢測 (variant calling)時衙傀,UMIs也非常有用。高表達的轉(zhuǎn)錄本更容易達到適合變異檢測的高覆蓋率要求萨咕,尤其在考慮了重復reads時统抬,而UMIs可用于移除PCR擴增引入的reads,從而校正等位基因頻率的計算危队。UMIs已成為單細胞RNA-seq (scRNA-seq)的文庫制備試劑盒的標配聪建,也越來越多的用于常規(guī)RNA-seq。

改善降解了的RNA的分析

RNA-seq文庫制備方法的發(fā)展也促進了低質(zhì)量或降解了的RNA的分析茫陆,例如從臨床獲得的福爾馬林固定石蠟包埋(FFPE)存儲的樣本中的RNA金麸。低質(zhì)量的RNA會導致不均勻的基因覆蓋,更高的DGE假陽性率和更高的重復率簿盅,與文庫的復雜性呈負相關挥下。文庫制備方法優(yōu)化的方向是盡量降低RNA降解的影響。這些方法在開發(fā)基于RNA-seq的診斷技術中尤為重要桨醋,如類似于基于21個基因RNA特征來預測乳腺癌復發(fā)的OncotypeDX試劑盒(尚不基于測序)類似的檢測工具棚瘟。雖然現(xiàn)在有幾種方法可以使用,但是比較研究顯示兩種方法表現(xiàn)最佳讨盒,即RNase H與RNA exome解取。如前所述,RNase H法使用核酸酶消化RNA:DNA復合物中的rRNA返顺,但保留降解的mRNA用于后續(xù)測序。RNA exome方法使用寡核苷酸探針來捕獲RNA-seq文庫分子蔓肯,非常類似于外顯子測序 (exome sequencing)使用的策略遂鹊。這兩種方法應用簡單,并都能在保留降解的和片段化的mRNA的前提下降低混入的rRNA的影響蔗包,進而獲得高質(zhì)量的和高穩(wěn)定性的基因表達數(shù)據(jù)秉扑。3?末端標記測序技術與擴增子測序(PCR擴增超過2萬個外顯子)方法也可以用于分析降解的RNA,但這兩種方法并沒有RNase H方法應用廣泛调限。

設計更好的RNA-seq實驗

好的DGE RNA-seq實驗設計對獲取高質(zhì)量和有生物意義的數(shù)據(jù)是至關重要的舟陆。特別需要考慮的是生物重復的數(shù)目、測序深度耻矮、采用單端還是雙端測序秦躯。

生物重復與統(tǒng)計檢出力 (replication and experimental power)

實驗中必須包含足夠的生物學重復以捕獲組內(nèi)樣品自身存在的生物差異。定量分析的可信度更多地取決于生物重復裆装,而非測序深度或reads長度踱承。盡管RNA-seq的技術穩(wěn)定性高于微陣列平臺倡缠,但生物系統(tǒng)固有的隨機變異要求進行常規(guī)RNA-seq實驗必須要重復一次。額外的重復能夠幫助發(fā)現(xiàn)異常樣品茎活;并且在后續(xù)分析前昙沦,如有必要時移除或降低異常樣品的權重。確定最佳重復數(shù)需要仔細考慮幾個因素载荔,包括預期的最小變化幅度 (effect size)盾饮、組內(nèi)變異、可接受的假陽性和假陰性率以及最大能用于實驗的樣本量懒熙,并且可以通過使用RNA-seq實驗設計工具或統(tǒng)計功效工具進行輔助設計丐谋。(http://www.biostathandbook.com/power.html

樣品生物學重復數(shù)據(jù)選擇 1必要性 2需要多少重復?

確定實驗的正確重復數(shù)并不總是那么容易煌珊。一項48個重復的酵母研究表明号俐,當分析中僅包含3個重復時,許多用于DGE分析的工具僅檢測到20-40%的差異表達基因定庵。該研究表明吏饿,至少應使用六個生物重復,這大大超過了RNA-seq文獻中通常報道的三個或四個重復蔬浙。最近的一項研究表明猪落,四個重復可能就足夠了,但它強調(diào)了測量生物學差異的必要性-例如畴博,在確定出重復數(shù)之前先進行預實驗笨忌。對于高度多樣化的樣本(例如來自癌癥患者腫瘤的臨床組織),可能需要進行更多重復才能檢測出高可信度的變化俱病。

確定最佳測序深度

RNA-seq文庫構(gòu)建好后官疲,就需要確定測序深度了。測序深度是指每個樣品獲得的測序序列數(shù)量亮隙。對于真核基因組中的bulk RNA DGE實驗途凫,通常需要每個樣品大約10–30百萬條測序reads。但是溢吻,多個物種的比較分析表明维费,對于最高表達的50%的基因來說,每個樣本只需要測序1百萬條 reads就可以獲得與測序3千萬條reads相似的表達定量結(jié)果促王。如果只關注最高表達的基因相對大的表達變化犀盟,并且有合適的生物學重復,那么較少的測序就足以產(chǎn)生驅(qū)動后續(xù)實驗的假說蝇狼。測序完成后阅畴,估計的測序深度可以通過檢查樣品之間reads的分布和繪制飽和度曲線驗證,并且飽和曲線還可以評估加測是否能提高檢測敏感性题翰。隨著測序儀測序通量的增加恶阴,將一個實驗的所有樣品混合到一起同時上機測序(甚至在同一個lane里面測序)是控制技術偏差的標準做法诈胜。總產(chǎn)出reads數(shù)是樣本數(shù)與每個樣本期望獲得的reads數(shù)的乘積冯事;如果有必要焦匈,混合的文庫測序足夠多的次數(shù)以達到所需的總reads數(shù)£墙觯混樣測序需要仔細測定每個RNA-seq文庫的濃度缓熟,并假定混合的不同樣品中cDNA的總量相差不大(低方差),因此讀取的總reads數(shù)才能均勻地分到各個樣品中摔笤。在進行昂貴的多通道混合測序之前够滑,運行單個lane確認樣品之間cDNA總量相差不大是值得的預操作。

選擇測序參數(shù):reads長度和單端或雙端測序吕世。

最后需要確定的測序參數(shù)包括reads長度以及是生成單端還是雙端reads彰触。

在許多測序應用中,測序reads的長度對數(shù)據(jù)可用性有很大影響命辖,更長的測序reads可以覆蓋更多的測序DNA况毅。當使用RNA-seq鑒定DGE時,影響數(shù)據(jù)的可用性的重要因素是確定每個reads來自轉(zhuǎn)錄組中哪個基因的能力尔艇。一旦可以明確地確定reads位置尔许,測序更長的reads在基于定量的分析中就沒必要了。對于更定加性的RNA-seq分析(例如鑒定特定isoforms)终娃,更長的reads可能會更有幫助味廊。

單端測序與雙端測序的問題類似。在單端測序中棠耕,每個cDNA片段的一個末端(3′或5′)用于產(chǎn)生測序reads余佛,而雙端測序中每個片段產(chǎn)生兩個測序reads(一個3′和一個5′)。在需要測序盡可能多核苷酸的實驗中昧辽,首選long-read paired-end測序衙熔。在DGE分析中,用戶只需要計算比對到轉(zhuǎn)錄本的reads數(shù)即可搅荞,故不需要對轉(zhuǎn)錄本片段的每個堿基都進行測序。例如框咙,將“短”的50 bp的單端測序與“長”的100 bp的雙端測序的DGE分析比較表明單端測序也可以獲得一致的結(jié)果咕痛。這是因為單端測序足以確定大多數(shù)測序片段來源的基因。相同的研究還表明喇嘱,短的單端測序會降低檢測轉(zhuǎn)錄isoform的能力茉贡,更少的reads會跨越exon-exon junction。雙端測序還可以幫助消除序列比對 (read mapping)的歧義者铜,適用于可變外顯子定量 (alternative-exon)腔丧,融合轉(zhuǎn)錄本檢測和新轉(zhuǎn)錄本發(fā)現(xiàn) ,尤其在注釋較差的轉(zhuǎn)錄組應用中效果明顯放椰。

實際上,單端或雙端測序的選擇通常取決于成本或用戶可用的測序技術愉粤。在發(fā)布Illumina NovaSeq之前砾医,在大多數(shù)情況下,單端測序每百萬條reads的成本要低于paired-end測序衣厘,因此在相同的實驗成本下如蚜,可以測序更多的重復或測序更深。如果需要在獲取大量較短的單端reads與生成較長和/或雙端的reads之間進行選擇影暴,則測序深度的增加將對提高DGE檢測的敏感性更重要错邦。

RNA-seq數(shù)據(jù)分析

在過去的十年中,用于分析RNA-seq以確定差異表達的計算方法的數(shù)量已成倍增加型宙,即使對于簡單的RNA-seq DGE撬呢,在每個階段的分析實踐中也存在很大差異。而且妆兑,每個階段使用的方法的差異以及不同技術組合形成的分析流程都可能會對從數(shù)據(jù)得出的生物學結(jié)論產(chǎn)生重大影響魂拦。最優(yōu)工具組合取決于研究的特定生物學問題以及可用的計算資源。盡管有多種衡量方式箭跳,但我們對工具和技術的評估落腳點在它們鑒定出的差異基因的準確性晨另。為了完成這個評估,至少需要四個不同的分析階段(圖2;表2)谱姓。第一階段把測序平臺生成的原始測序數(shù)據(jù)比對到轉(zhuǎn)錄組借尿。第二階段量化與每個基因或轉(zhuǎn)錄本來源的reads數(shù)量,構(gòu)建表達矩陣屉来。該過程可能包括1個或多個子過程如比對路翻,組裝和定量,或者它也可以一個從讀取計數(shù)生成表達矩陣茄靠。通常有一個第三階段茂契,包括過濾低表達的基因和至關重要的移除樣品間技術差異的標準化過程。DGE的最后階段是構(gòu)建樣本分組和其它協(xié)變量的統(tǒng)計模型慨绳,計算差異表達置信度掉冶。

image

圖2

第1階段-測序reads的比對和組裝

測序完成后,分析的起點是包含測序堿基的FASTQ文件脐雪。最常見的第一步是將測序reads比對到已知的轉(zhuǎn)錄組(或注釋的基因組)厌小,將每個測序reads轉(zhuǎn)換為一個或多個基因組坐標。傳統(tǒng)上战秋,該過程是通過幾個不同的比對工具(如TopHat璧亚,STAR或HISAT)完成的,其都依賴參考基因組的存在脂信。由于測序的cDNA來自RNA癣蟋,可能跨越外顯子邊界透硝,因此與參考基因組(包含內(nèi)含子和外顯子)比對時需要進行剪接比對,即允許reads中出現(xiàn)大片段gap疯搅。

如果沒有可用的包含已知外顯子邊界的高質(zhì)量基因組注釋濒生,或者如果希望將reads與轉(zhuǎn)錄本(而不是基因)相關聯(lián),則需要在比對后執(zhí)行轉(zhuǎn)錄組組裝步驟秉撇。諸如StringTie和SOAPdenovo-Trans之類的組裝工具使用比對reads的gap來推測外顯子邊界和可能的剪接位點甜攀。轉(zhuǎn)錄本重頭組裝特別適用于參考基因組注釋缺失或不完整的物種,或者對異常轉(zhuǎn)錄本感興趣(例如在腫瘤組織中)的研究琐馆。轉(zhuǎn)錄組組裝方法受益于雙端測序和/或更長的reads的使用规阀,增加跨越splice junctions的可能性。但是瘦麸,通常不需要從RNA-seq數(shù)據(jù)中從頭做轉(zhuǎn)錄組組裝來確定DGE (生信寶典注:無參分析組裝是必須的)谁撼。

最近,涌現(xiàn)了一些計算效率高的“alignment free”工具滋饲,例如Sailfish厉碟,Kallisto和Salmon,它們將測序reads直接與轉(zhuǎn)錄本關聯(lián)屠缭,而無需單獨的定量步驟箍鼓。這些工具在定量高豐度(以及長度更長)的轉(zhuǎn)錄本方面表現(xiàn)出很好的性能。但是呵曹,它們在定量低豐度或短轉(zhuǎn)錄本方面不夠準確款咖。(39個工具,120種組合深度評估 (轉(zhuǎn)錄組分析工具哪家強))

不同的比對工具如何分配ambiguous reads的策略會影響最后的表達估計奄喂。對于可能來自多個不同基因铐殃、假基因或轉(zhuǎn)錄本的多映射reads (multi-map),這些影響尤為明顯跨新。對12種基因表達估計方法的比較顯示富腊,某些比對方法低估了許多臨床相關基因的表達汞扎,這主要取決于對ambiguous reads的處理与涡。在RNA-seq數(shù)據(jù)的計算分析中,對如何正確分配比對到多個位置的reads進行模型探索仍然是研究的一個重點領域瞧剖。一種常見的做法是在定量前過濾掉這些reads肖揣,但這會導致結(jié)果產(chǎn)生偏差帘腹。其他方法包括生成包含合并映射重疊區(qū)域的“融合”表達特征,以及計算每個基因的映射不確定性估計许饿,以用于后續(xù)的置信度的計算。

第2階段-定量轉(zhuǎn)錄本豐度

將reads比對到基因組或轉(zhuǎn)錄組后舵盈,下一步就是將它們分配給基因或轉(zhuǎn)錄本陋率,獲得表達矩陣球化。不同的比較研究表明,定量過程中采用的方法對最終結(jié)果的影響最大瓦糟,甚至比比對工具影響更大筒愚。單個基因(即該基因的所有轉(zhuǎn)錄亞型)的定量是基于轉(zhuǎn)錄組注釋計算與已知基因重疊的reads數(shù)。但是菩浙,把短reads分配到特定isoforms則需要統(tǒng)計模型估計巢掺,尤其是很多reads不跨越剪接點,并且不能明確分配給特定isoform時劲蜻。即使在僅研究基因水平差異表達的情況下陆淀,定量isoform的差異也會獲得更準確的結(jié)果,尤其是基因在不同條件下主要表達不同長度的isoform時先嬉。例如轧苫,如果某個基因的一個isoform在一個樣品組中的長度是另一樣品組中的isoforms的一半,但表達速率是后者的兩倍疫蔓,則純基于基因的定量將無法檢測到這一表達差異含懊。

常用的定量工具包括RSEM,CuffLinks衅胀,MMSeq和HTSeq岔乔,以及上述的無比對直接定量工具」銮基于reads計數(shù)的工具(例如HTSeq或featureCounts)通常會丟棄許多比對的序列雏门,包括那些具有多個匹配位置或比對到多個表達特征的reads。這可以在隨后的分析中消除同源和重疊的轉(zhuǎn)錄本哀九。RSEM使用期望最大化模型來分配模糊的reads剿配,而無參考的比對方法(例如Kallisto)則將這些reads用于后續(xù)的定量,這可能會導致結(jié)果偏差阅束。轉(zhuǎn)錄本豐度估計可以轉(zhuǎn)換成等效的read計數(shù)呼胚,能完成這一轉(zhuǎn)換的部分工具依賴tximport包。量化步驟結(jié)束后會得到一個合并的表達矩陣息裸,每個表達特征(基因或轉(zhuǎn)錄本)各占一行蝇更,每個樣品各占一列,中間的值是實際讀數(shù) (reads count)或估計的表達豐度呼盆。

階段3-過濾和標準化

通常年扩,基因或轉(zhuǎn)錄本的reads count需要進行過濾和標準化,以移除測序深度访圃、表達模式和技術偏差的影響厨幻。過濾去除在所有樣本中都低豐度表達的基因是很直接的方式,并且已經(jīng)證明可以改善對真正差異表達基因的檢測。標準化表達矩陣的方法要復雜一些况脆。簡單的轉(zhuǎn)換可以校正豐度饭宾,降低GC含量和測序深度的影響。如今人們已經(jīng)認識到諸如早期應用的RPKM之類的方法是不夠的格了,并已被能夠校正樣本之間更細微差異的方法所替代看铆,例如四分位數(shù)或中位數(shù)歸一化。(什么盛末?你做的差異基因方法不合適弹惦?

比較研究表明,normalization方法的選擇可能對最終結(jié)果和生物學結(jié)論有重要影響悄但。大多數(shù)基于計算的標準化方法依賴于兩個關鍵假設:首先棠隐,大多數(shù)基因的表達水平在生物重復中變化不大;第二算墨,不同的樣本組總的mRNA水平?jīng)]有顯著差異宵荒。而當這些基本假設不成立時,就需要仔細考慮是否以及如何執(zhí)行標準化了净嘀。例如报咳,如果一組特定的基因在一個樣品組中高表達,而相同的基因加上另一組基因在另一個樣品組中表達挖藏,那么簡單地標準化測序深度是不合適的暑刃,因為在第二個樣本組中相同數(shù)目的reads會分給更多數(shù)目的基因。標準化方法如edgeR所使用的的M-值的加權截尾均值 (trimmed mean of M-values , TMM)可以處理這一情況膜眠。確定合適的標準化方法是困難的岩臣;一種選擇是嘗試使用多種方法進行分析,然后比較結(jié)果的一致性宵膨。如果結(jié)果對標準化方法高度敏感架谎,則應進一步探索數(shù)據(jù)以確定差異的來源。必須注意辟躏,這一比較不會被用于選擇與原始假設吻合的結(jié)果的歸一化方法谷扣。

解決此類問題的一種方法是使用spike-in對照RNA-即在文庫制備過程中引入預定濃度的外源RNA序列。RNA-seq常用的spike-in有 External RNA Controls Consortium mix (ERCCs)捎琐,spike-in RNA variants (SIRVs)和sequencing spike-ins (Sequins)会涎。由于spike-in的RNA濃度是預先知道的,并且濃度與產(chǎn)生的reads的數(shù)量直接相關瑞凑,因此可以校準樣品中轉(zhuǎn)錄本的表達水平末秃。有人認為,如果沒有spike-in對照籽御,則不能正確地分析總體表達變化較大的項目练慕。然而惰匙,在實踐中,可能難以始終如一地以預設水平摻入spike-ins 贺待,并且它們在標準化基因水平上的reads計數(shù)時比在轉(zhuǎn)錄本水平上更可靠徽曲,因為單個isoform可以在樣品中以顯著不同的濃度表達。目前麸塞,盡管已發(fā)表的RNA-seq DGE實驗中spike-in對照并未得到廣泛使用,但隨著單細胞實驗的開展這一狀況可能會改變涧衙,因為單細胞RNA-seq中spike-in應用廣泛哪工,當然前提是這個技術能進一步優(yōu)化達到穩(wěn)定的水平。

階段4-差異表達分析

獲得表達矩陣后弧哎,就可以構(gòu)建統(tǒng)計模型評估哪些轉(zhuǎn)錄本發(fā)生了顯著的表達改變雁比。有幾個常用工具可以完成此任務;一些基于基因水平的表達計數(shù)撤嫩,其它的基于轉(zhuǎn)錄本水平的表達計數(shù)偎捎。基因水平的工具通常依賴于比對的reads計數(shù)序攘,并使用廣義線性模型來進行復雜實驗設計的評估茴她。這些工具包括EdgeR,DESeq2limma + voom等工具程奠,這些工具計算效率高并且彼此之間結(jié)果穩(wěn)定性好丈牢。評估差異isoforms表達的工具,例如CuffDiff瞄沙,MMSEQ和Ballgown己沛,往往需要更多的計算資源,并且結(jié)果的變化也更大距境。但是申尼,在差異表達工具應用之前的操作(即關于比對、定量垫桂、過濾和標準化)對最終結(jié)果的影響更大师幕。

image

表2

其它非bulk RNA分析

來自組織和/或細胞群體的RNA-seq徹底革新了我們對生物學的理解,但是它無法簡單地用于解析特定的細胞類型伪货,并且不能保留空間信息们衙,這些對于理解生物系統(tǒng)的復雜性都是至關重要的。使用戶能夠處理非bulk RNA的方法與標準RNA-seq protocols非常相似碱呼,但是可以解決的問題卻截然不同蒙挑。單細胞測序已經(jīng)揭示了在過去我們認為研究透徹的疾病中存在著未知的細胞類型,例如發(fā)現(xiàn)肺離子細胞 (ionocyte cells)愚臀,這可能與囊性纖維化的病理學機制有關忆蚀。空間分辨率的RNA-seq對實體組織中細胞間相互作用也有了新的發(fā)現(xiàn),例如揭示成年心臟組織中存在一小部分胎兒標志物基因表達的細胞群體馋袜。在可預見的將來男旗,Bulk RNA-seq將仍然是占主導地位且有價值的工具。但是欣鳖,單細胞實驗和分析方法正在被研究人員迅速采用察皇,并且隨著空間RNA-seq方法的成熟,它們也有可能成為常規(guī)RNA-seq工具的一部分泽台。兩種方法都將提高我們探究多細胞生物復雜性的能力什荣,并且可能都需要與bulk RNA-seq方法結(jié)合使用。在這里怀酷,我們簡要介紹了主要的單細胞和空間分辨轉(zhuǎn)錄組方法稻爬,它們與bulk RNA-seq的區(qū)別以及用戶需要考慮的新問題。

image

圖3

單細胞分析

scRNA-seq最早于2009年報道蜕依,方法是在含有裂解緩沖液的Eppendorf管中分離單個卵母細胞桅锄。其在新生物學問題的應用,以及可用的實驗和計算方法發(fā)展之快以至于最新的綜述也迅速過時了样眠。每種scRNA-seq方法都需要解離實體組織友瘤,分離單個細胞(使用非常不同的方法),并對其RNA進行標記和擴增以進行測序吹缔,并且所有步驟都脫胎于bulk RNA-seq protocols商佑。(單細胞轉(zhuǎn)錄組教程匯總

機械分解和collagenase及DNase的酶解在單細胞懸浮液中產(chǎn)生的活細胞比例最高,但是這一比例具有高度組織特異性厢塘,最好根據(jù)經(jīng)驗確定茶没,并且要非常小心。一旦制備了單細胞懸液晚碾,就可以通過各種方法分離單個細胞(圖3a);由于大多數(shù)實驗室都可以使用流式細胞儀抓半,因此最容易獲得的方法是將細胞直接分選到含有裂解緩沖液的微量滴定板中。對于更高通量的實驗格嘁,存在多種用于分離細胞的技術笛求,但需要構(gòu)建或購買特定的單細胞儀器。單個細胞可以在微流體芯片中進行物理捕獲糕簿,或按照泊松分布模型加載到納米孔設備中探入,也可以通過基于液滴的微流控技術(例如在Drop-Seq,InDrop中)分離單細胞并與后續(xù)反應試劑包裹在一個液滴中懂诗,或者采用原位序列條形碼標記(例如單細胞組合索引RNA測序(sci-RNA-seq)和基于分池連接的轉(zhuǎn)錄組測序(split-pool ligation-based transcriptome sequencing, SPLiT-seq))蜂嗽。單細胞分離后會被裂解釋放RNA到溶液中以進行cDNA合成,并用于RNA-seq文庫制備殃恒。通常在文庫制備過程中會使用PCR擴增單個細胞的RNA植旧。這一步擴增會引入PCR偏差辱揭,需要使用UMI進行校正。盡管由于逆轉(zhuǎn)錄過程符合Poisson采樣分布病附,但只有10–20%的轉(zhuǎn)錄本會被逆轉(zhuǎn)錄问窃,限制了轉(zhuǎn)錄本檢測的敏感性,不過各種方法都可以生成可用的數(shù)據(jù)完沪。在濕實驗室之外域庇,計算方法也在迅速發(fā)展,并且最近出現(xiàn)了關于scRNA-seq實驗的設計指南丽焊。方法學的飛速發(fā)展意味著scRNA-seq方法的技術會快速過時较剃。盡管如此,Ziegenhain等人提供了scRNA-seq方法的綜述技健,強調(diào)了UMI在數(shù)據(jù)分析中的重要性,并展示了所比較的的六種方法中哪一種最敏感惰拱。但是雌贱,他們的研究不包括被廣泛采用的10X Genomics技術。

用戶選擇scRNA-seq方法時應考慮的主要因素包括他們是否需要測序全長轉(zhuǎn)錄本偿短,測序更多細胞(廣度)或每個細胞測序更深獲得更多轉(zhuǎn)錄本(深度)和實驗預算之間的權衡欣孤。全長scRNA-seq方法通常具有較低的通量,因為每個細胞需要獨立處理直到獲得最終的scRNA-seq庫昔逗。然而降传,這一方法允許用戶研究可變剪接和等位基因特異性表達。非全長檢測方法只測序轉(zhuǎn)錄本的3’或5’末端勾怒,這在檢測isoforms表達時會受限婆排,但是由于在單個細胞cDNA合成后可以pool到一起,因此可以分析的細胞數(shù)量要高出2-3個數(shù)量級笔链。單細胞測序的廣度是指同時測序的細胞段只、組織或樣品的數(shù)量,而深度是指給定數(shù)量的測序reads可分析覆蓋多少轉(zhuǎn)錄本鉴扫。盡管實驗中能測序的細胞數(shù)量是由選擇的方法決定的赞枕,但它確實具有一定的靈活性,隨著所分析的細胞數(shù)量的增加坪创,增加的測序成本通常會限制轉(zhuǎn)錄組測序的深度炕婶。因此,可以根據(jù)廣度和深度這兩個維度來評估不同的scRNA-seq系統(tǒng)莱预。通常柠掂,基于X孔板 (plate-based)的方法或微流控方法通常捕獲最少的細胞,但每個細胞檢測更多的基因锁施,而基于液滴的系統(tǒng)可用于分析最大數(shù)量的細胞陪踩,如有的項目一次分析超過一百萬個細胞杖们。

scRNA-seq的發(fā)展正在推動大規(guī)模的細胞圖譜項目,以期確定生物體或組織中所有細胞類型肩狂。Human Cell AtlasNIH Brain Initiative項目分別對人體和大腦中存在的所有細胞類型進行測序摘完。The Human Cell Atlas旨在在第一階段對3千萬至1億個細胞進行測序,并且隨著技術的發(fā)展傻谁,其廣度和深度將不斷增加孝治。該項目的最新成果包括發(fā)現(xiàn)肺離子細胞 (ionocyte cells),以及發(fā)現(xiàn)兒童和成人的腎臟癌起源于不同細胞類型审磁。但是谈飒,研究者應該意識到scRNA-seq技術幾乎可以應用于任何生物體。最近态蒂,對擬南芥根細胞原生質(zhì)體的單細胞分析表明杭措,即使植物細胞堅硬的細胞壁都不是分離單細胞并且進行測序的障礙。scRNA-seq正在迅速成為生物學家工具箱的標配钾恢,并可能在10年內(nèi)像今天的bulk RNA-seq一樣廣泛使用手素。

空間分辨的RNA-seq方法

當前的bulk和scRNA-seq方法為用戶提供了有關組織或細胞群體的高度詳細的數(shù)據(jù),但都沒有保留細胞的空間位置信息瘩蚪,這降低了確定細胞所處環(huán)境與基因表達之間關系的能力泉懦。實現(xiàn)空間轉(zhuǎn)錄組學研究方法的兩個技術是“空間編碼” (spatial encoding)和“原位轉(zhuǎn)錄組學” (in situ transcriptomics)≌钍荩空間編碼方法在RNA-seq文庫制備過程中記錄空間信息崩哩,方法是分離空間固定的細胞 (spatially restricted cells)(例如通過激光捕獲顯微切割(LCM)),或根據(jù)分離前的位置加入條形碼編碼 (從組織切片中捕獲mRNA)言沐。原位轉(zhuǎn)錄組學方法是在組織切片內(nèi)的細胞進行RNA進測序或RNA成像獲得表達數(shù)據(jù)邓嘹。我們推薦對此感興趣的讀者閱讀最近的相關綜述以獲得更多了解。

LCM配合RNA-seq已成功從組織切片中分離和測序單個細胞或特定區(qū)域呢灶。盡管需要專用設備吴超,但LCM在許多機構(gòu)中廣泛可用。盡管它可以實現(xiàn)高空間分辨率鸯乃,但是卻很費力鲸阻,因此很難做大規(guī)模。在Spatial Transcriptomics(美國10X Genomics公司)和Slide-seq方法中缨睡,采用寡核苷酸芯片 (oligo- arrayed microarray slides)和布滿寡核苷酸的凝珠 (densely packed oligo-coated beads) 直接從冷凍組織切片中捕獲RNA進行測序鸟悴。寡核苷酸包含spatial barcode,UMI和oligo-dT引物奖年,可唯一識別每個轉(zhuǎn)錄本及其位置细诸。測序reads比對回玻片坐標獲得空間基因表達信息。已經(jīng)證明陋守,Spatial Transcriptomics可用于多種物種的組織震贵,包括小鼠腦和人乳腺癌組織利赋、人心臟組織和擬南芥花序組織。Slide-seq是一項最新開發(fā)的技術猩系,已顯示可用于小鼠大腦的冷凍切片分析媚送。這些直接的mRNA捕獲方法不需要專門的設備,具有相對簡單的分析方法寇甸,并且可能大規(guī)模應用于許多組織塘偎。但是,有兩個重要的問題有待解決拿霉。首先吟秩,該技術只能應用于新鮮的冷凍組織。其次绽淘,分辨率受到芯片大小和寡核苷酸凝珠間距的限制涵防;當前應用的芯片大小分別為6.5×7 mm和3×3 mm,限制了可以檢測的組織切片的大小沪铭。Spatial Transcriptomics的凝珠直徑為100 μm武学,間隔為100 μm,這意味著它們不夠小或不夠密伦意,以致無法實現(xiàn)單細胞分辨率。Slide-seq的凝珠 (beads)小得多硼补,直徑僅為10 μm驮肉,并且堆積致密,提供了十倍的空間分辨率已骇,大約一半的beads可以獲得單個細胞數(shù)據(jù)离钝。計算整合分析組織消化分離后scRNA-seq與空間編碼數(shù)據(jù)可以提高分辨率,但是還需要隨著技術的發(fā)展這才能成為常規(guī)的RNA-seq工具褪储。

能替代上述空間分辨RNA-seq方法的技術包括原位測序基于成像的單分子熒光原位雜交技術卵渴。與RNA-seq方法相比,這些方法產(chǎn)生的轉(zhuǎn)錄組譜更窄(能檢測的轉(zhuǎn)錄本更少)鲤竹,但可直接檢測RNA浪读,而靶向方法則可分析低豐度轉(zhuǎn)錄本。同時辛藻,它們提供有關組織結(jié)構(gòu)和微環(huán)境的信息碘橘,并可生成亞細胞數(shù)據(jù)。雖然取得了很多進展吱肌,但基于成像的方法的主要局限性是對高分辨率或超高分辨率顯微鏡與自動流控相結(jié)合的需求痘拆,以及成像所花費的時間可能長達數(shù)小時,甚至數(shù)天氮墨。相較于測序成本以快于摩爾定律預測的速度下降纺蛆,讓基于成像的系統(tǒng)能進行高通量分析處理的機會卻很有限吐葵。

目前,上述所有提到的空間轉(zhuǎn)錄組學方法都受到無法生成深度轉(zhuǎn)錄組數(shù)據(jù)桥氏、細胞分辨率和/或成本(時間和/或金錢)非常高的限制温峭,但是相關方法正在迅速改進,并且已經(jīng)應用于臨床樣品识颊。用于空間組轉(zhuǎn)錄組學分析的特定計算方法開始出現(xiàn)诚镰。此外,原位RNA測序和基于成像的方法的進步已使獲得103至105個細胞的轉(zhuǎn)錄組數(shù)據(jù)成為可能祥款,這于基于液滴的單細胞方法可獲得的細胞量相似清笨。未來的發(fā)展可能會使空間轉(zhuǎn)錄組學可以被更廣泛的用戶使用。但是刃跛,大多數(shù)用戶可能不太需要真正的單細胞或亞細胞分辨率抠艾。這樣,對檢測更多轉(zhuǎn)錄本的需求和對廣泛的組織或樣品的適用性可能會推動這些技術在特定領域的發(fā)展桨昙。如果可以克服空間轉(zhuǎn)錄組技術的這些局限性检号,那么它可能會被廣泛采用。

非穩(wěn)定狀態(tài)RNA的分析

DGE研究使用RNA-seq來測量穩(wěn)態(tài)mRNA水平蛙酪,這是通過平衡mRNA轉(zhuǎn)錄齐苛、加工和降解的速率來維持的。但是桂塞,RNA-seq也可用于研究轉(zhuǎn)錄和翻譯的過程和動態(tài)變化凹蜂,這些研究為基因表達研究提供了新的視角。

捕獲新生RNA測量活躍轉(zhuǎn)錄

基因表達實質(zhì)上是一個動態(tài)過程阁危,DGE分析無法檢測復雜轉(zhuǎn)錄響應過程中的細微和快速變化玛痊,也不能鑒定不穩(wěn)定的非編碼RNA(例如增強子RNA)。RNA-seq可用于定位TSS并定量正在轉(zhuǎn)錄的新生RNA狂打,從而能夠研究RNA動力學擂煞。但是,與DGE分析相比趴乡,新生RNA的研究具有挑戰(zhàn)性对省,因為它們的半衰期短且豐度低。因此浙宜,了解RNA動力學的重要性催生了多種分析新生RNA研究方法官辽。這些方法揭示了啟動子的不同轉(zhuǎn)錄程度,轉(zhuǎn)錄激活狀態(tài)的RNA聚合酶II(Pol II)在啟動子近端的停留是基因表達調(diào)控的關鍵步驟粟瞬,新生RNA可以直接調(diào)節(jié)轉(zhuǎn)錄同仆,并且它的序列和結(jié)構(gòu)影響轉(zhuǎn)錄延伸、暫停和停滯 (stalling)裙品,以及染色體修飾酶和增強子RNAs的結(jié)合俗批。旨在區(qū)分新轉(zhuǎn)錄的RNA和其他RNA的新生RNA-seq方法可以大致分為三類:run-on方法铸题,基于Pol II免疫沉淀(IP)****的方法代謝標記方法(圖4)赋元。

image

圖4

Run-on方法依賴于轉(zhuǎn)錄時摻入核苷酸類似物,用于從總RNA中富集新生RNA,并可以測量RNA瞬時轉(zhuǎn)錄(圖4a)析恋。Global run-on sequencing(GRO-seq)和precision nuclear run-on sequencing(PRO-seq)通過在轉(zhuǎn)錄過程中分別將5-溴尿苷5′-三磷酸(BrU)或生物素標記的核苷酸摻入新生RNA中來實現(xiàn)這一目標喧务。在添加外源生物素標記的核苷酸并恢復轉(zhuǎn)錄之前哺徊,分離細胞核并洗去內(nèi)源核苷酸倦畅。測序免疫沉淀或親和層析富集的新生轉(zhuǎn)錄本可以確定轉(zhuǎn)錄組范圍內(nèi)活性轉(zhuǎn)錄的RNA聚合酶的位置和活性。取決于轉(zhuǎn)錄時摻入的標記核苷酸的數(shù)量麻汰,GRO-seq只能達到10-50 bp的分辨率速客,這降低了TSS定位的精度。PRO-seq可實現(xiàn)單堿基分辨率的定位五鲫,因為在生物素核苷酸摻入后轉(zhuǎn)錄會停止溺职,從而可以確定摻入位點。Run-on方法在概念上很簡單-僅將摻入修飾了的核苷酸的RNA分子富集用于測序位喂,但實際上浪耘,背景非新生RNA的存在會增加所需的讀取深度。這些方法的使用揭示了在啟動子上發(fā)散或雙向轉(zhuǎn)錄起始的程度塑崖,并確定了增強子RNA在調(diào)節(jié)基因表達中的作用七冲。通過結(jié)合對5′-帽RNA的特異性富集,GRO-cap规婆,PRO-cap或小的5′-帽RNA測序(START-seq)提高了檢測轉(zhuǎn)錄起始的敏感性和特異性和捕獲可能在轉(zhuǎn)錄過程中被加工去除的RNA癞埠,減少轉(zhuǎn)錄后加帽的RNA產(chǎn)生的背景信號。

Pol II IP方法聋呢,例如native elongating transcription sequencing (NET-seq) 和native elongating transcript sequencing for mammalian chromatin (mNET-seq),使用anti-FLAG (for FLAG-tagged Pol II) 或其它結(jié)合Pol II C末端功能域(CTD)的各種抗體拉下Pol II相關的RNA颠区。盡管非新生的Pol II結(jié)合的RNA和背景mRNA會導致更高的測序深度并混淆分析削锰,但富集測序與這些染色質(zhì)復合物相關的新生RNA可用于繪制TSS位點。NET-seq可能特異性較低毕莱,與Pol II強相關的任何RNA都可能污染新生RNA的富集器贩,NET-seq數(shù)據(jù)中存在的tRNA和小核仁RNA可以說明這一點。在mNET-seq中使用的多種CTD抗體揭示了CTD修飾調(diào)控轉(zhuǎn)錄的機制朋截,檢測RNA加工中間體并能夠?qū)⑻囟≒ol II的新生RNA定位于TSS蛹稍。然而,這些能力是以更復雜的實驗為代價的部服,需要更多的細胞和更高的總體測序成本唆姐。

用核苷酸類似物4-硫尿苷(4 sU)進行代謝標記 (metabolic pulse-labelling)可以鑒定新生的RNA(圖4c)。但是廓八,在需要較長標記時間的方法中奉芦,大多數(shù)轉(zhuǎn)錄本都會被標記赵抢,限制其靈敏度。通過特異地靶向RNA的3′末端(即最接近RNA聚合酶的新轉(zhuǎn)錄的RNA)声功,瞬時轉(zhuǎn)錄組測序(TT-seq)和硫醇(SH)-連接的烷基化RNA代謝測序(SLAMseq)減少5’RNA的信號烦却。TT-seq將標記時間限制為5分鐘,以便僅標記新轉(zhuǎn)錄本的3′末端先巴,并且在生物素親和純化之前增加RNA片段化步驟以富集標記的RNA其爵。SLAM-seq整合了3′mRNA-seq文庫制備(盡管它也可以使用其他文庫制備方法,例如miRNA文庫)伸蚯,只測序標記了的新轉(zhuǎn)錄的RNA摩渺,而不是整個轉(zhuǎn)錄本。另外朝卒,在SLAM-seq中证逻,在RNA提取后加入碘乙酰胺,用于烷基化整合到新生的RNA中的4 sU殘基抗斤。這一修飾誘導了逆轉(zhuǎn)錄依賴的胸腺嘧啶至胞嘧啶(T> C)核苷酸轉(zhuǎn)換囚企,在測序分析中會被檢測為“突變”,從而直接鑒定出4 sU整合位點瑞眼。但是龙宏,低整合率意味著只有少數(shù)4 sU位點被轉(zhuǎn)換為了胞嘧啶,限制檢測敏感性伤疙。TUC-seqTimeLapse-seq這兩種方法也使用T> C突變分析银酗,但不富集3’末端。他們已用于探索細胞干擾后的轉(zhuǎn)錄響應和測量RNA半衰期徒像。

用于新生RNA分析的方法尚未直接做過比較黍特。檢測新生RNA的測序方法都受到非特異性背景和/或降解的RNA混入的負面影響,使得測序需要更高的深度锯蛀。通過僅測序RNA 3′末端灭衷,PRO-seq,TT-seq和SLAM-seq中非新生RNA的影響會被降低旁涤,但是幾乎沒有證據(jù)表明任何一種方法會優(yōu)于其他方法翔曲。親和層析捕獲比較費力,并且需要比代謝標記法更高的起始RNA劈愚,但是確定標記 (pulse-labelling)所需的時間很復雜瞳遍,標記時間短時后續(xù)用于分析的RNA也會少,限制了檢測敏感性菌羽。近來組織特異性RNA標記技術和用于“突變”分析的新計算方法的發(fā)展掠械,可能會促使用戶對新生RNA和其他RNA的檢測從生化(基于生物素的)富集轉(zhuǎn)換為生信富集。新生RNA檢測方法的進一步發(fā)展以及它們與其他方法(例如空間轉(zhuǎn)錄組或RNA–RNA和RNA–蛋白質(zhì)相互作用方法)的結(jié)合,將使我們對轉(zhuǎn)錄過程有更深入的了解份蝴。

核糖體圖譜定量活性轉(zhuǎn)錄

RNA-seq的主要重點在于分析樣品中現(xiàn)存的mRNA的種類和數(shù)量犁功,但是mRNA的存在并不直接對應于蛋白質(zhì)的產(chǎn)生。兩種方法-多聚核糖體圖譜 (polysomal profiling)和Ribo-seq技術允許我們跳出轉(zhuǎn)錄研究翻譯組婚夫。核糖體翻譯mRNA是受到高度調(diào)控的浸卦,蛋白質(zhì)水平主要由翻譯活性決定。Polysomal profiling和Ribo-seq幫助研究一個轉(zhuǎn)錄本上結(jié)合了多少核糖體及它們在轉(zhuǎn)錄本上的分布規(guī)律(圖5)案糙。這允許我們推斷在特定時間或細胞狀態(tài)下哪些轉(zhuǎn)錄本正在活躍翻譯限嫌。兩種方法均假設mRNA上的核糖體密度與蛋白質(zhì)合成水平相關。樣品比較分析發(fā)現(xiàn)在發(fā)育過程中或翻譯失調(diào)相關疾病中时捌,如纖維化怒医,阮病毒病或癌癥,處理前后隨著時間推移的核糖體動力學奢讨。

image

圖5

Polysome profiling多核糖體分析使用蔗糖梯度超速離心法將多個核糖體結(jié)合的mRNA (polysomal fraction)與單個或無核糖體結(jié)合的mRNA (monosomal fraction)分離分別用于RNA-seq文庫制備(圖5a)稚叹。在polysomal fraction比monosomal fraction中檢測到更高豐度的mRNAs翻譯活性更高。該方法不僅可以推斷單個mRNA的翻譯狀態(tài)拿诸,還可以生成核糖體占有率和密度的高分辨率圖譜(盡管它無法確定核糖體的位置)扒袖。后續(xù)也對原始方法進行了一些改進。例如亩码,使用非線性蔗糖梯度改善了在不同濃度蔗糖溶液臨界濃度處多聚核糖體mRNA的收集季率;應用Smart-seq文庫制備方法可以檢測低至10 ng的多聚核糖體mRNA;使用更高分辨率的蔗糖梯度和深度測序允許檢測轉(zhuǎn)錄本異構(gòu)體特異性翻譯描沟。然而飒泻,多核糖體譜分析只能產(chǎn)生相對低分辨率的翻譯譜,并且是需要專門設備吏廉,限制了其廣泛使用泞遗。

Ribo-seq基于RNA印記,最初是在酵母中開發(fā)席覆。它使用環(huán)己酰胺抑制翻譯延伸進而導致核糖體停滯在mRNA上刹孔。用RNase I消化mRNA會留下核糖體保護的20–30個核苷酸印記,用于后續(xù)構(gòu)建RNA-seq文庫(圖5b)娜睛。Ribo-seq可以獲得高分辨率翻譯譜,同時檢測單個轉(zhuǎn)錄本上核糖體豐度和定位卦睹。能夠獲得多聚核糖體分析無法檢測到的核糖體在轉(zhuǎn)錄本上位置的分布畦戒,意味著可以檢測到影響蛋白質(zhì)表達調(diào)控的翻譯暫停事件 (translation pausing)。Ribo-seq技術的優(yōu)化包括緩沖液和酶的優(yōu)化结序,可以更清楚地揭示Ribo-seq數(shù)據(jù)的3 bp周期性障斋,以及barcode和UMI的使用可以確定單分子事件。盡管最近開發(fā)了用于尋找開放閱讀框,用于差異或isoforms水平翻譯分析和用于研究密碼子偏好性的特定工具垃环,但標準RNA-seq工具仍可用于計算分析邀层。Ribo-seq的主要局限性在于依賴超速離心和由于核酸酶批次間活性的差異需要憑經(jīng)驗確定消化條件。

前面提到的方法不能區(qū)分翻譯起始遂庄、延伸和終止的信號寥院,但是對Ribo-seq的改進使得可以對翻譯動力學進行進一步研究。定量翻譯起始測序(QTI-seq)通過化學“凍結(jié)”富集起始核糖體涛目,同時從相關mRNA中去除延伸核糖體來定位翻譯起始位點 (生信寶典注:原文寫的是maps transcription initiation sites秸谢,應該是筆誤)。在組裝成熟核糖體之前霹肝,Translation complex profile sequencing (TCP-seq)通過富集與成熟核糖體RNA組裝前的40S核糖體小亞基結(jié)合的RNA來定位翻譯起始位點估蹄。同時,由于這種方法保留了核糖體的完整性沫换,因此也可以分析和比較80S核糖體部分臭蚁,從而獲得更完整的翻譯動力學分析(圖5b)。

所有的翻譯組方法在概念上都是相似的讯赏;他們假設mRNA核糖體密度與蛋白質(zhì)合成水平相關垮兑。盡管它們的樣品制備方案不同,但是都需要大量的起始細胞待逞。最終甥角,可能需要將它們與RNA-seq結(jié)合以了解基因表達水平,并與蛋白質(zhì)組學結(jié)合以確定蛋白質(zhì)水平识樱,才能全面了解mRNA翻譯嗤无。如果想詳細了解翻譯組分析,文中也推薦了其它綜述怜庸。

超越基因表達分析

RNA在其他生物分子和生物過程(例如剪接和翻譯)的調(diào)控中起著重要作用当犯,這些過程涉及RNA與各種蛋白質(zhì)和/或其他RNA分子的相互作用。RNA-seq可用于探究分子內(nèi)和分子間RNA-RNA相互作用(RRI)割疾,或RNA與蛋白質(zhì)的互作嚎卫,從而可以更深入地了解轉(zhuǎn)錄和翻譯過程(圖6)。為互作組 (interactome)分析而開發(fā)的各種方法都有一個共同點:富集相互作用的RNA宏榕。一些方法利用了天然的生物相互作用拓诸,另一些方法則在目標分子之間發(fā)生瞬時結(jié)合或共價結(jié)合。大多數(shù)使用抗體麻昼,親和層析或探針雜交來富集用于測序的RNA奠支。在這里,我們簡要介紹基于RNA-seq的結(jié)構(gòu)組 (structurome)和互作組 (interactome)抚芦。

image

圖6

通過分子內(nèi)RNA相互作用探測RNA結(jié)構(gòu)

核糖體RNA和tRNA構(gòu)成細胞的大部分RNA倍谜。它們與其他有特定結(jié)構(gòu)的非編碼RNA一起在基因調(diào)控到翻譯的多種細胞過程發(fā)揮作用迈螟。用于解析RNA結(jié)構(gòu)的方法主要有兩種,分別是基于核酶的方法化學探針法尔崔。核糖核酸酶消化法于1965年首次用于確定(tRNA-Ala)RNA結(jié)構(gòu)答毫。在隨后的40年中開發(fā)了化學方法,例如基于引物延伸化學分析進行選擇性2′-羥基乙跫敬海化法(SHAPE)洗搂,可以在堿基對分辨率下確定tRNA-Asp的結(jié)構(gòu)。但是鹤盒,只有將各種核酶法和化學法與RNA-seq結(jié)合使用蚕脏,才能進行全轉(zhuǎn)錄組范圍而非單個RNA水平的結(jié)構(gòu)分析,這會加深我們關于RNA對結(jié)構(gòu)組復雜性和重要性的理解侦锯。在這里驼鞭,我們著眼于核酶法和化學探針法之間的主要差異(圖6a)。請閱讀Strobedl的綜述做更全面的了解尺碰。

核酶法挣棕,例如RNA結(jié)構(gòu)并行分析法(PARS, parallel analysis of RNA-structure)和片段測序(FRAG-seq, fragmentation sequencing)亲桥,使用可以消化單鏈RNA(ssRNA)或雙鏈RNA(dsRNA)的核酶洛心。核酸酶消化后剩余的RNA用作RNA-seq文庫制備。隨后通過對所得RNA-seq數(shù)據(jù)進行計算分析题篷,確定結(jié)構(gòu)化(雙鏈)和非結(jié)構(gòu)化(單鏈)區(qū)域词身。核酸酶簡單易用并允許對ssRNA和dsRNA進行研究,但由于核酸酶消化的隨機性番枚,它們的分辨率比化學法要低法严。此外,核酶的大體型使得它們不能進入細胞葫笼,進而不適用于體內(nèi)研究深啤。

化學映射方法使用與RNA分子反應的化學探針標記結(jié)構(gòu)化或非結(jié)構(gòu)化核苷酸。這些標記可阻止逆轉(zhuǎn)錄或?qū)е耤DNA誤整合 (micincorporation)路星,進而可通過對RNA-seq reads進行測序和分析以獲得結(jié)構(gòu)組學結(jié)果溯街。SHAPE測序(SHAPE–seq)通過與RNA骨架的核-2′-羥基反應來標記未配對的ssRNA,發(fā)夾環(huán)中的堿基堆積會降低標記效率洋丐。Structure–seq和硫酸二甲酯測序(DMS-seq, dimethyl sulfate )用DMS標記腺嘌呤和胞嘧啶殘基呈昔,阻斷了逆轉(zhuǎn)錄,使得能夠通過分析所得的截斷cDNA推斷出RNA結(jié)構(gòu)友绝。SHAPE和突變圖譜分析(SHAPE–MaP)和DMS突變圖譜分析(DMS–MaPseq)都優(yōu)化了實驗條件提高逆轉(zhuǎn)錄酶的合成能力并防止cDNA截斷堤尾。相反,化學標記會導致誤摻入事件九榔,然后使用RNA-seq數(shù)據(jù)分析這些“突變”以揭示RNA結(jié)構(gòu)。化學探針是小分子哲泊,可以在體內(nèi)研究更具生物學意義的結(jié)構(gòu)體剩蟀;由于細胞內(nèi)環(huán)境的動態(tài)變化,數(shù)據(jù)的變異度也會高一些切威∮兀化學法還可以用于進行新生RNA的結(jié)構(gòu)分析,并揭示共轉(zhuǎn)錄RNA折疊的順序先朦。

核酸酶和逆轉(zhuǎn)錄阻斷法通常產(chǎn)生短RNA片段缰冤,并且僅檢測單個消化位點或化學標記,而誤摻入和突變檢測方法每條測序reads可能檢測到多個化學標記位點喳魏。這些方法都不是沒有偏好的棉浸, 逆轉(zhuǎn)錄阻斷效率不會達到100%,誘導突變的化學標記可能會阻斷cDNA的合成刺彩,這兩個因素都會影響數(shù)據(jù)的分析解釋迷郑。Spike-in對照可能會提高結(jié)構(gòu)組分析的質(zhì)量,但尚未得到廣泛使用创倔。SHAPE方法的比較揭示了僅在體內(nèi)實驗中明顯的效率差異嗡害,強調(diào)了比較此類復雜方法時需要特殊注意。

這些方法揭示了RNA結(jié)構(gòu)在基因和蛋白質(zhì)調(diào)控機制中的新作用畦攘。例如霸妹,對DMS數(shù)據(jù)的分析發(fā)現(xiàn),RNA結(jié)構(gòu)可以調(diào)節(jié)APA知押,并可能減緩催化活性區(qū)域的翻譯叹螟,從而為蛋白質(zhì)折疊提供更多時間減少錯誤折疊事件±驶玻可能需要結(jié)合使用多種結(jié)構(gòu)RNA-seq方法才能獲得完整的結(jié)構(gòu)組圖譜首妖。隨著該領域研究的深入,我們可能會發(fā)現(xiàn)RNA結(jié)構(gòu)與發(fā)育或疾病狀態(tài)之間的聯(lián)系爷恳。最近的結(jié)果表明異常RNA結(jié)構(gòu)在重復擴增導致的疾病中可能有調(diào)控作用有缆。最終,結(jié)構(gòu)組分析可以促使開發(fā)靶向結(jié)構(gòu)清晰的RNA的小分子温亲,從而開辟疾病治療藥物開發(fā)的新領域棚壁。

探索RNA–RNA分子間互作 (RRI)

分子間RRI在轉(zhuǎn)錄后調(diào)控中起重要作用,例如miRNA靶向3’UTR栈虚。已經(jīng)開發(fā)的用于研究分子間RRI的工具袖外,可用于靶向和全轉(zhuǎn)錄組的分析。這些方法有共同的操作流程魂务,其中RNA分子在斷裂和就近自連之前先進行交聯(lián)固定互作狀態(tài)(圖6b)曼验。通過不同方法生成的大多數(shù)(但不是全部)嵌合cDNA源自穩(wěn)定堿基配對(即相互作用)的RNA分子之間的連接泌射。靶向方法,例如CLASH (crosslinking, ligation and sequencing of hybrids)鬓照,RIA-seq (RNA interactome analysis and sequencing), RAP-RNA (RNA antisense purification followed by RNA sequencing)可以生成單個RNA的深度相互作用圖譜熔酷。CLASH可使用IP富集法分析特定蛋白質(zhì)復合物介導的RRI,而RIA–seq使用反義寡核苷酸pull down與靶標RNA相互作用的RNA豺裆。兩種方法都不能區(qū)分直接和間接RRI拒秘,這使生物學解釋變得復雜。為了提高RRI分析的分辨率臭猜,RAP–RNA使用psoralen和其他交聯(lián)劑躺酒,然后用反義寡核苷酸捕獲RNA,并通過高通量RNA-seq檢測直接和間接RRI蔑歌。盡管該方法確實允許進行更特異的分析羹应,但它需要準備多個文庫(每種交聯(lián)劑一個)。

全轉(zhuǎn)錄組方法與靶向方法基本相似:相互作用的RNA在體內(nèi)進行交聯(lián)并富集丐膝。富集通過減少連接反應中攜帶的非相互作用RNA的量來提高特異性量愧,可以通過2D凝膠純化富集(如PARIS,psoralen analysis of RNA interactions and structures法中)或使用生物素親和層析富集( 如 SPLASH帅矗,sequencing of psoralen crosslinked, ligated and selected hybrids)偎肃,或通過RNase R消化去除未交聯(lián)的RNA(如LIGR-seq,ligation of interacting RNA followed by RNA- seq)浑此。連接后累颂,去交聯(lián),然后進行RNA-seq文庫制備和測序凛俱。PARIS方法產(chǎn)生最大數(shù)目的相互作用紊馏,但每個樣品需要7500萬條測序reads,比其他RRI方法要多很多蒲犬,并且是DGE分析平均測序深度的兩倍以上朱监。

整合RNA互作數(shù)據(jù)分析可以同時對多種相互作用進行探索,并揭示了不同種類RNA的RRI分布的變異原叮『毡啵總的來講,90%的RRI有mRNA參與奋隶。近一半有miRNA或長鏈非編碼RNA參與擂送,并且大多數(shù)互作都靶向mRNA。這些數(shù)據(jù)整合比較分析揭示了特定RNA種類在不同方法中存在很大偏好性唯欣,這導致方法之間幾乎沒有檢測到共有的互作嘹吨。因此,要完整了解RRI境氢,可能需要使用不止一種方法蟀拷。但是碰纬,RRI方法存在一些局限性。也許最具挑戰(zhàn)性的是RRI是動態(tài)的问芬,并且受結(jié)構(gòu)構(gòu)象和其他分子間相互作用的影響嘀趟,如果沒有重復,結(jié)果就很難解釋愈诚。分子內(nèi)相互作用為分子間RRI分析增加了噪音,這要求將高度結(jié)構(gòu)化的RNA(例如rRNA)過濾并去除牛隅。其他問題包括RNA提取過程中的相互作用破壞炕柔,需要穩(wěn)定的交聯(lián)方法,但最常用的RRI交聯(lián)試劑 psoralen和4′-氨基-甲基三氧雜沙侖(AMT)-僅能低效交聯(lián)嘧啶媒佣,降低了方法的敏感性匕累。此外,鄰近連接步驟效率低下默伍,并且可能同時連接相互作用和非相互作用的RNA欢嘿,從而進一步降低了靈敏度。

研究RNA與蛋白質(zhì)的相互作用也糊。

ChIP-seq已成為探索DNA-蛋白質(zhì)相互作用的必不可少的工具炼蹦。一種類似的IP方法可以用于研究RNA與蛋白質(zhì)的相互作用。RNA與蛋白質(zhì)的相互作用方法也依靠IP狸剃,利用一種針對感興趣的蛋白的抗體來捕獲其結(jié)合的RNA進行分析(最初是結(jié)合微陣列芯片使用)(圖6c)掐隐。各種RNA與蛋白質(zhì)相互作用方法之間最明顯的區(qū)別是互作的RNA和蛋白質(zhì)是否進行交聯(lián)以及如何交聯(lián):有些方法避免交聯(lián)(直接IP),另一些方法則使用甲醛進行交聯(lián)钞馁,而另一些方法則使用紫外線(UV)進行交聯(lián)虑省。.最簡單的方法是RIP-seq( RNA
immunoprecipitation and sequencing ),通常但并非總是使用細胞內(nèi)未加改造的蛋白的抗體富集僧凰,并且不需要RNA片段化處理探颈。其操作簡單使得該方法易于采用。RIP-seq可以獲得有生物意義的分析結(jié)果训措,但是有兩個大的缺點伪节。首先,用于保持RNA與蛋白質(zhì)相互作用的溫和洗滌條件意味著相對高水平的非特異性結(jié)合片段也會得以富集隙弛。第二架馋,RNA片段化步驟的缺失降低了結(jié)合位點的分辨率。因此全闷,RIP-seq結(jié)果高度可變叉寂,并取決于RNA-蛋白質(zhì)結(jié)合的天然穩(wěn)定性。使用甲醛交聯(lián)在RNA及其相互作用的蛋白質(zhì)之間產(chǎn)生可逆的共價鍵可以提高穩(wěn)定性并減少非特異性RNA的pull down总珠,但是甲醛也會產(chǎn)生蛋白質(zhì)-蛋白質(zhì)交聯(lián)屏鳍】贝浚可以通過與0.1%甲醛進行輕度交聯(lián)(比用于ChIP–seq研究的低10倍)來緩和這種影響,這在在多個蛋白質(zhì)靶標上獲得了高質(zhì)量的結(jié)果钓瞭。

在CLIP中引入的254-nm UV交聯(lián)是一項至關重要的改進驳遵,它提高了RNA-蛋白質(zhì)相互作用分析方法的特異性和結(jié)合位點鑒定的分辨率。UV交聯(lián)會在蛋白質(zhì)和RNA的相互作用位點之間建立共價鍵山涡,但至關重要的是堤结,不會導致互作蛋白的交聯(lián)。這樣可以穩(wěn)定RNA與蛋白質(zhì)的結(jié)合鸭丛,從而允許使用之前會破壞RNA-蛋白互作的更嚴格的富集操作竞穷,減少背景信號。隨后鳞溉,CLIP protocol已成為許多方法開發(fā)的基礎瘾带。單核苷酸分辨率CLIP(iCLIP)將UMI納入文庫制備中以去除PCR重復。同時它還利用交聯(lián)核苷酸上cDNA合成過程中普遍存在的未成熟終止的優(yōu)勢熟菲,通過截斷的cDNA擴增獲得單核苷酸分辨率的交聯(lián)位點的定量檢測圖譜看政。PAR-CLIP(Photoactivatable- ribonucleoside-enhanced CLIP)通過使用4 sU和356-nm UV交聯(lián)獲得單核苷酸分辨率的RNA-蛋白互作圖譜。4 sU在細胞培養(yǎng)過程中被整合進入內(nèi)源性RNA抄罕,而356 nm的紫外線照射僅在4 sU插入位點產(chǎn)生交聯(lián)(獲得高特異性)允蚣。在所得序列數(shù)據(jù)中檢測反轉(zhuǎn)錄誘導的T>C替換可實現(xiàn)堿基對分辨率的檢測解析,并可區(qū)分交聯(lián)片段與非交聯(lián)片段呆贿,從而進一步降低背景信號厉萝。對CLIP的最新改進提高了它的效率和敏感性。紅外CLIP(irCLIP)采用紅外凝膠可視化和基于beads的純化功能取代了放射性同位素檢測榨崩。這些改變使得試驗操作更簡單谴垫,而且僅需20,000個細胞 (iCLIP通常需要1-2百萬個細胞)就可以進行RNA-蛋白質(zhì)互作分析。**eCLIP **(enhanced CLIP)去掉了RNA-蛋白質(zhì)復合物的質(zhì)控和可視化過程母蛛,將樣品barcode與RNA adaptor結(jié)合在一起翩剪,使多個樣品可以更早地混合,并用beads代替凝膠進行片段富集彩郊。這些更改旨在簡化用戶的操作前弯,作為ENCODE項目的一部分,已經(jīng)針對近200種蛋白質(zhì)進行了eCLIP實驗秫逝。但是恕出,irCLIP和eCLIP目前均未得到廣泛采用,部分原因是eCLIP和irCLIP敏感性的某些提高可能是由于特異性的降低所致违帆;支持這一結(jié)論的是浙巫,這兩種方法檢測到的PTBP1結(jié)合位點處結(jié)合基序和調(diào)控的外顯子富集度降低。由于大量公開可用的數(shù)據(jù)為計算分析提供了新的資源,因此重點考慮CLIP數(shù)據(jù)的質(zhì)量控制的畴,過濾渊抄,鑒定結(jié)合位點 (peak calling)和標準化所采用的方法,這些都會影響數(shù)據(jù)的生物學解釋丧裁。對此感興趣的讀者建議繼續(xù)閱讀推薦的綜述护桦。

某些RRI方法和所有的RNA-蛋白質(zhì)的互作檢測依賴于IP富集,因此僅能應用于有比較好的結(jié)合抗體的蛋白質(zhì)的分析煎娇,而且非特異性抗體結(jié)合仍然是一個問題-盡管不只限于該領域二庵。RNA結(jié)構(gòu)也影響RNA與蛋白質(zhì)的相互作用;一些蛋白質(zhì)識別特定的RNA二級結(jié)構(gòu)或與這些結(jié)構(gòu)競爭結(jié)合RNA缓呛,這使體外的發(fā)現(xiàn)用于研究體內(nèi)生物調(diào)控變得復雜眨猎。此外滨达,RRI和RNA-蛋白質(zhì)相互作用方法通常檢測的是特定轉(zhuǎn)錄本或特定位置互作的平均值记劝。實驗方法眼滤、計算方法和單分子測序的進一步發(fā)展可能有助于解析這些內(nèi)部的生物差異。

結(jié)論

Wang匿情,Gerstein和Snyder在他們的預測中認為:RNA-seq將“給真核轉(zhuǎn)錄組分析帶來革命性變革”。但是信殊,即使他們也可能對技術拓展應用到如此之多的RNA層面感到驚訝炬称。今天,我們可以分析RNA生物學的許多方面涡拘,這對功能基因組的理解玲躯,研究發(fā)育以及引起癌癥和其他疾病的分子失調(diào)都是必不可少的。盡管生物學發(fā)現(xiàn)階段還遠遠沒有結(jié)束鳄乏,但臨床已經(jīng)在使用基于RNA-seq的檢測試驗跷车。單細胞測序已成為許多實驗室的標配,空間單細胞組學分析隨著方法的進一步發(fā)展也很可能會遵循類似的發(fā)展路徑橱野。對大部分的研究者而言朽缴,長讀長測序方法有可能取代Illumina的短讀長RNA-seq作為默認的研究方法。為了使這種情況發(fā)生水援,就增加通量和降低錯誤率方面密强,長讀長測序技術還需要進行重大改進。如果長讀長測序變得與短讀長測序一樣便宜可靠蜗元,那么除了對RNA降解的樣品之外或渤,鑒定mRNA isoforms都會首選長讀長測序∞瓤郏考慮到這一點薪鹦,任何關于RNA-seq在未來十年內(nèi)發(fā)展的預測都可能會過于保守。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末惯豆,一起剝皮案震驚了整個濱河市距芬,隨后出現(xiàn)的幾起案子涝开,更是在濱河造成了極大的恐慌,老刑警劉巖框仔,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件舀武,死亡現(xiàn)場離奇詭異,居然都是意外死亡离斩,警方通過查閱死者的電腦和手機银舱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來跛梗,“玉大人寻馏,你說我怎么就攤上這事『顺ィ” “怎么了诚欠?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長漾岳。 經(jīng)常有香客問我轰绵,道長,這世上最難降的妖魔是什么尼荆? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任左腔,我火速辦了婚禮,結(jié)果婚禮上捅儒,老公的妹妹穿的比我還像新娘液样。我一直安慰自己,他們只是感情好巧还,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布鞭莽。 她就那樣靜靜地躺著,像睡著了一般麸祷。 火紅的嫁衣襯著肌膚如雪撮抓。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天摇锋,我揣著相機與錄音丹拯,去河邊找鬼。 笑死荸恕,一個胖子當著我的面吹牛乖酬,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播融求,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼咬像,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起县昂,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤肮柜,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后倒彰,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體审洞,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年待讳,在試婚紗的時候發(fā)現(xiàn)自己被綠了芒澜。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡创淡,死狀恐怖痴晦,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情琳彩,我是刑警寧澤誊酌,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站露乏,受9級特大地震影響碧浊,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜施无,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望必孤。 院中可真熱鬧猾骡,春花似錦、人聲如沸敷搪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽赡勘。三九已至嫂便,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間闸与,已是汗流浹背毙替。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留践樱,地道東北人厂画。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像拷邢,于是被迫代替她去往敵國和親袱院。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容