學習生信技能樹的RNA-seq這十年(3萬字長文綜述)
首先是目前10年來測序技術的的發(fā)展平臺的更迭變化
我摘抄了重點的內容關于不同讀長方式測序結果的優(yōu)缺點比較如下
短讀長、長讀長
cDNA
與直接RNA-seq
分析的比較。超過90%的人類基因(gene)存在可變剪接衣迷,它們會形成兩個或更多的可表達異構體(轉錄本x與y)丸升。
短讀長cDNA測序中就增加了捕獲信息的復雜性,短讀長對異構體的檢測會受到其讀長的限制,在這種技術里溉愁,短讀長無法精確地map
到轉錄組上屋摇,而長讀長測序方法則能直接鑒定異構體揩魂。
在短讀長cDNA測序中,有很大比例的讀長會不明確地map
到不同異構相同的外顯子上炮温;而那些跨越了外顯子-外顯子連接處的讀長可以提高對異構體的分析效果火脉,但是當不同的異構體都含有這個連接處時,這種操作意義不大。
這些問題都加劇了數(shù)據(jù)分析的復雜性倦挂,以及無法對結果進行明確地解釋畸颅。
長讀長cDNA方法能夠產(chǎn)生全長的異構體讀長,從而去除或大幅度降低這些不精確的結果方援,并改進差異異構表達的分析結果没炒。
然而這些方法依賴于cDNA的轉換,它去除了RNA堿基的修飾信息犯戏,并且只能粗略地估計多聚腺苷酸(poly(A))尾巴長度送火。
dRNA-seq
可以進行全長導構體分析,堿基修飾檢測(例如N6-甲基腺苷(M6A))和poly(A)尾巴長度估計先匪。
然后從這個比較中就明白了如果想要的結果是做RNA修飾的那么首選直接RNA測序也就是選擇ONT平臺种吸,但是他的缺點是低通量,樣本制備與測序偏移不明呀非,無法對降解的RNA進行分析骨稿。
如果是想要的結果只是RNA表達的上下調而且強調研究新異構體或者著力于新轉錄本的發(fā)現(xiàn),那么就選擇長讀長cDNA姜钳,也就是PacBio或ONT平臺的測序方法坦冠,缺點同樣是通量低,但針對降解的RNA比直接測序要好一點哥桥。
但是目前市面上最常用的還是Illumina平臺的短讀長cDNA辙浑,這個的缺點就是前面兩個的優(yōu)點,而優(yōu)點就是通量高拟糕,能對小RNA有更好的分析判呕,最大的優(yōu)點就是目前的RNA-seq方法基本上都是針對這個測序方法開發(fā)的。
長讀長RNA-seq分析正被研究者們迅速采用送滞,并與深度短讀長RNA-seq數(shù)據(jù)結合起來侠草,用于更全面的分析,這非常類似于基因組組裝所采取的混合方法犁嗅。隨著時間的推移边涕,長讀長和dRNA-seq方法可能會用于證明已經(jīng)鑒定的基因和轉錄本的列表,即使在研究很透的生物中褂微,對于基因和轉錄本的研究也還遠遠不夠功蜓。隨著方法的成熟,以及測序通量的增加宠蚂,差異轉錄本分析將會成為常規(guī)方法式撼。合成長讀長RNA-seq或其它技術的發(fā)展將對這個領域產(chǎn)生什么樣的影響,還有待觀察求厕。
然而從目前來看著隆,Illumina短讀長RNA-seq依然占據(jù)了主導地位扰楼,這篇綜述集中討論短讀長測序。
RNA-seq最初用于分析多聚腺苷酸化的轉錄本美浦,使用的方法源于早期的表達序列標簽(expressed-sequence tag)和芯片研究弦赖。這種方法存在局限性,隨后進行了改良:在選擇RNA進行測序時抵代,取代dligo-dT富集的替代方法式塌,或者是那些專門選擇轉錄本的3?或5?末端的方法贯被,或者是使用UMIs進行區(qū)分技術重復和生物重復的方法,以及針對RNA易降解特性改良的文庫制備方法啰脚。并將這些方法的組合使研究者們闡明由可變poly(A)(alternative poly(A),APA)庆冕,或替代啟動子(alternative promoter)使用和可變剪接(alternative splicing)生成的復雜轉錄本康吵。
改良RNA-seq建庫方法
1.Poly(A)富集的替代方法
2.富集的RNA 3?末端用于Tag RNA-seq以及可變多聚腺苷酸分析(Enriching RNA 3?ends for Tag RNA- seq and alternative polyadenylation analysis.)
3.富集的RNA 5?末端用于起始位點map(Enriching RNA 5?ends for transcription start- site mapping)
4.使用唯一分子標識符來檢測PCR重復
5.提高降解RNA的分析
設計更好的RNA-seq實驗
1.重復與實驗功效(replication and experimental power):研究表明,至少應該使用6個生物學重復访递,這個數(shù)量要超過文獻中常用的3到4個生物重復的數(shù)量晦嵌。
2.確定合適的讀取深度(Determining the optimal read depth)
3.選擇參數(shù):測序長度,單端測序或雙端測序:目前普遍選擇雙端PE
下面就是重頭戲
RNA-seq數(shù)據(jù)分析
首先是分析流程
其次是RNA-seq數(shù)據(jù)分析工具
第1階段-測序讀長的比對(alignment)與組裝(assembly)
幾點需要注意
1.處理下機后的FASTQ文件最常見的第一步操作就是將測序讀長map到已知的轉錄組上(或已經(jīng)注釋的基因組上)拷姿,將每個測序讀長轉換為一個或多個基因組坐標惭载。這一過程可以使用多個不同的比對工具,例如TopHat响巢,STAR
或HISAT
描滔,它們都依賴于一個參考基因組。
2.一些組裝工具踪古,例如StringTie含长,SOAPdenovo-Trans
使用利用那些已經(jīng)比對好的結果中的空隙來推測其外顯子邊界,以及可能的剪接位點伏穆。當參考基因組注釋沒有或者是不完整時拘泞,或者是你感興趣的組織(例如在腫瘤組織)中轉錄本異常的情況下,這些從頭組裝轉錄本的工具尤其好用枕扫。
3.最近陪腌,已經(jīng)開發(fā)出了計算高效的“免比對”(alignment-free)工具,例如Sailfish烟瞧,Kallisto
與Salmon
偷厦,這些工具可以直接將測序讀長與轉錄本進行關聯(lián),從而無需單獨的定量步驟(參考后面的第2階段部分)燕刻。這些工具在那些表征更高豐度(以及更長的)轉錄本方面表現(xiàn)得非常良好只泼;然后它們在那些定量低豐度或短轉錄本方面表現(xiàn)不佳。
第2階段-轉錄本豐度的量化
1.不同的比較研究表明卵洗,在量化步驟中采用的不同的方法對最終的結果影響最大请唱,這種影響甚至超過了第1步中比對工具的選擇弥咪。
2.常用的量化工具包括RSEM,CuffLinks十绑,MMSeq
與HTSeq
以及前面提到的那些免比對工具聚至。
- 一些基于讀長計算的工具,例如
HTSeq
(或者是R equivalent本橙,featureCounts
)通常會丟棄許多比對好的讀長扳躬,包括那些回貼到多個位置的讀長,或者是重疊多個表達特征的讀長甚亭。 -
RSEM
會使用期望最大化的方法來分配那些比對不明的讀長贷币, -
Kallisto
這個無參比對工具會將比對不明的讀長包括在它們相應的轉錄本計數(shù)中,從而導致結果偏倚亏狰。 - 使用
tximport
包可以將轉錄本豐度估計轉化為讀長計數(shù)值(read count equivalents
)役纹。 - 量化步驟中產(chǎn)生的結果通常會合并為一個表達矩陣,在這個矩陣中暇唾,每一行是表達特征(基因或轉錄本)促脉,每一列是樣本名,表達矩陣中的值要和是實際的讀長值策州,要么是一種估計豐度瘸味。
第3階段-過濾和歸一化
- 通常來說,定量后的基因或轉錄本計數(shù)結果還需要過濾和歸一化够挂,從而用于解釋讀長深度硫戈,表達模式以及技術偏倚。過濾用于去除那些不均一的低讀長豐度特征的值下硕,從而提高對那些真正差異表達值的檢測能力丁逝。而對表達矩陣進行歸一化則更加復雜。直接轉換可以調整豐度值梭姓,以便能更加說明GC含量的差異以及讀長深度霜幼。
- 早期用于歸一化的方法就是RPKM,但這種方法現(xiàn)在已經(jīng)淘汰誉尖,它已經(jīng)被那些能夠校正樣本之間更細微差異的方法所取代罪既,例如四分位數(shù)法或中位數(shù)歸一法。
廣泛的研究表明铡恕,歸一化方法的選擇會對最終的結果以及生物學結論產(chǎn)生重要的影響琢感。
- 大多數(shù)進行歸一化的算法依賴于兩個重要的假設:第一,大多數(shù)基因的表達水平在重復的樣本組之間保持不變探熔;第二驹针,不同的樣本組在總體的mRNA水平上不表現(xiàn)出顯著差異。
- 當這些基礎假設不成立時诀艰,那么就需要慎重考慮是否進行歸一化柬甥,以及如何進行歸一化饮六。
例如,如果一些基因在一個樣本中高表達苛蒲,同時相同的基因卤橄,以及另外的一些基因在同一組中的另外一個樣本里正常表達,如果對讀長深度進行簡單的歸一化則明顯不夠臂外,因為相同數(shù)目的測序讀長會分配到第二個樣本里更多的基因上面窟扑。歸一化過程,例如截斷均值化M值(
The Trimmed Mean of M-values,TMM
)方法(它已經(jīng)整合到的edgeR
包中)就能解決這個問題漏健。
- 選擇一個合適的歸一化方法或許很困難嚎货;一種做法就是深度使用多種方法進行分析,然后比較它們結果的一致性漾肮。如果結果對于歸一化方法高度敏度厂抖,則應該對數(shù)據(jù)進行進一步的探索茎毁,以確定差異來源克懊。但是,比較不同的歸一化方法時七蜘,要謹慎確保這種歸一化方法的比較不是為了選擇與原始假設最兼容的歸一化方法谭溉。
處理這些問題的一種方法的spike-in control RNAs,這種方法會引入一些外源已知的RNA序列橡卤,這些外源已知的RNA序列已知扮念,濃度已知,在建庫的過程中碧库,將它們添加到樣本中柜与。RNA-seq中的Spike-ins方法包括外部RNA控制協(xié)會混合物(External RNA Controls Consortium mix, ERCCs),spike-in RNA突變物(spike-in RNA variants, SIRVs)與測序spike-ins(sequencing spike-ins, Sequins)嵌灰。
- 目前弄匕,spike-in控制法并沒有在發(fā)表RNA-seq DGE實驗中得到廣泛使用,如果這種方法被進一步改進沽瞭,提高其一致性的話迁匠,則這種方法會得到廣泛使用,但現(xiàn)在很多研究者們在他們的單細胞實驗(這種實驗里會更加廣泛地使用spike-in)使用了這種方法驹溃。
第4階段-差異表達的統(tǒng)計建模
- 一旦測序讀長被處理為表達矩陣城丧,那么就可以對實驗進行統(tǒng)計建模,從而確定哪些轉錄本發(fā)生了改變豌鹤。一些工具可以達到這些目的亡哄;其中一些工具會對基因水平的讀長數(shù)目進行統(tǒng)計建模,而一些則依賴于轉錄本水平的估計布疙。
- 基因水平的工具通常依賴于比對好的讀長數(shù)目磺平,使用廣義線性模型(
Generalized Linear Models
)處理這些數(shù)據(jù)魂仍,從而能夠評估復雜的實驗設計。 - 這些工具包括
edgeR拣挪,DESeq2
以及limma+voom
擦酌,這些工具能夠進行有效地計算,并提供比較結果菠劝。 - 對差異異構體表達進行統(tǒng)計建模的工具包括
CuffDiff赊舶,MMSEQ
與Ballgown
,這些工具通常需要更多的算力(computational power
)赶诊,并且不同工具的結果中的信息量更大笼平。 -
但是,在進行選擇差異表達工具之前做的那些工作舔痪,例如比對寓调,定量或過濾以及歸一化這些操作對最終結果的總體方差會產(chǎn)生更大的影響。
常規(guī)的RNA-seq分析流程需要掌握三個知識點
常規(guī)RNA-seq進階
- 常規(guī)的RNA-seq無法輕易地分辨出特定的細胞類型锄码,也無法保存空間信息夺英,而這兩個信息都是理解生物系統(tǒng)復雜性的關鍵因素。
- 單細胞測序讓人們發(fā)現(xiàn)了滋捶,即使在被認為研究透徹的疾病背后痛悯,還存在著一些未知細胞類型,例如發(fā)現(xiàn)了離子細胞(ionocyte cell)重窟,這類細胞可能與囊性纖維化疾病有關载萌。
- 空間分辨RNA-seq則提示了在實體組織中細胞與細胞之間的相互作用,例如發(fā)現(xiàn)了成年心臟組織中一小群胎兒標記基因表達的細胞巡扇。雖然在可預見的未來扭仁,常規(guī)RNA-seq仍然是一個占據(jù)主導地位的工具。但是厅翔,單細胞測序與分析方法正在快速地被研究者利用乖坠,并且隨著空間RNA-seq方法的成熟,它們有可能成為常規(guī)RNA-seq分析中的一部分知给。
單細胞分析
- scRNA-seq于2009年首次報道瓤帚,當時的研究者在含有裂解緩沖液的EP管中分離了單個卵母細胞。
- 機械裂解和膠原酶加DNAase的酶解會生成單細胞懸液涩赢,從而產(chǎn)生大量可用的細胞戈次,但是這種產(chǎn)生是高度組織特異性的,比較依賴于經(jīng)驗筒扒,其過程也需要非常小心怯邪。
- 一旦制備好了單細胞懸液,就可以通過各種方法分離單細胞(FIG 3a)花墩;大多數(shù)的實驗都是使用流式細胞儀來進行單細胞分選悬秉,這種方法是最容易澄步,它可以將單個細胞直接分選到含有裂解液的微孔板中。
- 對于更高通量的實驗和泌,現(xiàn)存有大量分離單細胞的專門儀器村缸,這些儀器需要自己構建或購買。
- 單細胞分離后武氓,它們就被裂解梯皿,將RNA釋放到溶解中用于cDNA合成,并將cDNA用于RNA-seq文庫制備县恕。
- 在文庫制備過程中东羹,來源于每個細胞的RNA會通過PCR進行擴增。這種擴增就引入了PCR偏倚忠烛,但是UMIs可以用于校正這種偏倚属提。
- 由于Poisson采樣,一個細胞中只有10-20%的轉錄本會被逆轉錄美尸,這就限制了轉錄本檢測的靈敏度冤议,以及各種方法產(chǎn)生的可用數(shù)據(jù)。
最近已經(jīng)出現(xiàn)了關于scRNA-seq的實驗設計指南火惊。方法學的快速發(fā)展意味著scRNA-seq方法的技術已經(jīng)快速過時了求类。然而Ziegenhain等人提供了scRNA-seq方法的詳細概述奔垦,他著重強調了UMIs的在數(shù)據(jù)分析方面的重要性屹耐,并報道了提到了的6種方法中哪一種最為靈敏。然而他們的研究范圍并不包括現(xiàn)在被廣泛使用的10X Geneomics方法椿猎。
Figure3-單細胞RNA-seq與空間RNA-seq的概念
當研究者們在選擇scRNA-seq方法惶岭,需要考慮的主要因素包括:他們是否需要全長轉錄本的讀長,在分析更多細胞表達譜(寬度, breadth)或每個細胞更多轉錄本(深度犯眠,depth)之間進行權衡按灶,以及總體實驗成本。
- 全長scRNA-seq系統(tǒng)的通量比較低筐咧,因此每個細胞需要單獨地處理鸯旁,直到最終生成scRNA-seq文庫。
- 雖然實驗中測序的細胞數(shù)量是由選擇的方法決定的量蕊,但是這也允許一些靈活性铺罢,不過隨著分析的細胞數(shù)目的增多,測序成本的增加残炮,往往限制了轉錄組分析的深度韭赘。因此,可以使用寬度和深度兩個維度來評估不同的scRNA-seq系統(tǒng)势就。
最近泉瞻,對A. thaliana根細胞原生質的分析表明脉漏,即使是植物的堅韌細胞壁這種障礙也能被解決,能產(chǎn)生用于測序的單細胞袖牙。scRNA-seq正在迅速成為生物學家們工具包的標準配置侧巨,并有可能在10年后被廣泛使用,就像今天的常規(guī)RNA-seq一樣鞭达。
- 當前的常規(guī)RNA-seq和scRNA-seq方法為研究者們提供了關于組織或細胞群體的高度詳細的數(shù)據(jù)刃泡,但是沒有捕獲空間信息,就是會降低細胞環(huán)境與基因表達之間關系的分析能力碉怔。
- 空間轉錄組學(spatialomics)的兩種方法是空間編碼(spatial encoding)與原位轉錄組學(in situ transcriptomics)烘贴。
在RNA-seq文庫制備過重中,空間編碼方法能夠記錄其空間信息撮胧,或者是通過分離空間受限的細胞(例如桨踪,通過激光捕獲顯微解剖, laser-capture micro-dissection, LCM)芹啥, 或者是通過分離前的位置對RNA加上條形碼(通過從組織切片中直接捕獲mRNA)(FIG. 3b)锻离。原位轉錄組學能夠在組織切片中,通過對細胞中的RNA進行測序或成像來生成數(shù)據(jù)墓怀。技能樹小編建議感興趣的讀者是閱讀最近的深度評論汽纠,從而對這一領域進行更全面的理解。
- LCM已經(jīng)成功地用于從組織切片中的特定區(qū)域分離和分析單個細胞用于RNA-seq傀履。雖然LCM需要專門的設備虱朵,但是許多機構已經(jīng)廣泛使用了這種技術。但是钓账,雖然這種技術可能實現(xiàn)高度空間分辨率碴犬,但是它消耗人力,并且難以批量使用梆暮。
- 使用空間轉錄學 (Spatial Transcriptomics服协,10X Genomics)與Slide-seq方法可以直接從冰凍組織切片中直接捕獲mRNAs,然后將這些mRNAs直接加載到寡核苷酸微陣列玻片(oligo- arrayed microarray slides)或嚴密包裝寡核苷酸的pucks上啦粹。寡核苷酸包括空間條形碼偿荷、UMI和oligo-dT引物,它們能唯一地識別每個轉錄本及其位置唠椭。
- 空間轉錄學方法已經(jīng)被證明能夠在一系列物種的組織中能發(fā)揮作用跳纳,其中就包括小鼠大腦和人類乳腺癌組織,人類心臟組織和擬南芥(A. thaliana)花序組織泪蔫。Slide-seq是最近開發(fā)的一種技術棒旗,它已經(jīng)被證明能夠對小鼠大腦的冰凍切片進行測序。這些直接 mRNA捕獲方法并不需要特殊的設備,且有相對簡單的分析方法铣揉,并有可能大規(guī)模地應用于許多組織饶深。
然而,還有兩個局限需要解決逛拱。首先敌厘,該技術只能應用于新鮮的冷凍組織。其次朽合,分辨率受到到陣列大小和捕獲寡核苷酸點和珠子的間距的限制俱两;目前的分析只能使用6.5x7 mm和3x3mm這兩種規(guī)格,這就限制了組織切片的尺寸曹步∠懿剩空間轉錄組學斑點的直徑為100μm,間距為100μm讲婚,這意味著它們不夠小或不夠密集尿孔,無法實現(xiàn)單細胞級分辨率。Slide- seq珠子則要小的多筹麸,直徑只有10μm活合,而且非常密集,比相對前者具有十倍的空間分辨率物赶,并且測序中的大約一半的珠子似乎是從單個細胞層面產(chǎn)生的數(shù)據(jù)白指。從分解的組織和空間編碼的數(shù)據(jù)與scRNA-seq混合起來的計算方法可以改善分辨率,但是需要基礎技術的進一步發(fā)展酵紫,以使其成為更常規(guī)的RNA-seq工具告嘲。
上述空間分辨RNA-seq方法的替代方案包括原位測序和使用單分子熒光原位雜交的基于成像的方法。這些方法能夠產(chǎn)生比RNA-seq方法更窄的轉錄組信息憨闰,但它們能直接檢測RNA状蜗,并且能夠對低豐度的轉錄本進行分析需五。同時鹉动,它們還能提供組組織結構和微環(huán)境的信息,并能產(chǎn)生亞細胞數(shù)據(jù)宏邮。這種方法目前正取得了巨大進步泽示,但是成像方法的一個主要局限就是需要高分辨率或超分辨率顯微鏡與自動流體技術結合,并且這種技術的成像時間可能要花上數(shù)小時蜜氨,甚至是幾天械筛。測序成本的下降比摩爾定律預測的速度更快,與測序成本相比飒炎,高通量成規(guī)模的成像系統(tǒng)的機會似乎更有限埋哟。
- 上述提到的空間轉錄組學都受到無法產(chǎn)生深度轉錄組學數(shù)據(jù)的限制,以及受到細胞分辨率和/或高成本(時間和/或資金)的限制,但是這些方法正在迅速改進赤赊,并且已經(jīng)應用于臨床樣本闯狱。
- 空間轉錄組學的具體計算方法開始出現(xiàn)。此外抛计,原位RNA測序和成像方法的進步已經(jīng)使得到個細胞生成的轉錄組數(shù)據(jù)成為可能哄孤,這與基于液滴的單細胞方法獲得的數(shù)據(jù)量相近。
動態(tài)RNA-seq分析(Beyond steady-state RNA analysis)
- DGE分析是使用RNA-seq來檢測穩(wěn)態(tài)下的mRNA表達水平吹截,這一表達水平是通過mRNA的轉錄瘦陈,加工和降解速度來決定的。但是波俄,RNA-seq也可以用于研究涉及轉錄晨逝,翻譯所涉及的過程與動力學特征,這些研究為基因表達提供了新的思路懦铺。
使用新生RNA(nascent RNA)方法來研究活性轉錄
- 基因表達是一個內在的動態(tài)過程咏花,但是在檢測復雜轉錄應答的細微以及快速變化或確定不穩(wěn)定的非編碼RNAs,例如增強子RNAs方面阀趴,常規(guī)的DGE分析方法就比較受限昏翰。RNA-seq可以用于繪制TSSs以及定量新合成的新生RNA,這就可以用來研究RNA動力學刘急。
- 但是棚菊,與DGE分析相比,
nascent RNA
的分析則比較難叔汁,因為它們半衰期短统求,豐度低。 - 因此据块,為了研究這些動態(tài)的重要性码邻,研究者們就開發(fā)了多種方法來分析
nascent RNA
;這些方法揭示了在啟動子處的差異轉錄程度另假,表明RNA聚合酶II(Pol II)在啟動子附近的暫停是基因表達的關鍵調節(jié)步驟像屋,證明了nascent RNA
有直接調節(jié)轉錄的作用,并表明其序列和結構影響轉錄的延伸边篮,暫停和停頓己莺,以及發(fā)揮染色體修飾結合和增強了子的作用。 -
nascent RNA- seq
方法旨在區(qū)分新近轉錄的RNA和其它RNAs戈轿,這些方法可以分為3類:run-on
方法凌受,Pol II
免疫沉淀法,代謝標記法(FIG. 4)思杯。
Figure4-nascent RNA與翻譯組分析的關鍵概念
nascent RNA分析方法是將那些在一個細胞中新轉錄的RNAs從其它的RNAs中富集出來胜蛉,并將它們與未富集的RNA(成熟的RNA)進行比較,富集nascent RNAs的方法主要有三種。
(a)Run-on方法是利用一個限時脈沖的方法將修飾過的核糖核酸添加到細胞培養(yǎng)基中誊册,對細胞的RNA進行標記奈梳;這一過程可以用使用各種修飾的核苷酸,但是解虱,圖中的GRO-seq使用的是Bru修飾的核苷酸攘须。當修飾過的核苷酸整合到RNA后,利用抗BrU的抗體殴泰,通過IP的手段將nascent-RNA鏈富集起來于宙,并用于文庫制備以及測序分析。
(b)RNA聚合酶II(Pol II)的IP方法則是利用了微球菌核酸酶(micrococcal nuclease)消化了染色質后悍汛,使用相應的抗體拉下了與Pol II結合的RNA捞魁。在染色質消化過程中,nascent RNA通過其Pol II足跡保護而不受核酸酶活性的影響离咐,并不會被降解谱俭。
(c)代謝標記方法標記RNA的方法類似于Run-on方法,但前者使用的是核苷酸類似物4 sU宵蛀。提取RNA后昆著,烷基化4 sU,在逆轉錄過重中术陶,就會產(chǎn)生G核苷酸的錯配凑懂,從而通過在堿基對級分辨率的突變分析中直接確定4 sU的整合位點。制備3'末端RNA文庫會通過降低未標記的RNA數(shù)量來增加測序過程中的信號強度梧宫。
Run-on
法是將核酸類似物添加到樣品中接谨,從而使nascent RNA
能夠從總的RNA混合物中進行富集,并能夠檢測瞬時RNA的轉錄(FIG. 4a)塘匣。全局
run-on
測序(Global run-on sequencing, GRO-seq)
與精確核酸run-on
測序(Precision nuclear run-on sequencing, PRO-seq)
是分別將Bru
或生物素
修飾的核酸在RNA的轉錄期整合到nascent RNA
中來實現(xiàn)的脓豪。由于
run-on
過程中標記的核苷酸的數(shù)據(jù),GRO-seq只能測到10-50bp的長度忌卤,這就降低的TSS檢測的精度扫夜。PRO-seq能夠實現(xiàn)單個堿基級的分辨率,因為生物素標記的核苷酸摻入后轉錄就停止埠巨,可以識別出轉錄位點历谍。
Pol II的免疫共沉淀方法包括,天然延長轉錄測序(native elongating transcription sequencing, NET-seq)和哺乳動物染色質天然轉錄測序法(native elongating transcript sequencing for mammalian chromatin, mNET-seq)辣垒,使用抗FLAG(用FLAG標記的Pol II)抗體進行沉淀的方法,或各種針對Pol II C末端結構域(CTD)的沉淀方法(FIG. 4b)印蔬。
NET-seq缺乏特異性勋桶,因為任何與Pol II強烈結合的RNA都會污染nascent RNA的富集效果,例如在NET-seq數(shù)據(jù)中就存在有tRNA和small nucleolar RNA。在mNRET-seq中使用多個CTD抗體提示了VTD修飾是如何影響轉錄的例驹,檢測到了RNA加工的中間體捐韩,并能能夠將特定的Pol II nascent RNAs定位于TSSs。
然而鹃锈,這些檢測能力是以更復雜的實驗荤胁,更多的細胞數(shù)量和更高的測序成本為代價的。
使用核苷酸類似物硫代吡啶(4-thiouridine, 4 sU)進行代謝脈沖標記(Metabolic pulse- labelling)的方法可以識別nascent RNA(FIG. 4c)屎债。
但是仅政,在那些需要長標記時間的方法中,大多數(shù)的轉錄本都會被標記盆驹,這就限制了這種方法的靈敏度圆丹。
TT-seq將標記時間限制在5分鐘,因此只標記新轉錄本的3’末端躯喇,它在進行生物素親和純化前辫封,有一個RNA片段化操作,用于富集標記的RNA廉丽。SLAM-seq整合了3’mRNA-seq文庫制備方法(雖然它也用于其它的文庫制備倦微,例如miRNA), 它僅針對標記的新轉錄的RNA進行測序正压,而非整個轉錄本進行測序璃诀。此外,在SLAM-seq中蔑匣,提取RNA后劣欢,還要加入碘乙酰胺(iodoacetamide),用于烷基化已經(jīng)插入到新生成的nascent RNA鏈中的4 sU殘基裁良。這種修飾會誘導反轉錄式依賴的胞腺嘧啶到胞嘧啶的轉換(T > C)凿将,這在測序分析中會被檢測為“突變”,從而直接識別為4 su整合位點价脾。
然而牧抵,低摻入率意味著只有少量的4 sU位點可以被轉換為胞嘧啶,這就限制了靈敏性侨把。有兩種方法犀变,即TUC-seq與TimeLapse-seq也使用T>C這種突變分析方法,但是它們并不富集3’末端秋柄。這兩種方法用于研究細胞干擾后的轉錄應答和RNA的半衰期获枝。
Nascent RNA分析方法還未進行過直接比較。Nascent RNA方法都受到非特異性背景和/或降解的RNA的負面影響骇笔,這會影響讀取深度省店。
通過僅測序3’末端嚣崭,那么non-nascent RNA的效應就會在PRO-seq,TT-seq和SLAM-seq中降低懦傍,但是幾乎沒有證據(jù)表明是否有其他方法更優(yōu)雹舀。親和純化方法費時費力,與代謝標記法相比粗俱,前者需要更多的起始材料说榆,但是,確定脈沖標記的時間比較復雜寸认,并且短脈沖產(chǎn)生用于分析的RNA很少签财,這限制了靈敏度。
最近開發(fā)的废麻,組織特異性RNA標記方法以及親折突變分析計算方法或許能夠促進研究者轉向使用生化(基于生物素)富集的手段來研究富含生物學意義的
nascent RNA
和其它RNA荠卷。Nascent RNA
方法以及它們與其它方法的綜和姑宽,例如空間轉錄組學或RNA-RNA與RNA-蛋白質相互作用
的方法属铁,將會提高我們對轉錄過程的理解独郎。
使用核糖體分析方法檢測活躍的翻譯
- RNA-seq的主要用途在于研究樣本中的mRNA的種類與數(shù)量又碌,但是mRNAs的存在與否并不直接關系到蛋白質的合成啊研。
- 現(xiàn)在有兩種方法可以研究轉錄以外的翻譯情況团搞,可以讓研究者們更好的理解翻譯組(translatome):一種是多核糖體表達譜(polysomal profiling)整葡,一個是核糖體足跡RNA-seq(Ribo-seq)虏缸。
- 核糖體對mRNAs的翻譯具有高度的調節(jié)作用沧卢,蛋白質水平主要由翻譯活性決定蚁堤。多核糖體表達譜與Ribo-seq可以讓研究者探索一個轉錄本占用多少個核糖體以及核糖體在轉錄本上的分布(FIG. 5)。
這種方法可以讓研究者推斷在特定時間或細胞狀態(tài)下哪些轉錄本正在被活躍地翻譯但狭。這兩種方法都假設mRNA 核糖體的密度與蛋白質合成的水平相關披诗。在不同樣本之間進行比較,就能提示治療條件下立磁,時間推移以及疾病發(fā)展過程中呈队,核糖體的動力學特征,上述的這些情況都與翻譯的異常調控有關唱歧,例如纖維化宪摧,朊病毒或癌癥。
- Figure 5-翻譯組的關鍵概念颅崩。翻譯組方法是從那些與核糖體結合的RNA中生成RNA-seq數(shù)據(jù)几于,這種方法假設mRNA上的核糖體的密度與蛋白質的合成水平相關。
- (a)多核糖體表達譜的方法是通過離心將RNA分子分成多核糖組分沿后,然后通過RNA-seq的方法進行比較沿彭。在多核糖體組分中表達較高的RNA被認為是更活躍的轉錄。
- (b)核糖體足跡(Ribo-seq)法使用RNase來降解暴露的RNA得运,同時保留那些被核糖體保護的未被降解的RNA膝蜈。通過對這些保護的RNA進行測序锅移,就可以揭示出核糖體的密度與位置熔掺。通過修改變標準Ribo-seq方法饱搏,定量翻譯起始測序(QTI-seq)或翻譯復雜表達譜測序(TCP-seq)可以專門富集起始核糖體或其亞基,同時剔除延長的核糖體置逻,因此可以對翻譯的動態(tài)過程進行更詳細的分析推沸。對翻譯組RNA-seq數(shù)據(jù)的過計算 分析可能確定每個mRAN的相對翻譯程度,可以研究翻譯的起始券坞,延長與終止的動力學過程鬓催。
- 標準的RNA-seq工具可以用于Ribo-seq的計算分析,但最近已經(jīng)出現(xiàn)了特定的工具用于尋找開放閱讀框恨锚,用于差異或異構體水平的翻譯分析宇驾,以及用于研究密碼子偏倚。
- Ribo-seq的主要限制就是超速離心猴伶,以及由于核酸酶不同批次間的變化课舍,以需要經(jīng)驗來確定RNase I的消化條件。
- 這些方法檢測的是來自翻譯起始他挎、延伸和終止的信號的平均強度筝尾,但是對Ribo-seq的修改可使得其能夠研究翻譯動力學。
所有的翻譯組方法在概念上都是相似的办桨;它們假設mRNA核糖體的密度與蛋白質的合成水平相關筹淫。雖然它們的樣本制備方案不同,但都需要大量的起始細胞數(shù)呢撞。最終损姜,翻譯組與RNA-seq結合起來研究基因的表達水平,并與蛋白質組學一道來研究蛋白水平殊霞,這可能就需要對mRNA的翻譯進行一個廣泛地理解摧阅。
種草:Ribo-seq分析必看文獻知識(四):核糖體與蛋白質合成相關生物知識
RNA結構與相互作用分析(Beyond analysis of gene expression)
- RNAs在調節(jié)其它生物分子和生物過程(例如剪接和翻譯)中發(fā)揮著重要作用,它們涉及RNA與各種蛋白質和/或其它RNA分子的相互作用脓鹃。
Figure6--RNA結構和RNA-蛋白質相互作用分析的關鍵概念
-
RNA結構和RNA-蛋白質相互作用分析的關鍵概念逸尖。
- (a)結構組分析使用核酸酶或化學標記試劑在全轉錄組范圍內來研究結構化RNA(例如雙鏈RNA,dsRNA)或非結構化RNA(單鏈RNA瘸右,ssRNA)娇跟。
- 在大多數(shù)實驗中,在單獨的反應中對ssRNA和dsRNA進行檢測太颤,其結果聯(lián)合反應性分析法來確定其結構特征苞俘。核酸酶消化方法使用針對dsRNA和/或ssRNA的一個或多個核酸酶來研究RNA的結構。
例如龄章,在對RNA結構要的并行分析(PARS)中吃谣,在體外使用RNase V1(一種dsRNA特異性核酸酶)或S1核酸酶(一種ssRNA特異性核酸酶)來酶切并行樣本乞封。酶解后剩余的RNA被轉化為cDNA,然后進行測序岗憋,測序的讀長深度與比對區(qū)域的反應性成正比肃晚。RNA-seq數(shù)據(jù)的覆蓋和比較結果就能推斷RNA的結構∽懈辏化學分析法(Chemical-mapping methods)关串,例如使用引物延伸的選擇性2?-羥基酰化分析法(SHAPE-seq)或突變表達譜分析法(SHAPE-Map)监徘,這些方法通過結構依賴形式在體外或體內對雙鏈或單鏈區(qū)域的核糖核苷酸進行修飾晋修。標記物可以阻斷逆轉錄,導致cDNAs的截短凰盔,或者是導致修飾位置錯誤地摻入突變墓卦。RNA被轉化為cDNA后進行測序,讀長深度或突變率與比對區(qū)域的反應性成正比户敬,從而推斷RNA的結構落剪。
- (b)RNA-RNA的相互作用分析方法,例如SPLASH山叮,這種方法的第一步是將有相互作用的RNA分子通過生物素化的補骨脂進行交聯(lián)著榴,然后以通過鏈霉親和素對其進行富集,
- 第二步是在鄰近位置加入相互作用RNA的自由端加入鄰近連接與及片段化屁倔。
- 第三步是進行RNA接頭的連接以及環(huán)化脑又,制備RNA-seq文庫用于測序,從而揭示出分子內(也就是結構)的RNA相互作用以及分子間的相互作用位點锐借。
- (c)RNA-蛋白質相互作用方法问麸,例如RNA交聯(lián)免疫沉淀后測序(CLIP-seq),這種方法使用UV輻射在相互作用的RNA和蛋白質之間產(chǎn)生共價交聯(lián)钞翔。
- 目的蛋白被抗體富集后严卖,與此蛋白結合的RNA也就被富集了下來,這些RNA加上3'接頭后布轿,提取出來用于cDNA的合成哮笆。
- 從結合了接頭的RNA生成的cDNA用于文庫制備,測序汰扭。
通過研究RNA分子內的相互作用來研究RNA的結構
- 核糖體RNA和tRNA構成細胞的大部分RNA稠肘。它們與其他結構非編碼RNA一起在細胞中發(fā)揮各種作用,例如從基因調節(jié)到翻譯萝毛。
- 現(xiàn)存主要有兩種研究RNA結構的方法:基于核酸酶的方法和化學探針方法项阴。核糖核酸酶消化于1965年首次用于研究RAN(tRNA(Ala))的結構。
- 本文集中討論核酸酶和化學分析方法之間的主要區(qū)別(圖·6a)笆包,如果想對這方面有進一步的理解环揽,可以看Strobel在這方面的綜述略荡。
核酸酶方法,例如RNA結構的平行分析法(Parallel Analysis of RNA Structure歉胶,PARS)和片段測序法(fragmentation sequencing, FRAG-seq)汛兜,這兩種方法使用能消化單鏈RNA(ssRNA)或雙鏈RNA(dsRNA)的酶。核酸酶消化后剩余的RNA用作RNA-seq的文庫構建跨扮。隨后通過對產(chǎn)生的RNA序列數(shù)據(jù)進行計算分析來識別結構化(雙鏈)和非結構化(單鏈)區(qū)域序无。核酸酶易于使用验毡,可以用于研究ssRNA和dsRNA衡创,但是由于核酸酶消化法的隨機特性,它們與化學分析法相比晶通,分辨率比較低璃氢。此外,由于核酸酶尺寸比較大狮辽,這就限制了這些核酸酶進入細胞一也,這就使得它們不適合體內研究。
化學分析法使用與RNA分子反應的化學探針喉脖,來標記結構化或非結構化核苷酸椰苟。這些標記要么阻斷逆轉錄,要么導致cDNA的錯配树叽,從而可以定位并分析RNA-seq讀長舆蝴,用于揭示結構組。SHAPE之后進行測序题诵,這種技術方法能夠RNA骨架上的核糖2’-羥基反應來標記未配對的ssRNA洁仗,雖然發(fā)夾環(huán)中的堿基折疊會降低其效率。Structure-seq與硫酸二甲酯測序(dimethyl sulfate sequencing, DMS-seq)能使用DMS來標記腺嘌呤和胞嘧啶殘基性锭,阻斷逆轉錄赠潦,最終從生成的截短cDNAs分析中推斷出RNA結構。SHAPE和突變表達譜(SHAPE and utational profiling, SHAPE-Map)和DMS突變表達譜測序(DMS-MaPseq)都修改了實驗條件草冈,從而提高了逆轉錄酶的加工能力她奥,并防止cDNA截短。相反怎棱,化學標記會導致錯配事件哩俭,在RNA-seq數(shù)據(jù)的分析中,能夠檢測出這些“突變”蹄殃,從而揭示RNA結構携茂。化學探針是小分子化合物诅岩,盡管由于細胞內的環(huán)境處于動態(tài)變化中讳苦,數(shù)據(jù)有可能更加多變带膜,但是化學探針還是能夠用于研究活體內的有生物學意義的結構≡眨化學探針還可以用于nascent RNAs的結構分析膝藕,并揭示共轉錄RAN折疊的順序。
- 核酸酶和反轉錄阻斷方法通常產(chǎn)生短RNA片段咐扭,并且只報告單個酶切位點或化學標記芭挽,而錯誤結合和突變檢測方法可以報告每個讀長的多個化學標記。
- 沒有方法不存在偏倚蝗肪;
- 逆轉錄阻斷永遠不會100%有效袜爪,本應誘導突變的化學標記可以阻斷cDNA合成,這兩個因素都可以影響數(shù)據(jù)的解讀薛闪。
- Spike-in控制有可能改善結構組分析的質量辛馆,但尚未得到廣泛使用。
- SHAPE方法的比較揭示了僅在體內實驗中才會出現(xiàn)效率差異豁延,因此這就突顯出比較類似復雜方法時所需要謹慎昙篙。
- 這些方法正在產(chǎn)生關于RNA結構如何在基因和蛋白質調控中發(fā)揮作用的新理解。
例如诱咏,DMS分析說明了苔可,RNA結構有可能調控APA,或許會減慢催化活性區(qū)域的翻譯袋狞,使得更多的時間用于蛋白質的折疊焚辅,從而減少錯誤折疊事件。結構RNA-seq方法的結合有可能產(chǎn)生所有的完整結構組信息硕并。隨著該領域的擴展法焰,我們可能會發(fā)現(xiàn),RNA的結構與疾病的進展和或疾病的狀態(tài)有關倔毙;最近的結果表明埃仪,異常RNA結構在重復擴張性疾病方面可能發(fā)揮作用。最終陕赃,結構組分析也許會促進那些靶向作用于研究透徹的RNA結構的小分子的開發(fā)卵蛉,從而開辟治療開發(fā)的新領域。
研究分子間RNA-RNA相互作用
- 分子間的RRIs在轉錄后調控中發(fā)揮著重要作用么库,例如miRNA與靶基因的3’UTR結合傻丝。
- 現(xiàn)在已經(jīng)開發(fā)了用于研究分子間RRI的工具,它們用于靶向分析和轉錄組分析诉儒。
- 這些分析方法含有一個共同的工作流程葡缰,即RNA在打斷與鄰位連接之前,通過交聯(lián)來保護其相互作用(FIG. 6b)。
- 大多數(shù)并非全部泛释,由不同方法嵌合生成的嵌合cDNA來源于穩(wěn)定堿基配對(即相互作用)RNA分子的連接滤愕。
- 為了提高RRI分析的分辨率,RAP-RNA使用補骨脂素(psoralen)和其他交聯(lián)劑怜校,然后用反義寡核苷酸捕獲RNA间影,以及使用高通量RNA-seq來檢測直接和間接RRI。
- 雖然該方法可以進行更具體的分析茄茁,它需要制備多個文庫(每個交聯(lián)劑一個文庫)魂贬。
- 對整理好的RNA相互作用數(shù)據(jù)的分析可以對多個相互作用進行可視化,并且這種分析方法已經(jīng)提示了RNA各類的RRI分布的變化裙顽「对铮總之,90%的RRIs涉及mRNAs锦庸。近一半涉及miRNA或長鏈非編碼RNA机蔗,對于這些RNA,大多數(shù)相互作用都與mRNA靶基因相關甘萧。
- 對這些整理數(shù)據(jù)的比較揭示了不同方法對特定RNA物種的偏倚,這導致這些方法之間幾乎沒有重疊梆掸。因此扬卷,繪制RRI的完整圖譜可能需要使用不止一種方法。
- 然而酸钦,RRI方法有幾個局限性怪得。也許最具挑戰(zhàn)性的就是RRI是動態(tài)的,并受結構構象和其他分子間相互作用的影響卑硫,這使得在沒有重復的情況下徒恋,很難對其進行解釋。
分子內的相互作用為分子間的RRI分析增加了干擾欢伏,這就需要過濾并除去那些高度結構化的RNAs入挣,例如rRNAs。其它的問題還包括RNA提取過程中相互相互作用的打斷硝拧,這就需要穩(wěn)定的交聯(lián)方法径筏,但最常用的RRI交聯(lián)劑是補骨脂素和4’-氨基-甲基三氧沙林(4?-amino- methyltrioxsalen, AMT),這些交聯(lián)劑只交聯(lián)嘧啶障陶,其效率比較低滋恬,會降低靈敏度。此外抱究,鄰近連接步驟低效恢氯,并且這會連接相互作用和非相互作用RNA,進一步降低靈敏度。
研究RNA-蛋白質相互作用
- ChIP-seq已經(jīng)成了繪制和研究DNA-蛋白質相互作用不可或缺的工具勋拟;類似的IP方法也用于研究RNA-蛋白質的相互作用遏暴。
- RNA-蛋白質相互作用方法依賴于IP,利用針對感興趣的RNA結合蛋白的抗體來捕獲其結合的RNA進行分析(第一次報道時是用芯片進行分析的)(FIG. 6c)指黎。
- 各種RNA-蛋白質相互作用方法之間最明顯的區(qū)別在于相互作用的RNA和蛋白質是否交聯(lián)以及如何交聯(lián):一些方法避免交聯(lián)(天然IP朋凉, native IP),其他方法使用甲醛進行交聯(lián)醋安,一些方法使用紫外線(UV)光進行交聯(lián)杂彭。最簡單的方法就是RNA免疫沉淀測序(RNA immunoprecipitation and sequencing, RIP-seq),時常吓揪,但并非所有情況下都使用天然IP法亲怠,以及并非總進行RNA打斷。這種簡便性使用該方法易于被采用柠辞。
- 這種方法能產(chǎn)生有用的生物學信息团秽,但是它有兩個重要的缺陷。第一叭首,用于保存RNA-蛋白質相互作用的前提是需要進行溫和地洗滌习勤,這就意味著富集的片段中有相對高的非特異性結合片段。第二焙格,沒有進行RNA打斷就降低了結合位點的分析图毕。
- 因此,RIP-seq具有高度靈活性眷唉,并依賴于RNA-蛋白質結合的自然穩(wěn)定性予颤。
- 使用甲醛交聯(lián)在RNA與其相互作用的蛋白質之間產(chǎn)生可逆的共價鍵提高了穩(wěn)定性,并減少了非特異性RNA的回收冬阳,但甲醛也會導致蛋白質-蛋白質的交聯(lián)蛤虐。
- 這種影響可以通過使用0.1%的甲醛(比ChIP-seq研究使用的甲醛低10倍)進行溫和的交聯(lián)來降低,這能在多個蛋白質靶點上產(chǎn)生高質量的結果肝陪。
隨著公共數(shù)據(jù)庫中可用的大量數(shù)據(jù)為計算分析提供了新的機會驳庭,因此謹慎考慮CLIP數(shù)據(jù)的質控,過濾见坑,以及峰值調用(peak calling)和歸一化方法就變得非常重要嚷掠,這些會影響數(shù)據(jù)的生物學解釋。為了更全面地討論 RNA-蛋白質的相互作用的CLIP實驗方法荞驴,生信技能樹的小編建議讀者可以閱讀最近關于這個主題的綜述不皆。
一些RRI以及所有的RNA-蛋白質結合方法對IP的依賴限制了其對有良好特征抗體蛋白質的研究,而非特異抗體的結合仍然是一個問題(雖然這一問題并非局限于這個領域)熊楼。RNA結構也會影響RNA-蛋白質之間的相互作用霹娄;一些蛋白質能識別特異的RNA二級結構或與這些結構競爭結合RNA能犯,這使得體外的發(fā)現(xiàn)轉向體內就變得復雜了。此外犬耻,結構和RNA-蛋白質相互作用方法通常報告一個特定轉錄本或位置的平均值踩晶。在實驗室方法中,在計算方法和單分子測序方面的未來發(fā)展或許有助于破譯一些這些生物變異枕磁。
結論
- Wang渡蜻,Gerstein和Snyder關于RNA-seq將“革命性地[如何]分析真核轉錄體”的預測肯定是正確的。
- 但是计济,即使是他們茸苇,也有可能對這種轉型的規(guī)模感到驚訝。
- 現(xiàn)在我們可以分析RNA生物學的許多方面沦寂,這對于基因組功能学密、研究開發(fā)和確定導致癌癥和其他疾病的分子調控異常方面來說是必不可少的。
- 雖然生物學發(fā)現(xiàn)階段還遠未結束传藏,但是已經(jīng)在臨床中使用了RNA-seq方法腻暮。
- 單細胞測序正在成為許多實驗的標準配置,空間轉錄組學的分析可能會遵循類似的路徑毯侦,使其能夠在與開發(fā)當前方法的實驗室范圍之外使用哭靖。
- 長讀長測序方法也有可能取代當前相當大比例的研究者們默認選擇的Illumina的短讀長RNA-seq。
- 對于這種情況的出現(xiàn)叫惊,長讀長測序技術還需要在增加通量和降低錯誤率方面做出極大的改進款青。
- 然而,長讀長mRNA異構體測序的優(yōu)點是霍狰,如果它變得像現(xiàn)在短讀長測序一樣便宜和可靠,那么對于那些除了易降解材料外饰及,長讀長測序就可能是首選蔗坯。
- 考慮到這些因素,那么任何關于RNA-seq在未來十年可能如何發(fā)展的預測都有可能過于保守燎含。
文末福利也貼一下宾濒,真心不錯
如果你看到這里,應該是真的對學習有追求屏箍,那么發(fā)郵件(jmzeng1314@163.com)绘梦,需要你簡單的自我介紹,誠心一點哦赴魁,就可以拿到本綜述的markdown翻譯文件卸奉、該綜述的PDF、以及一套精心編輯好的轉錄組流程視頻演練颖御。