一、寫在前面
選擇性剪接(Alternative splicing撰茎,AS)是剪除未成熟mRNA中的內含子打洼、保留外顯子后生成成熟mRNA的過程。在各類疾病發(fā)生和發(fā)展過程中炫惩,異常的選擇性剪接起著重要作用。目前RNA-seq已經成為定量分析選擇性剪切的有力工具诡必,這篇文章中搔扁,作者在先前研究兩個樣本RNA-seq數(shù)據(jù)之間的MATS(multivariate analysis of transcript splicing)的基礎上,針對重復(replicate)的樣本進行分析稿蹲,開發(fā)了一種新的方法稱為rMATS。我們在此前的課程轉錄組教程中已經包含了rMATS的實戰(zhàn)(Bulk RNASeq| 轉錄組實戰(zhàn))涂炎,這里讓我們一起來看看這個方法的具體內容吧。
二唱捣、主要內容
1. 非配對重復中的rMATS統(tǒng)計模型震缭。
從RNA-seq數(shù)據(jù)中進行選擇性剪接分析的基本原理即比較不同亞型的reads數(shù)占所有亞型的比例,以外顯子跳躍事件為例拣宰,發(fā)生時會出現(xiàn)外顯子(I)增加和外顯子跳躍(S)兩種亞型,統(tǒng)計不同亞型reads的比例即為外顯子包含水平(ψ)(Fig.1)膛堤。ψ的數(shù)值受到多種因素的影響晌该,當RNA-seq的reads數(shù)越多時,得到的ψ值將越可靠朝群。在相同樣本的重復RNA-seq數(shù)據(jù)中潜圃,由于生物技術原因舟茶,結果也存在可變性,因此在方法的開發(fā)中需要考慮這些因素吧凉。
在rMATs中,作者通過分層框架來同時考慮不同重復之間的估計不確定性和重復之間的可變性胀瞪。外顯子的讀取包括上層外顯子reads饲鄙,跳躍外顯子reads和下層外顯子reads。詳細計算公式如圖所示(Fig.S1)帆谍。其中轴咱,二項分布模擬了ψ的數(shù)值不確定性受總讀數(shù)n的影響烈涮,而重復樣本的可變性用混合模型中的隨機效應來模擬(Fig.2)窖剑。
Fig.1:
Fig.S1:
Fig.2
1. rMATS的模擬研究西土。
之后,作者進行模擬研究來評估rMATS的性能绘雁。選擇兩個樣本(每個樣本10個重復的RNA-seq數(shù)據(jù))援所,共5000個外顯子,其中5%的外顯子存在差異剪接住拭。而95%的外顯子不存在差異剪接滔岳,即兩個樣本間Δψ≤5%,并計算標準差SD來衡量樣本之間的可變性谱煤。使用rMATS來分析這些模擬數(shù)據(jù),結果發(fā)現(xiàn)在所有三組模擬中室叉,rMATS對重復數(shù)據(jù)的分析優(yōu)于對合并數(shù)據(jù)的分析硫惕,特別是當樣本可變性增加時(Fig.3)。
2.****前列腺癌的rMATs分析踪旷。
為了證實rMATs的實用性豁辉,作者分析了兩個前列腺癌細胞系(各n=3)的RNA-seq數(shù)據(jù),其中PC3E細胞表現(xiàn)出上皮細胞特性彩掐,GS689細胞具有侵襲特性而表現(xiàn)為間充質表型灰追。選擇ARHGAP17基因進行分析并經過RT-qPCR進行驗證(Fig.4)狗超,結果顯示RT-qPCR的結果與前列腺癌細胞系的RNA-Seq數(shù)據(jù)分析有94%的一致率朴下。
Fig.4
3. 樣本大小和測序深度影響檢測方法的精確度,
RNA-seq進行選擇性剪接分析時常見的問題便是對于測序深度的選擇渗稍,預算固定時团滥,需要在測序深度和重復樣本數(shù)之間做選擇,通過增加重復的數(shù)量能夠更好地估計重復之間的可變性灸姊,但這樣做會降低測序深度并增加單個重復的估計不確定性。因此作者設計了一個實驗來檢測樣本大小和測序深度對于分析精確度的影響碗誉,結果表明較低的重復數(shù)量便有較高的真陽性率父晶,如在SD = 0.01和0.02時,只需要3個重復就可以分別達到92%和90%的真陽性率(Fig.5A)尝苇。同時埠胖,當增加測序深度后,作者發(fā)現(xiàn)相比于200M押袍,1.6GB的測序深度能夠得到更大的真陽性率(Fig.5B)凯肋。總的來說圈盔,當樣本之間變異系數(shù)較大時悄雅,需要較多的重復才能夠達到較高的真陽性率,而樣本變異系數(shù)較低時众眨,3個重復便能夠達到較高的真陽性率;同時娩梨,在不考慮預算的情況下,測序深度的增加能夠提供較高的檢測精度颂龙,但需要較多的樣本數(shù)量來減少組間變異性纽什。
Fig.5:
4.****配對重復中的rMATS統(tǒng)計。
轉錄組測序通常選擇配對設計研究企巢,配對研究的選擇能夠減少個體的特異性變異饺藤,提供統(tǒng)計精確度。rMATs能夠通過協(xié)方差結構對于配對重復進行建模涕俗,結果顯示一些外顯子在兩個配對樣本之間具有很強的相關性再姑,而另一些外顯子在不同個體上的差異小于配對樣本,因此作者引入相關系數(shù) ρi參與計算元镀,使用雙變量正態(tài)分布來模擬樣本組內重復之間的變化以及成對重復之間的相關性(Fig.6)。為了進一步驗證rMATs分析配對模型的實用性讨永,作者對于腎癌細胞的RNA-seq進行差異性剪接分析遇革,發(fā)現(xiàn)使用配對信息導致統(tǒng)計的顯著性增加(Fig.7A),同時Δψ的SD值也會變小(Fig.7B)萝快。以上結果表明rMATS統(tǒng)計模型可以揭示配對模型中更微妙但一致的剪接變化揪漩。
Fig.6:
Fig.7
5.**** rMATS****和其他分析方法的比較。
最后作者將rMATS(未配對模型)的性能與Cufflinks(2.2.1)和DiffSplice(0.1.1)進行比較冰更,后者使用Jensen-Shannon散度(JSD)度量來測試兩個樣本組之間剪接水平/異型比例的差異。結果顯示無論是單個樣本囚痴,還是重復樣本的分析审葬,ROC曲線均顯示出rMATs的假陽性率較低(Fig.8)。
Fig.8:
三涣觉、總結討論
綜上所述官册,作者的數(shù)據(jù)為RNA-Seq的選擇性剪接分析提供了指導原則,證明了生物學重復對于設計研究的重要性膝宁,同時合并RNA-seq或合并來自多個重復樣品的RNA-Seq數(shù)據(jù)不是解決變異性的有效方法,并且異常值的產生會導致結果的假陽性率變高合蔽,因此重復數(shù)據(jù)的使用對于差異性剪接分析是必不可少的介返。rMATS的使用教程、測試數(shù)據(jù)可見:****Bulk RNASeq| 轉錄組實戰(zhàn)****圣蝎。總的來說,rMATs是對于重復數(shù)據(jù)進行差異選擇性剪接的有力工具牲证。