這次是分享李婧翌團隊的一篇綜述《Modeling and analysis of RNA-seq data: a review from a statistical perspective》,從統(tǒng)計學的角度理解RNA-seq的分析
分析的方向
目前正對RNA-seq的數(shù)據(jù)主流的有4個方向(當然事實上不止這些疲吸,可以辛苦讀者慢慢收集整理哀澈,歡迎與我討論)
- 基因sample-level疏魏,這里主要是看生物學處理間,基因表達模式的相似性集峦,通常用Pearson或Spearman相關(guān)系數(shù)進行表示
- Gene-level顽决,這里涉及到基因表達的定量
- Transcript-level族铆,這里涉及到對不同轉(zhuǎn)錄本的定量
- Exon-level将硝,這里涉及到差異可變剪切的檢測
接下來作者主要圍繞這四塊內(nèi)容進行在統(tǒng)計學上的理解
1). Sample-level
基于sample的分析恭朗,目的是檢測不同sample的表達模式的相似性,通骋捞郏可以利用Pearson and Spearman correlation coefficients來衡量痰腮。如果是利用全部基因來計算相關(guān)系數(shù),管家基因的存在勢必會 "夸大" 相關(guān)系數(shù)律罢,因此比較好的方法是利用相關(guān)基因而不是全部的基因來計算膀值,而R包TROM就是用來解決這類問題的,TROM通過計算TROM分數(shù)來選擇出相關(guān)基因后误辑,進行sample間相關(guān)系數(shù)的計算
除了計算相關(guān)系數(shù)沧踏,我們可以利用非線性的方法t-SNE或UMAP來進行降維聚類,以觀測樣本間的相似性
2). Gene-level
Gene層面的研究主要是對基因進行定量巾钉,并且進行差異表達分析翘狱,差異表達分析基本統(tǒng)計學模型的假設(shè)為,某個基因的count(表達量)在各個sample中的分布服從泊松分布或者負二項分布(如果是log以后的值一般認為服從正態(tài)分布):
其中:
- Yk,ij 代表的是 condition k 中第 j 個sample gene i 的表達量
- Skj 代表 condition k 中第 j 個sample 的size factor
- θki 代表 condition k 中 gene i 的真實表達水平(可理解為在 condition k 的條件下睛琳, gene i 在各個 sample 中的平均表達水平)
- Φi 表示 gene i 的dispersion
其基本假設(shè)為:
上圖表示某個基因A在所有sample中表達量的分布(但由于生物學的sample較少盒蟆,所以統(tǒng)計學家往往直接利用負二項分布去擬合)踏烙,均值為Skjθki
經(jīng)過統(tǒng)計學檢驗兩個分布的差異师骗,顯然該基因在condition 2的表達量要小于condition 1中的,p值的計算可以考慮用置換檢驗來從兩個分布中抽樣計算p值
另外一種就是基于的共表達分析:
其中:
- Aij 代表gene i 與 gene j 的相關(guān)性矩陣
- k 代表 gene k
- dij = 1 - Tij讨惩,用于表征基因之間的相似性距離
2). Transcript-level
一個基因可能有不同的轉(zhuǎn)錄本辟癌,基于轉(zhuǎn)錄本水平的分析主要是對一個基因的不同轉(zhuǎn)錄本進行定量
而對轉(zhuǎn)錄本定量往往存在一個問題,那就是對于同一個基因來說荐捻,一部分轉(zhuǎn)錄本的序列有overlap黍少,那么reads在比對回去的時候寡夹,很難區(qū)分這些reads到底來自哪一個轉(zhuǎn)錄本,因此統(tǒng)計學家往往采用EM算法進行轉(zhuǎn)錄本的定量
并作出如下定義:
θj 表示 reads 來自于 isoform j 的概率
定義isoform的集合為:{ 1厂置,2菩掏,3,.....昵济,J }
Region based:
假設(shè) X={ Xs | s∈S }智绸,Xs代表map到region s上總的reads數(shù),假設(shè)map到region s上總的reads數(shù)服從λs的泊松分布:
這里假設(shè)參數(shù)λs滿足線性關(guān)系:
假設(shè)如下例子:
一共有三個isoform访忿,這里的 Xs 特指map到外顯子上的reads瞧栗,而該例子中一共有4個外顯子,Xs = Xs1 + Xs2 + Xs3 + Xs4
對于每一個轉(zhuǎn)錄本來說海铆,如果該轉(zhuǎn)錄本缺乏某一個外顯子迹恐,那么這個外顯子上的reads數(shù)為0,似然函數(shù):
相應(yīng)的外顯子區(qū)域的多項式值為 1(相當于沒有貢獻)卧斟,利用極大似然估計的思想殴边,我們的目的是確定似然函數(shù) L() 取得最大值的時候參數(shù) λs 的值,而 λs與θj滿足線性關(guān)系**珍语,即確定 λs 后利用EM算法對 θi 進行分配找都,原理參見:《用簡單的EM算法模型理解RSEM算法》
經(jīng)過計算后,我們可以得到:例如 θ1=0.37廊酣,θ2=0.33能耻,θ3=0.3,相當于一共有100條reads分配到該區(qū)域(該基因)亡驰,isoform 1 表達37條晓猛,isoform 2 表達33條,isoform 3 表達30條
Reads based:
基本模型如下:
這種模型的基本思想是計算 reads i 來自于 isoform j 的概率凡辱,根據(jù)條件概率公式戒职,
表征同時選中 reads i 和 isoform j 的概率,也就是定量結(jié)果
Regression-based:
回歸的方法和 Region based 的方法理解相似透乾,只不過 Region based 利用極大似然的方法估計參數(shù)洪燥;而 Regression-based 基于最小二乘的思想求解參數(shù)
4). Exon-level
這一塊主要分析的是可變剪切事件,那么可變剪切事件的PSI定義為:
其中:
- CI denotes the number of reads supporting the inclusion isoform
- CE denotes the number of reads supporting the exclusion isoform
- LI and LE denote the lengths or the adjusted lengths
而可變剪切的統(tǒng)計學模型是:
例如 inclusion 事件的reads的分布滿足于總reads數(shù)為 n = CI + CE乳乌,reads屬于 inclusion 的概率為 ψ(PSI)的二項分布(均值μ = n×p)捧韵,而判斷差異可變剪切事件為:
構(gòu)建不同condition的二項分布,對于某個基于來說
經(jīng)過統(tǒng)計學檢驗兩個分布是有差異的(CIk的分布是有差異的)汉操,因而判斷為差異可變剪切事件
經(jīng)過統(tǒng)計學檢驗兩個分布是沒有差異的(CIk的分布是沒有差異的)再来,因而判斷為非差異可變剪切事件