從統(tǒng)計學的角度理解RNA-seq

這次是分享李婧翌團隊的一篇綜述《Modeling and analysis of RNA-seq data: a review from a statistical perspective》,從統(tǒng)計學的角度理解RNA-seq的分析

分析的方向

目前正對RNA-seq的數(shù)據(jù)主流的有4個方向(當然事實上不止這些疲吸,可以辛苦讀者慢慢收集整理哀澈,歡迎與我討論)

  1. 基因sample-level疏魏,這里主要是看生物學處理間,基因表達模式的相似性集峦,通常用Pearson或Spearman相關(guān)系數(shù)進行表示
  2. Gene-level顽决,這里涉及到基因表達的定量
  3. Transcript-level族铆,這里涉及到對不同轉(zhuǎn)錄本的定量
  4. Exon-level将硝,這里涉及到差異可變剪切的檢測

接下來作者主要圍繞這四塊內(nèi)容進行在統(tǒng)計學上的理解

1). Sample-level

基于sample的分析恭朗,目的是檢測不同sample的表達模式的相似性,通骋捞郏可以利用Pearson and Spearman correlation coefficients來衡量痰腮。如果是利用全部基因來計算相關(guān)系數(shù),管家基因的存在勢必會 "夸大" 相關(guān)系數(shù)律罢,因此比較好的方法是利用相關(guān)基因而不是全部的基因來計算膀值,而R包TROM就是用來解決這類問題的,TROM通過計算TROM分數(shù)來選擇出相關(guān)基因后误辑,進行sample間相關(guān)系數(shù)的計算

除了計算相關(guān)系數(shù)沧踏,我們可以利用非線性的方法t-SNE或UMAP來進行降維聚類,以觀測樣本間的相似性

2). Gene-level

Gene層面的研究主要是對基因進行定量巾钉,并且進行差異表達分析翘狱,差異表達分析基本統(tǒng)計學模型的假設(shè)為,某個基因的count(表達量)在各個sample中的分布服從泊松分布或者負二項分布(如果是log以后的值一般認為服從正態(tài)分布):

其中:

  1. Yk,ij 代表的是 condition k 中第 j 個sample gene i 的表達量
  2. Skj 代表 condition k 中第 j 個sample 的size factor
  3. θki 代表 condition k 中 gene i 的真實表達水平(可理解為在 condition k 的條件下睛琳, gene i 在各個 sample 中的平均表達水平)
  4. Φi 表示 gene i 的dispersion

其基本假設(shè)為:



image.png

上圖表示某個基因A在所有sample中表達量的分布(但由于生物學的sample較少盒蟆,所以統(tǒng)計學家往往直接利用負二項分布去擬合)踏烙,均值為Skjθki
經(jīng)過統(tǒng)計學檢驗兩個分布的差異师骗,顯然該基因在condition 2的表達量要小于condition 1中的,p值的計算可以考慮用置換檢驗來從兩個分布中抽樣計算p值

另外一種就是基于的共表達分析:


其中:

  1. Aij 代表gene i 與 gene j 的相關(guān)性矩陣
  2. k 代表 gene k
  3. dij = 1 - Tij讨惩,用于表征基因之間的相似性距離

2). Transcript-level

一個基因可能有不同的轉(zhuǎn)錄本辟癌,基于轉(zhuǎn)錄本水平的分析主要是對一個基因的不同轉(zhuǎn)錄本進行定量

而對轉(zhuǎn)錄本定量往往存在一個問題,那就是對于同一個基因來說荐捻,一部分轉(zhuǎn)錄本的序列有overlap黍少,那么reads在比對回去的時候寡夹,很難區(qū)分這些reads到底來自哪一個轉(zhuǎn)錄本,因此統(tǒng)計學家往往采用EM算法進行轉(zhuǎn)錄本的定量

并作出如下定義:


θj 表示 reads 來自于 isoform j 的概率
定義isoform的集合為:{ 1厂置,2菩掏,3,.....昵济,J }

Region based:
假設(shè) X={ Xs | s∈S }智绸,Xs代表map到region s上總的reads數(shù),假設(shè)map到region s上總的reads數(shù)服從λs的泊松分布:


這里假設(shè)參數(shù)λs滿足線性關(guān)系:


假設(shè)如下例子:

一共有三個isoform访忿,這里的 Xs 特指map到外顯子上的reads瞧栗,而該例子中一共有4個外顯子,Xs = Xs1 + Xs2 + Xs3 + Xs4
對于每一個轉(zhuǎn)錄本來說海铆,如果該轉(zhuǎn)錄本缺乏某一個外顯子迹恐,那么這個外顯子上的reads數(shù)為0,似然函數(shù):

相應(yīng)的外顯子區(qū)域的多項式值為 1(相當于沒有貢獻)卧斟,利用極大似然估計的思想殴边,我們的目的是確定似然函數(shù) L() 取得最大值的時候參數(shù) λs 的值,而 λsθj滿足線性關(guān)系**珍语,即確定 λs 后利用EM算法對 θi 進行分配找都,原理參見:《用簡單的EM算法模型理解RSEM算法》

經(jīng)過計算后,我們可以得到:例如 θ1=0.37廊酣,θ2=0.33能耻,θ3=0.3,相當于一共有100條reads分配到該區(qū)域(該基因)亡驰,isoform 1 表達37條晓猛,isoform 2 表達33條,isoform 3 表達30條

Reads based:
基本模型如下:


這種模型的基本思想是計算 reads i 來自于 isoform j 的概率凡辱,根據(jù)條件概率公式戒职,

表征同時選中 reads i 和 isoform j 的概率,也就是定量結(jié)果

Regression-based:



回歸的方法和 Region based 的方法理解相似透乾,只不過 Region based 利用極大似然的方法估計參數(shù)洪燥;而 Regression-based 基于最小二乘的思想求解參數(shù)

4). Exon-level

這一塊主要分析的是可變剪切事件,那么可變剪切事件的PSI定義為:


其中:

  1. CI denotes the number of reads supporting the inclusion isoform
  2. CE denotes the number of reads supporting the exclusion isoform
  3. LI and LE denote the lengths or the adjusted lengths

而可變剪切的統(tǒng)計學模型是:


例如 inclusion 事件的reads的分布滿足于總reads數(shù)為 n = CI + CE乳乌,reads屬于 inclusion 的概率為 ψ(PSI)的二項分布(均值μ = n×p)捧韵,而判斷差異可變剪切事件為:
構(gòu)建不同condition的二項分布,對于某個基于來說


經(jīng)過統(tǒng)計學檢驗兩個分布是有差異的(CIk的分布是有差異的)汉操,因而判斷為差異可變剪切事件


經(jīng)過統(tǒng)計學檢驗兩個分布是沒有差異的(CIk的分布是沒有差異的)再来,因而判斷為非差異可變剪切事件

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子芒篷,更是在濱河造成了極大的恐慌搜变,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件针炉,死亡現(xiàn)場離奇詭異挠他,居然都是意外死亡,警方通過查閱死者的電腦和手機篡帕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門绩社,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人赂苗,你說我怎么就攤上這事愉耙。” “怎么了拌滋?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵朴沿,是天一觀的道長。 經(jīng)常有香客問我败砂,道長赌渣,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任昌犹,我火速辦了婚禮坚芜,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘斜姥。我一直安慰自己鸿竖,他們只是感情好,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布铸敏。 她就那樣靜靜地躺著缚忧,像睡著了一般。 火紅的嫁衣襯著肌膚如雪杈笔。 梳的紋絲不亂的頭發(fā)上闪水,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機與錄音蒙具,去河邊找鬼球榆。 笑死,一個胖子當著我的面吹牛禁筏,可吹牛的內(nèi)容都是我干的持钉。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼融师,長吁一口氣:“原來是場噩夢啊……” “哼右钾!你這毒婦竟也來了蚁吝?” 一聲冷哼從身側(cè)響起旱爆,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤舀射,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后怀伦,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體脆烟,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年房待,在試婚紗的時候發(fā)現(xiàn)自己被綠了邢羔。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡桑孩,死狀恐怖拜鹤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情流椒,我是刑警寧澤敏簿,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站宣虾,受9級特大地震影響惯裕,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜绣硝,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一蜻势、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧鹉胖,春花似錦握玛、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至淑蔚,卻和暖如春市殷,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背刹衫。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工醋寝, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人带迟。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓音羞,卻偏偏與公主長得像,于是被迫代替她去往敵國和親仓犬。 傳聞我的和親對象是個殘疾皇子嗅绰,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容