簡介
maSigPro,這是一款可以綜合分析時間序列RNA-seq的工具。
這款工具最初由Conesa等人于2006年開發(fā)倒彰,于2014年經Nueda等人進一步優(yōu)化而得到的
那么披摄,我們在研究生物學問題的時候,往往是一個動態(tài)的過程里初,即某些基因的表達水平隨著時間的推移厄爾發(fā)生動態(tài)改變
而傳統的DEG往往只能比較treatment和control,卻忽略了時間帶來的效應忽舟。而maSigPro綜合考慮了每一時期的treatment與control的區(qū)別双妨,而且也考慮了不同時間點基因表達的動態(tài)變化
其工作流程為:
原理
第一次回歸
maSigPro采用的是廣義線性模型進行建模,即下列式子:
結合該式子來看叮阅,相比較于普通的DEG來說刁品,在該廣義線性加入了關于時間的項和回歸系數
其中:
- i = 實驗組別
- j = 時間點
- J=多項式回歸的最高次數,與你的時間點數量有關
- r=重復(生物學重復)
- D=虛擬二進制變量(實驗條件,D1,D2,D3... 為不同的實驗處理/條件)浩姥,即有某處理為1挑随,沒有為0
- T=時間點
- yijr=標準化后的表達值
- β,δ,γ,λ=回歸系數
- β0,δ0,γ0,λ0 為對照組中的回歸系數;βi,δi,γi,λi表
示第 i +1 組與對照組之間的差異勒叠,對于時間變量而言通常 i = 1
為對照組
其中D為:
比方說 i = 1 這組是沒有任何處理的.所以所有的實驗處理都為0 ; i = 2 這組經過了D1的處理, 所以D1 這項為 1
如果考慮不同組別的差異:
那么上式子中的β0,δ0,γ0,...,λ0為對照組的回歸系數镀裤,βi,δi,γi,λi表示第 i + 1組與對照組之間的差異,通常 i = 1 為對照組
那么當 i = 1 時:
當 i = 2 時, (D1 = 1):
對于 i = 2 的基因表達量 y2jr 來說缴饭,它的系數是β0 + β1, δ0 + δ1, γ0 + γ1.....(后面不再列舉了)這樣的和形式暑劝,那么根據前面所說的β0, δ0 , γ0 ...... 是對照組的回歸系數,β0 + β1 , δ0 + δ1 , γ0 + γ1 ......是其中一個treatment(DI)的回歸系數颗搂,那么β1 , δ1 , γ1 就代表了該treatment與對照之間的差異担猛,那么 i = 3,4..... 也是同樣的道理,其系數的加和表示與對照組的差異
其中時間T矩陣是自己定義的傅联,這里舉兩個次項的例子先改,往后的以此類推
1.當考慮線性回歸建模(最高一次項)時
依次看不同時間點與不同處理的變化:
當 j = 0 時
i = 1 , j = 0:
i = 2 , j = 0:
i = 3 , j = 0:
當 j = 1 時
i = 1 , j = 1:
i = 2 , j = 1:
i = 3 , j = 1:
當 j = 2 時
i = 1 , j = 2:
i = 2 , j = 2:
i = 3 , j = 2:
2.當考慮二次回歸建模(最高二次項)時
依次看不同時間點與不同處理的變化:
當 j = 0 時
i = 1 , j = 0:
i = 2 , j = 0:
i = 3 , j = 0:
當 j = 1 時
i = 1 , j = 1:
i = 2 , j = 1:
i = 3 , j = 1:
當 j = 2 時
i = 1 , j = 2:
i = 2 , j = 2:
i = 3 , j = 2:
而設置多項式的最高次數我們通過degree來設置:
design <- make.design.matrix(condition,degree = 6)
#the degree of the regression fit polynome. degree = 1 returns linear regression, degree = 2 returns quadratic regression, etc
對于degree的設置,很大程度上依賴于你時間點的個數蒸走,時間點個數越多仇奶,degree也就設置的越高,一般就設置為你時間點的個數比較好
仍然考慮兩個組別比驻,兩個時間點的情況该溯,即 i = 1組和 i = 2組分布在 j = 1 這個時間點上和 j = 2這個時間點上的情況,其中D1表示實驗組處理别惦,T1為第一個時間點狈茉,T2為第二個時間點;i ≤ I - 1(I 為 組數)掸掸,j ≤ J - 1(J 為時間點數)
對應 D 矩陣有
對于對照組的第一個時間點(i = 1氯庆,j = 1) :
對于對照組第二個時間點(i = 1,j = 2):
對于實驗組的第一個時間點(i = 2扰付,j = 1):
對于實驗組的第二個時間點(i = 2堤撵,j = 2):
(1). 相同時間點,不同組別的差異為:y21r - y11r 或者 y22r - y12r
(2). 相同組別羽莺,不同時間點的差異為:y12r - y11r 或者 y22r - y21r
那么依次求解參數即可
所以第一次回歸的目的是建立基因表達量实昨,對照與treatment,以及時間之間的關系式
第二次回歸
這次回歸屬于逐步回歸禽翼,即將不顯著的回歸系數項剔除屠橄,這一步目前有兩大算法族跛,向前算法和向后算法闰挡,其目的都是保留統計學顯著的系數項
結果
該軟件結果可以根據基因表達模式進行分類,然后就可以看到隨時間礁哄,基因表達的動態(tài)變化了
另外长酗,該軟件是可以將動態(tài)變化的基因分cluster的,比方說上圖就分了3個cluster桐绒,那么這些cluster是根據基因的表達模式區(qū)分的夺脾,這樣以來,就可以細化到每個cluster隨時間的變化趨勢茉继,從而找出自己感興趣的cluster
參考:
傳送門
《Comparative analysis of differential gene expression tools for RNA sequencing time course data》
https://academic.oup.com/bib/article/20/1/288/4364840
《Next maSigPro: updating maSigPro bioconductor package for RNA-seq time series》
https://academic.oup.com/bioinformatics/article/30/18/2598/2475510
《maSigPro: a method to identify significantly differential expression profiles in time-course microarray experiments》
https://academic.oup.com/bioinformatics/article/22/9/1096/200371#e1
maSigPro說明文檔:
http://www.bioconductor.org/packages/release/bioc/vignettes/maSigPro/inst/doc/maSigProUsersGuide.pdf