時間序列研究的是基因表達的動態(tài)行為,測量的是一系列和時間點之間有強烈相關(guān)性的過程瘤旨。和針對某一時間點的基因表達進行差異分析不同削解,時間序列更加關(guān)注是發(fā)現(xiàn)基因表達的趨勢把夸,以有助于理解生物學(xué)動態(tài)變化過程(比如對刺激的反應(yīng)、發(fā)育過程锋华、周期行為等)嗡官。也就是說,時間序列關(guān)注的是整體變化趨勢而不是某特異表達毯焕。
基因表達有時間依賴性衍腥,蛋白質(zhì)會根據(jù)不同的功能需要進行合成,即使穩(wěn)定的狀態(tài)下纳猫,mRNA不斷的被轉(zhuǎn)錄婆咸,蛋白不斷的合成與降解,這個過程被高度調(diào)控芜辕。當(dāng)細(xì)胞面對新的狀況尚骄,比如,饑餓侵续、感染乖仇、應(yīng)激等憾儒,一些調(diào)控因子會通過調(diào)控自身或其它基因的表達來啟動或抑制轉(zhuǎn)錄,甚至激活新的表達模式乃沙。很多情況下起趾,這種表達模式通過激活一些轉(zhuǎn)錄因子開始,這些轉(zhuǎn)錄因子又會反過來調(diào)控其它的基因警儒,而這些基因幾乎都是對新情況的反應(yīng)训裆。通過時間序列分析,可以鑒定只在一些特定或新的狀況下特異表達的部分基因蜀铲。然而边琉,為了確定這些狀況下表達的完整的基因集,進而確定它們之間的相互關(guān)系记劝,時間序列的數(shù)據(jù)分析就尤為重要变姨。也就是說,來確定的不是新情況下穩(wěn)定狀態(tài)的那些通路或基因厌丑,而是為了達到這種狀態(tài)(比如肝臟重建)被激活的那些通路或基因定欧,甚至網(wǎng)絡(luò)。對于靜態(tài)實驗的差異基因的選取已經(jīng)有很多方法的報道怒竿,但因為基因表達是一個動態(tài)的過程砍鸠,尤其對大鼠肝臟從開始切除到最后重建,還有肝癌的生成等過程耕驰,所以鑒定并找出那些表達隨時間的變化而變化的基因非常重要爷辱。也就是說更關(guān)注的是整個過程中的總體趨勢而不是某特異的表達水平,篩選的是表達模式類似的差異共表達基因朦肘。不同樣本組中的差異共表達基因更可能是調(diào)控因素饭弓,也就更能解釋表型之間的差異。
這樣就有幾個挑戰(zhàn)媒抠,一是要分析的數(shù)據(jù)量會很大示启,二是實驗條件變多,三是要發(fā)掘?qū)嶒瀯討B(tài)變化本質(zhì)领舰,傳統(tǒng)的統(tǒng)計學(xué)方法比如t-tests就無能為力了夫嗓,需要運用新的統(tǒng)計學(xué)方法,四是樣本間的時間間隔并不總是相等冲秽。
主要針對配對比較分析的SAM舍咖,LIMMA等方法在對變化趨勢的分析上無能為力。而對時間序列的數(shù)據(jù)處理锉桑,有不少報道排霉,比如等級聚類、基于主成份分析的聚類等民轴,雖然這些聚類可以鑒定并可視化共調(diào)節(jié)的基因攻柠,但基因數(shù)目多的時候難以解釋球订,還有一個不足就是,不能得到隨時間變化有統(tǒng)計學(xué)意義的基因瑰钮。
而對時間序列的分析冒滩,需要:首先,可以使用統(tǒng)計學(xué)程序來鑒定顯著表達變化的基因浪谴;第二开睡,把隨時間變化發(fā)生顯著表達變化的基因進行聚類并且可視化。這個可以通過回歸來解決苟耻,其中篇恒,時間被視為數(shù)量變量,實驗條件視為分類變量凶杖,這樣就可以分析趨勢變化胁艰。
maSigPro的全稱是Microarray Significant Profiles,采用2步回歸策略智蝠。第一步選擇基因腾么,第二步選擇變量。并且寻咒,可以調(diào)整模型參數(shù)更擬合數(shù)據(jù)哮翘,使用虛擬變量代表實驗條件颈嚼。數(shù)據(jù)需要經(jīng)過預(yù)處理才可以由maSigPro分析毛秘,包括背景矯正,log2 ratios計算阻课,lowess標(biāo)準(zhǔn)化叫挟,一般的芯片數(shù)據(jù)處理方法都可以,比如RMA, MAS5等限煞。下面簡要概述maSigPro分析的步驟及原理抹恳。
在用maSigPro進行分析時,署驻。一般情況都是兩個或兩個以上的感興趣的變量奋献,其中一個典型的就是時間變量,另外一個通常都是分類變量旺上,代表實驗組別(比如不同的處理瓶蚂,細(xì)胞株,組織等)宣吱。模型如下:
其中,i=實驗組別
J=時間點
r=重復(fù)
εijr=隨機變量
D=虛擬二進制變量(實驗條件)
T=時間
yijr=標(biāo)準(zhǔn)化后的表達值
β,δ,γ,λ=回歸系數(shù)
β0,δ0,γ0,...,λ0是對應(yīng)于對照組的回歸系數(shù)。βi,δi,γi,...,λi解釋第(i+1)組和對照組之間的特定差異(線性忙灼,二次方,三次方等)的回歸系數(shù)祟敛。注意其中的虛擬二進制變量,一共I-1個兆解,以此區(qū)分每組和對照組馆铁,見表1。這個模型隱形定義了和實驗組一樣多的模型痪宰。例如叼架,因為第一組中的虛擬變量是0,所以第一組的模型是y1jr=β0+δ0T1jr+γ0T21jr+…+λ0TJ-1 1jr+ε1jr衣撬,而對于第二組來說其虛擬變量是1乖订,其模型為y2jr=(β0+β1)+(δ0+δ1)T2jr+(γ0+γ1)T22jr+…+(λ0+λ1)TJ-12jr+ε2jr。
表1 實驗組虛擬變量的定義
maSigPro分析的第一步是應(yīng)用最小二乘法來估算每個基因的上面所描述的回歸模型的參數(shù)具练,選出有統(tǒng)計學(xué)意義的回歸模型乍构。第二步是選擇變量。根據(jù)第一步挑選出的基因扛点,由逐步回歸產(chǎn)生新模型哥遮,采取向后剔除方法(backward)相對較多。