第8章 線性模型概述

8.1 背景介紹

limma軟件包使用稱(chēng)為線性模型的方法來(lái)分析設(shè)計(jì)的微陣列實(shí)驗(yàn)稳捆。這種方法允許分析非常一般的實(shí)驗(yàn)档礁,就像分析簡(jiǎn)單的重復(fù)實(shí)驗(yàn)一樣容易卓箫。這種方法在[42, 55]中進(jìn)行了概述闯睹。該方法需要指定一個(gè)或兩個(gè)矩陣罩扇。第一個(gè)是設(shè)計(jì)矩陣,表明有每個(gè)陣列使用了哪些RNA樣本摔踱。第二個(gè)是對(duì)比矩陣虐先,它規(guī)定了想要在RNA樣品之間進(jìn)行哪些比較怨愤。對(duì)于非常簡(jiǎn)單的實(shí)驗(yàn)派敷,可能不需要指定對(duì)比矩陣。

方法的理念如下,你必須從將數(shù)據(jù)擬合到一個(gè)線性模型開(kāi)始篮愉,完全建模數(shù)據(jù)的系統(tǒng)部分腐芍。該模型由設(shè)計(jì)矩陣指定。設(shè)計(jì)矩陣的每一行對(duì)應(yīng)于實(shí)驗(yàn)的陣列试躏,每一列對(duì)應(yīng)于描述實(shí)驗(yàn)中RNA源的系數(shù)猪勇。Affymetrix或單通道數(shù)據(jù),或者是有共同參照的雙色數(shù)據(jù)颠蕴,將需要許多系數(shù)泣刹,和RNA源的數(shù)量一致。直接設(shè)計(jì)的雙色數(shù)據(jù)犀被,需要的系數(shù)比RNA源數(shù)目少一個(gè)椅您,除非你想要估計(jì)每個(gè)基因的染料效應(yīng),在這種情況下RNA源的數(shù)量和系數(shù)的數(shù)量相同寡键。任何一套獨(dú)立的系數(shù)都可以掀泳,只要它們足以描述實(shí)驗(yàn)。該步驟的主要目的是估計(jì)數(shù)據(jù)的變異性西轩,因此系統(tǒng)部分需要進(jìn)行建模员舵,從而可以和隨機(jī)變異進(jìn)行區(qū)分。

在實(shí)踐中藕畔,從可能想要回答的問(wèn)題角度來(lái)說(shuō)马僻,要求系數(shù)與RNA源數(shù)目完全相同太過(guò)苛刻。你可能比較感興趣的是更多或更少的RNA源之間的比較注服。因此巫玻,提供對(duì)比步驟,以便可以利用初始系數(shù)祠汇,并以想要回答任何問(wèn)題的方式進(jìn)行比較仍秤,不管這些可能有多少。

如果有來(lái)自Affymetrix實(shí)驗(yàn)的數(shù)據(jù)可很,比如來(lái)自單通道點(diǎn)微陣列或來(lái)自使用共同參照的點(diǎn)微陣列诗力,那么線性建模與普通方差分析或多重回歸分析相同,只是需要為每個(gè)基因擬合一個(gè)模型我抠。具有這種類(lèi)型的數(shù)據(jù)苇本,可以像單變量數(shù)據(jù)普通建模一樣創(chuàng)建設(shè)計(jì)矩陣。如果你使用直接設(shè)計(jì)的點(diǎn)狀微陣列的數(shù)據(jù)菜拓,即沒(méi)有共同參照的連接設(shè)計(jì)瓣窄,那么線性建模方法非常強(qiáng)大,但是設(shè)計(jì)矩陣的創(chuàng)建可能需要更多的統(tǒng)計(jì)知識(shí)纳鼎。

對(duì)于統(tǒng)計(jì)分析和評(píng)估差異表達(dá)俺夕,limma使用經(jīng)驗(yàn)貝葉斯方法以減輕估計(jì)的對(duì)數(shù)倍變化的標(biāo)準(zhǔn)誤差裳凸。這導(dǎo)致更穩(wěn)定的推導(dǎo)和改進(jìn)的效力,特別是對(duì)于具有少量陣列的實(shí)驗(yàn)[42, 26]劝贸。對(duì)于陣列內(nèi)部有重復(fù)點(diǎn)的陣列姨谷,limma使用合并的相關(guān)方法充分利用重復(fù)點(diǎn)[39]。

8.2單通道設(shè)計(jì)

Affymetrix數(shù)據(jù)通常使用affy包進(jìn)行標(biāo)準(zhǔn)化映九。我們?cè)谶@里假設(shè)數(shù)據(jù)可用作名為esetExpressionSet對(duì)象梦湘。這樣的對(duì)象將包含一個(gè)插槽,表示每個(gè)陣列上每個(gè)基因的對(duì)數(shù)表達(dá)值件甥,可以使用exprs(eset)提取捌议。Affymetrix和其他單通道微陣列數(shù)據(jù)非常可能用普通線性模型或anova模型分析引有。與微陣列數(shù)據(jù)的差異在于它幾乎總是需要提取特定的感興趣的對(duì)比禁灼,因此在R中為因子提供的標(biāo)準(zhǔn)參數(shù)通常不足。

limma中有很多方法可以分析一個(gè)復(fù)雜實(shí)驗(yàn)轿曙。一個(gè)直接的策略是設(shè)置最簡(jiǎn)單的設(shè)計(jì)矩陣弄捕,然后從擬合中提取感興趣的對(duì)比。

假設(shè)有三個(gè)RNA源需要進(jìn)行比較导帝。假設(shè)前三個(gè)陣列與RNA1雜交守谓,接下來(lái)兩個(gè)與RNA2雜交,其次三個(gè)與RNA3雜交您单。假設(shè)RNA源之間的所有兩兩比較都是值得關(guān)注的斋荞。我們假設(shè)數(shù)據(jù)已經(jīng)被標(biāo)準(zhǔn)化并存儲(chǔ)在ExpressionSet對(duì)象中,例如通過(guò)

> data <- ReadAffy()
> eset <- rma(data)

下面的命令可以創(chuàng)建適當(dāng)?shù)脑O(shè)計(jì)矩陣虐秦,并使用線性模型進(jìn)行擬合

> design <- model.matrix(~ 0+factor(c(1,1,1,2,2,3,3,3)))
> colnames(design) <- c("group1", "group2", "group3")
> fit <- lmFit(eset, design)

為了三組之間的兩兩比較平酿,可以創(chuàng)建合適的對(duì)比矩陣

> contrast.matrix <- makeContrasts(group2-group1, group3-group2, group3-group1, levels=design)
> fit2 <- contrasts.fit(fit, contrast.matrix)
> fit2 <- eBayes(fit2)

第2組與第1組中差異表達(dá)的基因列表排名可以通過(guò)下面的命令獲得

> topTable(fit2, coef=1, adjust="BH")

每個(gè)假設(shè)檢驗(yàn)的結(jié)果可以使用

> results <- decideTests(fit2)

代表每個(gè)比較中顯著基因數(shù)目的維恩圖可以通過(guò)下面的命令獲得

> vennDiagram(results)

8.3 共同參照設(shè)計(jì)

現(xiàn)在考慮雙色微陣列實(shí)驗(yàn),其中陣列已經(jīng)使用了共同參照悦陋。這樣的實(shí)驗(yàn)可以非常類(lèi)似于Affymetrix實(shí)驗(yàn)進(jìn)行分析蜈彼,只是必須進(jìn)行染料交換。最簡(jiǎn)單的方法是使用modelMatrix()函數(shù)和目標(biāo)文件設(shè)計(jì)矩陣俺驶。例如幸逆,我們考慮Jo?lle Michaud,Catherine Carmichael和Hamish Scott博士在沃爾特伊麗莎豪爾研究所比較轉(zhuǎn)錄因子在人類(lèi)細(xì)胞系中的作用實(shí)驗(yàn)的一部分暮现。目標(biāo)文件如下:

> targets <- readTargets("runxtargets.txt")
> targets
      SlideNumber        Cy3        Cy5
1            2144       EGFP       AML1
2            2145       EGFP       AML1
3            2146       AML1       EGFP
4            2147       EGFP  AML1.CBFb
5            2148       EGFP  AML1.CBFb
6            2149  AML1.CBFb       EGFP
7            2158       EGFP       CBFb
8            2159       CBFb       EGFP
9            2160       EGFP  AML1.CBFb
10           2161  AML1.CBFb       EGFP
11           2162       EGFP  AML1.CBFb
12           2163  AML1.CBFb       EGFP
13           2166       EGFP       CBFb
14           2167       CBFb       EGFP

在實(shí)驗(yàn)中还绘,綠色熒光蛋白(EGFP)被用作共同參照。利用一個(gè)腺病毒系統(tǒng)將各種轉(zhuǎn)錄因子轉(zhuǎn)運(yùn)到HeLa細(xì)胞的細(xì)胞核中栖袋。在這里我們考慮轉(zhuǎn)錄因子AML1拍顷,CBFbeta或兩者都考慮。生成一個(gè)簡(jiǎn)單的設(shè)計(jì)矩陣和線性模型:

> design <- modelMatrix(targets,ref="EGFP")
> design
  AML1  AML1.CBFb  CBFb
1    1          0     0
2    1          0     0
3   -1          0     0
4    0          1     0
5    0          1     0
6    0         -1     0
7    0          0     1
8    0          0    -1
9    0          1     0
10   0         -1     0
11   0          1     0
12   0         -1     0
13   0          0     1
14   0          0    -1
> fit <- lmFit(MA, design)

將每個(gè)轉(zhuǎn)錄因子與EGFP進(jìn)行比較塘幅,并且分別比較組合轉(zhuǎn)錄因子與AML1和CBFb是有意義的昔案。形成的適當(dāng)?shù)膶?duì)比矩陣如下:

> contrast.matrix <- makeContrasts(AML1,CBFb,AML1.CBFb,AML1.CBFb-AML1,AML1.CBFb-CBFb,
+ levels=design)
> contrast.matrix
          AML1  CBFb  AML1.CBFb  AML1.CBFb - AML1  AML1.CBFb - CBFb
AML1         1     0          0                -1                 0
AML1.CBFb    0     0          1                 1                 1
CBFb         0     1          0                 0                -1

現(xiàn)在可以擴(kuò)展線性模型擬合尿贫,并計(jì)算經(jīng)驗(yàn)貝葉斯統(tǒng)計(jì)量:

> fit2 <- contrasts.fit(fit, contrasts.matrix)
> fit2 <- eBayes(fit2)

8.4 雙色直接設(shè)計(jì)

沒(méi)有共同參照的雙色設(shè)計(jì)需要最多的統(tǒng)計(jì)知識(shí)來(lái)選擇適當(dāng)?shù)脑O(shè)計(jì)矩陣。直接設(shè)計(jì)是沒(méi)有單一RNA源與每個(gè)陣列雜交的設(shè)計(jì)爱沟。例如帅霜,我們考慮由沃爾特伊麗莎豪爾研究所的Mireille Lahoud博士進(jìn)行的比較三種不同樹(shù)突細(xì)胞群體(DC)的基因表達(dá)實(shí)驗(yàn)匆背。



該實(shí)驗(yàn)涉及三個(gè)染料交換實(shí)驗(yàn)中的6個(gè)cDNA微陣列呼伸,每對(duì)比較兩種DC類(lèi)型。設(shè)計(jì)如上圖所示钝尸。目標(biāo)文件如下:

> targets
          SlideNumber     FileName   Cy3  Cy5
ml12med            12 ml12med.spot   CD4  CD8
ml13med            13 ml13med.spot   CD8  CD4
ml14med            14 ml14med.spot    DN  CD8
ml15med            15 ml15med.spot   CD8   DN
ml16med            16 ml16med.spot   CD4   DN
ml17med            17 ml17med.spot    DN  CD4

這種實(shí)驗(yàn)的設(shè)計(jì)矩陣有很多有效的選擇括享,沒(méi)有一個(gè)絕對(duì)正確的選擇。我們選擇的設(shè)計(jì)矩陣如下:

> design <- modelMatrix(targets, ref="CD4")
Found unique target names:
CD4 CD8 DN
> design
        CD8 DN
ml12med   1  0
ml13med  -1  0
ml14med   1 -1
ml15med  -1  1
ml16med   0  1
ml17med   0 -1

在這個(gè)設(shè)計(jì)矩陣中珍促,CD8和DN群體已經(jīng)與CD4群體進(jìn)行了比較铃辖。通過(guò)線性模型估計(jì)的系數(shù)將對(duì)應(yīng)于CD8與CD4的對(duì)數(shù)比(第一列)和DN與CD4的對(duì)數(shù)比(第二列)。

在表達(dá)數(shù)據(jù)適當(dāng)標(biāo)準(zhǔn)化后猪叙,使用下面命令擬合線性模型

> fit <- lmFit(MA, design)

線性模型現(xiàn)在可以被用來(lái)回答任何感興趣的問(wèn)題娇斩。對(duì)于這個(gè)實(shí)驗(yàn),目的是在三個(gè)DC群體之間進(jìn)行兩兩比較穴翩。使用對(duì)比矩陣完成

> contrast.matrix <- cbind("CD8-CD4"=c(1,0),"DN-CD4"=c(0,1),"CD8-DN"=c(1,-1))
> rownames(contrast.matrix) <- colnames(design)
> contrast.matrix
    CD8-CD4 DN-CD4 CD8-DN
CD8       1      0      1
DN        0      1     -1

對(duì)比矩陣可用于擴(kuò)展線性模型擬合犬第,然后計(jì)算經(jīng)驗(yàn)貝葉斯統(tǒng)計(jì):

> fit2 <- contrasts.fit(fit, contrast.matrix)
> fit2 <- eBayes(fit2)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市芒帕,隨后出現(xiàn)的幾起案子歉嗓,更是在濱河造成了極大的恐慌,老刑警劉巖背蟆,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鉴分,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡带膀,警方通過(guò)查閱死者的電腦和手機(jī)志珍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)垛叨,“玉大人碴裙,你說(shuō)我怎么就攤上這事〉愣睿” “怎么了舔株?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)还棱。 經(jīng)常有香客問(wèn)我载慈,道長(zhǎng),這世上最難降的妖魔是什么珍手? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任办铡,我火速辦了婚禮辞做,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘寡具。我一直安慰自己秤茅,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布童叠。 她就那樣靜靜地躺著框喳,像睡著了一般。 火紅的嫁衣襯著肌膚如雪厦坛。 梳的紋絲不亂的頭發(fā)上五垮,一...
    開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音杜秸,去河邊找鬼放仗。 笑死,一個(gè)胖子當(dāng)著我的面吹牛撬碟,可吹牛的內(nèi)容都是我干的诞挨。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼呢蛤,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼惶傻!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起顾稀,我...
    開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤达罗,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后静秆,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體粮揉,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年抚笔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了扶认。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡殊橙,死狀恐怖辐宾,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情膨蛮,我是刑警寧澤叠纹,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站敞葛,受9級(jí)特大地震影響誉察,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜惹谐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一持偏、第九天 我趴在偏房一處隱蔽的房頂上張望驼卖。 院中可真熱鬧,春花似錦鸿秆、人聲如沸酌畜。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)桥胞。三九已至,卻和暖如春附帽,著一層夾襖步出監(jiān)牢的瞬間埠戳,已是汗流浹背井誉。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工蕉扮, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人颗圣。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓喳钟,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親在岂。 傳聞我的和親對(duì)象是個(gè)殘疾皇子奔则,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 9.1 背景介紹 與早期的微陣列不同,大多數(shù)數(shù)據(jù)現(xiàn)在都是單通道類(lèi)型蔽午。單通道數(shù)據(jù)來(lái)自流行的微陣列技術(shù)易茬,如Affyme...
    yangliunk1987閱讀 5,607評(píng)論 1 53
  • 3.1 R語(yǔ)言簡(jiǎn)介 R是一種統(tǒng)計(jì)計(jì)算程序。它是一種命令驅(qū)動(dòng)語(yǔ)言及老,也就是說(shuō)抽莱,你必須在其中鍵入命令,而不是使用鼠標(biāo)指向...
    yangliunk1987閱讀 3,145評(píng)論 0 50
  • limma:微陣列和RNA-Seq數(shù)據(jù)的線性模型用戶手冊(cè) Gordon K. Smyth, Matthew Rit...
    yangliunk1987閱讀 2,810評(píng)論 0 51
  • 4.1 本章范圍 本章涵蓋除Affymetrix以外的大多數(shù)微陣列類(lèi)型骄恶。從Affymetrix GeneChips...
    yangliunk1987閱讀 7,737評(píng)論 0 55
  • 6.1 背景校正 默認(rèn)的背景校正是從每個(gè)點(diǎn)的前景強(qiáng)度減去背景強(qiáng)度食铐。如果RGList對(duì)象沒(méi)有經(jīng)過(guò)背景校正,那么nor...
    yangliunk1987閱讀 3,700評(píng)論 0 52