A.F. Zuur et al., Mixed Effects Models and Extensions in Ecology with R, p116-119, chr 5.6
當(dāng)利用混合效應(yīng)建模時闰蚕,你會遇到諸如REML和ML這樣的詞匯。不像線性回歸模型雷酪,就算你不知道背后的數(shù)學(xué)理論也可以照樣使用阿宅。但是在混合效應(yīng)建模中嚼酝,你必須懂得一些相關(guān)的數(shù)學(xué)知識莺琳。所以REML是什么意思嚷缭?它能干什么蝶桶?
第一個問題比較簡單,REML限制性最大似然估計(jì)英文首字母的縮寫爱榔。但是對于第二個問題被环,大多數(shù)教材在這點(diǎn)上就變得相當(dāng)專業(yè),或者解釋得比較粗略详幽,只是提到它是矯正自由度的一個神秘方法【ML沒有考慮到估計(jì)固定效應(yīng)帶來自由度的損失筛欢,造成參數(shù)的低估】[1]。而我們則選擇嘗試更為詳細(xì)地解釋它唇聘,所以需要利用矩陣代數(shù)的知識版姑。但是為了理解REML,首先需要理解最大似然估計(jì)的原理迟郎,我們從這兒開始剥险。如果你不熟悉矩陣代數(shù),或者如果這一部分對數(shù)學(xué)水平的要求太高宪肖,我們?nèi)越ㄗh你跳過這一部分表制。
我們首先回顧用于線性回歸的最大似然,然后給出REML是如何用于矯正方差估計(jì)量的控乾。
假設(shè)有一個線性回歸模型
么介,其中
。模型中有3個未知參數(shù)
蜕衡、
和
壤短。為了簡便,令
慨仿。普通最小二乘是估計(jì)
的一個方法久脯,它給出
中每一個元素的表達(dá)式。利用線性回歸獲取方差估計(jì)的表達(dá)式是:
我們給參數(shù)加了一個帽子^镰吆,表示它是估計(jì)值桶现,是觀測值的個數(shù)《︽ⅲ可以證明
是
的無偏估計(jì),意味著
∠嗔蓿現(xiàn)在讓我們看一看最大似然估計(jì)方法相寇。假設(shè)
服從正態(tài)分布,其密度函數(shù)為:
因?yàn)槲覀円布僭O(shè)了是獨(dú)立的钮科,可以將
的聯(lián)合密度函數(shù)寫成單個密度曲線
乘積的形式唤衫。這個乘積就叫做似然函數(shù)L。它是數(shù)據(jù)和
的一個函數(shù)绵脯。問題是如何選擇
使L最大佳励。為了簡化休里,對L取自然對數(shù),得到如下的log似然方程式:
我們需要最大化這個式子赃承,問題就變成了對每一個參數(shù)偏導(dǎo)妙黍,令偏導(dǎo)數(shù)=0并求解。因?yàn)槲覀兒苋菀子?jì)算瞧剖,這些偏導(dǎo)數(shù)=0的式子稱之為封閉解拭嫁。對于廣義線性混合模型我們將會看到開放解,意思是參數(shù)沒有直接的解抓于。
這里沒有給出和
估計(jì)量的式子做粤,但對于方差我們得到:
注意這個式子與我們利用普通最小二乘得到的式子(5.14)非常相似。實(shí)際上捉撮,受到因子的影響怕品,利用最大似然得到的方差估計(jì)量是有偏的(回歸分析為什么誤差方差中自由度是n-2?)巾遭。如果線性回歸模型含有p個解釋變量肉康,那么偏度是
。最大似然是有偏的的原因是它忽略了截距和斜率也被估計(jì)的事實(shí)恢总。所以我們需要更好的ML估計(jì)量迎罗,而這正是REML所做的事情。
REML的工作如下:有線性回歸模型可以寫成
片仿。這是簡單的矩陣形式纹安,
,
的第一個元素是截距砂豌,第二個元素是原始的
厢岂。正態(tài)性假設(shè)意味著
用ML估計(jì)量的問題是我們不得不估計(jì)式子5.18中中的截距和斜率。顯然阳距,如果沒有
塔粒,就能解決問題。為了消除
筐摘,可以找到一個維度
的特殊矩陣
卒茬,特殊指的是“與
正交”,然后用這個矩陣乘以
之后再用ML估計(jì)咖熟。正交指的是如果
與
相乘圃酵,結(jié)果是0。因此馍管,我們得到
」停現(xiàn)在
的分布是
而不再依賴。那么對
進(jìn)行似然估計(jì)就會得到
的無偏估計(jì)量(5.14)∪贩校現(xiàn)在我們討論REML如何應(yīng)用到混合線性模型捌锭。我們的起點(diǎn)是邊際模型
故事又重新開始俘陷,如之前,我們可以寫一個略微不同的log似然式子观谦。未知參數(shù)是和
及
中的元素拉盾,依然用
表示。似然函數(shù):
是
的行列式坎匿。對
求偏導(dǎo)并=0解方程盾剩。如之前討論的例子,得到的參數(shù)是有偏的替蔬,因此我們需要REML告私。
總之,REML承桥,就是用一個特殊的矩陣乘以Y驻粟,這樣X×β就消去。然后用ML估計(jì)得到的參數(shù)估計(jì)子就是無偏的凶异,并且與特定的矩陣相乘無關(guān)蜀撑。因此,的REML估計(jì)子與ML的估計(jì)子不同剩彬。如果相對于觀測值的個數(shù)酷麦,固定協(xié)變量的個數(shù)很少,就沒有太大的不同喉恋,相反有許多的固定協(xié)變量沃饶,情況就大不相同。
-
Lindstrom MJ, Bates DM (1988) Newton—Raphson and EM Algorithms for Linear Mixed-Effects Models for Repeated-Measures Data. J Am Stat Assoc 83:1014–1022. ?