線性混合模型基礎(chǔ)
線性混合模型(LMM)是遺傳評估中必用的統(tǒng)計模型,用以將群體中每個個體的觀測值按照潛在影響因素進行分解。決定觀測值的大小和幅度受2個參數(shù)(均值和方差)控制樊拓,反過來說也可以。一般我們更關(guān)注方差乐疆,圍繞方差的運算與處理也更為復(fù)雜,所以能夠?qū)MM中涉及的方差們的關(guān)系搞明白辆沦,就大體能理解這些沒什么親和力的模型們了昼捍。通常在介紹這一部分內(nèi)容時,很容易讓人發(fā)蒙肢扯,因為太抽象了妒茬,全是符號,所以前提是必須對數(shù)學這門外語有一定了解蔚晨,就是一門外語啊乍钻。比如告訴我一個矩陣的維度是4×5,我頭腦里有概念铭腕,這是小學的數(shù)學知識學得好银择,但你告訴我它的維度是n×p,我的CPU和GPU就不太夠用了累舷,所以得像學習英語一樣浩考,方法+重復(fù)才是硬道理。
如果知道了這些方差們的具體數(shù)值被盈,求算各個因素的系數(shù)(我們最終要的是這個)就相對容易多了析孽。但這些方差是怎么計算的?一般會告訴采用了什么方法(REML用的多)只怎,但這又是什么我想很多人想知道但沒人教袜瞬,所以一直糊涂著,只停留在會用的地步身堡,當然會處理數(shù)據(jù)也夠用邓尤。我很有興趣,但到今天我也不全會盾沫,也沒有能力在R
中實現(xiàn)裁赠,原因是沒那個功底,不會矩陣求導(dǎo)赴精,盼望有一天誰來引領(lǐng)一下佩捞,但這不是剛需,因此參數(shù)求解就停在這里了蕾哟。下面就我了解的知識對LMM做2部分的介紹一忱,主要目的是自我梳理莲蜘,學識有限,錯誤難免帘营。
1. LMM的形式
這是基本形式票渠,更復(fù)雜的都是在其基礎(chǔ)上演變出來的。
式子里一共有6個字母芬迄,4個小寫问顷,2個大寫。小寫是向量(1維矩陣)禀梳,大寫是矩陣杜窄。這幾個字母的意思分別是:
字母 | 名稱 | 維度 |
---|---|---|
y | 觀測值 | n×1 |
固定效應(yīng)(p個水平) | p×1 | |
a | 隨機效應(yīng)(q個水平) | q×1 |
e | 隨機殘差 | n×1 |
X | 固定效應(yīng)設(shè)計矩陣 | n×p |
Z | 隨機效應(yīng)設(shè)計矩陣 | n×q |
有幾個假設(shè)
意思是和這2個向量的參數(shù)(均值和方差),均值都是0算途,方差分別是G和R塞耕,協(xié)方差是0(彼此獨立,沒有線性關(guān)系)嘴瓤。G和R具體又是什么扫外?,廓脆。是隨機效應(yīng)中q個水平之間的關(guān)系矩陣(分子關(guān)系矩陣)筛谚,如果水平間不相關(guān)(獨立),那么就等同于單位矩陣停忿。這里只假設(shè)是1個效應(yīng)刻获,也可以是含有多個效應(yīng)的列向量;同樣瞎嬉,在某些情況下蝎毡,也可以繼續(xù)分解R(如AR模型)。此外氧枣,觀測值的期望是沐兵,方差(marginal)。期望比較容易理解便监,方差為何是這個形式扎谎?G左右為何乘以Z?很多材料沒有給詳細的推導(dǎo)式子烧董。Mrode(2014毁靶,p35[1])中:
總之,一個普通LMM中的元素就這么多逊移,了解了這些內(nèi)容预吆,才有可能看懂后續(xù)的似然函數(shù)以及參數(shù)具體的ML或REML過程。
2. BLUP最佳線性無偏預(yù)測
BLUP是預(yù)測隨機效應(yīng)的方法胳泉,對應(yīng)的固定效應(yīng)值的方法是BLUE【統(tǒng)計上拐叉,擬合模型階段叫估計岩遗,預(yù)測階段稱預(yù)測;在LMM中凤瘦,則分別指固定和隨機參數(shù)的計算宿礁,目的是一樣的——求解方程組】。
BLUP是上世紀50年代由Henderson提出蔬芥,按照最佳線性無偏的原則求解混合模型方程組中固定和隨機效應(yīng)梆靖。混合模型方程組的形式如下:
如果我們假設(shè)殘差方差是IID(對于所有觀測值是相同和獨立的涤姊,獨立同分布),則可以將R矩陣作為因子嗤放。 在大多數(shù)應(yīng)用中用下面的方程式會更方便:
于是:
其中次酌,。
用REML等方法估計出方差舆乔,代入上面的方程組即可岳服。
-
Mrode RA (2014) Linear models for the prediction of animal breeding values. CABI ?