這次是介紹混合線性模型的一些基礎(chǔ)特性
簡介
從線性模型變轉(zhuǎn)變?yōu)榛旌夏P停菫榻鉀Q實際問題
- 公牛的育種值
- 需要以無偏的方式區(qū)分影響產(chǎn)奶量的遺傳和非遺傳效應(yīng)(估計育種值)
混合模型是在康奈爾大學(xué)建立的违孝, 為什么在這里?
- 進(jìn)行奶牛記錄的組織機構(gòu)(數(shù)據(jù))
- AI 中心(資金)
- 杰出的科學(xué)家:統(tǒng)計學(xué)家 - S.R. Searle 和遺傳學(xué)家- C.R. Henderson
什么是混合模型
首先對線性模型(y = Wb + e )拓展,W → [X Z]
modeling y(對于E(y) 和var(y))
是有選擇指數(shù)算法(SI)和廣義線性(GLS)的結(jié)合
一般的矩陣方程
** y = Xβ + Zu + e **
其中: y 為觀測值vector(已知); β 為fixed effects(未知); u 為random effects(未知); e為殘差(未知); X與Z 為關(guān)聯(lián)y與β诽俯,u的矩陣(已知)
根據(jù)y的建模妇菱,求出的目標(biāo)為: β, u,
一般矩陣方程的具體介紹
** y = Xβ + Zu + e **
X 和Z
- 是關(guān)聯(lián)y 與 β,u
- 每個性狀* 效應(yīng)* 水平都占據(jù)一列
- 每個觀察值為行
如 X = [1 0 24
0 1 34
1 0 23
1 0 27]
表示為:4個觀察值在2個牛場(前2列)暴区,第3列是產(chǎn)犢年齡闯团;
Z(animals w/o, with records)
Z = [1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0] 這表明5個動物,且前4個動物均只有1個觀察值仙粱,最后一個動物沒有觀察值房交, 應(yīng)該是按列放置
混合模型有可以成為混合方程組(Mixed model equations, MME)
或者簡寫 Cs = r
需要已知各個未知變量的(co)variances(方差組分):
- Var(e) = R(殘差的方差-協(xié)方差矩陣),
- Var(u) = G((co)variances among random effects ),
- Var(y) = ZGZ' + R ((co)variances among observations)
MME也假設(shè)其已知上述R和G
但在實際分析中,必須需要先估計以上所有未知參數(shù)的(co)variances(最花時間的部分)
估計(co)variances(R與G)伐割,現(xiàn)行主流的一些算法:
1. REML(DF-, EM-, AI-.. 都是基于Maximum Likelihood)
2. MCMC("Gibbs Sampling")
3. Others as Method R(基于BLUP properties) (個人沒使用過)
variance components estimation(VCF) methods on their own => special class
上述3種的主流算法以后再詳細(xì)介紹
回歸正題候味,接著看MME: y = Xβ + Zu + e ,
如果簡寫為: y = Wb +e(類似OLS)
則上述兩個式子都求解:
注意這里W = [ X Z]
這個 u 的估計量有兩個主要的不足:
-
對 u 的估計不考慮 SI 中的回歸隔心,因為并非所有都被傳輸:
image.png
其是通過將矩陣形式展開白群,再需要將β帶入到u的式子中,得到
-
- u和y之間的covariances(沒有考慮不同家庭之間的關(guān)系)
比較OLS與SI解出的u
怎么比較uOLS 和uSI?
是需要比較(Z'Z)-1Z' 與Cov(u,y)(Var(y))-1
因為:
Cov(u,y) = GZ' = AZ'(σg)2 ;
Var(y) = V = ZGZ'+R = ZAZ'(σg)2+ I (σe)2
所以帶入下公式:
得到:
其中, A為系譜關(guān)系矩陣硬霍, 在sir model中λ= (4-h2)/h2. sir 傳給后代的1/2帜慢, 所以遺傳方差為1/4
但是當(dāng)所有個體無關(guān)時, A=I
則:
SI的u 可以轉(zhuǎn)為:
根據(jù)他們的女兒選擇公牛
兩個無親緣關(guān)系的公牛S 和T,均有三個女兒粱玲,其六個女兒的母牛也沒有親緣關(guān)系
我們想計算這兩個公牛對各自兒女表型的遺傳貢獻(xiàn)
采兩種計算方法:
- OLS:即女兒偏差的估計
- SI:計算對虐女兒的貢獻(xiàn)躬柬,需要假設(shè)E(y)已知
數(shù)據(jù)如下:
SI
給出如下定義:
則表型值y的方差結(jié)構(gòu):
y的協(xié)方差結(jié)構(gòu):
y的方差-協(xié)方差矩陣:
根據(jù)前面的公式:Var(y) = ZZ'(σg)2+ I (σe)2
Cov(u,y)的方差協(xié)方差矩陣:
使用SI解出:
選擇指數(shù)的權(quán)重:
根據(jù)
兩種方法結(jié)果的比較:
相等模型
- 平均值和方差組分相等
- 解應(yīng)該也相同
OLS, GLS, SI, MME的轉(zhuǎn)化
SI: 最小化預(yù)測Var(T-I)的誤差方差 , 同時也最大T與I的相關(guān)
OLS: 最小誤差方差抽减,最終由觀測值(殘差)的方差加權(quán)
GLS: 最小化權(quán)重誤差方差(最小二乘)允青, 參考觀測值之間的協(xié)方差
MME: mixed models, 同時最小化誤差方差和random effectde 預(yù)測誤差方差
BLUP是由SI演變而來