回顧上一次的一個(gè)OLS, GLS坪哄,SI, MME的發(fā)展示意圖:
MME是Henderson將混合模型的轉(zhuǎn)換得到
1 MME的起源
Henderson提出动猬,其想法是結(jié)合OLS與SI,得到了MME奄妨。
過(guò)程:
首先我們知道:OLS解出的u往往比SI的大笨蚁。
這樣需要在求u時(shí)铡溪,除以一個(gè)更大的值铝噩,這是加入一個(gè)正矩陣Z‘Z衡蚂,假設(shè)用D代表:
即對(duì)原來(lái)的解釋器進(jìn)行了懲罰
使用前面求公牛的女兒產(chǎn)奶量的平均值的例子:采用每個(gè)奶牛的女兒數(shù)進(jìn)行了一定修改, 或其可以加上一個(gè)假設(shè)值D
實(shí)際上對(duì)于D我們可以進(jìn)行猜測(cè):
- 如果懲罰非常大(即沒(méi)有進(jìn)行遺傳),使h2 接近0毛甲,則D 就是無(wú)限大年叮;
- 懲罰非常小(即全部遺傳, 使h2 接近1丽啡,則D 接近0谋右;
所以D應(yīng)該是和1-h2, 1/h2,和(1-h2)/h2成比例
PS:當(dāng)為sir模型時(shí)补箍, 應(yīng)該是(4-h2)/h2,
第二個(gè)結(jié)論:
解釋?zhuān)簎和y的協(xié)方差,在SI中是AZ’啸蜜,直觀(guān)來(lái)看坑雅,D 必須與 A-1 成正比,因?yàn)檎麄€(gè)塊 ZZ' + D 是倒置.
但是真正的證明以下公式衬横,是20年后裹粤,由Searle教授完成(書(shū)籍 《Variance components》有詳細(xì)證明):
所以最佳線(xiàn)性無(wú)偏估計(jì)(β,固定效應(yīng))和最佳線(xiàn)性無(wú)偏預(yù)測(cè)(u,隨機(jī)效應(yīng))是由以下組成:
Henderson對(duì)上述式子從新編寫(xiě)為:
2一般的MME
其中 R = Var(e); G = Var(u), 并且認(rèn)為已知蜂林。
相當(dāng)于SI(β已知):
3 更一般時(shí)
會(huì)有多性狀模型: 其有利于具有缺少值的樣本加入遥诉, 也有利于多性狀的相關(guān)性分析
一樣的矩陣公式:
但是其中基于R0和G0的“多性狀”反映在R 和 G內(nèi)部
其中 R0 關(guān)聯(lián)多性狀觀(guān)察值殘差的方差協(xié)方差矩陣; G0 表示的反映檢測(cè)性狀的隨機(jī)效應(yīng)之間的方差協(xié)方差矩陣
3 混合模型常見(jiàn)概念
MME = 固定效應(yīng) + 隨機(jī)效應(yīng)
較少levels 較多l(xiāng)evels(不能知道全部)
估計(jì)算法 BLUE BLUP
但是兩者沒(méi)有非常明確的區(qū)分
各自在模型的作用:
固定效應(yīng):各水平的平均值: E(y) = Xβ
隨機(jī)效應(yīng):隨機(jī)因子的方差協(xié)方差矩陣: Var(y) = ZGZ' + R
最佳線(xiàn)性無(wú)偏估計(jì)=BLUE(β,固定效應(yīng))和最佳線(xiàn)性無(wú)偏預(yù)測(cè)=BLUP(u,隨機(jī)效應(yīng))
BLUE與BLUP的區(qū)別是由SI傳承得到
但是:SI中只是BLP噪叙, 缺少u(mài)矮锈, 即不是無(wú)偏
BLUE and BLUP <= MME
可以采用不同方法得到:
- 迭代SI,修正的當(dāng)代比較(校正用于獲得 E(y) 的動(dòng)物的遺傳價(jià)值)
-
兩步法
(1) 先使用GLM 得到β
其>=BLUP
(2) 再使用SI得到u:
其>=BLUP
Acurracy and reliability
每個(gè)u都有預(yù)測(cè)誤差睁蕾,對(duì)u的評(píng)價(jià)使用Acurracy or reliability有兩種方法:
-
Acurracy(準(zhǔn)確性)如下:
起源于SI理論:
經(jīng)常直接使用square root of SI coefficents - reliability(可靠性) 兩種算法
(1) reliability = Acurracy2
(2) reliability 從MME系數(shù)C-1中求得苞笨,C為MME的預(yù)測(cè)誤差方差(prediction error variance, PEV) (MME簡(jiǎn)寫(xiě) Cs = r)
PS這里是沒(méi)考慮個(gè)體之間的近交系數(shù),目前進(jìn)行GS時(shí)子眶,應(yīng)該考慮加上瀑凝。
建立MME的矩陣
X與Z往往不是全矩陣(即,內(nèi)部有很多0)
Xi 和Zi與 觀(guān)察者i相關(guān)聯(lián)臭杰,所以:
這樣X(jué)'X, Z'Z, X'y粤咪, Z‘y均可以直接設(shè)定:
如一個(gè)固定模型:
需要分開(kāi)寫(xiě):
最后求和到一起:
右手項(xiàng)一樣
R
Integration(微積分) R-1, R-1是等于R對(duì)角線(xiàn)取倒數(shù)(如果沒(méi)有協(xié)方差)
多性狀時(shí)渴杆, X‘X等元素都Kronecker product(直積)R-1
對(duì)上述的拓展到MME寥枝,隨機(jī)效應(yīng)的最小二乘 (LS) 部分與固定效應(yīng)相同,對(duì)C加入G-1:
進(jìn)一步簡(jiǎn)化公式:
這反映出了G-1中可以加入任何的LS系數(shù)
G-1 可以加入性狀effectlevels 的協(xié)方差
計(jì)算使用計(jì)算空間
剛才看到建立MME是基于一個(gè)個(gè)記錄數(shù)*性狀
- Cs = r計(jì)算中, C與r均需要儲(chǔ)存在計(jì)算機(jī)memory(運(yùn)行內(nèi)存)中将塑,需要較大的計(jì)算空間脉顿, mostly in sparse manner
- Iteration of data(IOD,數(shù)據(jù)迭代法). 存儲(chǔ)在服務(wù)器硬盤(pán)中点寥,只有當(dāng)需要C與r時(shí)艾疟,才計(jì)算
所以對(duì)大數(shù)據(jù)時(shí),加速辦法:
- 基于稀疏存儲(chǔ)的稀疏逆
- IOD linked to Jacobi, Gauss-Seidel, PCG(BLUP90IOD* program)
迭代求解MME
-
方程式: Jacobi + Gauss-Seidel
在Cs = r中, 需要對(duì)s不斷更新蔽莱, 在前n-1次迭代:使用Jacobi弟疆;在第n次迭代:使用Gauss-Seidel
一個(gè)小例子:
Jacobi達(dá)到數(shù)值解不變
By blocs, 方程組通過(guò)對(duì)C的一部分求逆來(lái)求解, 多性狀模型是必要的
-
其他方法: PCG(Preconditioned Conjugate Gradient)(BLUP90IOD* program)
contemporary comparison法
從歷史來(lái)看盗冷,SI是非常成功怠苔,目前也在綜合育種中使用
但是SI在估計(jì)單個(gè)性狀EBV時(shí),會(huì)出現(xiàn)偏差仪糖,因?yàn)槠鋵?shí)基于已知的偏差經(jīng)驗(yàn)求取柑司,但是已知的偏差經(jīng)驗(yàn)具有偏差。
從當(dāng)時(shí)來(lái)看锅劝,同代群體的基因水平可能不同
SI在奶牛中稱(chēng)為: contemporary comparison(CC) 1950-1960使用在奶牛育種中攒驰,用于區(qū)分好和壞的公牛,并且很快獲得了成功故爵。
CC模型: y = Xt + Za + e
但是對(duì)于已經(jīng)開(kāi)始育種的牛玻粪,這個(gè)表型deviation(偏差)會(huì)隨著時(shí)間累積,越來(lái)越難估計(jì)诬垂,甚至?xí)霈F(xiàn)有的估計(jì)不到劲室。
這就需要我們對(duì)其進(jìn)行修改:
- 使用BLUP
- 校正CC模型: 如果在偏差中有誤差,我們進(jìn)行矯正结窘。這個(gè)誤差在同代沒(méi)有遺傳相關(guān)的牛群中很容易計(jì)算
第一種:偏差和 EBV 的聯(lián)合計(jì)算很洋,所以沒(méi)有誤差
第二種: modefied CC(MCC),迭代計(jì)算:
(1) 從偏差處計(jì)算EBV
(2) 調(diào)整當(dāng)代EBV的偏差
(3) return to (1)
(4) 直到結(jié)果穩(wěn)定(即收斂)晦鞋,收斂的結(jié)果與BLUP的相同
怎么實(shí)現(xiàn):
當(dāng)計(jì)算t時(shí)蹲缠,對(duì)y的部分進(jìn)行校正:
迭代,直到收斂:
總圖:
其他人的BLUP講解
今天無(wú)意看到一個(gè)不錯(cuò)的文章悠垛,介紹BLUP线定,這里給出網(wǎng)址,可以查看
https://zhuanlan.zhihu.com/p/43395772