最近看了不少統(tǒng)計基因組方面的資料,以為懂了宜鸯,其實懵逼绪穆。實在是因為統(tǒng)計學基礎太菜贺辰,似懂非懂,似是而非屯伞。記錄下自己的理解,求輕噴豪直。
1.GWAS模型
GWAS是表型和基因型之間的相關性分析劣摇,然而這個相關性用什么統(tǒng)計方法?
GWAS模型的發(fā)展:
1.1卡方檢驗
實際比例是否符合預期分離比例弓乙,若不符合則認為基因與表型相關末融。計算量大钧惧。
1.2 相關性系數的t檢驗
首先計算基因和表型之間的相關性(如pearson),再經過r換算為t值勾习,進行t檢驗浓瞪。計算量小。
1.3 一般線性模型GLM
直接將基因型x和表型y做回歸擬合巧婶,即y=xb+e乾颁。
其中y是表型,x是SNP艺栈、Q矩陣和總均值的一個綜合變量英岭,e是殘差。
1.4 混合線性模型MLM
GLM模型中湿右,如果兩個表型差異很大诅妹,但群體本身還含有其他的遺傳差異(如地域等),則那些與該表型無關的遺傳差異也會影響到相關性诅需。MLM模型可以把群體結構的影響設為協(xié)方差漾唉,把這種位點校正掉。此外堰塌,材料間的公共祖先關系也會導致非連鎖相關赵刑,可加入親緣關系矩陣作為隨機效應來矯正,即y=Xb+Zu+e场刑,Z為親緣關系矩陣般此,u為個體育種值,其他同GLM牵现。
GLM是固定效應模型铐懊。MLM除了固定效應,還加入了隨機效應瞎疼,即親緣關系矩陣科乎。所謂的固定效應是有限水平的,易控制的贼急,關心的是水平上的影響茅茂;而隨機效應有很多水平,關心的是水平背后的群體(如均值太抓,方差等)空闲。
有種只可意會,不可言傳的感覺走敌。我百度了下碴倾,認為它解釋的還可以:隨機效應模型
1.5 壓縮混合線性模型CMLM
MLM的矯正過于嚴格,會把一些真實相關的SNP標記也過濾掉,因此CMLM模型目的是重新檢測到那些假陰性SNP標記跌榔。
方法是根據個體遺傳關系的相似性將其分組异雁,然后將壓縮后的組當做協(xié)變量,替換原來的個體矫户。組內個體的親緣關系都是一樣的片迅。
1.6 SUPER
問題來了,CMLM應該選擇哪些SNP來計算親緣關系矩陣皆辽,答案是使用所有跟表型相關的SNP(且排除了檢測到的那個SNP)來構建親緣關系矩陣的效果最好柑蛇,這就是SUPER(Settlement of Kinship Under Progressively Exclusive Relationship, 逐步排他性親緣關系解決方案)。
QTN(數量性狀SNP)驱闷,即控制QTL的SNP耻台。
1.7 FarmCPU
GWAS的瓶頸一是計算速度,二是統(tǒng)計準確性空另。FarmCPU能提升速度和準確性盆耽,首先把隨機效應的親緣關系矩陣(Kinship)轉換為固定效應的關聯(lián)SNP矩陣(S矩陣/QTNs矩陣),使計算速度大大加快扼菠;其次利用QTN矩陣當做協(xié)變量摄杂,重新做關聯(lián)分析,提升準確率循榆。
SUPER和FarmCPU都是把bin(一段區(qū)域析恢,比如10kb)當做SNP單位,而不是單個SNP秧饮。
1.8 Blink
Blink是進階版GWAS映挂,也是為提高速度和準確率。如下圖所示:先用上方的GLM模型獲得QTNs盗尸,然后用右側的GLM以QTNs當做協(xié)變量進行SNP檢測柑船,得到的SNP根據LD信息確定QTNs的信息(根據染色體實際位置來選擇對應的bin大小)泼各,進而利用左側的GLM以BIC(Bayesian information criterion)策略進行QTNs準確性檢測鞍时,排除假設錯誤的部分,保留真實的QTNs扣蜻,不斷循環(huán)這一過程寸癌,直到檢測到所有關聯(lián)SNP(即QTNs)。
模型總結:
這里是以張志武老師《統(tǒng)計基因組學》課程整理弱贼,所以重點介紹的是他們課題組開發(fā)的模型。
GWAS常用軟件:
- Plink
- Tassel
- GAPIT
- Emmax
- GEMMA
- GCTA
2.GS模型
GS模型的發(fā)展:
河流左側是以個體為單位進行預測磷蛹,包含gBLUP,ssBLUP,sBLUP和cBLUP等吮旅。
河流右側是以SNP效應值為單位進行預測,包含rrBLUP,BayesA,B,C,Cπ,Bayes LASSO等庇勃。
2.1 MAS
當控制表型的基因數量比較少檬嘀,同時遺傳力比較高的性狀,可以用少量標記對表型進行很好的預測责嚷。
2.2 GBLUP
利用個體親緣關系構建協(xié)變量矩陣鸳兽,然后根據個體育種值對表型進行預測。
2.3 GBLUP的擴展(ssBLUP,sBLUP,cBLUP)
-
ssBLUP
構建H矩陣求解罕拂,動物中居多揍异,不適合植物,不多介紹爆班,可看之前的綜述文獻推文衷掷。
-
sBLUP和cBLUP
gBLUP(圖A)是利用所有建模群體的基因型(GR1-GR5)對試驗群體(GI1-GI4)進行預測,這個過程中每個個體間都有相互關系柿菩。
Compression策略(圖B)是將個體進行分組戚嗅,把9個個體(建模群體和試驗群體)分成三組,然后對不同組分別進行預測枢舶。其中把標記進行壓縮懦胞,以Bin為單位進行預測的方法和GWAS的SUPER類似,所以叫sBLUP凉泄。另外以個體分組的策略跟GWAS的CMLM類似躏尉,因此叫cBLUP。
2.4 rrBLUP
如果把GBLUP中構建協(xié)變量的個體親緣關系矩陣換成SNP標記構成的關系矩陣旧困,構建模型醇份,然后對個體進行預測,就是rrBLUP的思路吼具。
也就是把模型y=Xb+Zu+e變?yōu)閥=Xb+Ms+e:
其中M是SNP構建的矩陣(替換個體親緣關系矩陣Z)僚纷,s就是標記(替換個體u)。
2.5 rrBLUP的擴展(Bayes類)
rrBLUP假設所有標記效應符合一個正態(tài)分布拗盒,同時標記效應的方差(σ^2)相等怖竭,這可能與基因的實際效應值不相符。
這時引入了貝葉斯的分析方法:預期控制表型的基因數目未知陡蝇,基因效應值的分布未知痊臭。根據預先假定基因的數量和基因效應值分布的不同,建立了不同的貝葉斯模型登夫,如BayesianA,B,C,Cπ,LASSO等广匙。
其差別主要在于:標記效應是否符合相同分布;是否所有標記都有效應值恼策;標記效應方差服從什么分布鸦致。
不同貝葉斯模型的假設和分布可參考之前的推文:# 【GS文獻】基因組選擇技術在農業(yè)動物育種中的應用
用圖形直觀表示不同的貝葉斯方法,下圖中π表示沒有標記效應的比例。
嶺回歸的所有標記效應方差都相等分唾;貝葉斯A是所有標記都有效應方差抗碰,但不同標記有不同的效應方差;貝葉斯B是部分標記有效應方差绽乔,同時具有差異弧蝇;貝葉斯Cπ是部分標記效應有方差,同時所有方差都相等折砸。
2.6 BLUP vs Bayes
-
GS模型理論經歷的一些發(fā)展:
-
基于個體的BLUP
-
基于標記的BLUP
即Z矩陣替換為M矩陣看疗,個體u替換為標記s。
-
rrBLUP vs GBLUP
-
Bayes vs BLUP
-
模型性能比較
模型差異很大鞍爱,需要測試多個模型選擇鹃觉,涉及怎么選模型的問題《锰樱可根據遺傳高低和控制基因多少盗扇,使用以下策略選擇進行分析。
以個體為預測單位的模型所需時間更少沉填。
GS常用免費開源R包:
- rrBLUP
- BAGS
- BLR
- BGLR
- GAPIT
3.GWAS和GS模型比較
如果GWAS使用的是MLM模型及其進階版疗隶,那么它和GS用的其實是同一模型。
只是GWAS的重點在挖掘顯著性位點翼闹,關注固定效應Xb斑鼻,加入隨機效應只是為了控制與表型顯著相關位點的假陽性;而GS重點在計算育種值猎荠,關注隨機效應Zu坚弱,加入固定效應是為了控制不同個體相同的部分。
兩種方法雖然模型一樣关摇,但應用方向不同荒叶,所以視為不同技術,實際上是一回事兒输虱。我們可以將二者結合起來些楣,比如先用GWAS找出顯著位點,再加入GS的固定效應中宪睹,可能會使預測的準確性更高愁茁。或者是如果標記數目太多亭病,我們不想過濾掉一些無關標記鹅很,就可以結合GWAS的結果來過濾。
在GS和GWAS的結合方面罪帖,也已經有了一些模型和算法促煮,如SSGBLUP食听,GS + de novo GWAS,GS + historical GWAS等污茵。
致謝:
感謝張志武老師提供的最新教程以及開發(fā)的工具,感謝知乎張帆的課程總結葬项。教程PPT參考:## Statistical Genomics: 2020
參考資料:
https://zhuanlan.zhihu.com/p/138185705
http://www.reibang.com/p/2006b4aaf729