GWAS與GS模型介紹與比較

最近看了不少統(tǒng)計基因組方面的資料,以為懂了宜鸯,其實懵逼绪穆。實在是因為統(tǒng)計學基礎太菜贺辰,似懂非懂,似是而非屯伞。記錄下自己的理解,求輕噴豪直。

1.GWAS模型

GWAS是表型和基因型之間的相關性分析劣摇,然而這個相關性用什么統(tǒng)計方法?

GWAS模型的發(fā)展:

image.png

1.1卡方檢驗

實際比例是否符合預期分離比例弓乙,若不符合則認為基因與表型相關末融。計算量大钧惧。

1.2 相關性系數的t檢驗

首先計算基因和表型之間的相關性(如pearson),再經過r換算為t值勾习,進行t檢驗浓瞪。計算量小。

1.3 一般線性模型GLM

直接將基因型x和表型y做回歸擬合巧婶,即y=xb+e乾颁。


image.png

其中y是表型,x是SNP艺栈、Q矩陣和總均值的一個綜合變量英岭,e是殘差。

1.4 混合線性模型MLM

GLM模型中湿右,如果兩個表型差異很大诅妹,但群體本身還含有其他的遺傳差異(如地域等),則那些與該表型無關的遺傳差異也會影響到相關性诅需。MLM模型可以把群體結構的影響設為協(xié)方差漾唉,把這種位點校正掉。此外堰塌,材料間的公共祖先關系也會導致非連鎖相關赵刑,可加入親緣關系矩陣作為隨機效應來矯正,即y=Xb+Zu+e场刑,Z為親緣關系矩陣般此,u為個體育種值,其他同GLM牵现。


image.png

GLM是固定效應模型铐懊。MLM除了固定效應,還加入了隨機效應瞎疼,即親緣關系矩陣科乎。所謂的固定效應是有限水平的,易控制的贼急,關心的是水平上的影響茅茂;而隨機效應有很多水平,關心的是水平背后的群體(如均值太抓,方差等)空闲。


image.png

image.png

有種只可意會,不可言傳的感覺走敌。我百度了下碴倾,認為它解釋的還可以:隨機效應模型

1.5 壓縮混合線性模型CMLM

MLM的矯正過于嚴格,會把一些真實相關的SNP標記也過濾掉,因此CMLM模型目的是重新檢測到那些假陰性SNP標記跌榔。

方法是根據個體遺傳關系的相似性將其分組异雁,然后將壓縮后的組當做協(xié)變量,替換原來的個體矫户。組內個體的親緣關系都是一樣的片迅。

image.png

1.6 SUPER

問題來了,CMLM應該選擇哪些SNP來計算親緣關系矩陣皆辽,答案是使用所有跟表型相關的SNP(且排除了檢測到的那個SNP)來構建親緣關系矩陣的效果最好柑蛇,這就是SUPER(Settlement of Kinship Under Progressively Exclusive Relationship, 逐步排他性親緣關系解決方案)。
QTN(數量性狀SNP)驱闷,即控制QTL的SNP耻台。

image.png

1.7 FarmCPU

GWAS的瓶頸一是計算速度,二是統(tǒng)計準確性空另。FarmCPU能提升速度和準確性盆耽,首先把隨機效應的親緣關系矩陣(Kinship)轉換為固定效應的關聯(lián)SNP矩陣(S矩陣/QTNs矩陣),使計算速度大大加快扼菠;其次利用QTN矩陣當做協(xié)變量摄杂,重新做關聯(lián)分析,提升準確率循榆。

SUPER和FarmCPU都是把bin(一段區(qū)域析恢,比如10kb)當做SNP單位,而不是單個SNP秧饮。

image.png

1.8 Blink

Blink是進階版GWAS映挂,也是為提高速度和準確率。如下圖所示:先用上方的GLM模型獲得QTNs盗尸,然后用右側的GLM以QTNs當做協(xié)變量進行SNP檢測柑船,得到的SNP根據LD信息確定QTNs的信息(根據染色體實際位置來選擇對應的bin大小)泼各,進而利用左側的GLM以BIC(Bayesian information criterion)策略進行QTNs準確性檢測鞍时,排除假設錯誤的部分,保留真實的QTNs扣蜻,不斷循環(huán)這一過程寸癌,直到檢測到所有關聯(lián)SNP(即QTNs)。


image.png

模型總結:
這里是以張志武老師《統(tǒng)計基因組學》課程整理弱贼,所以重點介紹的是他們課題組開發(fā)的模型。

image.png

GWAS常用軟件:

  • Plink
  • Tassel
  • GAPIT
  • Emmax
  • GEMMA
  • GCTA

2.GS模型

GS模型的發(fā)展:

image.png

河流左側是以個體為單位進行預測磷蛹,包含gBLUP,ssBLUP,sBLUP和cBLUP等吮旅。
河流右側是以SNP效應值為單位進行預測,包含rrBLUP,BayesA,B,C,Cπ,Bayes LASSO等庇勃。

2.1 MAS

當控制表型的基因數量比較少檬嘀,同時遺傳力比較高的性狀,可以用少量標記對表型進行很好的預測责嚷。

2.2 GBLUP

利用個體親緣關系構建協(xié)變量矩陣鸳兽,然后根據個體育種值對表型進行預測。


image.png

2.3 GBLUP的擴展(ssBLUP,sBLUP,cBLUP)

  • ssBLUP
    構建H矩陣求解罕拂,動物中居多揍异,不適合植物,不多介紹爆班,可看之前的綜述文獻推文衷掷。


    image.png
  • sBLUP和cBLUP
    gBLUP(圖A)是利用所有建模群體的基因型(GR1-GR5)對試驗群體(GI1-GI4)進行預測,這個過程中每個個體間都有相互關系柿菩。
    Compression策略(圖B)是將個體進行分組戚嗅,把9個個體(建模群體和試驗群體)分成三組,然后對不同組分別進行預測枢舶。其中把標記進行壓縮懦胞,以Bin為單位進行預測的方法和GWAS的SUPER類似,所以叫sBLUP凉泄。另外以個體分組的策略跟GWAS的CMLM類似躏尉,因此叫cBLUP。


    image.png

2.4 rrBLUP

如果把GBLUP中構建協(xié)變量的個體親緣關系矩陣換成SNP標記構成的關系矩陣旧困,構建模型醇份,然后對個體進行預測,就是rrBLUP的思路吼具。

也就是把模型y=Xb+Zu+e變?yōu)閥=Xb+Ms+e:
其中M是SNP構建的矩陣(替換個體親緣關系矩陣Z)僚纷,s就是標記(替換個體u)。


image.png

2.5 rrBLUP的擴展(Bayes類)

rrBLUP假設所有標記效應符合一個正態(tài)分布拗盒,同時標記效應的方差(σ^2)相等怖竭,這可能與基因的實際效應值不相符。

這時引入了貝葉斯的分析方法:預期控制表型的基因數目未知陡蝇,基因效應值的分布未知痊臭。根據預先假定基因的數量和基因效應值分布的不同,建立了不同的貝葉斯模型登夫,如BayesianA,B,C,Cπ,LASSO等广匙。

其差別主要在于:標記效應是否符合相同分布;是否所有標記都有效應值恼策;標記效應方差服從什么分布鸦致。

image.png

不同貝葉斯模型的假設和分布可參考之前的推文:# 【GS文獻】基因組選擇技術在農業(yè)動物育種中的應用

用圖形直觀表示不同的貝葉斯方法,下圖中π表示沒有標記效應的比例。

image.png

嶺回歸的所有標記效應方差都相等分唾;貝葉斯A是所有標記都有效應方差抗碰,但不同標記有不同的效應方差;貝葉斯B是部分標記有效應方差绽乔,同時具有差異弧蝇;貝葉斯Cπ是部分標記效應有方差,同時所有方差都相等折砸。

2.6 BLUP vs Bayes

  • GS模型理論經歷的一些發(fā)展:


    image.png
  • 基于個體的BLUP


    image.png
  • 基于標記的BLUP
    即Z矩陣替換為M矩陣看疗,個體u替換為標記s。


    image.png
  • rrBLUP vs GBLUP


    image.png
  • Bayes vs BLUP


    image.png
  • 模型性能比較
    模型差異很大鞍爱,需要測試多個模型選擇鹃觉,涉及怎么選模型的問題《锰樱可根據遺傳高低和控制基因多少盗扇,使用以下策略選擇進行分析。


    image.png

    以個體為預測單位的模型所需時間更少沉填。


    image.png

GS常用免費開源R包:

  • rrBLUP
  • BAGS
  • BLR
  • BGLR
  • GAPIT

3.GWAS和GS模型比較

如果GWAS使用的是MLM模型及其進階版疗隶,那么它和GS用的其實是同一模型。


image.png

只是GWAS的重點在挖掘顯著性位點翼闹,關注固定效應Xb斑鼻,加入隨機效應只是為了控制與表型顯著相關位點的假陽性;而GS重點在計算育種值猎荠,關注隨機效應Zu坚弱,加入固定效應是為了控制不同個體相同的部分。

兩種方法雖然模型一樣关摇,但應用方向不同荒叶,所以視為不同技術,實際上是一回事兒输虱。我們可以將二者結合起來些楣,比如先用GWAS找出顯著位點,再加入GS的固定效應中宪睹,可能會使預測的準確性更高愁茁。或者是如果標記數目太多亭病,我們不想過濾掉一些無關標記鹅很,就可以結合GWAS的結果來過濾。

在GS和GWAS的結合方面罪帖,也已經有了一些模型和算法促煮,如SSGBLUP食听,GS + de novo GWAS,GS + historical GWAS等污茵。

致謝:
感謝張志武老師提供的最新教程以及開發(fā)的工具,感謝知乎張帆的課程總結葬项。教程PPT參考:## Statistical Genomics: 2020

參考資料:
https://zhuanlan.zhihu.com/p/138185705
http://www.reibang.com/p/2006b4aaf729

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末泞当,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子民珍,更是在濱河造成了極大的恐慌襟士,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,817評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嚷量,死亡現(xiàn)場離奇詭異陋桂,居然都是意外死亡,警方通過查閱死者的電腦和手機蝶溶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評論 3 385
  • 文/潘曉璐 我一進店門嗜历,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人抖所,你說我怎么就攤上這事梨州。” “怎么了田轧?”我有些...
    開封第一講書人閱讀 157,354評論 0 348
  • 文/不壞的土叔 我叫張陵暴匠,是天一觀的道長。 經常有香客問我傻粘,道長每窖,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,498評論 1 284
  • 正文 為了忘掉前任弦悉,我火速辦了婚禮窒典,結果婚禮上,老公的妹妹穿的比我還像新娘警绩。我一直安慰自己崇败,他們只是感情好,可當我...
    茶點故事閱讀 65,600評論 6 386
  • 文/花漫 我一把揭開白布肩祥。 她就那樣靜靜地躺著后室,像睡著了一般。 火紅的嫁衣襯著肌膚如雪混狠。 梳的紋絲不亂的頭發(fā)上岸霹,一...
    開封第一講書人閱讀 49,829評論 1 290
  • 那天,我揣著相機與錄音将饺,去河邊找鬼贡避。 笑死痛黎,一個胖子當著我的面吹牛,可吹牛的內容都是我干的刮吧。 我是一名探鬼主播湖饱,決...
    沈念sama閱讀 38,979評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼杀捻!你這毒婦竟也來了井厌?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,722評論 0 266
  • 序言:老撾萬榮一對情侶失蹤致讥,失蹤者是張志新(化名)和其女友劉穎仅仆,沒想到半個月后,有當地人在樹林里發(fā)現(xiàn)了一具尸體垢袱,經...
    沈念sama閱讀 44,189評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡墓拜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,519評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了请契。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片咳榜。...
    茶點故事閱讀 38,654評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖姚糊,靈堂內的尸體忽然破棺而出贿衍,到底是詐尸還是另有隱情,我是刑警寧澤救恨,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布贸辈,位于F島的核電站,受9級特大地震影響肠槽,放射性物質發(fā)生泄漏擎淤。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,940評論 3 313
  • 文/蒙蒙 一秸仙、第九天 我趴在偏房一處隱蔽的房頂上張望嘴拢。 院中可真熱鬧,春花似錦寂纪、人聲如沸席吴。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽孝冒。三九已至,卻和暖如春拟杉,著一層夾襖步出監(jiān)牢的瞬間庄涡,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評論 1 266
  • 我被黑心中介騙來泰國打工搬设, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留穴店,地道東北人撕捍。 一個月前我還...
    沈念sama閱讀 46,382評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像泣洞,于是被迫代替她去往敵國和親忧风。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,543評論 2 349

推薦閱讀更多精彩內容