前面已經(jīng)簡單介紹過GWAS的概念,GWAS分析中所用到的文件以及分析流程哪痰,我們在GWAS分析結(jié)果文件中經(jīng)常會看到beta值和P值漱牵,他們分別代表什么意思艾少?這兩個值又有什么關(guān)系呢?
我們先來看一下EMMAX軟件分析結(jié)果都有哪些內(nèi)容夭苗。
其中信卡,第一列代表SNP ID, 第二列代表beta, 第三列代表P-value。
beta和P-value在GWAS中到底代表什么意思题造,他們具體什么關(guān)系呢傍菇,是不是P-value越小,beta值越大呢界赔。
beta: 等位基因1的效應(yīng)大小估計(jì)丢习,也稱為等位基因的效應(yīng)值牵触。
P-value: 是目標(biāo)SNP與表型是否顯著關(guān)聯(lián)。小的P-value被視為零假設(shè)(目標(biāo)SNP與表型無關(guān)系)可能不成立咐低,即備擇假設(shè)成立揽思,也就是目標(biāo)SNP與表型有關(guān)系)的證據(jù)。
p-value具體計(jì)算過程較復(fù)雜见擦,下一期再講钉汗,這一期我們會先講解一下beta值是如何計(jì)算出來的,這就引出了GWAS涉及的公式——最小二乘法鲤屡。
我們舉個例子來方便大家理解损痰。
如圖所示,假設(shè)有一個SNP位點(diǎn)酒来,是SNP008: G > A
我們定義A為風(fēng)險位點(diǎn)卢未,以加性模型為例:一個G = 0, 一個T = 1,即GG = 0, AG = 1堰汉, AA = 2
根據(jù)上面公式(1):
SNP對應(yīng)的x值分別為:2辽社,2,1衡奥,2爹袁,1,0矮固,0失息,2,2档址,0
表型對應(yīng)的y值分別為:189盹兢,180,171守伸,192绎秒,173,160尼摹,162见芹,183,190蠢涝,158
我們的任務(wù)就是找到合適的a和b,使得
(2a + b – 189)^2 + (2a + b – 180) ^2 + (1a + b – 171) ^2 + (2a + b – 192) ^2 + (1a + b – 173) ^2 + (0 + b – 160 ) ^2 + (2a + b – 183) ^2 + (2a + b – 183) ^2 + (2a + b – 190) ^2 + (0 + b – 158 ) ^2結(jié)果最小玄呛。
我們可以借助R計(jì)算一下:
擬合結(jié)果是,a最優(yōu)值為13.47368和二,b最優(yōu)值為159.6316 徘铝,公式y(tǒng)= 13.47368 x + 159.6316
回歸到全基因組關(guān)聯(lián)分析中,這里a值即為beta值,是13.47368惕它。
部分小伙伴認(rèn)為效應(yīng)值beta越大, P值一定就越小怕午,其實(shí)這種理解是錯誤的,它們完全是兩回事淹魄。
GWAS分析的大致思路可以簡單歸為以下幾點(diǎn):
Step1: 將對應(yīng)的基因型轉(zhuǎn)換為0郁惜,1,2的形式揭北,這里將主效純合基因編碼為0扳炬,雜合基因型編碼為1,次要純合基因編碼為2搔体;
Step2: 將基因型輸入向量x, 研究的表型輸入向量y;
Step3: 對x和y做回歸分析恨樟,y= ax + b, 其中a即為效應(yīng)值,a是否顯著即為P value
我們先利用R將上面身高例子利用最簡單的線性模型進(jìn)行關(guān)聯(lián)分析一下疚俱。
#首先將基因型和身高分別輸入x和y
x=c(2,2,1,2,1,0,0,2,2,0)
y=c(189,180,171,192,173,160,162,183,190,158)
height = lm(y ~ x)
summary(height)
我們發(fā)現(xiàn)該方法和前面我們求出來該位點(diǎn)效應(yīng)值一樣劝术,都是13.474, 同時該位點(diǎn)與身高顯著關(guān)聯(lián),P value = 1.02e-05呆奕。
接下來养晋,我們看一個效應(yīng)值(beta)較大,不顯著(P value較大)的例子梁钾。
自己造數(shù)據(jù)绳泉。
#基因型0,1姆泻,2
x = rep(c(0,1,2),4)
x
#模擬的表型值
y = 13*x + rnorm(12)*20
y
# 作回歸分析
sim = lm(y ~ x)
summary(sim)
我們可以看到效應(yīng)值為7.865零酪,P value為0.17,不顯著拇勃。我們做散點(diǎn)圖看一下出現(xiàn)效應(yīng)值較大四苇,不顯著,在圖形上具體怎么表現(xiàn)方咆?
# 作散點(diǎn)圖
data = data.frame(x,y)
data
ggplot(data,aes(x=x,y=y)) + geom_point() + stat_smooth(method='lm',formula = y~x,colour='red')
然后月腋,我們再看一個效應(yīng)值(beta)較小,極顯著(P value較邪曷浮)的例子榆骚。
自己造數(shù)據(jù)。
#基因型0煌集,1寨躁,2
x = rep(c(0,1,2),4)
x
#模擬的表型值
y = 0.5*x + rnorm(12)*0.05
y
# 作回歸分析
sim = lm(y ~ x)
summary(sim)
我們可以看到效應(yīng)值為0.491590,P value為1.44e-12牙勘,極顯著。我們做散點(diǎn)圖看一下出現(xiàn)效應(yīng)值較小,極顯著方面,在圖形上具體怎么表現(xiàn)放钦?
# 作圖
data = data.frame(x,y)
data
ggplot(data,aes(x=x,y=y)) + geom_point() + stat_smooth(method='lm',formula = y~x,colour='red')
我們可以簡單理解一下,效應(yīng)大不顯著的位點(diǎn)是那些SNP對表型影響較大恭金,但容易受外界環(huán)境影響操禀,或者由于誤差造成的個體之間表型較離散;效應(yīng)小極顯著的位點(diǎn)是那些SNP對表型影響較小横腿,但是不易受外界環(huán)境影響颓屑,對表型影響較為穩(wěn)定的位點(diǎn)。
總之耿焊,大家記住效應(yīng)值beta和P值沒有必然的聯(lián)系揪惦,它們不是一回事即可。
往期回顧:
GWAS分析 (一)
http://www.reibang.com/p/67e1878845e3
GWAS分析-曼哈頓圖 (二)
http://www.reibang.com/p/fa261b6045c2
GWAS分析-常用文件格式 (三)
http://www.reibang.com/p/ad47f575e83b
GWAS分析-R包GAPIT (四)
http://www.reibang.com/p/9944bcbfe3c7
GWAS分析-多個性狀的manhattan組合圖繪制(五)
http://www.reibang.com/p/b376a86cb7e3