GEMMA(Genome-wide Efficient Mixed Model Association algorithm)是一款基于混合線性模型的GWAS分析軟件(文獻(xiàn)信息)纽窟。GEMMA相比較于其他基于混合線性模型的軟件精堕,它有如下優(yōu)勢:
- 快速:遠(yuǎn)遠(yuǎn)快于其他精確算法(EMMA和FaST-LMM)。
- 準(zhǔn)確:EMMAX和GAPIT都采用固定零模型中的方差組分不變的策略來提高運(yùn)算速度宣渗,這實際上就是一種近似算法焕檬,不如GEMMA準(zhǔn)確烹吵。
- 方便:可直接使用plink二進(jìn)制格式數(shù)據(jù)涤姊,無需進(jìn)行復(fù)雜的數(shù)據(jù)格式轉(zhuǎn)換疹瘦。
- 功能全面:可進(jìn)行單標(biāo)記GWAS、多標(biāo)記GWAS和多性狀GWAS分析噩翠。
1. 軟件下載及安裝
1.1 下載地址: https://github.com/genetics-statistics/GEMMA/releases
選擇最新的穩(wěn)定版0.98.1戏自,下載下圖第一個文件:gemma-0.98.1-linux-static
。該文件是匯編好的伤锚,下載后解壓就可以使用
1.2 安裝代碼如下:
gunzip gemma-0.98.1-linux-static.gz #解壓
chmod +x gemma-0.98.1-linux-static #添加執(zhí)行權(quán)限
./gemma-0.98.1-linux-static #運(yùn)行測試
2. plink 二進(jìn)制文件格式介紹
2.1 plink二進(jìn)制文件分為三部分:
- plink.bed 包含基因分型的二進(jìn)制文件
- plink.fam 包含家庭號擅笔、個體號、母親號屯援、母親號猛们、性別、表型狞洋。即plink.ped文件前6列
- plink.bim 標(biāo)記信息文件弯淘,類似于plink.map文件。
2.2 數(shù)據(jù)準(zhǔn)備
我們使用GEMMA軟件提供的測試數(shù)據(jù)進(jìn)行練習(xí)吉懊。具體數(shù)據(jù)可以在GEMMA下載頁面下載Source code(tar gz)
文件并解壓獲得庐橙。
2.3 運(yùn)行測試數(shù)據(jù)
運(yùn)行時需要先生成kinship矩陣,在使用混合線性模型進(jìn)行分析借嗽。代碼如下:
#計算kinship矩陣
./gemma-0.98.1-linux-static -bfile 2000 -gk 2 -o kin
#-bfile plink二進(jìn)制文件前綴; -gk 2 生成kinship矩陣時進(jìn)行scale; -o 輸出文件前綴
#將kinship矩陣移動至當(dāng)前目錄
mv ./output/kin.sXX.txt .
#進(jìn)行GWAS分析
./gemma-0.98.1-linux-static -bfile 2000 -k kin.sXX.txt -lmm 1 -o GE_GWAS
#-k 指定kinship矩陣; -lmm 1 使用wald檢驗計算顯著性态鳖。
2.4 輸出結(jié)果解讀
輸出結(jié)果見文件 ./output/GE_GWAS.association.txt
.
該文件包含12列結(jié)果。具體含義如下:
-
chr
SNP所在染色體號 -
rs
SNP名稱 -
ps
SNP物理位置 -
n_miss
SNP缺失個體數(shù) -
allele1
次等位基因 -
allele0
主等位基因 -
af
SNP頻率 -
beta
SNP效應(yīng)值 -
se
beta估計標(biāo)準(zhǔn)誤 -
l_remle
計算該SNP效應(yīng)時對應(yīng)的lamda的remle估計值恶导。 -
p_wald
wald檢驗P值
其中浆竭,我們最關(guān)心的三個結(jié)果是chr
,ps
,p_wald
,我們可以借助這三個結(jié)果畫曼哈頓圖和QQ圖惨寿。l_remle
比較難理解邦泄,需要懂模型才知道它的含義,但對分析來說缤沦,不是很重要虎韵。
有這個問題的同學(xué)可以留言缸废。
GEMMA軟件源碼和說明文檔托管與github中:https://github.com/genetics-statistics/GEMMA