1淹父、GWAS 流程
數(shù)據(jù)質(zhì)控
? 1)按分型百分比條件過(guò)濾,多數(shù)文章剔除缺失率在20%以上的位點(diǎn),樣本量較大的群體中步脓,可以將缺失率小于50%的位點(diǎn)都保留罗捎;
? 2)按等位基因頻率過(guò)濾观谦,通常去除第二等位基因頻率小于5%的位點(diǎn),樣本量較大的群體中桨菜,可以降低到1%坎匿;
? 3)多等位位點(diǎn)的過(guò)濾(適應(yīng)軟件);
? 4)哈迪溫伯格平衡過(guò)濾雷激,一般無(wú)法使用較為復(fù)雜的統(tǒng)計(jì)模型的情況使用替蔬,如人類(lèi)的 Case/Control GWAS 中一般將不符合哈迪溫伯格平衡的位點(diǎn)過(guò)濾掉,植物GWAS中一般不過(guò)濾屎暇;
? 5)極端表型的去除承桥。
LD 衰減分析
? 確定使用的群體的LD衰減距離,判斷使用的標(biāo)記代表性
? 最低飽和標(biāo)記量 = 基因組大小/LD衰減距離
? 越密越好:檢測(cè)到功能位點(diǎn)的概率增大根悼;處于同一個(gè)Block的位點(diǎn)相互驗(yàn)證
(Manhattan plot 柱狀峰值)
群體結(jié)構(gòu)與親緣關(guān)系的評(píng)估
? 群體結(jié)構(gòu)和親緣關(guān)系是導(dǎo)致關(guān)聯(lián)結(jié)果出現(xiàn)假陽(yáng)性的兩個(gè)主要因素
? 對(duì)群體結(jié)構(gòu)和親緣關(guān)系進(jìn)行評(píng)估以確定使用的統(tǒng)計(jì)模型和獲得相應(yīng)的矩陣
群體結(jié)構(gòu)對(duì)GWAS結(jié)果的影響
基因型與群體結(jié)構(gòu)關(guān)聯(lián)
群體結(jié)構(gòu)評(píng)估的內(nèi)容
親緣關(guān)系的評(píng)估內(nèi)容
樣本清除
? 根據(jù)群體結(jié)構(gòu)和親緣關(guān)系的評(píng)估結(jié)果對(duì)可能影響結(jié)果的樣本進(jìn)行去除
? 1)遺傳上與絕大多少樣品差異極大樣品應(yīng)當(dāng)剔除凶异;
? 2)親緣關(guān)系非常近的兩個(gè)材料可以只保留一個(gè)。
關(guān)聯(lián)分析
? 選擇正確的統(tǒng)計(jì)方法進(jìn)行關(guān)聯(lián)分析
? 1)小標(biāo)記量候選基因關(guān)聯(lián)分析:可以選擇比較簡(jiǎn)單的t-test或者ANOVA挤巡;
? 2)Case/Control-質(zhì)量性狀:卡平方檢驗(yàn)剩彬,OR檢驗(yàn),邏輯回歸矿卑,也可以視為數(shù)
量性狀使用較為復(fù)雜的線性模型喉恋;
? 3)數(shù)量性狀:根據(jù)群體結(jié)構(gòu)評(píng)估的情況,選用相應(yīng)的模型母廷,但在實(shí)際操作中一
般使用多種模型(GLM/MLM/EMMAX/FaST-LMM)同時(shí)分析轻黑,根據(jù)結(jié)果進(jìn)
行取舍
GLM
MLM
關(guān)聯(lián)分析模型與軟件
選擇: GLM/MLM/CMLM為基礎(chǔ)( TASSEL/GAPIT) , 與EMMAx琴昆、 Fast-LMM相互比較氓鄙, 其他作為補(bǔ)充,當(dāng)性狀與群體結(jié)構(gòu)相關(guān)時(shí)业舍, 可以考慮使用FarmCPU
顯著性閾值確定
2抖拦、結(jié)果解讀
曼哈頓圖(Manhattan plot)
分位點(diǎn)-分位點(diǎn)圖(Quantile-Quantile plot)
可喜的結(jié)果
遺憾的結(jié)果
可能原因:性狀考察不準(zhǔn)確升酣;性狀受環(huán)境影響大;該性狀由多個(gè)小效應(yīng)位點(diǎn)控制态罪,可增加樣本量提高檢測(cè)效力(Power)噩茄;模型的檢測(cè)效力問(wèn)題;標(biāo)記密度不夠向臀;性狀的變異是由表觀修飾引起的巢墅,與基因型無(wú)關(guān)
挽救方法:提供準(zhǔn)確的表型數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析;多年多點(diǎn)重復(fù)券膀;增加樣本量君纫;增加標(biāo)記量;更換模型芹彬;忽略閾值蓄髓,選擇有明顯的峰值區(qū)域進(jìn)行驗(yàn)證
問(wèn)題結(jié)果
后續(xù)的生物信息學(xué)分析
? 獲得顯著位點(diǎn)后,從生物信息學(xué)的角度還可以進(jìn)行如下分析:
? 1)對(duì)顯著位點(diǎn)附近進(jìn)行LD Block分析舒帮,確定候選區(qū)間的范圍会喝;
? 2)對(duì)候選區(qū)間內(nèi)的基因進(jìn)功能注釋(包括nr,GO玩郊,KEGG等)肢执;
? 3)顯著位點(diǎn)是否位于編碼區(qū),是否引起編碼氨基酸的改變译红;
? 4)同源分析预茄,結(jié)合其他物種對(duì)應(yīng)的同源基因的功能猜測(cè)候選基因的功能
后續(xù)實(shí)驗(yàn)驗(yàn)證
材料:舉例-381份粳稻品種(熱帶和溫帶品種)
1、關(guān)于水稻谷粒大小的性狀侦厚,GWAS定位到7號(hào)染色體耻陕,SNP峰值所在地方注釋到11個(gè)基因;
2刨沦、對(duì)11個(gè)基因分別在稻穗诗宣、葉片和根系中做RT-PCR,只有第9個(gè)基因OsSPL13在稻穗中表達(dá)有差異想诅;
3召庞、OsSPL13基因蛋白表達(dá)的進(jìn)一步驗(yàn)證;
4侧蘸、分析OsSPL13基因在水稻大粒和小粒之間的序列差異裁眯,包括SNP位點(diǎn)和小的indel;
5讳癌、通過(guò)轉(zhuǎn)基因找到影響OsSPL13基因表達(dá)相關(guān)的相關(guān)區(qū)域(5’UTR中的一個(gè)串聯(lián)重復(fù)序列);
6存皂、通過(guò)RNA干擾的方法將大粒品種GP579和小粒品種Dongjing中OsSPL13的表達(dá)量下調(diào)后會(huì)使水稻籽粒的長(zhǎng)度和粒重都顯著降低晌坤;
7逢艘、篩選到1個(gè)Dongjing來(lái)源的glw7突變體,粒長(zhǎng)和粒重比野生型均明顯降低骤菠;
8它改、通過(guò)chip-seq進(jìn)行OsSPL13調(diào)節(jié)下游基因的驗(yàn)證(結(jié)果未示)SRS5和DEP1。