GWAS質(zhì)控對(duì)于后續(xù)關(guān)聯(lián)分析及曼哈頓圖和QQ圖的結(jié)果至關(guān)重要霹期,本文參考多種資料敢课,試圖評(píng)價(jià)質(zhì)控對(duì)結(jié)果的影響橱健,為大家分析GWAS結(jié)果做一個(gè)參考而钞。
- 首先文獻(xiàn)中認(rèn)為從成千上萬(wàn)的病例和對(duì)照中移除少數(shù)人對(duì)整體幾乎沒(méi)有影響,并且從目前GWAS的大量基因分型SNP中除去小部分可能有關(guān)聯(lián)的SNP也不會(huì)顯著降低研究的整體效能拘荡,但研究中每個(gè)刪除的SNP都有可能是一個(gè)被忽略的疾病關(guān)聯(lián)臼节,因此認(rèn)為去除一個(gè)SNP的影響潛在地大于去除一個(gè)個(gè)體(盡管基因型插補(bǔ)可用于恢復(fù)這些SNP),故主張先在“每個(gè)被試”基礎(chǔ)上實(shí)施QC,后在“每個(gè)SNP”基礎(chǔ)上進(jìn)行QC网缝,以最大限度地提高研究中剩余的SNP數(shù)巨税。這種方法可防止由于小部分基因分型差的個(gè)體而錯(cuò)誤地去除某個(gè)SNP,但是可能會(huì)由于小部分基因分型差的SNP而錯(cuò)誤地去除一些個(gè)體粉臊。
[圖片上傳中...(image.png-7e3fc5-1556010351113-0)]
一般質(zhì)控步驟:
樣本的質(zhì)控(Per-individual QC)
1草添、刪除性別錯(cuò)誤的個(gè)體
通過(guò)X染色體雜合率計(jì)算性別,性別錯(cuò)誤的個(gè)體可能存在DNA污染的問(wèn)題
2扼仲、刪除SNP缺失率過(guò)高或雜合率過(guò)高的個(gè)體远寸,如>95%
- SNP缺失率過(guò)高說(shuō)明DNA質(zhì)量及分型質(zhì)量不好;
- 雜合率過(guò)高說(shuō)明樣本可能有污染屠凶,過(guò)低說(shuō)明樣本可能有親緣關(guān)系驰后。一般case/control研究的樣本都無(wú)親緣關(guān)系,如果有一級(jí)或二級(jí)親緣關(guān)系的樣本矗愧,該家族基因型會(huì)導(dǎo)致整個(gè)群體基因型偏倚灶芝。
- 雜合率=(N ? O)/N,N:非缺失基因型數(shù)量唉韭,O:觀察到的個(gè)體純合基因型數(shù)量夜涕,一般刪除超過(guò)±3 SD的樣本
3、刪除有親緣關(guān)系的樣本 - 親緣關(guān)系可以用identity by state(IBS)來(lái)衡量属愤,計(jì)算之前首先要保證SNP是相互獨(dú)立的女器,這就要先把基因組中連鎖區(qū)域的SNP去掉(如HLA區(qū)域的SNP),一般設(shè)置滑動(dòng)窗口(如 50 kb)住诸,計(jì)算該窗口內(nèi)的SNP連鎖率晓避,將大于閾值(一般設(shè)置r2 > 0.2)的SNP都去掉。
- 一般IBS=1認(rèn)為是同一個(gè)樣本或同卵雙胞胎只壳,IBD = 0.5是一級(jí)親屬,IBD = 0.25是二級(jí)親屬暑塑,IBD = 0.125是三級(jí)親屬吼句,另外有可能是樣本污染或者分型錯(cuò)誤導(dǎo)致。一般設(shè)置閾值為IBD > 0.1875事格。
4惕艳、人群層次矯正 - 混雜因素是造成case-control差異的主要原因,特別是人群層次(population stratification)驹愚。
- 校正人群層次方法最常用的是組成分分析(principal component analysis (PCA))远搪,PCA將高維的數(shù)據(jù)提取為低維數(shù)據(jù),以便用幾個(gè)主成分來(lái)代表整個(gè)數(shù)據(jù)逢捺。
- 一般將前10個(gè)PCA成分作為協(xié)變量加入后面的關(guān)聯(lián)分析模型谁鳍,但是加入幾個(gè)根據(jù)經(jīng)驗(yàn)調(diào)整。
位點(diǎn)的質(zhì)控(Per-marker QC)
位點(diǎn)質(zhì)控是GWAS成功與否的核心,因?yàn)榭赡軙?huì)把與疾病相關(guān)的SNP位點(diǎn)刪掉倘潜。
1绷柒、刪除缺失率過(guò)高的SNP位點(diǎn)
根據(jù)情況可以設(shè)置閾值為95%-98%。一般先設(shè)置個(gè)寬松的閾值涮因,如0.2废睦,經(jīng)過(guò)樣本質(zhì)控后再設(shè)置比較嚴(yán)格的閾值,如0.02
2养泡、刪除偏離哈迪溫伯格平衡的SNP位點(diǎn)(HWE)
偏離HWE的SNP位點(diǎn)可能是分型錯(cuò)誤嗜湃,但是case中偏離HWE的位點(diǎn)可能與表型相關(guān),因此case和control閾值不一樣澜掩。一般case設(shè)置為1e-6购披,control設(shè)置為1e-10;對(duì)于較小的數(shù)據(jù)可以設(shè)置為1e10-5输硝。plink軟件會(huì)自動(dòng)只對(duì)control進(jìn)行HWE質(zhì)控今瀑。
3、刪除case和control中缺失率不同的SNP位點(diǎn)
case和control中缺失率不同可能意味著case和control不是一批做出來(lái)的点把,刪除這種位點(diǎn)可以有效減少混雜因素的影響橘荠。
4、刪除等位基因頻率(MAF)較小的SNP位點(diǎn)
芯片中MAF較小的SNP由于算法原因錯(cuò)誤率較高郎逃,因此一般將MAF 1–2%以下的刪除哥童,但是樣本量較小的話該閾值要提高,樣本量小分型的準(zhǔn)確度就小褒翰。另外MAF較小的位點(diǎn)不適用關(guān)聯(lián)分析的統(tǒng)計(jì)方法贮懈。
候選基因方法研究的質(zhì)控(Candidate-gene association)
- 候選基因方法研究的質(zhì)控與GWAS不同,GWAS研究中99%的SNP位點(diǎn)與表型都無(wú)關(guān)优训,這些位點(diǎn)可以用來(lái)發(fā)現(xiàn)混雜因素朵你,但是候選基因方法就不行。候選基因方法的SNP位點(diǎn)經(jīng)過(guò)選擇揣非,本身位點(diǎn)較少抡医,與表型無(wú)關(guān)的SNP也較少,因此不能通過(guò)位點(diǎn)的分型失敗率和雜合率來(lái)評(píng)估DNA質(zhì)量早敬,群體信息和親緣關(guān)系也沒(méi)法評(píng)估忌傻。
- 可以進(jìn)行的是對(duì)樣本的質(zhì)控,但是閾值需要根據(jù)SNP的數(shù)量進(jìn)行調(diào)整搞监。
- 如果實(shí)驗(yàn)樣本與GWAS樣本數(shù)量類(lèi)似水孩,仍然可以采用GWAS對(duì)位點(diǎn)的過(guò)濾方法
- 缺失率>5%,最好是檢測(cè)分型的方法是否有問(wèn)題琐驴,control中對(duì)HWE的過(guò)濾也可以執(zhí)行俘种。
基因型填補(bǔ)(imputation)
待補(bǔ)充
填補(bǔ)后質(zhì)控(Post-imputation quality control)
- 千人基因組大概有83 million變異位點(diǎn)秤标,經(jīng)過(guò)填補(bǔ)后有許多質(zhì)量不好的位點(diǎn),需要過(guò)濾掉安疗。
- 去除MAF = 0的位點(diǎn)
- 去除MAF<0.01 和 info>0.3的位點(diǎn)抛杨。info值用來(lái)衡量填充位點(diǎn)的質(zhì)量,一般較差的位點(diǎn)info <0.15荐类,較好的位點(diǎn)info >0.85怖现。所以過(guò)濾閾值一般在0.15-0.85之間。對(duì)于同一個(gè)位點(diǎn)來(lái)說(shuō)玉罐,MAF值越小屈嗤,info值也越小〉跏洌可以將MFA值和info值畫(huà)出柱狀圖饶号,找到一個(gè)比較好的閾值進(jìn)行過(guò)濾。
- 去除缺失率過(guò)多的位點(diǎn)(98%以上)
相關(guān)軟件
PLINK, GenABEL, GS2季蚂、snpMatrix
參考:Anderson CA, Pettersson FH, Clarke GM, Cardon LR, Morris AP, Zondervan KT. Data quality control in genetic case-control association studies. Nat Protoc 2010; 5: 1564-1573.
Marees AT, de Kluiver H, Stringer S, Vorspan F, Curis E, Marie-Claire C et al. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. Int J Meth Psych Res 2018; 27: e1608.