GWAS質(zhì)控要點(diǎn)

GWAS質(zhì)控對(duì)于后續(xù)關(guān)聯(lián)分析及曼哈頓圖和QQ圖的結(jié)果至關(guān)重要霹期，本文參考多種資料敢课，試圖評(píng)價(jià)質(zhì)控對(duì)結(jié)果的影響橱健，為大家分析GWAS結(jié)果做一個(gè)參考而钞。

首先文獻(xiàn)中認(rèn)為從成千上萬(wàn)的病例和對(duì)照中移除少數(shù)人對(duì)整體幾乎沒(méi)有影響，并且從目前GWAS的大量基因分型SNP中除去小部分可能有關(guān)聯(lián)的SNP也不會(huì)顯著降低研究的整體效能拘荡，但研究中每個(gè)刪除的SNP都有可能是一個(gè)被忽略的疾病關(guān)聯(lián)臼节，因此認(rèn)為去除一個(gè)SNP的影響潛在地大于去除一個(gè)個(gè)體（盡管基因型插補(bǔ)可用于恢復(fù)這些SNP），故主張先在“每個(gè)被試”基礎(chǔ)上實(shí)施QC，后在“每個(gè)SNP”基礎(chǔ)上進(jìn)行QC网缝，以最大限度地提高研究中剩余的SNP數(shù)巨税。這種方法可防止由于小部分基因分型差的個(gè)體而錯(cuò)誤地去除某個(gè)SNP，但是可能會(huì)由于小部分基因分型差的SNP而錯(cuò)誤地去除一些個(gè)體粉臊。
[圖片上傳中...(image.png-7e3fc5-1556010351113-0)]

一般質(zhì)控步驟：

image.png

樣本的質(zhì)控（Per-individual QC）

1草添、刪除性別錯(cuò)誤的個(gè)體
通過(guò)X染色體雜合率計(jì)算性別，性別錯(cuò)誤的個(gè)體可能存在DNA污染的問(wèn)題
2扼仲、刪除SNP缺失率過(guò)高或雜合率過(guò)高的個(gè)體远寸，如>95%

SNP缺失率過(guò)高說(shuō)明DNA質(zhì)量及分型質(zhì)量不好；
雜合率過(guò)高說(shuō)明樣本可能有污染屠凶，過(guò)低說(shuō)明樣本可能有親緣關(guān)系驰后。一般case/control研究的樣本都無(wú)親緣關(guān)系，如果有一級(jí)或二級(jí)親緣關(guān)系的樣本矗愧，該家族基因型會(huì)導(dǎo)致整個(gè)群體基因型偏倚灶芝。
雜合率=(N ? O)/N，N：非缺失基因型數(shù)量唉韭，O：觀察到的個(gè)體純合基因型數(shù)量夜涕，一般刪除超過(guò)±3 SD的樣本
3、刪除有親緣關(guān)系的樣本
親緣關(guān)系可以用identity by state（IBS）來(lái)衡量属愤，計(jì)算之前首先要保證SNP是相互獨(dú)立的女器，這就要先把基因組中連鎖區(qū)域的SNP去掉（如HLA區(qū)域的SNP），一般設(shè)置滑動(dòng)窗口（如 50 kb）住诸，計(jì)算該窗口內(nèi)的SNP連鎖率晓避，將大于閾值（一般設(shè)置r2 > 0.2）的SNP都去掉。
一般IBS=1認(rèn)為是同一個(gè)樣本或同卵雙胞胎只壳，IBD = 0.5是一級(jí)親屬，IBD = 0.25是二級(jí)親屬暑塑，IBD = 0.125是三級(jí)親屬吼句，另外有可能是樣本污染或者分型錯(cuò)誤導(dǎo)致。一般設(shè)置閾值為IBD > 0.1875事格。
4惕艳、人群層次矯正
混雜因素是造成case-control差異的主要原因，特別是人群層次（population stratification）驹愚。
校正人群層次方法最常用的是組成分分析（principal component analysis (PCA)）远搪，PCA將高維的數(shù)據(jù)提取為低維數(shù)據(jù)，以便用幾個(gè)主成分來(lái)代表整個(gè)數(shù)據(jù)逢捺。
一般將前10個(gè)PCA成分作為協(xié)變量加入后面的關(guān)聯(lián)分析模型谁鳍，但是加入幾個(gè)根據(jù)經(jīng)驗(yàn)調(diào)整。

位點(diǎn)的質(zhì)控（Per-marker QC）

位點(diǎn)質(zhì)控是GWAS成功與否的核心，因?yàn)榭赡軙?huì)把與疾病相關(guān)的SNP位點(diǎn)刪掉倘潜。
1绷柒、刪除缺失率過(guò)高的SNP位點(diǎn)
根據(jù)情況可以設(shè)置閾值為95%-98%。一般先設(shè)置個(gè)寬松的閾值涮因，如0.2废睦，經(jīng)過(guò)樣本質(zhì)控后再設(shè)置比較嚴(yán)格的閾值，如0.02
2养泡、刪除偏離哈迪溫伯格平衡的SNP位點(diǎn)（HWE）
偏離HWE的SNP位點(diǎn)可能是分型錯(cuò)誤嗜湃，但是case中偏離HWE的位點(diǎn)可能與表型相關(guān)，因此case和control閾值不一樣澜掩。一般case設(shè)置為1e-6购披，control設(shè)置為1e-10；對(duì)于較小的數(shù)據(jù)可以設(shè)置為1e10-5输硝。plink軟件會(huì)自動(dòng)只對(duì)control進(jìn)行HWE質(zhì)控今瀑。
3、刪除case和control中缺失率不同的SNP位點(diǎn)
case和control中缺失率不同可能意味著case和control不是一批做出來(lái)的点把，刪除這種位點(diǎn)可以有效減少混雜因素的影響橘荠。
4、刪除等位基因頻率（MAF）較小的SNP位點(diǎn)
芯片中MAF較小的SNP由于算法原因錯(cuò)誤率較高郎逃，因此一般將MAF 1–2%以下的刪除哥童，但是樣本量較小的話該閾值要提高，樣本量小分型的準(zhǔn)確度就小褒翰。另外MAF較小的位點(diǎn)不適用關(guān)聯(lián)分析的統(tǒng)計(jì)方法贮懈。

候選基因方法研究的質(zhì)控（Candidate-gene association）

候選基因方法研究的質(zhì)控與GWAS不同，GWAS研究中99%的SNP位點(diǎn)與表型都無(wú)關(guān)优训，這些位點(diǎn)可以用來(lái)發(fā)現(xiàn)混雜因素朵你，但是候選基因方法就不行。候選基因方法的SNP位點(diǎn)經(jīng)過(guò)選擇揣非，本身位點(diǎn)較少抡医，與表型無(wú)關(guān)的SNP也較少，因此不能通過(guò)位點(diǎn)的分型失敗率和雜合率來(lái)評(píng)估DNA質(zhì)量早敬，群體信息和親緣關(guān)系也沒(méi)法評(píng)估忌傻。
可以進(jìn)行的是對(duì)樣本的質(zhì)控，但是閾值需要根據(jù)SNP的數(shù)量進(jìn)行調(diào)整搞监。
如果實(shí)驗(yàn)樣本與GWAS樣本數(shù)量類(lèi)似水孩，仍然可以采用GWAS對(duì)位點(diǎn)的過(guò)濾方法
缺失率>5%，最好是檢測(cè)分型的方法是否有問(wèn)題琐驴，control中對(duì)HWE的過(guò)濾也可以執(zhí)行俘种。

基因型填補(bǔ)（imputation）

待補(bǔ)充

填補(bǔ)后質(zhì)控（Post-imputation quality control）

千人基因組大概有83 million變異位點(diǎn)秤标，經(jīng)過(guò)填補(bǔ)后有許多質(zhì)量不好的位點(diǎn)，需要過(guò)濾掉安疗。
去除MAF = 0的位點(diǎn)
去除MAF<0.01 和 info>0.3的位點(diǎn)抛杨。info值用來(lái)衡量填充位點(diǎn)的質(zhì)量，一般較差的位點(diǎn)info <0.15荐类，較好的位點(diǎn)info >0.85怖现。所以過(guò)濾閾值一般在0.15-0.85之間。對(duì)于同一個(gè)位點(diǎn)來(lái)說(shuō)玉罐，MAF值越小屈嗤，info值也越小〉跏洌可以將MFA值和info值畫(huà)出柱狀圖饶号，找到一個(gè)比較好的閾值進(jìn)行過(guò)濾。
去除缺失率過(guò)多的位點(diǎn)（98%以上）

GWAS質(zhì)控要點(diǎn)

GWAS質(zhì)控要點(diǎn)

GWAS質(zhì)控對(duì)于后續(xù)關(guān)聯(lián)分析及曼哈頓圖和QQ圖的結(jié)果至關(guān)重要霹期，本文參考多種資料敢课，試圖評(píng)價(jià)質(zhì)控對(duì)結(jié)果的影響橱健，為大家分析GWAS結(jié)果做一個(gè)參考而钞。

一般質(zhì)控步驟：

樣本的質(zhì)控（Per-individual QC）

位點(diǎn)的質(zhì)控（Per-marker QC）

候選基因方法研究的質(zhì)控（Candidate-gene association）

基因型填補(bǔ)（imputation）

填補(bǔ)后質(zhì)控（Post-imputation quality control）

相關(guān)軟件

推薦閱讀更多精彩內(nèi)容