GWAS質(zhì)控要點(diǎn)

GWAS質(zhì)控對(duì)于后續(xù)關(guān)聯(lián)分析及曼哈頓圖和QQ圖的結(jié)果至關(guān)重要霹期,本文參考多種資料敢课,試圖評(píng)價(jià)質(zhì)控對(duì)結(jié)果的影響橱健,為大家分析GWAS結(jié)果做一個(gè)參考而钞。
  • 首先文獻(xiàn)中認(rèn)為從成千上萬(wàn)的病例和對(duì)照中移除少數(shù)人對(duì)整體幾乎沒(méi)有影響,并且從目前GWAS的大量基因分型SNP中除去小部分可能有關(guān)聯(lián)的SNP也不會(huì)顯著降低研究的整體效能拘荡,但研究中每個(gè)刪除的SNP都有可能是一個(gè)被忽略的疾病關(guān)聯(lián)臼节,因此認(rèn)為去除一個(gè)SNP的影響潛在地大于去除一個(gè)個(gè)體(盡管基因型插補(bǔ)可用于恢復(fù)這些SNP),故主張先在“每個(gè)被試”基礎(chǔ)上實(shí)施QC,后在“每個(gè)SNP”基礎(chǔ)上進(jìn)行QC网缝,以最大限度地提高研究中剩余的SNP數(shù)巨税。這種方法可防止由于小部分基因分型差的個(gè)體而錯(cuò)誤地去除某個(gè)SNP,但是可能會(huì)由于小部分基因分型差的SNP而錯(cuò)誤地去除一些個(gè)體粉臊。
    [圖片上傳中...(image.png-7e3fc5-1556010351113-0)]

一般質(zhì)控步驟:

image.png

樣本的質(zhì)控(Per-individual QC)

1草添、刪除性別錯(cuò)誤的個(gè)體
通過(guò)X染色體雜合率計(jì)算性別,性別錯(cuò)誤的個(gè)體可能存在DNA污染的問(wèn)題
2扼仲、刪除SNP缺失率過(guò)高或雜合率過(guò)高的個(gè)體远寸,如>95%

  • SNP缺失率過(guò)高說(shuō)明DNA質(zhì)量及分型質(zhì)量不好;
  • 雜合率過(guò)高說(shuō)明樣本可能有污染屠凶,過(guò)低說(shuō)明樣本可能有親緣關(guān)系驰后。一般case/control研究的樣本都無(wú)親緣關(guān)系,如果有一級(jí)或二級(jí)親緣關(guān)系的樣本矗愧,該家族基因型會(huì)導(dǎo)致整個(gè)群體基因型偏倚灶芝。
  • 雜合率=(N ? O)/N,N:非缺失基因型數(shù)量唉韭,O:觀察到的個(gè)體純合基因型數(shù)量夜涕,一般刪除超過(guò)±3 SD的樣本
    3、刪除有親緣關(guān)系的樣本
  • 親緣關(guān)系可以用identity by state(IBS)來(lái)衡量属愤,計(jì)算之前首先要保證SNP是相互獨(dú)立的女器,這就要先把基因組中連鎖區(qū)域的SNP去掉(如HLA區(qū)域的SNP),一般設(shè)置滑動(dòng)窗口(如 50 kb)住诸,計(jì)算該窗口內(nèi)的SNP連鎖率晓避,將大于閾值(一般設(shè)置r2 > 0.2)的SNP都去掉。
  • 一般IBS=1認(rèn)為是同一個(gè)樣本或同卵雙胞胎只壳,IBD = 0.5是一級(jí)親屬,IBD = 0.25是二級(jí)親屬暑塑,IBD = 0.125是三級(jí)親屬吼句,另外有可能是樣本污染或者分型錯(cuò)誤導(dǎo)致。一般設(shè)置閾值為IBD > 0.1875事格。
    4惕艳、人群層次矯正
  • 混雜因素是造成case-control差異的主要原因,特別是人群層次(population stratification)驹愚。
  • 校正人群層次方法最常用的是組成分分析(principal component analysis (PCA))远搪,PCA將高維的數(shù)據(jù)提取為低維數(shù)據(jù),以便用幾個(gè)主成分來(lái)代表整個(gè)數(shù)據(jù)逢捺。
  • 一般將前10個(gè)PCA成分作為協(xié)變量加入后面的關(guān)聯(lián)分析模型谁鳍,但是加入幾個(gè)根據(jù)經(jīng)驗(yàn)調(diào)整。
位點(diǎn)的質(zhì)控(Per-marker QC)

位點(diǎn)質(zhì)控是GWAS成功與否的核心,因?yàn)榭赡軙?huì)把與疾病相關(guān)的SNP位點(diǎn)刪掉倘潜。
1绷柒、刪除缺失率過(guò)高的SNP位點(diǎn)
根據(jù)情況可以設(shè)置閾值為95%-98%。一般先設(shè)置個(gè)寬松的閾值涮因,如0.2废睦,經(jīng)過(guò)樣本質(zhì)控后再設(shè)置比較嚴(yán)格的閾值,如0.02
2养泡、刪除偏離哈迪溫伯格平衡的SNP位點(diǎn)(HWE)
偏離HWE的SNP位點(diǎn)可能是分型錯(cuò)誤嗜湃,但是case中偏離HWE的位點(diǎn)可能與表型相關(guān),因此case和control閾值不一樣澜掩。一般case設(shè)置為1e-6购披,control設(shè)置為1e-10;對(duì)于較小的數(shù)據(jù)可以設(shè)置為1e10-5输硝。plink軟件會(huì)自動(dòng)只對(duì)control進(jìn)行HWE質(zhì)控今瀑。
3、刪除case和control中缺失率不同的SNP位點(diǎn)
case和control中缺失率不同可能意味著case和control不是一批做出來(lái)的点把,刪除這種位點(diǎn)可以有效減少混雜因素的影響橘荠。
4、刪除等位基因頻率(MAF)較小的SNP位點(diǎn)
芯片中MAF較小的SNP由于算法原因錯(cuò)誤率較高郎逃,因此一般將MAF 1–2%以下的刪除哥童,但是樣本量較小的話該閾值要提高,樣本量小分型的準(zhǔn)確度就小褒翰。另外MAF較小的位點(diǎn)不適用關(guān)聯(lián)分析的統(tǒng)計(jì)方法贮懈。

候選基因方法研究的質(zhì)控(Candidate-gene association)
  • 候選基因方法研究的質(zhì)控與GWAS不同,GWAS研究中99%的SNP位點(diǎn)與表型都無(wú)關(guān)优训,這些位點(diǎn)可以用來(lái)發(fā)現(xiàn)混雜因素朵你,但是候選基因方法就不行。候選基因方法的SNP位點(diǎn)經(jīng)過(guò)選擇揣非,本身位點(diǎn)較少抡医,與表型無(wú)關(guān)的SNP也較少,因此不能通過(guò)位點(diǎn)的分型失敗率和雜合率來(lái)評(píng)估DNA質(zhì)量早敬,群體信息和親緣關(guān)系也沒(méi)法評(píng)估忌傻。
  • 可以進(jìn)行的是對(duì)樣本的質(zhì)控,但是閾值需要根據(jù)SNP的數(shù)量進(jìn)行調(diào)整搞监。
  • 如果實(shí)驗(yàn)樣本與GWAS樣本數(shù)量類(lèi)似水孩,仍然可以采用GWAS對(duì)位點(diǎn)的過(guò)濾方法
  • 缺失率>5%,最好是檢測(cè)分型的方法是否有問(wèn)題琐驴,control中對(duì)HWE的過(guò)濾也可以執(zhí)行俘种。
基因型填補(bǔ)(imputation)

待補(bǔ)充

填補(bǔ)后質(zhì)控(Post-imputation quality control)
  • 千人基因組大概有83 million變異位點(diǎn)秤标,經(jīng)過(guò)填補(bǔ)后有許多質(zhì)量不好的位點(diǎn),需要過(guò)濾掉安疗。
  • 去除MAF = 0的位點(diǎn)
  • 去除MAF<0.01 和 info>0.3的位點(diǎn)抛杨。info值用來(lái)衡量填充位點(diǎn)的質(zhì)量,一般較差的位點(diǎn)info <0.15荐类,較好的位點(diǎn)info >0.85怖现。所以過(guò)濾閾值一般在0.15-0.85之間。對(duì)于同一個(gè)位點(diǎn)來(lái)說(shuō)玉罐,MAF值越小屈嗤,info值也越小〉跏洌可以將MFA值和info值畫(huà)出柱狀圖饶号,找到一個(gè)比較好的閾值進(jìn)行過(guò)濾。
  • 去除缺失率過(guò)多的位點(diǎn)(98%以上)
相關(guān)軟件

PLINK, GenABEL, GS2季蚂、snpMatrix

參考:Anderson CA, Pettersson FH, Clarke GM, Cardon LR, Morris AP, Zondervan KT. Data quality control in genetic case-control association studies. Nat Protoc 2010; 5: 1564-1573.
Marees AT, de Kluiver H, Stringer S, Vorspan F, Curis E, Marie-Claire C et al. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. Int J Meth Psych Res 2018; 27: e1608.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末茫船,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子扭屁,更是在濱河造成了極大的恐慌算谈,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件料滥,死亡現(xiàn)場(chǎng)離奇詭異然眼,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)葵腹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)高每,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人践宴,你說(shuō)我怎么就攤上這事鲸匿。” “怎么了阻肩?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵晒骇,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我磺浙,道長(zhǎng),這世上最難降的妖魔是什么徒坡? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任撕氧,我火速辦了婚禮,結(jié)果婚禮上喇完,老公的妹妹穿的比我還像新娘伦泥。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布不脯。 她就那樣靜靜地躺著府怯,像睡著了一般。 火紅的嫁衣襯著肌膚如雪防楷。 梳的紋絲不亂的頭發(fā)上牺丙,一...
    開(kāi)封第一講書(shū)人閱讀 48,954評(píng)論 1 283
  • 那天,我揣著相機(jī)與錄音复局,去河邊找鬼冲簿。 笑死,一個(gè)胖子當(dāng)著我的面吹牛亿昏,可吹牛的內(nèi)容都是我干的峦剔。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼角钩,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼吝沫!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起递礼,我...
    開(kāi)封第一講書(shū)人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤惨险,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后宰衙,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體平道,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年供炼,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了一屋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡袋哼,死狀恐怖冀墨,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情涛贯,我是刑警寧澤诽嘉,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站弟翘,受9級(jí)特大地震影響虫腋,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜稀余,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一悦冀、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧睛琳,春花似錦盒蟆、人聲如沸踏烙。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)讨惩。三九已至,卻和暖如春寒屯,著一層夾襖步出監(jiān)牢的瞬間荐捻,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工浩螺, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留靴患,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓要出,卻偏偏與公主長(zhǎng)得像鸳君,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子患蹂,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容