在拿到一組snp數(shù)據(jù)時(shí),首先應(yīng)該想到要對(duì)snp數(shù)據(jù)的質(zhì)量進(jìn)行檢測(cè)和控制银酗。然后再考慮這組數(shù)據(jù)該怎么分析,如何分析。snp的質(zhì)控是非常重要的黍特,如果snp數(shù)據(jù)的質(zhì)量不佳蛙讥,那么計(jì)算的結(jié)果的有效性和準(zhǔn)確性就無法保證。即使后續(xù)分析的非常詳細(xì)衅澈,最后的結(jié)果也還是不理想的键菱,相當(dāng)于做了無用功。所以對(duì)snp質(zhì)控是至關(guān)重要的今布。那么如何對(duì)snp質(zhì)控呢经备,需要對(duì)那些指標(biāo)進(jìn)行指控呢?這都是需要注意的部默。
首先介紹一下需要對(duì)那些指標(biāo)進(jìn)行質(zhì)控侵蒙。
1.call rate(檢出率)
樣本檢出率:是指對(duì)于某種樣本而言,通過測(cè)序并成功判刑的snp與所有檢出的snp的比值傅蹂,通常標(biāo)準(zhǔn)在90%或以上纷闺。
snp檢出率:指對(duì)某個(gè)snp位點(diǎn)被成功檢測(cè)到的樣本與所有樣本比值,一般要求在90%或以上份蝴。
2.MAF(最小等位基因頻率)
最小等位基因頻率:對(duì)那些MAF較小的snp犁功,能得到信息量較少而且目前對(duì)這些snp檢出效率也不高,通常要求maf值在3%及以上婚夫。
3.HWE(哈迪—溫伯格平衡)
哈迪—溫伯格平衡:HWE有助于確定哪些有明顯基因分型錯(cuò)誤的snp浸卦,因此一般要求位點(diǎn)snp符合HWE.
知道了檢測(cè)的指標(biāo)一切就好辦了,接下來介紹一下各個(gè)指標(biāo)的質(zhì)控方法(利用plink軟件)
call rate >95%
plink --file snp -geno 0.05 --recode --out snp_geno? ?###這一步就是要求snp檢出率要在95%以上
plink --file snp_geno -mind 0.05 --recode --out snp_mind? ?##這步就是對(duì)樣本檢出率進(jìn)行質(zhì)控案糙,控制在95%以上
MAF>0.05
plink --file shp_mind -maf 0.05 --recode --out snp_maf? ?##這步是對(duì)最小等位基因頻率進(jìn)行質(zhì)控限嫌,要求要大于0.05.
Hardy—Weinbery < 0.0001
plink --file snp_maf -hwe 0.0001 --recode --out snp_hwe ####此步要求哈迪溫伯格平衡要小于0.0001。
好了时捌,看了上述的質(zhì)控流程怒医,基本上就能解決問題了,不過一步一步的來很繁瑣奢讨,可以把所有的過程合并到一起例如:
plink --file snp -geno 0.05 -mind 0.05 -maf 0.05 -hwe 0.0001 --recode --out snp_result? ? ?###這條稍微長(zhǎng)一點(diǎn)的命令就把所有指標(biāo)的全部都包含了可以一步就出來質(zhì)控結(jié)果稚叹。在生成的日志文件中可以查看質(zhì)控結(jié)果。
上述就是snp質(zhì)控的內(nèi)容拿诸,上述指標(biāo)和指標(biāo)閾值均是例子入录,如有需要請(qǐng)結(jié)合自己的數(shù)據(jù)情況選擇質(zhì)控指標(biāo)和質(zhì)控指標(biāo)的閾值。上述命令均為手打佳镜,復(fù)制使用時(shí)注意有空格和中英文標(biāo)點(diǎn)等問題僚稿。