一此虑、什么是LDSC阔拳?
-
LDSC纱烘,LD分?jǐn)?shù)回歸稳诚,2015年由
Brendan K Bulik-Sullivan
提出的方法载荔,旨在從樣本量日益增加的GWAS
結(jié)果的inflation
中辨別confounding
(混雜因素)還是polygenicity
(多基因效應(yīng))。
二采桃、LDSC模型介紹
- LDSC認(rèn)為懒熙,與
causal variant
處于LD的變異(即共享一定的遺傳背景),該變異位點(diǎn)的測試統(tǒng)計(jì)量會(huì)因?yàn)槠渑ccausal variant
的LD程度(通常以r2
表示)而升高普办,且這種升高是成比例的工扎。 - 與家系相關(guān)性(cryptic relatedness)或群體結(jié)構(gòu)(population stratification)導(dǎo)致的測試統(tǒng)計(jì)量膨脹不同,這些因素不依賴于LD衔蹲,而是由于共同遺傳背景肢娘、遺傳漂變等引起的統(tǒng)計(jì)量膨脹。這種膨脹不會(huì)與LD有相關(guān)性舆驶。
- 因此橱健,LDSC通過SNP的LD分?jǐn)?shù)構(gòu)建了一個(gè)線性模型,來表征測試統(tǒng)計(jì)量的膨脹情況沙廉。同時(shí)拘荡,還能計(jì)算該
trait
的遺傳力。
其中撬陵,為該SNP j 的LD score總和珊皿,左邊為的2,N為樣本量巨税,M為SNP數(shù)量蟋定,h2為該trait的遺傳力,a為混雜因素(confounding)草添。因此驶兜,它本質(zhì)上是個(gè)線性回歸模型,該模型有兩個(gè)未知數(shù) h2 和 a,通過擬合得到最適的 h2 和 a抄淑。
三犀盟、LDSC分析實(shí)踐
1、數(shù)據(jù)格式轉(zhuǎn)換
數(shù)據(jù)格式需要轉(zhuǎn)換成它要求的sumstat.gz
格式蝇狼,使用hapmap3的SNP進(jìn)行(LDSC提供了)
python munge_sumstats.py --sumstats ${gwas} \
--merge-alleles ${SNPlist} \
--chunksize 500000 \
--a1 A1 \
--a2 A2 \
--out ${gwas}_ldsc
# --a1 effect allele a2 is another allele
2阅畴、估計(jì)遺傳力及判斷confounding
對(duì)于連續(xù)性狀,只需如下計(jì)算
python ldsc.py --h2 ${gwas}_ldsc.sumstats.gz \
--ref-ld-chr ${REF_LD_CHR} \
--w-ld-chr ${REF_LD_CHR} \
--out ${gwas}_h2
# --ref-ld-chr 參考的LD score文件
對(duì)與二元性狀迅耘,即疾病性狀贱枣,需將其轉(zhuǎn)換成libility scale
python ldsc.py --h2 ${gwas}_ldsc.sumstats.gz \
--ref-ld-chr ${REF_LD_CHR} \
--w-ld-chr ${REF_LD_CHR} \
--out ${gwas}_h2 \
--samp-prev 0.297 \
--pop-prev 0.1
# --pop-prev 為患病率
# --samp-prev 該summary data中的患病率