為什么要做LDSC
通過GWAS分析可以識(shí)別到與表型相關(guān)的SNP位點(diǎn)扛邑,然而嚴(yán)格來講剑鞍,這個(gè)結(jié)果并不一定真實(shí)客觀的描述遺傳因素對(duì)表型的效應(yīng)昨凡,因?yàn)槠浣Y(jié)果是由以下兩個(gè)因素共同構(gòu)成的:
polygenic effects, 基因?qū)Ρ硇偷男?yīng)
confounding factors, 混淆因素,比如群落分層蚁署,樣本間隱藏的親緣關(guān)系等等
盡管我們?cè)贕WAS分析中便脊,可以通過協(xié)變量來校正群落分層等因素,但是混淆因素是無法完全消除的光戈。為了保證分析結(jié)果的準(zhǔn)確性哪痰,我們就需要評(píng)估GWAS分析結(jié)果中以上兩個(gè)因素的占比遂赠,只有當(dāng)混淆因素占比很低時(shí),才能說明我們的分析結(jié)果是可靠的晌杰,此時(shí)我們就可以通過LDSC來探究這個(gè)混淆因素的占比跷睦。
什么是LDSC
LDSC本質(zhì)是一個(gè)線性回歸,其輸入數(shù)據(jù)為GWAS的分析結(jié)果肋演,回歸的自變量為SNP位點(diǎn)的LD score值抑诸,因變量是該算法的核心,自定義的一個(gè)符合卡方分布的統(tǒng)計(jì)量爹殊,通過線性回歸擬合LD score和卡方統(tǒng)計(jì)量的關(guān)系蜕乡,從而判斷GWAS分析結(jié)果中是否存在混淆因素。
首先來看下自變量LD score, 對(duì)于一個(gè)SNP位點(diǎn)j梗夸,其LD score定義該位點(diǎn)與其鄰近位點(diǎn)的連鎖不平衡R2的總和晾嘶,公式如下
然后再來看下因變量痒筒,公式如下
其中N為樣本總數(shù)号杠,M為窗口內(nèi)的其他SNP位點(diǎn)數(shù)朴爬,h2是遺傳力,這幾個(gè)值為常數(shù)惰帽,從公式可以看出憨降,卡方統(tǒng)計(jì)量和LD score之間是一個(gè)線性關(guān)系,而且對(duì)應(yīng)到圖像上该酗,其截距為1授药。上述公式是只考慮遺傳效應(yīng)的前提下得到,如果存在混淆因素呜魄,那么最后的截距就不是1了悔叽。
應(yīng)用
通過LDSC回歸分析的截距,可以判斷GWAS結(jié)果中是否存在混淆因素爵嗅。如果截距在1附近娇澎,說明沒有混淆因素,如果解決超過這個(gè)范圍睹晒,說明有混淆因素的存在趟庄。同時(shí)公式中涉及到了遺傳力,通過LDSC也可以評(píng)估遺傳力的大小伪很。
針對(duì)單個(gè)表型的GWAS分析戚啥,LDSC可以鑒定是否存在混淆因素,估計(jì)遺傳力的大酗笔浴猫十;對(duì)于多個(gè)表型,則可以根據(jù)對(duì)應(yīng)的卡方統(tǒng)計(jì)量,計(jì)算表型間的遺傳相似度拖云。
我們經(jīng)常在scATAC-seq的文章中看到的這種熱圖就代表了每種細(xì)胞類型特異的峰所富集的LDSC GWAS-SNP的顯著性贷笛,每行代表一個(gè)GWAS study的SNP集合,每一列代表一種細(xì)胞類型特異的peaks
代碼
http://www.github.com/bulik/ldsc
參考
https://blog.csdn.net/weixin_43569478/article/details/108079805