本篇主要說了LD連鎖不平衡玻淑,LD的度量方法呀伙,直接關(guān)聯(lián)和間接關(guān)聯(lián)。原文還講了很多其他知識干像,我這邊并未全盤翻譯驰弄。請移步原文。理解LD對于GWAS結(jié)果分析是非常重要的戚篙。在得到GWAS結(jié)果之前,我們用的是基因型和表型的文件位喂,通過一定的軟件,選擇一定的統(tǒng)計(jì)學(xué)方法塑崖,得到關(guān)聯(lián)分析的結(jié)果。這一切操作都不涉及LD這個概念澜躺。但是抒蚜,后續(xù)篩選到的大量的SNP,如何找到致病基因操漠,就需要應(yīng)用LD這個原理了饿这。
文章來自:Chapter 11: Genome-Wide Association Studies
3.2 Linkage Disequilibrium
~
Linkage disequilibrium (LD) is a property of SNPs on a contiguous stretch of
genomic sequence that describes the degree to which an allele of one SNP is inherited or correlated with an allele of another SNP within a population
~
連鎖不平衡(LD)是基因組序列連續(xù)片段上SNP的屬性,其描述了一個SNP的等位基因在群體內(nèi)遺傳或與另一個SNP的等位基因相關(guān)的程度长捧。連鎖不平衡這一術(shù)語是由群體遺傳學(xué)家創(chuàng)造的,他們試圖用數(shù)學(xué)方法描述種群內(nèi)隨時間變化的遺傳變異。它與染色體連鎖的概念有關(guān)廓八,即一個染色體上的兩個標(biāo)記在一個家族的世代中保持物理連接。在圖2中声功,顯示了兩條創(chuàng)始人染色體(一條藍(lán)色宠叼,一條橙色)。家系內(nèi)的世代重組事件會導(dǎo)致染色體片段的斷裂冒冬。這種效應(yīng)在世代中被放大,在一個固定大小的種群中剂邮,在隨機(jī)交配時横侦,重復(fù)的隨機(jī)重組事件會打斷相鄰染色體的片段(包含連接等位基因)绰姻,直到最終群體中的所有等位基因都處于連接平衡或相互獨(dú)立引瀑。因此,群體尺度上標(biāo)記間的連鎖稱為連鎖不平衡憨栽。
(左圖時家系內(nèi)的連鎖概念徒像。兩個創(chuàng)始者的染色體的片段進(jìn)行了重組事件,然后锯蛀,又經(jīng)過多代的染色體重組,最終后代中的染色體含有多個被打碎重組的片段翔曲。然而劈愚,有一部分區(qū)段無論從祖先還是目前,都是緊密連鎖的菌羽。圖中的紅色部分。
再看右邊圖猾蒂,在一個群體中是晨,從第一代開始,創(chuàng)始者染色體上連鎖的區(qū)段被重組事件打破罩缴,縮小。隨著時間的推移烙荷,群體中染色體上的一對標(biāo)記從連鎖不平衡走向到連鎖平衡檬寂,這是因?yàn)橹亟M事件最終發(fā)生在染色體上的每一個可能的點(diǎn)之間)
LD的衰減率取決于多種因素,包括種群大小拿诸、種群中創(chuàng)始染色體的數(shù)量以及種群已經(jīng)存在的世代數(shù)。因此亩码,不同的人類亞群具有不同的LD程度和模式。非洲裔是LD最古老的祖先飒泻,由于該群體中重組事件的積累吏廉,LD的區(qū)域更小。歐洲人后裔和亞洲人后裔是由始創(chuàng)事件(從非洲人口中提取的染色體樣本)創(chuàng)造的席覆,它改變了始創(chuàng)染色體的數(shù)量、群體規(guī)模和群體的時代年齡聊倔。這些人口的平均LD區(qū)域比非裔群體大生巡。(從這段我們也可以明白,非洲人的歷史最早孤荣,經(jīng)過的歷史重組事件也最多,LD區(qū)域小钱豁。LD衰減程度最大遂庄,在這三個人群中)劲赠。
雖然已經(jīng)提出了許多LD的測量方法,但它們最終都與兩個等位基因(即雙標(biāo)記單倍型)的共出現(xiàn)頻率與兩個標(biāo)記獨(dú)立時的期望頻率之間的差異有關(guān)霹肝。連鎖不平衡的兩種常用測量方法是D '和r2塑煎,如公式1和2所示。在這些方程最铁,π ab是ab單倍型的頻率垮兑,π a:是a等位基因的頻率漱挎,π b:是b等位基因的頻率。D’是一種與標(biāo)記間重組事件相關(guān)的群體遺傳學(xué)度量私爷,其范圍為0和1膊夹。D'值為0表示完全連鎖平衡,這意味著在Hardy-Weinberg平衡原則下放刨,兩個標(biāo)記之間頻繁的重組和在統(tǒng)計(jì)學(xué)上具有獨(dú)立性。D'為1表示完全LD拓诸,表示群體內(nèi)兩個標(biāo)記之間沒有重組麻昼。為了遺傳分析的目的,LD通常是以r2(一種相關(guān)性的統(tǒng)計(jì)度量)來報(bào)告的抚芦。高r2值表明兩個SNP傳遞相似的信息,因?yàn)榈谝粋€SNP的一個等位基因經(jīng)常與第二個SNP的一個等位基因被觀察到尔崔,所以只需要對兩個SNP中的一個進(jìn)行基因分型就可以捕獲等位基因變異褥民。這兩個統(tǒng)計(jì)數(shù)據(jù)之間存在依賴關(guān)系;r2對兩個標(biāo)記的等位基因頻率敏感,并且只能在高D '區(qū)域高载弄。
與LD測量相關(guān)的一個經(jīng)常被遺忘的問題是撵颊,目前的技術(shù)不允許直接測量樣本中的單倍型頻率,因?yàn)槊總€SNP都是獨(dú)立的基因分型逞刷,而且每個等位基因的相位起源或染色體的起源是未知的。許多成熟的和有文獻(xiàn)記載的方法用于推斷單倍型相位和估計(jì)隨后的雙標(biāo)記單倍型頻率夸浅,一般會產(chǎn)生合理的結(jié)果。(這個意思好像和后面的基因型填補(bǔ)有關(guān)词身,基因型填補(bǔ)可以補(bǔ)充那些缺失的SNP標(biāo)記番枚。填充的推斷原理應(yīng)該就是根據(jù)連鎖不平衡來的,現(xiàn)在有好幾款軟件可以用于人類和非人類)葫笼。
被特異性選擇用來捕捉基因組附近位點(diǎn)變異的snp稱為tag snp路星,因?yàn)檫@些snp的等位基因標(biāo)記周圍的LD延伸。如前所述洋丐,LD的模式是特定于群體的,因此堤尾,為一個群體選擇的tag snp對于不同的群體可能不起作用迁客。LD被用來優(yōu)化遺傳研究,防止基因型snp提供多余的信息掷漱。根據(jù)HapMap項(xiàng)目的數(shù)據(jù)分析,歐洲后裔群體中80%的常見單核苷酸多態(tài)性可以通過分布在基因組中的50萬到100萬個單核苷酸多態(tài)性的子集獲得衔统。(感覺沒太看懂海雪,需要搜點(diǎn)別的資料)
3.3 Indirect Association
由于LD的存在,在GWAS中產(chǎn)生了兩種可能的積極結(jié)果棉浸。在第一個結(jié)果中刺彩,SNP影響一個生物系統(tǒng),最終導(dǎo)致表型改變创倔。這種情況下是直接進(jìn)行基因分型的,并且統(tǒng)計(jì)上與性狀相關(guān)霸妹。這被稱為直接關(guān)聯(lián)知押,而被分型的SNP有時也被稱為功能性SNP(functional SNP)。第二種可能性是台盯, influential SNP并沒有被分型,但是良价,與 influential SNP相處在一個高LD區(qū)域中的tag SNP被分型蒿叠,并在統(tǒng)計(jì)學(xué)上與表型相關(guān)(圖3),這被稱為間接關(guān)聯(lián)市咽。由于這兩種可能性,GWAS結(jié)果中一個顯著的SNP關(guān)聯(lián)曼验,不應(yīng)該被假定為因果變異粘姜,并且可能需要額外的研究來確定influential SNP的精確位置。
從概念上講豺裆,GWAS在常見疾病/常見變異假說下的最終結(jié)果是号显,一個由50萬到100萬個標(biāo)記組成的小組將識別與常見表型相關(guān)的常見snp。要進(jìn)行這樣的研究押蚤,實(shí)際上需要一種基因分型技術(shù),這種技術(shù)能夠以一種有效的方式準(zhǔn)確地捕獲研究中每個個體的50萬到100萬個snp的等位基因次屠。(翻譯不準(zhǔn),大致意思就是需要一個高通量的基因分型技術(shù)裸违,來獲得大量的SNP標(biāo)記)本昏。
(灰色的點(diǎn)是基因分型得到的SNP,紅色的是致病SNP怔昨。實(shí)際上宿稀,我們做GWAS的結(jié)果,很多不會得到我們想要的結(jié)果原叮,即直接關(guān)聯(lián)的SNP。我們通常由這個關(guān)聯(lián)到的SNP擂送,根據(jù)LD原理唯欣,在一個LD block區(qū)域內(nèi)尋找真正的致病SNP)。
括號內(nèi)容是我根據(jù)自己的理解加入的蟀拷。請盡量翻看原文萍聊。看文章不要看一篇寿桨,多看看幾篇就會理解了。