雜合度 heterozygosity
某個(gè)位點(diǎn)的第個(gè)等位基因的樣本頻率為
赁豆,那么該位點(diǎn)所有等位基因的頻率和應(yīng)該是1。先考慮二倍體的雙等位基因相嵌,那就是
咨油。衡量單個(gè)多態(tài)位點(diǎn)變異(variation)的一個(gè)方法是計(jì)算樣本雜合度(heterozygosity)囚巴,公式如下:
在公式中原在,代表的是樣本中序列的數(shù)量。
上面這個(gè)公式是針對(duì)一個(gè)位點(diǎn)的彤叉,如果是正對(duì)一條序列的話庶柿,那其實(shí)就就是將整條序列的雜合度加起來(lái)即可。
其中表示的是分離位點(diǎn)的數(shù)量秽浇,
表示的是第
個(gè)分離位點(diǎn)的雜合度浮庐。在Wright-Fisher模型(無(wú)限位點(diǎn)的二倍體)下,
柬焕,因此有時(shí)這個(gè)統(tǒng)計(jì)量也叫
审残。我們需要注意的是在單態(tài)位點(diǎn)(monomorphic site)時(shí)雜合度是0。
先看這樣一個(gè)例子:
假設(shè)現(xiàn)在有4個(gè)樣本斑举,15個(gè)位點(diǎn)搅轿,但是只有6個(gè)位點(diǎn)是分離位點(diǎn),我們先計(jì)算每個(gè)分離位點(diǎn)的雜合度:
根據(jù)公式可知富玷,對(duì)分離位點(diǎn)1(圖中的第二列序列)璧坟,有兩個(gè)等為位點(diǎn),分別是T和C赎懦,其中T有3個(gè)雀鹃,C有1個(gè),那么對(duì)T來(lái)說(shuō)励两,它的頻率就是0.75黎茎,對(duì)C來(lái)說(shuō)它的頻率就是0.25。根據(jù)公式可得:
我們以此計(jì)算就能得到其他5個(gè)分離位點(diǎn)的雜合度分別為:0.667伐蒋,0.5工三,0.667,0.5先鱼,0.5。
那么就能計(jì)算值了:
但是我們通常關(guān)注的是每個(gè)位點(diǎn)的均值:
我們將的計(jì)算進(jìn)行推廣就能得到下面這個(gè)公式:
其中表示的是第
條序列和第
條序列之間不同核苷酸的數(shù)量奸鬓,分母表示的是
個(gè)序列之間進(jìn)行比較的唯一次數(shù)(非重復(fù)比較)”号希現(xiàn)在我們將這個(gè)公式應(yīng)用到上面的序列中。
現(xiàn)在是有4條序列串远,所以. 然后以此進(jìn)行比較:
第一條VS第二條:3個(gè)不同的核苷酸
第一條VS第三條:4個(gè)不同的核苷酸
第一條VS第四條:3個(gè)不同的核苷酸
第二條VS第三條:5個(gè)不同的核苷酸
第二條VS第四條:0個(gè)不同的核苷酸
第三條VS第四條:5個(gè)不同的核苷酸
所以,
需要注意的是當(dāng)數(shù)據(jù)量很大的時(shí)候,使用公式計(jì)算更快宏多。
正如前面說(shuō)到的儿惫,我們?cè)谟?jì)算序列之間的差異時(shí)通常是省略indel
將其變成缺失值進(jìn)行處理的。當(dāng)使用公式并且將
indel
變成缺失值時(shí)伸但,針對(duì)不同位點(diǎn)是不同的肾请。使用公式
的話,通常會(huì)省略gap位置更胖。
比如這個(gè)例子:
如果用第一個(gè)公式铛铁,那么,但是如果用第二個(gè)公式的話却妨,
饵逐。原因是第一個(gè)公式將
indel
當(dāng)作缺失值進(jìn)行處理,而第二個(gè)公式將indel
當(dāng)作gap直接省略了這些位點(diǎn)(哪怕是在這些位點(diǎn)并不是分離位點(diǎn))彪标。不同的公式給出的結(jié)果也不一樣倍权,尤其是正對(duì)平均的每個(gè)位點(diǎn)時(shí)。因此捞烟,在處理基因組這種大數(shù)據(jù)時(shí)薄声,通常使用這個(gè)公式。
我們可以把的期望方差表示成參數(shù)為
的函數(shù)题画。雖然在中性進(jìn)化模型下奸柬,這個(gè)參數(shù)沒(méi)啥用??。
如果沒(méi)有重組發(fā)生的話:
從公式可以看出婴程,和相關(guān)的方差很大廓奕,即使樣本很大時(shí),方差也不接近于0档叔。
通常叫
\pi
S
S
S$進(jìn)行校正:
對(duì)類似于Wright-Fisher模型處于平衡狀態(tài)且有無(wú)限突變位點(diǎn)的群體铃肯,也是
的估計(jì)量。
那么綜上:
將這個(gè)公式應(yīng)用到這個(gè)例子上:
可以看到這個(gè)公式得到的結(jié)果和前面公式計(jì)算得到的3.33很接近传蹈。
還是和前面說(shuō)的一樣押逼,遇到indel
不同的處理方式得到的結(jié)果不一樣:
- 如果將
indel
當(dāng)作缺失值進(jìn)行處理,那 - 如果將
indel
當(dāng)作gap進(jìn)行處理惦界,那
將這兩種不同方法得到的結(jié)果相加:
同樣挑格,我們可以用參數(shù)為的函數(shù)來(lái)表示
的期望方差(Wright-Fisher模型,沒(méi)有重組發(fā)生):
如果是自由重組的話沾歪,就只是前半部分漂彤。
還可以從這個(gè)公式推斷出:
我們通常會(huì)看到關(guān)于的兩種估計(jì)值:
和
,測(cè)序錯(cuò)誤等會(huì)造成不同的影響,因此通常需要兩個(gè)值都看挫望,還有更多的統(tǒng)計(jì)參數(shù)可以使用(如Tajima's D)立润。