雜合度 heterozygosity
某個位點的第個等位基因的樣本頻率爲,那麼該位點所有等位基因的頻率和應該是1。先考慮二倍體的雙等位基因,那就是。衡量單個多態位點變異(variation)的一個方法是計算樣本雜合度(heterozygosity),公式如下:
在公式中,代表的是樣本中序列的數量。
上面這個公式是針對一個位點的,如果是正對一條序列的話,那其實就就是將整條序列的雜合度加起來即可。
其中表示的是分離位點的數量,表示的是第個分離位點的雜合度。在Wright-Fisher模型(無限位點的二倍體)下,,因此有時這個統計量也叫。我們需要注意的是在單態位點(monomorphic site)時雜合度是0。
先看這樣一個例子:
假設現在有4個樣本,15個位點,但是隻有6個位點是分離位點,我們先計算每個分離位點的雜合度:
根據公式可知,對分離位點1(圖中的第二列序列),有兩個等爲位點,分別是T和C,其中T有3個,C有1個,那麼對T來說,它的頻率就是0.75,對C來說它的頻率就是0.25。根據公式可得:
我們以此計算就能得到其他5個分離位點的雜合度分別爲:0.667,0.5,0.667,0.5,0.5。
那麼就能計算值了:
但是我們通常關注的是每個位點的均值:
我們將的計算進行推廣就能得到下面這個公式:
其中表示的是第條序列和第條序列之間不同核苷酸的數量,分母表示的是個序列之間進行比較的唯一次數(非重複比較)。現在我們將這個公式應用到上面的序列中。
現在是有4條序列,所以. 然後以此進行比較:
第一條VS第二條:3個不同的核苷酸
第一條VS第三條:4個不同的核苷酸
第一條VS第四條:3個不同的核苷酸
第二條VS第三條:5個不同的核苷酸
第二條VS第四條:0個不同的核苷酸
第三條VS第四條:5個不同的核苷酸
所以,
需要注意的是當數據量很大的時候,使用公式計算更快。
正如前面說到的,我們在計算序列之間的差異時通常是省略indel
將其變成缺失值進行處理的。當使用公式並且將indel
變成缺失值時,針對不同位點是不同的。使用公式的話,通常會省略gap位置。
比如這個例子:
如果用第一個公式,那麼,但是如果用第二個公式的話,。原因是第一個公式將indel
當作缺失值進行處理,而第二個公式將indel
當作gap直接省略了這些位點(哪怕是在這些位點並不是分離位點)。不同的公式給出的結果也不一樣,尤其是正對平均的每個位點時。因此,在處理基因組這種大數據時,通常使用這個公式。
我們可以把的期望方差表示成參數爲的函數。雖然在中性進化模型下,這個參數沒啥用😄。
如果沒有重組發生的話:
從公式可以看出,和相關的方差很大,即使樣本很大時,方差也不接近於0。
通常叫\piSSS$進行校正:
對類似於Wright-Fisher模型處於平衡狀態且有無限突變位點的羣體,也是的估計量。
那麼綜上:
將這個公式應用到這個例子上:
可以看到這個公式得到的結果和前面公式計算得到的3.33很接近。
還是和前面說的一樣,遇到indel
不同的處理方式得到的結果不一樣:
- 如果將
indel
當作缺失值進行處理,那 - 如果將
indel
當作gap進行處理,那
將這兩種不同方法得到的結果相加:
同樣,我們可以用參數爲的函數來表示的期望方差(Wright-Fisher模型,沒有重組發生):
如果是自由重組的話,就只是前半部分。
還可以從這個公式推斷出:
我們通常會看到關於的兩種估計值:和,測序錯誤等會造成不同的影響,因此通常需要兩個值都看,還有更多的統計參數可以使用(如Tajima's D)。