前幾回通過動手操作大概了解了K-mer是怎么一回事了庇楞,這一回稍微深入一下榜配,透過現(xiàn)象看本質(zhì),看一下K-mer背后的數(shù)學(xué)原理吕晌。耐心看完的話其實也不需要什么講解蛋褥,應(yīng)該大概都能看懂的。
5.1. 基本參數(shù)
基因組大芯Σ怠:G
Read讀長:L
總Read條數(shù):n_r
5.2 堿基深度分布
單條Read測序覆蓋到某一個堿基的概率:L/G
因為L/G很小烙心,n_r很大,每個堿基覆蓋深度服從泊松分布乏沸。
則每個堿基的覆蓋深度的期望為:d_n=(L/G) x n_r
5.3 K-mer深度分布
假設(shè)基因組對K是unique的淫茵,可以得到G個不同的K-mer。
基因長度和K-mer種類等同
單條Read測序覆蓋某個K-mer的概率:(L-K+1)/G
L-K+1相當(dāng)于單條read產(chǎn)生的K-mer個數(shù)
同樣因為(L-K+1)/G很小蹬跃,n_r很大匙瘪,每個K-mer的覆蓋深度服從泊松分布。
則每個K-mer的覆蓋深度的期望為:d_k=((L-K+1)/G) x n_r
5.4. 通過K-mer分布估計基因組大小
可知總K-mer個數(shù):n_k=(L-K+1) x n_r
通過統(tǒng)計K-mer分布可知K-mer深度期望:d_k=((L-K+1)/G) x n_r
則基因組大小:G=n_k/d_k
5.5 堿基深度分布與K-mer深度分布的關(guān)系
d_n/d_k=L/(L-K+1)