1.單端測序
數(shù)據(jù)量=reads長度 × reads個數(shù)
2.雙端測序
數(shù)據(jù)量=單端reads長度 × 單端reads個數(shù) * 2
通常測序數(shù)據(jù)量的單位都是用“G"表示惰瓜,例如1G表示10億個堿基重斑,換算關(guān)系為1Gb = 10^3 Mb = 10^6 Kb = 10^9 Base(注意此處的單位與數(shù)據(jù)存儲單位進(jìn)行區(qū)分)
此外米奸,測序數(shù)據(jù)量還有另外一種表示方式毙籽,即cluster奠滑。一個cluster表示一個DNA片段萄凤。比如說某一個樣本測序數(shù)據(jù)量為30M 的 cluster室抽,如果采用雙端測序技術(shù),每個cluster從兩端都測一次靡努,每次測150bp, 所以就會得到30M×2=60M的reads數(shù)坪圾,則測序數(shù)據(jù)量即為60M×150=9G的堿基數(shù)晓折。
3.測序深度(Sequencing depth)
是指測序得到的堿基總量(bp)與目標(biāo)基因組大小的比值,即測序深度=數(shù)據(jù)量大小 / 目標(biāo)基因組大小兽泄±旄牛或者理解為目標(biāo)基因組區(qū)間內(nèi)中每個堿基被測序到的平均次數(shù),如測序數(shù)據(jù)量為1G病梢,測序的基因組大小為1M胃珍,那么測序深度為1G/1M=1000×。
4.測序覆蓋度(Sequencing coverage)
是指測序獲得的序列占整個基因組的比例蜓陌∶僬茫或者可以理解為目標(biāo)基因組上至少被檢測到1次的區(qū)域(或者是堿基),占整個基因組的比例钮热。
由于基因組中的高GC填抬、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域隧期,這部分沒有獲得的區(qū)域就稱為Gap飒责。例如一個細(xì)菌基因組測序,覆蓋度是98%仆潮,那么還有2%的序列區(qū)域是沒有通過測序獲得的宏蛉。
測序深度與基因組覆蓋度之間是一個正相關(guān)的關(guān)系,測序帶來的錯誤率或假陽性結(jié)果會隨著測序深度的提升而下降性置。
測序深度和覆蓋度的示意圖如下
我們的期望是基因組上每個堿基至少被測序到3次(對SNP檢測來說拾并,一個位點(diǎn)至少要大于3次,才被認(rèn)為有效)的概率大于0.99蚌讼。那么多大的測序深度辟灰,才能滿足基因組中每個堿基被測序到3次的概率大于0.99。
假設(shè)基因組大小為G, 假定每次測序可從基因組任何位置上隨機(jī)檢測一個堿基篡石。那么對于基因組上某一個固定堿基位置芥喇,在一次測序(每測一個堿基為一次測序)中,該位置被命中的概率為P (P=1/G)凰萨。由于基因組 DNA 很長继控,在一次測序中每個堿基被檢測到的概率很小。如測序量為10G時胖眷,即進(jìn)行10^9次測序過程武通,每個堿基被檢測到的次數(shù)會顯著增加。我們知道珊搀,當(dāng)某事件出現(xiàn)的概率很小冶忱,而試驗次數(shù)N很大時,該事件符合泊松分布境析。泊松分布是一種離散型隨機(jī)變量的分布,它有一個特殊的性質(zhì)即期望和方差均為λ囚枪。泊松分布的概率由參數(shù)λ所確定派诬,N次試驗中出現(xiàn) x 次的概率為
在實際應(yīng)用中, 對于所觀察的稀有事件链沼,我們先利用樣本數(shù)據(jù)計算出平均值并用它來估計 λ默赂。由于測序深度就是每個堿基被檢測到的平均次數(shù),因此可以看作成λ括勺。根據(jù)這個公式缆八,我們把x看作特定堿基被測到的次數(shù),λ看作基因組的測序深度疾捍。在測序深度為10的情況下奈辰,根據(jù)公式 P(0)=e^(- λ)=e(-10)=4.5e(-05),幾乎不太可能測不到。一個堿基至少被測到一次的概率為1-P(0)≈1拾氓。一個堿基至少被測到3次的概率為 1-P( 0)-P( 1) - P( 2) >0.99冯挎。
從圖1可以看出,10X的測序深度咙鞍,能夠滿足基本的實驗?zāi)康摹?br> 因此只要確定了測序深度,測序數(shù)據(jù)量就很好計算了趾徽。數(shù)據(jù)量大小=測序深度*基因組大小续滋。
REF
Bentley D R, Balasubramanian S, Swerdlow H, et al. Accurate whole human genome sequencing using reversible terminator chemistry.[J]. Nature, 2008, 456(7218): 53-59.