NGS020 測序數(shù)據(jù)量估算

1.單端測序

數(shù)據(jù)量=reads長度 × reads個數(shù)

2.雙端測序

數(shù)據(jù)量=單端reads長度 × 單端reads個數(shù) * 2
通常測序數(shù)據(jù)量的單位都是用“G"表示惰瓜,例如1G表示10億個堿基重斑,換算關(guān)系為1Gb = 10^3 Mb = 10^6 Kb = 10^9 Base(注意此處的單位與數(shù)據(jù)存儲單位進(jìn)行區(qū)分)
此外米奸,測序數(shù)據(jù)量還有另外一種表示方式毙籽,即cluster奠滑。一個cluster表示一個DNA片段萄凤。比如說某一個樣本測序數(shù)據(jù)量為30M 的 cluster室抽,如果采用雙端測序技術(shù),每個cluster從兩端都測一次靡努,每次測150bp, 所以就會得到30M×2=60M的reads數(shù)坪圾,則測序數(shù)據(jù)量即為60M×150=9G的堿基數(shù)晓折。

3.測序深度(Sequencing depth)

是指測序得到的堿基總量(bp)與目標(biāo)基因組大小的比值,即測序深度=數(shù)據(jù)量大小 / 目標(biāo)基因組大小兽泄±旄牛或者理解為目標(biāo)基因組區(qū)間內(nèi)中每個堿基被測序到的平均次數(shù),如測序數(shù)據(jù)量為1G病梢,測序的基因組大小為1M胃珍,那么測序深度為1G/1M=1000×。

4.測序覆蓋度(Sequencing coverage)

是指測序獲得的序列占整個基因組的比例蜓陌∶僬茫或者可以理解為目標(biāo)基因組上至少被檢測到1次的區(qū)域(或者是堿基),占整個基因組的比例钮热。
由于基因組中的高GC填抬、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域隧期,這部分沒有獲得的區(qū)域就稱為Gap飒责。例如一個細(xì)菌基因組測序,覆蓋度是98%仆潮,那么還有2%的序列區(qū)域是沒有通過測序獲得的宏蛉。
測序深度與基因組覆蓋度之間是一個正相關(guān)的關(guān)系,測序帶來的錯誤率或假陽性結(jié)果會隨著測序深度的提升而下降性置。
測序深度和覆蓋度的示意圖如下

測序深度及覆蓋度

我們的期望是基因組上每個堿基至少被測序到3次(對SNP檢測來說拾并,一個位點(diǎn)至少要大于3次,才被認(rèn)為有效)的概率大于0.99蚌讼。那么多大的測序深度辟灰,才能滿足基因組中每個堿基被測序到3次的概率大于0.99。
假設(shè)基因組大小為G, 假定每次測序可從基因組任何位置上隨機(jī)檢測一個堿基篡石。那么對于基因組上某一個固定堿基位置芥喇,在一次測序(每測一個堿基為一次測序)中,該位置被命中的概率為P (P=1/G)凰萨。由于基因組 DNA 很長继控,在一次測序中每個堿基被檢測到的概率很小。如測序量為10G時胖眷,即進(jìn)行10^9次測序過程武通,每個堿基被檢測到的次數(shù)會顯著增加。我們知道珊搀,當(dāng)某事件出現(xiàn)的概率很小冶忱,而試驗次數(shù)N很大時,該事件符合泊松分布境析。泊松分布是一種離散型隨機(jī)變量的分布,它有一個特殊的性質(zhì)即期望和方差均為λ囚枪。泊松分布的概率由參數(shù)λ所確定派诬,N次試驗中出現(xiàn) x 次的概率為
泊松分布

在實際應(yīng)用中, 對于所觀察的稀有事件链沼,我們先利用樣本數(shù)據(jù)計算出平均值并用它來估計 λ默赂。由于測序深度就是每個堿基被檢測到的平均次數(shù),因此可以看作成λ括勺。根據(jù)這個公式缆八,我們把x看作特定堿基被測到的次數(shù),λ看作基因組的測序深度疾捍。在測序深度為10的情況下奈辰,根據(jù)公式 P(0)=e^(- λ)=e(-10)=4.5e(-05),幾乎不太可能測不到。一個堿基至少被測到一次的概率為1-P(0)≈1拾氓。一個堿基至少被測到3次的概率為 1-P( 0)-P( 1) - P( 2) >0.99冯挎。
image.png

從圖1可以看出,10X的測序深度咙鞍,能夠滿足基本的實驗?zāi)康摹?br> 因此只要確定了測序深度,測序數(shù)據(jù)量就很好計算了趾徽。數(shù)據(jù)量大小=測序深度*基因組大小续滋。

REF

Bentley D R, Balasubramanian S, Swerdlow H, et al. Accurate whole human genome sequencing using reversible terminator chemistry.[J]. Nature, 2008, 456(7218): 53-59.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市孵奶,隨后出現(xiàn)的幾起案子疲酌,更是在濱河造成了極大的恐慌,老刑警劉巖了袁,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件朗恳,死亡現(xiàn)場離奇詭異,居然都是意外死亡载绿,警方通過查閱死者的電腦和手機(jī)粥诫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來崭庸,“玉大人怀浆,你說我怎么就攤上這事∨孪恚” “怎么了执赡?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長函筋。 經(jīng)常有香客問我沙合,道長,這世上最難降的妖魔是什么跌帐? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任首懈,我火速辦了婚禮绊率,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘猜拾。我一直安慰自己即舌,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布挎袜。 她就那樣靜靜地躺著顽聂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪盯仪。 梳的紋絲不亂的頭發(fā)上紊搪,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天,我揣著相機(jī)與錄音全景,去河邊找鬼耀石。 笑死,一個胖子當(dāng)著我的面吹牛爸黄,可吹牛的內(nèi)容都是我干的滞伟。 我是一名探鬼主播,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼炕贵,長吁一口氣:“原來是場噩夢啊……” “哼梆奈!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起称开,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤亩钟,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后鳖轰,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體清酥,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年蕴侣,在試婚紗的時候發(fā)現(xiàn)自己被綠了焰轻。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡睛蛛,死狀恐怖鹦马,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情忆肾,我是刑警寧澤荸频,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站客冈,受9級特大地震影響旭从,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一和悦、第九天 我趴在偏房一處隱蔽的房頂上張望退疫。 院中可真熱鬧,春花似錦鸽素、人聲如沸褒繁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽棒坏。三九已至,卻和暖如春遭笋,著一層夾襖步出監(jiān)牢的瞬間坝冕,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工瓦呼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留喂窟,地道東北人。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓央串,卻偏偏與公主長得像磨澡,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子质和,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容