前言技竟,今天剛好在群里看到有人問“請(qǐng)問10X一個(gè)樣本測(cè)多少個(gè)G比較好”,群主給出了答復(fù)屈藐,但是我對(duì)300這個(gè)數(shù)怎么來(lái)的還是不理解榔组,出于好奇心,于是去查了一些資料联逻,最終理清楚了搓扯。
問題來(lái)源:
正文
首先,需要明確一點(diǎn): 數(shù)據(jù)量大小其實(shí)就是堿基的個(gè)數(shù)包归。
那么锨推,數(shù)據(jù)量大小的計(jì)算方法是:
1. 單端測(cè)序
數(shù)據(jù)量=reads長(zhǎng)度 * reads個(gè)數(shù) (reads長(zhǎng)度很容易得知,reads個(gè)數(shù)等于測(cè)序所得到的fastq文件的總reads數(shù))
2. 雙端測(cè)序
數(shù)據(jù)量=單端reads長(zhǎng)度 * 單端reads個(gè)數(shù) * 2
通常測(cè)序數(shù)據(jù)量的單位都是用“G"表示公壤,例如1G换可。需要強(qiáng)調(diào)的是,這里所說(shuō)的G不是說(shuō)測(cè)序文件在硬盤上的大小為1G厦幅,而是表示10億個(gè)堿基沾鳄。這是如何計(jì)算的呢?
首先确憨,我們需要知道1個(gè)堿基=1 byte 洞渔;
其次是,1kb=10^3 byte 1M=10^6 byte 1G=10^9 byte缚态。
所以磁椒,1G的數(shù)據(jù)量=10^9=10億個(gè)堿基。
此外玫芦,測(cè)序數(shù)據(jù)量還有另外一種表示方式浆熔,即cluster。一個(gè)cluster表示一個(gè)DNA片段(對(duì)于RNA-seq桥帆,則表示一個(gè)片段化后的RNA分子)医增。比如說(shuō)某一個(gè)樣本測(cè)序數(shù)據(jù)量為30M 的 cluster。如果采用雙端測(cè)序技術(shù)老虫,每個(gè)cluster從兩端都測(cè)一次叶骨,每次測(cè)150bp, 所以就會(huì)得到30M * 2=60M的reads數(shù),然后reads數(shù)乘以每條read的長(zhǎng)度就是我們最后的測(cè)序數(shù)據(jù)量(堿基數(shù))祈匙,即為60M * 150=9G的堿基數(shù)忽刽。
我們知道了測(cè)序數(shù)據(jù)量是如何計(jì)算的天揖,那么問題來(lái)了,對(duì)于一個(gè)測(cè)序樣本跪帝,需要測(cè)多少G 的數(shù)據(jù)量才能滿足實(shí)驗(yàn)要求呢今膊?要回答這個(gè)問題,首先要搞清楚幾個(gè)概念伞剑。
1.測(cè)序深度(Sequencing depth):是指測(cè)序得到的堿基總量(bp)與基因組大小的比值斑唬,即測(cè)序深度=數(shù)據(jù)量大小 / 參考基因組大小±杵或者理解為基因組中每個(gè)堿基被測(cè)序到的平均次數(shù)恕刘。
2. 測(cè)序覆蓋度(Sequencing coverage):是指測(cè)序獲得的序列占整個(gè)基因組的比例∈阋校或者可以理解為基因組上至少被檢測(cè)到1次的區(qū)域(或者是堿基)雪营,占整個(gè)基因組的比例。
通常來(lái)說(shuō)衡便,測(cè)序深度與基因組覆蓋度之間是一個(gè)正相關(guān)的關(guān)系献起,測(cè)序帶來(lái)的錯(cuò)誤率或假陽(yáng)性結(jié)果會(huì)隨著測(cè)序深度的提升而下降。在測(cè)序過(guò)程中镣陕,10X的測(cè)序深度就能夠滿足基本的實(shí)驗(yàn)?zāi)康摹?/p>
以上是一些背景知識(shí)谴餐,回歸正題,當(dāng)我們想做一個(gè)單細(xì)胞樣本的測(cè)序呆抑,該測(cè)多少數(shù)據(jù)量呢岂嗓?以10X為例。
10X官方有PBMC單細(xì)胞測(cè)試數(shù)據(jù)鹊碍,4000K細(xì)胞厌殉,每個(gè)細(xì)胞平均是50K的reads。
我們一般都在公司測(cè)序侈咕,那么公司的人一定會(huì)推薦你每個(gè)樣本是3~8K細(xì)胞公罕,平均每個(gè)細(xì)胞15-50K的reads這樣的測(cè)序策略 。
以上我們就知道了對(duì)于單個(gè)單細(xì)胞樣本耀销,平均每個(gè)細(xì)胞需要測(cè)序的reads數(shù)楼眷,即15-50K reads/cell,通常為50K reads/cell熊尉。
為了得到總的數(shù)據(jù)量罐柳,我們必須還要知道reads長(zhǎng)度,因?yàn)槲覀兊挠?jì)算公式就是
雙端測(cè)序:數(shù)據(jù)量=單端reads長(zhǎng)度 * 單端reads個(gè)數(shù) * 2
為了知道reads長(zhǎng)度狰住,我們就不得不去查一查张吉,10X單細(xì)胞測(cè)序的測(cè)序模式是什么。查閱得知催植,其測(cè)序模式為PE150肮蛹。這里的PE150就是指雙端測(cè)序勺择,每條read長(zhǎng)度150bp
那有同學(xué)就肯定會(huì)問了,那單端測(cè)序呢蔗崎,舉例:SE150扰藕,即 單端測(cè)序,每條read長(zhǎng)度150bp邓深。
知道了這些,那最開始的那個(gè)問題就解決啦芥备。
由于做的是10X單個(gè)單細(xì)胞樣本冬耿,測(cè)序模式為PE150。單個(gè)細(xì)胞需測(cè)序的reads數(shù)推薦為50K reads/cell萌壳,以10,000細(xì)胞為例。
數(shù)據(jù)量=150 * 50 * 1000 * 10000 * 2 = 300 * 50000 * 10000 = 150G
參考:如何估算測(cè)序數(shù)據(jù)量袱瓮?
說(shuō)清楚你的單細(xì)胞轉(zhuǎn)錄組課題多少個(gè)樣品,測(cè)序數(shù)據(jù)量如何
測(cè)多少數(shù)據(jù)量尺借?幾個(gè)G绊起?多少reads?如何換算燎斩?