對(duì)于單個(gè)單細(xì)胞樣本棚辽,多少的測(cè)序數(shù)據(jù)量才合適

前言技竟,今天剛好在群里看到有人問“請(qǐng)問10X一個(gè)樣本測(cè)多少個(gè)G比較好”,群主給出了答復(fù)屈藐,但是我對(duì)300這個(gè)數(shù)怎么來(lái)的還是不理解榔组,出于好奇心,于是去查了一些資料联逻,最終理清楚了搓扯。

問題來(lái)源:


問題

正文

首先,需要明確一點(diǎn): 數(shù)據(jù)量大小其實(shí)就是堿基的個(gè)數(shù)包归。
那么锨推,數(shù)據(jù)量大小的計(jì)算方法是:
1. 單端測(cè)序
數(shù)據(jù)量=reads長(zhǎng)度 * reads個(gè)數(shù) (reads長(zhǎng)度很容易得知,reads個(gè)數(shù)等于測(cè)序所得到的fastq文件的總reads數(shù))

2. 雙端測(cè)序
數(shù)據(jù)量=單端reads長(zhǎng)度 * 單端reads個(gè)數(shù) * 2
通常測(cè)序數(shù)據(jù)量的單位都是用“G"表示公壤,例如1G换可。需要強(qiáng)調(diào)的是,這里所說(shuō)的G不是說(shuō)測(cè)序文件在硬盤上的大小為1G厦幅,而是表示10億個(gè)堿基沾鳄。這是如何計(jì)算的呢?
首先确憨,我們需要知道1個(gè)堿基=1 byte 洞渔;
其次是,1kb=10^3 byte 1M=10^6 byte 1G=10^9 byte缚态。
所以磁椒,1G的數(shù)據(jù)量=10^9=10億個(gè)堿基。
此外玫芦,測(cè)序數(shù)據(jù)量還有另外一種表示方式浆熔,即cluster。一個(gè)cluster表示一個(gè)DNA片段(對(duì)于RNA-seq桥帆,則表示一個(gè)片段化后的RNA分子)医增。比如說(shuō)某一個(gè)樣本測(cè)序數(shù)據(jù)量為30M 的 cluster。如果采用雙端測(cè)序技術(shù)老虫,每個(gè)cluster從兩端都測(cè)一次叶骨,每次測(cè)150bp, 所以就會(huì)得到30M * 2=60M的reads數(shù),然后reads數(shù)乘以每條read的長(zhǎng)度就是我們最后的測(cè)序數(shù)據(jù)量(堿基數(shù))祈匙,即為60M * 150=9G的堿基數(shù)忽刽。

我們知道了測(cè)序數(shù)據(jù)量是如何計(jì)算的天揖,那么問題來(lái)了,對(duì)于一個(gè)測(cè)序樣本跪帝,需要測(cè)多少G 的數(shù)據(jù)量才能滿足實(shí)驗(yàn)要求呢今膊?要回答這個(gè)問題,首先要搞清楚幾個(gè)概念伞剑。

1.測(cè)序深度(Sequencing depth):是指測(cè)序得到的堿基總量(bp)與基因組大小的比值斑唬,即測(cè)序深度=數(shù)據(jù)量大小 / 參考基因組大小±杵或者理解為基因組中每個(gè)堿基被測(cè)序到的平均次數(shù)恕刘。
2. 測(cè)序覆蓋度(Sequencing coverage):是指測(cè)序獲得的序列占整個(gè)基因組的比例∈阋校或者可以理解為基因組上至少被檢測(cè)到1次的區(qū)域(或者是堿基)雪营,占整個(gè)基因組的比例。

通常來(lái)說(shuō)衡便,測(cè)序深度與基因組覆蓋度之間是一個(gè)正相關(guān)的關(guān)系献起,測(cè)序帶來(lái)的錯(cuò)誤率或假陽(yáng)性結(jié)果會(huì)隨著測(cè)序深度的提升而下降。在測(cè)序過(guò)程中镣陕,10X的測(cè)序深度就能夠滿足基本的實(shí)驗(yàn)?zāi)康摹?/p>

以上是一些背景知識(shí)谴餐,回歸正題,當(dāng)我們想做一個(gè)單細(xì)胞樣本的測(cè)序呆抑,該測(cè)多少數(shù)據(jù)量呢岂嗓?以10X為例。
10X官方有PBMC單細(xì)胞測(cè)試數(shù)據(jù)鹊碍,4000K細(xì)胞厌殉,每個(gè)細(xì)胞平均是50K的reads。
我們一般都在公司測(cè)序侈咕,那么公司的人一定會(huì)推薦你每個(gè)樣本是3~8K細(xì)胞公罕,平均每個(gè)細(xì)胞15-50K的reads這樣的測(cè)序策略 。

以上我們就知道了對(duì)于單個(gè)單細(xì)胞樣本耀销,平均每個(gè)細(xì)胞需要測(cè)序的reads數(shù)楼眷,即15-50K reads/cell,通常為50K reads/cell熊尉。

為了得到總的數(shù)據(jù)量罐柳,我們必須還要知道reads長(zhǎng)度,因?yàn)槲覀兊挠?jì)算公式就是
雙端測(cè)序:數(shù)據(jù)量=單端reads長(zhǎng)度 * 單端reads個(gè)數(shù) * 2

為了知道reads長(zhǎng)度狰住,我們就不得不去查一查张吉,10X單細(xì)胞測(cè)序的測(cè)序模式是什么。查閱得知催植,其測(cè)序模式為PE150肮蛹。這里的PE150就是指雙端測(cè)序勺择,每條read長(zhǎng)度150bp
那有同學(xué)就肯定會(huì)問了,那單端測(cè)序呢蔗崎,舉例:SE150扰藕,即 單端測(cè)序,每條read長(zhǎng)度150bp邓深。

知道了這些,那最開始的那個(gè)問題就解決啦芥备。
由于做的是10X單個(gè)單細(xì)胞樣本冬耿,測(cè)序模式為PE150。單個(gè)細(xì)胞需測(cè)序的reads數(shù)推薦為50K reads/cell萌壳,以10,000細(xì)胞為例。

數(shù)據(jù)量=150 * 50 * 1000 * 10000 * 2 = 300 * 50000 * 10000 = 150G

參考:如何估算測(cè)序數(shù)據(jù)量袱瓮?
說(shuō)清楚你的單細(xì)胞轉(zhuǎn)錄組課題多少個(gè)樣品,測(cè)序數(shù)據(jù)量如何
測(cè)多少數(shù)據(jù)量尺借?幾個(gè)G绊起?多少reads?如何換算燎斩?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末虱歪,一起剝皮案震驚了整個(gè)濱河市栅表,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌怪瓶,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件铐尚,死亡現(xiàn)場(chǎng)離奇詭異哆姻,居然都是意外死亡宣增,警方通過(guò)查閱死者的電腦和手機(jī)矛缨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門帖旨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)灵妨,“玉大人,你說(shuō)我怎么就攤上這事泌霍。” “怎么了朱转?”我有些...
    開封第一講書人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵藤为,是天一觀的道長(zhǎng)怪与。 經(jīng)常有香客問我缅疟,道長(zhǎng),這世上最難降的妖魔是什么茎杂? 我笑而不...
    開封第一講書人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任纫雁,我火速辦了婚禮,結(jié)果婚禮上轧邪,老公的妹妹穿的比我還像新娘。我一直安慰自己忌愚,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開白布院水。 她就那樣靜靜地躺著,像睡著了一般简十。 火紅的嫁衣襯著肌膚如雪檬某。 梳的紋絲不亂的頭發(fā)上螟蝙,一...
    開封第一講書人閱讀 49,007評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音场斑,去河邊找鬼。 笑死漏隐,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的青责。 我是一名探鬼主播,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼吴菠,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼浩村!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起心墅,我...
    開封第一講書人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤榨乎,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后蜜暑,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡隐绵,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年拙毫,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片峭跳。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡缺前,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出衅码,到底是詐尸還是另有隱情,我是刑警寧澤肆良,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布逸绎,位于F島的核電站夭谤,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏朗儒。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一乏悄、第九天 我趴在偏房一處隱蔽的房頂上張望恳不。 院中可真熱鬧檩小,春花似錦烟勋、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)丛塌。三九已至畜疾,卻和暖如春赴邻,著一層夾襖步出監(jiān)牢的瞬間庸疾,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工徒溪, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人臊泌。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓揍拆,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子播揪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容