海量單細(xì)胞技術(shù)涉及到三大底層技術(shù):
- 微流控技術(shù)
- Barcode 技術(shù)
- UMI技術(shù)
故事要從第一屆單細(xì)胞培訓(xùn)班開始講起脓鹃,還記得在講完第一場(chǎng)單細(xì)胞技術(shù)簡(jiǎn)介及應(yīng)用之后勺远,問(wèn)大家有沒有什么問(wèn)題可以討論寺枉。有位老師問(wèn):請(qǐng)問(wèn)什么叫Barcode羞秤?
我們知道海量單細(xì)胞技術(shù)是在微孔或液滴中物理隔離單個(gè)細(xì)胞,在這個(gè)小格子中裂解細(xì)胞饭聚,釋放mRNA(或其他細(xì)胞內(nèi)小分子信息),這里第一步就是用Barcode來(lái)對(duì)每個(gè)小格子里面的細(xì)胞來(lái)加標(biāo)簽搁拙。目前的技術(shù)是把成千上萬(wàn)的Barcode種在一個(gè)磁珠上秒梳,把這個(gè)磁珠放到小格子里標(biāo)記細(xì)胞。
今天我們討論的就是這個(gè)barcode箕速。
- barcode 多長(zhǎng)是合理的酪碘?
- barcode之間的漢明距離對(duì)單細(xì)胞實(shí)驗(yàn)的影響
- barcode 還可以標(biāo)記其他生物信息嗎?可以弧满,已經(jīng)在用了婆跑。
作為一種標(biāo)記技術(shù),DNA條形碼(DNA barcode)是指生物體內(nèi)能夠代表該物種的庭呜、標(biāo)準(zhǔn)的滑进、有足夠變異的、易擴(kuò)增且相對(duì)較短的DNA片段募谎。DNA條形碼已經(jīng)成為生態(tài)學(xué)研究的重要工具扶关,不僅用于物種鑒定,同時(shí)也幫助生物學(xué)家進(jìn)一步了解生態(tài)系統(tǒng)內(nèi)發(fā)生的相互作用数冬。隨著時(shí)間的推移节槐,條形碼越來(lái)越多地用于追蹤單個(gè)細(xì)胞搀庶,并定量評(píng)估它們對(duì)克隆的貢獻(xiàn)。盡管條形碼定量完全依賴于計(jì)數(shù)測(cè)序讀數(shù)铜异,但對(duì)該方法準(zhǔn)確性的詳細(xì)研究仍然有限哥倔。
barcode 本質(zhì)上是一串堿基序列,如AAAAA揍庄、ATCAAGTTC等等咆蒿。作為細(xì)胞的標(biāo)簽,我們認(rèn)為這段分子標(biāo)簽至少要是穩(wěn)定的蚂子,如果是一段有許多GC堿基組成的序列沃测,那么它的穩(wěn)定性很可能達(dá)不到要求。這段分子標(biāo)簽要從細(xì)胞裂解食茎,經(jīng)過(guò)UMI標(biāo)記分子蒂破,RT,建庫(kù)測(cè)序别渔。所以我們?cè)谠O(shè)計(jì)這個(gè)段序列的時(shí)候附迷,要考慮它的用處。同時(shí)還要考慮它的可合成性哎媚。
另一個(gè)主要的問(wèn)題就是關(guān)于生產(chǎn)的挟秤,在固定了barcode的長(zhǎng)度之后,就要考慮合成什么樣的序列了抄伍,如果合成的序列太相似艘刚,就很可能把不同的磁珠標(biāo)記上一樣的barcede。這樣磁珠一旦形成截珍,就會(huì)使得不同的油滴或微孔形成帶有一樣的barcode攀甚,從而形成另一種雙細(xì)胞(不是一個(gè)微孔或者液滴包含兩個(gè)細(xì)胞的那種)。所以我們可以根據(jù)barcode的距離推斷這種可能性岗喉,衡量序列相似性的一種方法就是漢明距離秋度。
漢明距離是以理查德·衛(wèi)斯里·漢明的名字命名的。在信息論中钱床,兩個(gè)等長(zhǎng)字符串之間的漢明距離是兩個(gè)字符串對(duì)應(yīng)位置的不同字符的個(gè)數(shù)荚斯。換句話說(shuō),它就是將一個(gè)字符串變換成另外一個(gè)字符串所需要替換的字符個(gè)數(shù)查牌。下面我們來(lái)算一下幾個(gè)例子:
library(stringdist) # 至少你應(yīng)該知道我用的是R語(yǔ)言
stringdist('ATGCCTAA','ATGCCTAA', method = "hamming")
[1] 0
stringdist('AAAAAAAA','ATGCCTAA', method = "hamming")
[1] 5
stringdist('AAAAAACC','ATGCCTAA', method = "hamming")
[1] 7
那么barcode列表的最小漢明距離越大事期,那么這個(gè)系統(tǒng)就更加穩(wěn)定。目前市場(chǎng)上主流的兩款技術(shù)10X和新格元的barcode列表都是可以在其開源軟件查到的纸颜,所以可以比較一下兽泣。
新格元的barcode 列表在其定量軟件CeleScope軟件(可以在github或gitee)中的路徑是:CeleScope/celescope/data/chemistry/scopeV2.0.0 #新格元的barcode是組合起來(lái)的,具體可以閱讀CeleScope源碼了解其結(jié)構(gòu)胁孙。
10X 的定量軟件Cellranger(可在其官網(wǎng)下載)中Barcode列表在:cellranger-X.X.X/lib/python/cellranger/barcodes
分享一個(gè)粗略的方法來(lái)尋在其barcode的最小值:
seq1 = barcodelist
library(tidyverse)
min(unlist(map(1:10000,function(i){
x = sample(seq1,1)
y = sample(seq1,1)
while(x==y){y=sample(seq1,1)}
stringdist(x,y, method = "hamming")
})))
漢明距離的另一個(gè)應(yīng)用場(chǎng)景是用來(lái)做barcode的糾錯(cuò)唠倦,二代測(cè)序不是完美的測(cè)序技術(shù)肯定會(huì)有測(cè)錯(cuò)的情況称鳞,那么如何判斷測(cè)出來(lái)的序列是不是一個(gè)細(xì)胞的barcode呢?一般的方法是在其定量軟件里面內(nèi)置一個(gè)白名單稠鼻,拿測(cè)的序列和這個(gè)白名單比較冈止,來(lái)矯正barcode。對(duì)于沒有出現(xiàn)在白名單的barcode允許某個(gè)漢明距離的差異候齿。
所以在你的單細(xì)胞系統(tǒng)里面靶瘸,這些關(guān)鍵問(wèn)題思考全面了嗎?
Thielecke, L., Aranyossy, T., Dahl, A. et al. Limitations and challenges of genetic barcode quantification. Sci Rep 7, 43249 (2017). https://doi.org/10.1038/srep43249
https://bookdown.org/lambdamoses/museumst/current-techs.html
https://bioinformatics.stackexchange.com/questions/5183/why-are-there-more-barcodes-than-gems-in-10x-chromium-data
https://kb.10xgenomics.com/hc/en-us/articles/115003133812-How-does-cellranger-count-process-and-filter-UMIs-
https://kb.10xgenomics.com/hc/en-us/articles/115004037743-How-does-Cell-Ranger-correct-for-amplification-bias-
https://github.com/singleron-RD/CeleScope