在上篇文章中犯祠,我們著重介紹了Cell Ranger 進(jìn)行基因比對的理論模型榛瓮,還不太清楚的同學(xué)可以點擊鏈接進(jìn)行回顧:【 Cell Ranger 知多少(上)】
Cell Ranger 進(jìn)行細(xì)胞識別的算法直接影響了我們可以獲得的高質(zhì)量細(xì)胞的數(shù)量及數(shù)據(jù)質(zhì)量潘悼,那么本篇文章繼續(xù)為大家介紹 Cell Ranger 是如何進(jìn)行細(xì)胞計數(shù)回收的遣铝。
細(xì)胞識別的難點
在基于 droplet 方法的單細(xì)胞技術(shù)中,通常認(rèn)為含有細(xì)胞的液滴應(yīng)該含有更多的RNA顶捷,因此其在 UMI 總量上應(yīng)該與空細(xì)胞(背景噪音)存在明顯的區(qū)分(也就是我們常說的 barcodes 排序圖上的拐點)挂绰。然而實際上微滴間不同的擴(kuò)增效率會導(dǎo)致一些較小的細(xì)胞跟空細(xì)胞在 UMI 總數(shù)上是相近的,無法僅通過 UMI 總數(shù)很好地區(qū)分空細(xì)胞和非空細(xì)胞服赎。尤其當(dāng)樣本中混雜了不同大小的細(xì)胞葵蒂,例如在腫瘤樣本中一般混雜著體型較大的腫瘤細(xì)胞和較小的腫瘤浸潤淋巴細(xì)胞,浸潤淋巴細(xì)胞則較難與空細(xì)胞區(qū)分重虑。
為解決這一難題践付,Cell Ranger 的算法采用了兩步法分別基于 UMI 閾值識別高 RNA 含量細(xì)胞以及基于表達(dá)譜識別低 RNA 含量細(xì)胞。
Cell Ranger 兩步法
1. 第一步缺厉,選取一個 UMI 總數(shù)的閾值永高,所有大于這個閾值的 barcodes 被識別為細(xì)胞隧土。這一步保證了高 RNA 含量的 barcodes 被保留。****
具體的算法是:將 UMI 計數(shù)從高到低進(jìn)行排序命爬,根據(jù)預(yù)期細(xì)胞數(shù) N(軟件默認(rèn)N=3000)曹傀,排名前 N 個細(xì)胞中的 99 分位 UMI 數(shù)值記為 m,將所有 UMI 計數(shù)大于 m/10 這一閾值的 barcodes 標(biāo)記為高質(zhì)量細(xì)胞饲宛。
2. ****剩余未通過閾值的 barcodes 則進(jìn)行第二步的篩選皆愉,根據(jù)與空細(xì)胞 RNA 表達(dá)譜是否存在顯著差異來回收潛在的低 RNA 含量細(xì)胞。
此算法基于 Lun et al. 2019 年發(fā)表的算法 EmptyDrops艇抠。
a. 首先選取一組低 UMI 計數(shù)的 barcodes 作為背景集(來代表空細(xì)胞)幕庐,用這部分 barcodes 的表達(dá)譜構(gòu)建一個“背景模型”。**
Tips:構(gòu)建背景模型的 barcodes 的選燃矣佟:(1)低于一個 UMI 閾值 T 的所有 barcodes异剥,這個 T 需要足夠小,使其不會包含任何真細(xì)胞(注意此閾值 T 與 m/100 閾值的區(qū)別)絮重;(2)選取的 barcodes 數(shù)量要夠多冤寿,以滿足一個精確的背景模型計算。
具體的算法先計算了背景集所有 barcodes 中每個基因的 UMI 總數(shù)绿鸣,接著使用 Good-Turing smoothing 算法為所有的基因估算一個非零的概率(此算法的優(yōu)勢在于也可為那些沒有在背景集中被檢測到基因進(jìn)行估算疚沐,而這些基因可能會出現(xiàn)在真細(xì)胞的數(shù)據(jù)中),現(xiàn)在就得到了這個關(guān)于各個基因 UMI 計數(shù)的多項分布模型潮模。
b. 接著將在第一步驟中所有未被標(biāo)注為高質(zhì)量細(xì)胞的 barcodes 依次和背景模型相比較亮蛔,那些與背景模型存在顯著差異的細(xì)胞會被回收到高質(zhì)量細(xì)胞的行列。
具體的計算采用了 Monte Carlo 方法擎厢,在背景模型中進(jìn)行隨機(jī)抽樣究流,通過多次循環(huán)模擬計算得到某一 barcodes 計數(shù)的 p 值。
圖解實例
下圖是一群高 RNA 含量的 293T細(xì)胞和一群低 RNA 含量的 PBMC 細(xì)胞的混合樣本數(shù)據(jù)动遭》姨剑可以看到在被標(biāo)記為高質(zhì)量的部分出現(xiàn)了兩個群體(由第一個拐點A 大致分開),在第二個拐點 B 附近的區(qū)域同時包含空細(xì)胞和高質(zhì)量細(xì)胞厘惦,這部分細(xì)胞即為從第二步中回收出的細(xì)胞偷仿,圖片中顏色的深淺代表了局部高質(zhì)量細(xì)胞的比例。
所有被回收的高質(zhì)量細(xì)胞的矩陣宵蕉,會被輸出到 filtered_feature_bc_matrix 文件夾中酝静,根據(jù)矩陣信息進(jìn)行下游分析。以上就是 Cell Ranger 進(jìn)行細(xì)胞計數(shù)并回收的基本原理羡玛,你 get 了嗎别智?相對而言,本篇文章中的原理可能晦澀難懂了些稼稿,不完全理解也沒有關(guān)系薄榛。下篇文章讳窟,我們重點對 Cell Ranger 輸出的結(jié)果進(jìn)行解讀,相信一定能解開很多人的心頭困惑敞恋,敬請期待吧~