任何測量都要考慮精度和通量的問題包颁,生物測量亦如此瞻想。當(dāng)測序成本受到限制時(shí),通常需要在較大的細(xì)胞數(shù) & 較小數(shù)據(jù)量和較小的細(xì)胞數(shù) & 較大數(shù)據(jù)量之間進(jìn)行權(quán)衡娩嚼,那對于單細(xì)胞測序來講蘑险,細(xì)胞數(shù)和測序數(shù)據(jù)量對于分析結(jié)果有何影響呢?
2016 年 Heimberg et al 開發(fā)了一個(gè)公式岳悟,評估測序數(shù)據(jù)量對測序樣本區(qū)分能力的影響(測序數(shù)據(jù)量對主成分再現(xiàn)度的影響)佃迄。研究人員選擇了 19 個(gè)不同小鼠轉(zhuǎn)錄組數(shù)據(jù)(平均測序數(shù)據(jù)量 107 reads)泼差,分析發(fā)現(xiàn) 1% 的測序數(shù)據(jù)即可有效區(qū)分樣本(圖 1)。具體而言呵俏,當(dāng)測序數(shù)據(jù)量達(dá)到 55,000 reads/ 樣本時(shí)堆缘,前三個(gè)主成分(PC1、PC2柴信、PC3)再現(xiàn)度超過 80%套啤,而若使前九個(gè)主成分均達(dá)到 80%的準(zhǔn)確度,則需要 145,000 reads随常,進(jìn)一步增加測序深度對主成分精度的貢獻(xiàn)會遞減潜沦。
單細(xì)胞轉(zhuǎn)錄組測序的核心分析內(nèi)容構(gòu)建細(xì)胞圖譜,區(qū)分不同細(xì)胞類型绪氛,類似于 Bulk RNA-seq 中的樣本 PCA 分析唆鸡。為了分析測序數(shù)據(jù)對細(xì)胞類型區(qū)分的影響,Heimberg 選擇了 Zeisel et al 于 2015 年發(fā)表在 Science 的文章的數(shù)據(jù)(3005 個(gè)大腦皮質(zhì)和海馬區(qū)細(xì)胞枣察,15000 unique trans/cell)進(jìn)行了分析争占。使用相同的公式,發(fā)現(xiàn)測序數(shù)據(jù)在1000 trans/cell 情況下序目,前三個(gè)主成分的再現(xiàn)錯誤率分別是 11%臂痕、22% 和 38%(圖2A)。進(jìn)一步驗(yàn)證發(fā)現(xiàn)猿涨,當(dāng)數(shù)據(jù)量只有 100 trans/cell 時(shí)握童,即可有效區(qū)分少突膠質(zhì)細(xì)胞和兩類錐體神經(jīng)元,準(zhǔn)確度 >90%叛赚。而當(dāng)數(shù)據(jù)量達(dá)到 1000 trans/cell 時(shí)澡绩,不僅可以區(qū)分少突膠質(zhì)細(xì)胞和兩類錐體神經(jīng)元,還能夠?qū)深愖刁w神經(jīng)元(海馬錐體神經(jīng)元和皮層錐體神經(jīng)元)區(qū)分開俺附,準(zhǔn)確度 >90%(圖 2B)肥卡。
Heimberg et al 的結(jié)果表明,低測序深度情況下可以實(shí)現(xiàn)樣本分群 / 細(xì)胞聚類事镣。而為了進(jìn)一步分析測序數(shù)據(jù)量和細(xì)胞數(shù)對細(xì)胞聚類的影響步鉴,10X 官方設(shè)置了不同測序數(shù)據(jù)量和細(xì)胞數(shù)對 PBMC 主要細(xì)胞類型檢測的實(shí)驗(yàn):
1、對 4000 個(gè) PBMC 細(xì)胞測序蛮浑,平均測序數(shù)據(jù)量為 50K reads/cell唠叛;
2、隨機(jī)抽樣設(shè)置不同測序深度:500沮稚、1K艺沼、2.5K、 5K蕴掏、 7.5K障般、10K调鲸、 15K,、25K和 50K reads/cell挽荡;
3藐石、隨機(jī)抽樣設(shè)置不同細(xì)胞數(shù):100、200定拟、400于微、600、800青自、1K株依、2K、 3K 和 4K細(xì)胞
測序深度的影響
此次評估過程采用的是 10X Genomics 單細(xì)胞轉(zhuǎn)錄組 V2 試劑延窜,V2 試劑建議的最低測序數(shù)據(jù)量是 50K reads/cell恋腕,通過圖 3 可知,當(dāng)平均測序數(shù)據(jù)達(dá)到 50K reads/cell 時(shí)逆瑞,測序飽和度荠藤、檢測到的轉(zhuǎn)錄本數(shù)量 / 細(xì)胞、基因數(shù)量 / 細(xì)胞以及總基因數(shù)基本飽和获高,表明官方推薦數(shù)據(jù)量足夠數(shù)據(jù)分析哈肖。
對于檢測細(xì)胞數(shù),低測序數(shù)據(jù)量(平均 506 reads/cell)和高測序數(shù)據(jù)量(平均86503 reads/cell)相差不大念秧,檢測到細(xì)胞數(shù)分別是 4273牡彻、4353,但是兩種測序深度下出爹,檢測到的基因中位數(shù)差別很大,分別是 160缎除、1234(圖 4)严就。
盡管低測序深度時(shí)部分指標(biāo)靈敏度較低,但是通過 graph-based 聚類依然推定了不同細(xì)胞亞群器罐,t-SNE 聚類圖見圖 5A梢为。基于 CD3D轰坊、CD3E 鑒定 T 細(xì)胞 ; GNLY铸董、NKG7 鑒定NK 細(xì)胞 ; CD79A、CD79B 鑒定 B 細(xì)胞肴沫;CD14粟害、FCGR3A 鑒定單核細(xì)胞(圖 5B)。
在細(xì)胞聚類和鑒定基礎(chǔ)上進(jìn)一步分析颤芬,不同測序深度范圍內(nèi)悲幅,四種細(xì)胞類型(T 細(xì)胞套鹅、NK 細(xì)胞、B 細(xì)胞汰具、單核細(xì)胞)分類準(zhǔn)確度范圍為 93-99%(圖 6A卓鹿、B),當(dāng)測序深度達(dá)到 2.5K reads/cell 時(shí)留荔,細(xì)胞類型分類準(zhǔn)確度達(dá)到 98% 并且相對一致吟孙。當(dāng)測序深度降低到500 reads/cell 時(shí),相比飽和測序數(shù)據(jù)量聚蝶,細(xì)胞類型分類準(zhǔn)確度降低幅度(7%)遠(yuǎn)遠(yuǎn)低于轉(zhuǎn)錄本中位數(shù) /cell(94%)杰妓、基因中位數(shù) /cell(87%)和總基因鑒定數(shù)(33%)的降低幅度。
另 外既荚,2019 年 發(fā) 表 在 Circulation 上 的 文 章“Single-Cell Analysis of the Normal Mouse Aorta Reveals Functionally Distinct Endothelial Cell Populations”在設(shè)計(jì)實(shí)驗(yàn)室 比較了不同測序深度對細(xì)胞聚類的影響稚失,4 個(gè)主動脈樣本中,2 條主動脈樣本測序深度低 (17,000 reads/cell)恰聘,2 條主動脈樣本測序深度高 (145,000 reads/cell)句各,分析得到的細(xì)胞數(shù)量二者之間無差異。
以上數(shù)據(jù)說明晴叨,單細(xì)胞轉(zhuǎn)錄組測序在官方推薦的數(shù)據(jù)量下(V2 試劑凿宾,官方推薦數(shù)據(jù)量 50K reads/cell;V3 試劑兼蕊,官方推薦數(shù)據(jù)量 20K reads/cell)初厚,分析獲得的各項(xiàng)指標(biāo):細(xì)胞檢測數(shù)、測序飽和度孙技、轉(zhuǎn)錄本产禾、基因檢測飽和度以及檢測基因總數(shù)均可以達(dá)到飽和,當(dāng)然考慮到單細(xì)胞懸液制備時(shí)可能會存在細(xì)胞碎片等背景干擾牵啦,占用一部分?jǐn)?shù)據(jù)亚情,可以在選擇測序數(shù)據(jù)量時(shí),對測序數(shù)據(jù)量進(jìn)行加倍(例如 5000 個(gè)細(xì)胞官方推薦最低測序數(shù)據(jù)量為30G哈雏,實(shí)際測序可以測60G)楞件,但是也不需要加測太多數(shù)據(jù),因?yàn)榧訙y太多數(shù)據(jù)得到的收益(例如提高測序飽和度等)增幅遠(yuǎn)低于付出的測序成本裳瘪。
細(xì)胞數(shù)量的影響
為了評估捕獲得到的細(xì)胞數(shù)對細(xì)胞類型分類準(zhǔn)確性的影響土浸,在每個(gè)讀取深度基礎(chǔ)上按照 100-4000 個(gè)細(xì)胞進(jìn)行二次取樣。在測序深度為 50K reads/cell 時(shí)彭羹,不同細(xì)胞數(shù)量下細(xì)胞類型分類準(zhǔn)確性范圍為 82-99%(圖 6C)黄伊。當(dāng)細(xì)胞數(shù)是 1000 時(shí),精確度變化幅度為10%(87-98%)派殷,而在 100 個(gè)細(xì)胞時(shí)毅舆,準(zhǔn)確度估計(jì)值為 55-92%西篓,表明隨著細(xì)胞計(jì)數(shù)的減少,細(xì)胞分類準(zhǔn)確度變異性增加憋活。綜合測序數(shù)據(jù)量和細(xì)胞數(shù)岂津,可知在低細(xì)胞數(shù)情況下,隨著測序深度增加悦即,細(xì)胞類型分類準(zhǔn)確度依然維持在較低水平吮成,但在低測序深度情況下,細(xì)胞類型分類準(zhǔn)確度可以隨細(xì)胞數(shù)量增加而增加辜梳,表明細(xì)胞數(shù)對細(xì)胞類型分類準(zhǔn)確度的影響大于測序深度粱甫。
參考文獻(xiàn)
Heimberg, G., Bhatnagar, R., El-Samad, H., & Thomson, M. (2016). Low Dimensionality in Gene Expression Data Enables the Accurate Extraction of Tranional Programs from Shallow Sequencing. Cell Systems, 2(4), 239–250. doi:10.1016/j.cels.2016.04.001.
Kalluri, A. S., Vellarikkal, S. K., Edelman, E. R., Nguyen, L., Subramanian, A., Ellinor, P. T., … Gupta, R. M. (2019). Single Cell Analysis of the Normal Mouse Aorta Reveals Functionally Distinct Endothelial Cell Populations. Circulation.doi:10.1161/circulationaha.118.038362.