眾所周知汇跨,單細(xì)胞分析中最關(guān)鍵的一步是細(xì)胞注釋务荆,這是后續(xù)所有分析的基礎(chǔ)。而精準(zhǔn)的細(xì)胞注釋又依賴于對(duì)各細(xì)胞簇(Cluster)標(biāo)記基因的準(zhǔn)確選擇穷遂,正所謂“一著不慎函匕,滿盤(pán)皆輸”,因此這一關(guān)鍵環(huán)節(jié)必須要找個(gè)靠譜的分析方法蚪黑。剛剛在Genome Biology(IF:12.3)發(fā)表的這篇文章:A comparison of marker gene selection methods for single‐cell RNA sequencing data浦箱,詳細(xì)比較了各種單細(xì)胞標(biāo)記基因分析方法。
標(biāo)記基因的定義
標(biāo)記基因是指可以用來(lái)區(qū)分細(xì)胞亞群的基因祠锣。通常,好的標(biāo)記基因在不同細(xì)胞類型之間表現(xiàn)出較大的表達(dá)差異咽安,典型情況下伴网,在目標(biāo)細(xì)胞類型中表現(xiàn)出強(qiáng)烈的上調(diào),在其他細(xì)胞類型中則表現(xiàn)出無(wú)表達(dá)或低表達(dá)妆棒。在單細(xì)胞RNA測(cè)序數(shù)據(jù)分析中澡腾,差異表達(dá)基因是指在特定比較中表現(xiàn)出統(tǒng)計(jì)學(xué)上顯著表達(dá)差異的基因沸伏,而標(biāo)記基因則是用于區(qū)分細(xì)胞亞群的基因。因此动分,標(biāo)記基因是一個(gè)比“差異表達(dá)基因”更狹窄毅糟、更具體的概念。
標(biāo)記基因的選擇通常是通過(guò)不同的方法和策略來(lái)實(shí)現(xiàn)的澜公,這些方法可以基于差異表達(dá)分析姆另、機(jī)器學(xué)習(xí)等計(jì)算方法。在單細(xì)胞RNA測(cè)序數(shù)據(jù)分析中坟乾,常用的標(biāo)記基因選擇方法包括Seurat和Scanpy等分析框架中實(shí)現(xiàn)的方法迹辐,或者一些專門(mén)開(kāi)發(fā)的工具。標(biāo)記基因的選擇對(duì)于解釋細(xì)胞亞群的生物學(xué)特征甚侣、指導(dǎo)聚類分析以及后續(xù)的差異表達(dá)分析等具有重要意義明吩。
文章的測(cè)試
文章測(cè)試了59種選擇單細(xì)胞RNA測(cè)序數(shù)據(jù)中標(biāo)記基因的方法。這59種方法中殷费,大多數(shù)方法使用某種形式的差異表達(dá)檢驗(yàn)(DE testing)印荔,如Seurat、Scanpy详羡、scran findMarkers()仍律、presto、edgeR殷绍、limma染苛。相反,其他方法使用特征選擇(Feature selection)主到,如RankCorr茶行,預(yù)測(cè)性能(Predictive performance),如NSForest, SMaSH登钥,替代統(tǒng)計(jì)(Alternative statistics)畔师,如Cepo, scran scoreMarkers(),Venice牧牢。
使用了14個(gè)真實(shí)的單細(xì)胞RNA測(cè)序數(shù)據(jù)集看锉,包括10X Chromium,Smart-seq3塔鳍,CITE-seq和MARS-seq伯铣,細(xì)胞量大約在3000到60,000個(gè)。同時(shí)轮纫,文章還使用超過(guò)170個(gè)額外的模擬數(shù)據(jù)集進(jìn)行測(cè)試腔寡。
評(píng)價(jià)的策略
模擬標(biāo)記基因恢復(fù):使用模擬數(shù)據(jù)集評(píng)估各種方法在恢復(fù)已知標(biāo)記基因方面的性能。
專家標(biāo)記基因恢復(fù):比較各種方法選擇的標(biāo)記基因與專家確定的標(biāo)記基因集合掌唾,以評(píng)估方法選擇的基因是否與已知的標(biāo)記基因一致放前。
預(yù)測(cè)性能評(píng)估:通過(guò)評(píng)估方法選擇的基因集合在分類器中的預(yù)測(cè)性能來(lái)比較方法的效果忿磅。
計(jì)算性能和實(shí)現(xiàn)質(zhì)量:評(píng)估每種方法的計(jì)算效率和實(shí)現(xiàn)質(zhì)量,包括運(yùn)行時(shí)間凭语、內(nèi)存占用葱她、易用性等方面的比較。
測(cè)試結(jié)果
模擬標(biāo)記基因恢復(fù)
使用模擬場(chǎng)景進(jìn)行測(cè)試似扔,F(xiàn)1 score(召回率和準(zhǔn)確性的組合打分)排序顯示吨些,表現(xiàn)最好的方法是RankCorr、基于Wilcoxon秩和檢驗(yàn)的方法和edgeR方法虫几。NSForest锤灿、Cepo和scran的其他二項(xiàng)式方法表現(xiàn)最差。不同分析參數(shù)對(duì)總體排名影響不大辆脸。
專家標(biāo)記基因恢復(fù)
測(cè)試使用了Lawlor但校、Smart-seq3、pbmc3k和Zeisel四個(gè)數(shù)據(jù)集啡氢,以及對(duì)應(yīng)已知的專家注釋標(biāo)記基因集状囱,這些數(shù)據(jù)主要來(lái)自描述這些數(shù)據(jù)集的論文和說(shuō)明文檔。在四個(gè)數(shù)據(jù)集上表現(xiàn)最好的方法是Wilcoxon檢驗(yàn)方法倘是、SMaSH亭枷、RankCorr、Student 's t-test和limma搀崭。scran中的scoreMarkers()方法表現(xiàn)則較差叨粘。
預(yù)測(cè)性能評(píng)估
更好的標(biāo)記基因集應(yīng)該捕捉到更多關(guān)于每個(gè)細(xì)胞簇是屬于哪種細(xì)胞的“信息”仁连。文章通過(guò)比較分類器對(duì)多類聚類狀態(tài)的預(yù)測(cè)性能來(lái)量化信息的數(shù)量尊流,這些分類器只對(duì)這些方法選擇的標(biāo)記基因集進(jìn)行訓(xùn)練鲜漩。具體來(lái)說(shuō)坎炼,文章為每種方法、數(shù)據(jù)集步清、聚類組合選擇前5個(gè)標(biāo)記基因跪楞。測(cè)試了三種不同的分類器:KNN分類器誊薄,SVM分類器和直接通過(guò)標(biāo)記基因表達(dá)歸類获茬。
測(cè)試結(jié)果中港庄,表現(xiàn)最好的方法是limma(trend)、Seurat邏輯回歸恕曲、Wilcoxon檢驗(yàn)方法和T檢驗(yàn)方法(除Seurat的T檢驗(yàn))鹏氧,表現(xiàn)最差的方法包括Cepo、scran中的scoreMarkers()方法佩谣、Seurat的T檢驗(yàn)方法度帮、NSForest、絕對(duì)值log fold-change排序和scran的二項(xiàng)檢驗(yàn)方法。
計(jì)算性能和實(shí)現(xiàn)質(zhì)量
對(duì)于標(biāo)記基因選擇方法來(lái)說(shuō)笨篷,速度尤其重要,因?yàn)楫?dāng)?shù)驼{(diào)整不同的數(shù)據(jù)聚類時(shí)瓣履,通常需要多次運(yùn)行率翅。總體而言袖迎,最慢的方法是edgeR方法冕臭、Seurat的NB GLM和MAST方法,以及NSForest燕锥,而最快的方法是Scanpy的大多數(shù)方法辜贵、presto、Cepo RankCorr和COSG归形。此外托慨,Seurat的方法比scran和Scanpy方法慢得多。
在內(nèi)測(cè)消耗方面暇榴,SMaSH方法使用的內(nèi)存最多厚棵,而edgeR、limma(voom)和glmamPoi方法也是耗內(nèi)存的方法蔼紧,而scran方法婆硬、presto和Venice使用的內(nèi)存最少。使用不同數(shù)量的細(xì)胞和細(xì)胞簇進(jìn)行模擬奸例,突出了當(dāng)細(xì)胞總數(shù)很高時(shí)彬犯,edgeR、glmGamPoi和limma的內(nèi)存使用量很高查吊。
最后谐区,對(duì)可訪問(wèn)性、安裝菩貌、文檔卢佣、易用性和輸出的可解釋性評(píng)估顯示,Seurat箭阶、Scanpy和scran包具有出色的實(shí)現(xiàn)質(zhì)量虚茶。相反,NSForest和RankCorr僅以Python腳本的形式發(fā)布在GitHub上仇参,幾乎沒(méi)有說(shuō)明文檔嘹叫。
最終結(jié)論
在scRNA-seq數(shù)據(jù)測(cè)試中,結(jié)果表明方法之間顯著缺乏一致性诈乒,計(jì)算資源需求和預(yù)測(cè)表現(xiàn)存在巨大差異罩扇。基于邏輯回歸(logistic regression)、學(xué)生t檢驗(yàn)(Student’s t-test)和Wilcoxon秩和檢驗(yàn)(Wilcoxon rank-sum test)等簡(jiǎn)單方法表現(xiàn)較好喂饥。相反消约,scran的findMarkers()、scoreMarkers()员帮、Cepo和NSForest方法在比較中表現(xiàn)得很差或粮。