白話單細(xì)胞|單細(xì)胞標(biāo)記基因分析方法哪家強(qiáng)集索?終于有文章詳細(xì)比較了!

眾所周知汇跨,單細(xì)胞分析中最關(guān)鍵的一步是細(xì)胞注釋务荆,這是后續(xù)所有分析的基礎(chǔ)。而精準(zhǔn)的細(xì)胞注釋又依賴于對(duì)各細(xì)胞簇(Cluster)標(biāo)記基因的準(zhǔn)確選擇穷遂,正所謂“一著不慎函匕,滿盤(pán)皆輸”,因此這一關(guān)鍵環(huán)節(jié)必須要找個(gè)靠譜的分析方法蚪黑。剛剛在Genome Biology(IF:12.3)發(fā)表的這篇文章:A comparison of marker gene selection methods for single‐cell RNA sequencing data浦箱,詳細(xì)比較了各種單細(xì)胞標(biāo)記基因分析方法。

標(biāo)記基因的定義

標(biāo)記基因是指可以用來(lái)區(qū)分細(xì)胞亞群的基因祠锣。通常,好的標(biāo)記基因在不同細(xì)胞類型之間表現(xiàn)出較大的表達(dá)差異咽安,典型情況下伴网,在目標(biāo)細(xì)胞類型中表現(xiàn)出強(qiáng)烈的上調(diào),在其他細(xì)胞類型中則表現(xiàn)出無(wú)表達(dá)或低表達(dá)妆棒。在單細(xì)胞RNA測(cè)序數(shù)據(jù)分析中澡腾,差異表達(dá)基因是指在特定比較中表現(xiàn)出統(tǒng)計(jì)學(xué)上顯著表達(dá)差異的基因沸伏,而標(biāo)記基因則是用于區(qū)分細(xì)胞亞群的基因。因此动分,標(biāo)記基因是一個(gè)比“差異表達(dá)基因”更狹窄毅糟、更具體的概念。

標(biāo)記基因的選擇通常是通過(guò)不同的方法和策略來(lái)實(shí)現(xiàn)的澜公,這些方法可以基于差異表達(dá)分析姆另、機(jī)器學(xué)習(xí)等計(jì)算方法。在單細(xì)胞RNA測(cè)序數(shù)據(jù)分析中坟乾,常用的標(biāo)記基因選擇方法包括Seurat和Scanpy等分析框架中實(shí)現(xiàn)的方法迹辐,或者一些專門(mén)開(kāi)發(fā)的工具。標(biāo)記基因的選擇對(duì)于解釋細(xì)胞亞群的生物學(xué)特征甚侣、指導(dǎo)聚類分析以及后續(xù)的差異表達(dá)分析等具有重要意義明吩。

文章的測(cè)試

文章測(cè)試了59種選擇單細(xì)胞RNA測(cè)序數(shù)據(jù)中標(biāo)記基因的方法。這59種方法中殷费,大多數(shù)方法使用某種形式的差異表達(dá)檢驗(yàn)(DE testing)印荔,如Seurat、Scanpy详羡、scran findMarkers()仍律、presto、edgeR殷绍、limma染苛。相反,其他方法使用特征選擇(Feature selection)主到,如RankCorr茶行,預(yù)測(cè)性能(Predictive performance),如NSForest, SMaSH登钥,替代統(tǒng)計(jì)(Alternative statistics)畔师,如Cepo, scran scoreMarkers(),Venice牧牢。

使用了14個(gè)真實(shí)的單細(xì)胞RNA測(cè)序數(shù)據(jù)集看锉,包括10X Chromium,Smart-seq3塔鳍,CITE-seq和MARS-seq伯铣,細(xì)胞量大約在3000到60,000個(gè)。同時(shí)轮纫,文章還使用超過(guò)170個(gè)額外的模擬數(shù)據(jù)集進(jìn)行測(cè)試腔寡。

評(píng)價(jià)的策略

  • 模擬標(biāo)記基因恢復(fù):使用模擬數(shù)據(jù)集評(píng)估各種方法在恢復(fù)已知標(biāo)記基因方面的性能。

  • 專家標(biāo)記基因恢復(fù):比較各種方法選擇的標(biāo)記基因與專家確定的標(biāo)記基因集合掌唾,以評(píng)估方法選擇的基因是否與已知的標(biāo)記基因一致放前。

  • 預(yù)測(cè)性能評(píng)估:通過(guò)評(píng)估方法選擇的基因集合在分類器中的預(yù)測(cè)性能來(lái)比較方法的效果忿磅。

  • 計(jì)算性能和實(shí)現(xiàn)質(zhì)量:評(píng)估每種方法的計(jì)算效率和實(shí)現(xiàn)質(zhì)量,包括運(yùn)行時(shí)間凭语、內(nèi)存占用葱她、易用性等方面的比較。

測(cè)試結(jié)果

模擬標(biāo)記基因恢復(fù)

使用模擬場(chǎng)景進(jìn)行測(cè)試似扔,F(xiàn)1 score(召回率和準(zhǔn)確性的組合打分)排序顯示吨些,表現(xiàn)最好的方法是RankCorr、基于Wilcoxon秩和檢驗(yàn)的方法和edgeR方法虫几。NSForest锤灿、Cepo和scran的其他二項(xiàng)式方法表現(xiàn)最差。不同分析參數(shù)對(duì)總體排名影響不大辆脸。

專家標(biāo)記基因恢復(fù)

測(cè)試使用了Lawlor但校、Smart-seq3、pbmc3k和Zeisel四個(gè)數(shù)據(jù)集啡氢,以及對(duì)應(yīng)已知的專家注釋標(biāo)記基因集状囱,這些數(shù)據(jù)主要來(lái)自描述這些數(shù)據(jù)集的論文和說(shuō)明文檔。在四個(gè)數(shù)據(jù)集上表現(xiàn)最好的方法是Wilcoxon檢驗(yàn)方法倘是、SMaSH亭枷、RankCorr、Student 's t-test和limma搀崭。scran中的scoreMarkers()方法表現(xiàn)則較差叨粘。

預(yù)測(cè)性能評(píng)估

更好的標(biāo)記基因集應(yīng)該捕捉到更多關(guān)于每個(gè)細(xì)胞簇是屬于哪種細(xì)胞的“信息”仁连。文章通過(guò)比較分類器對(duì)多類聚類狀態(tài)的預(yù)測(cè)性能來(lái)量化信息的數(shù)量尊流,這些分類器只對(duì)這些方法選擇的標(biāo)記基因集進(jìn)行訓(xùn)練鲜漩。具體來(lái)說(shuō)坎炼,文章為每種方法、數(shù)據(jù)集步清、聚類組合選擇前5個(gè)標(biāo)記基因跪楞。測(cè)試了三種不同的分類器:KNN分類器誊薄,SVM分類器和直接通過(guò)標(biāo)記基因表達(dá)歸類获茬。

測(cè)試結(jié)果中港庄,表現(xiàn)最好的方法是limma(trend)、Seurat邏輯回歸恕曲、Wilcoxon檢驗(yàn)方法和T檢驗(yàn)方法(除Seurat的T檢驗(yàn))鹏氧,表現(xiàn)最差的方法包括Cepo、scran中的scoreMarkers()方法佩谣、Seurat的T檢驗(yàn)方法度帮、NSForest、絕對(duì)值log fold-change排序和scran的二項(xiàng)檢驗(yàn)方法。

計(jì)算性能和實(shí)現(xiàn)質(zhì)量

對(duì)于標(biāo)記基因選擇方法來(lái)說(shuō)笨篷,速度尤其重要,因?yàn)楫?dāng)?shù)驼{(diào)整不同的數(shù)據(jù)聚類時(shí)瓣履,通常需要多次運(yùn)行率翅。總體而言袖迎,最慢的方法是edgeR方法冕臭、Seurat的NB GLM和MAST方法,以及NSForest燕锥,而最快的方法是Scanpy的大多數(shù)方法辜贵、presto、Cepo RankCorr和COSG归形。此外托慨,Seurat的方法比scran和Scanpy方法慢得多。

在內(nèi)測(cè)消耗方面暇榴,SMaSH方法使用的內(nèi)存最多厚棵,而edgeR、limma(voom)和glmamPoi方法也是耗內(nèi)存的方法蔼紧,而scran方法婆硬、presto和Venice使用的內(nèi)存最少。使用不同數(shù)量的細(xì)胞和細(xì)胞簇進(jìn)行模擬奸例,突出了當(dāng)細(xì)胞總數(shù)很高時(shí)彬犯,edgeR、glmGamPoi和limma的內(nèi)存使用量很高查吊。

最后谐区,對(duì)可訪問(wèn)性、安裝菩貌、文檔卢佣、易用性和輸出的可解釋性評(píng)估顯示,Seurat箭阶、Scanpy和scran包具有出色的實(shí)現(xiàn)質(zhì)量虚茶。相反,NSForest和RankCorr僅以Python腳本的形式發(fā)布在GitHub上仇参,幾乎沒(méi)有說(shuō)明文檔嘹叫。

最終結(jié)論

在scRNA-seq數(shù)據(jù)測(cè)試中,結(jié)果表明方法之間顯著缺乏一致性诈乒,計(jì)算資源需求和預(yù)測(cè)表現(xiàn)存在巨大差異罩扇。基于邏輯回歸(logistic regression)、學(xué)生t檢驗(yàn)(Student’s t-test)和Wilcoxon秩和檢驗(yàn)(Wilcoxon rank-sum test)等簡(jiǎn)單方法表現(xiàn)較好喂饥。相反消约,scran的findMarkers()、scoreMarkers()员帮、Cepo和NSForest方法在比較中表現(xiàn)得很差或粮。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市捞高,隨后出現(xiàn)的幾起案子氯材,更是在濱河造成了極大的恐慌,老刑警劉巖硝岗,帶你破解...
    沈念sama閱讀 205,874評(píng)論 6 479
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件氢哮,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡型檀,警方通過(guò)查閱死者的電腦和手機(jī)冗尤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,151評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)贱除,“玉大人生闲,你說(shuō)我怎么就攤上這事≡禄希” “怎么了碍讯?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,270評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)扯躺。 經(jīng)常有香客問(wèn)我捉兴,道長(zhǎng),這世上最難降的妖魔是什么录语? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,137評(píng)論 1 278
  • 正文 為了忘掉前任倍啥,我火速辦了婚禮,結(jié)果婚禮上澎埠,老公的妹妹穿的比我還像新娘虽缕。我一直安慰自己,他們只是感情好蒲稳,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,116評(píng)論 5 370
  • 文/花漫 我一把揭開(kāi)白布氮趋。 她就那樣靜靜地躺著,像睡著了一般江耀。 火紅的嫁衣襯著肌膚如雪剩胁。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 48,935評(píng)論 1 283
  • 那天祥国,我揣著相機(jī)與錄音昵观,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛啊犬,可吹牛的內(nèi)容都是我干的灼擂。 我是一名探鬼主播,決...
    沈念sama閱讀 38,261評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼觉至,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼缤至!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起康谆,我...
    開(kāi)封第一講書(shū)人閱讀 36,895評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎嫉到,沒(méi)想到半個(gè)月后沃暗,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,342評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡何恶,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,854評(píng)論 2 323
  • 正文 我和宋清朗相戀三年孽锥,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片细层。...
    茶點(diǎn)故事閱讀 37,978評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡惜辑,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出疫赎,到底是詐尸還是另有隱情盛撑,我是刑警寧澤,帶...
    沈念sama閱讀 33,609評(píng)論 4 322
  • 正文 年R本政府宣布捧搞,位于F島的核電站抵卫,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏胎撇。R本人自食惡果不足惜介粘,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,181評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望晚树。 院中可真熱鬧姻采,春花似錦、人聲如沸爵憎。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,182評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)纲堵。三九已至巡雨,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間席函,已是汗流浹背铐望。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,402評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人正蛙。 一個(gè)月前我還...
    沈念sama閱讀 45,376評(píng)論 2 352
  • 正文 我出身青樓督弓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親乒验。 傳聞我的和親對(duì)象是個(gè)殘疾皇子愚隧,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,677評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容