我們提出了Augur,一種在單細(xì)胞數(shù)據(jù)中對(duì)生物擾動(dòng)最敏感的細(xì)胞類型進(jìn)行優(yōu)先排序的方法磕蛇。Augur采用了一個(gè)機(jī)器學(xué)習(xí)框架來(lái)量化高維空間中擾動(dòng)細(xì)胞和未擾動(dòng)細(xì)胞的可分離性景描。我們?cè)趩渭?xì)胞RNA測(cè)序、染色質(zhì)可達(dá)性和成像轉(zhuǎn)錄組數(shù)據(jù)上驗(yàn)證了我們的方法秀撇,并表明Augur優(yōu)于基于差異基因表達(dá)的現(xiàn)有方法超棺。Augur特發(fā)現(xiàn)了脊髓神經(jīng)刺激后恢復(fù)運(yùn)動(dòng)的神經(jīng)回路。
在十年內(nèi)捌袜,單細(xì)胞技術(shù)已經(jīng)從單個(gè)細(xì)胞擴(kuò)展到整個(gè)生物體说搅。研究人員現(xiàn)在能夠量化RNA和蛋白質(zhì)的表達(dá)炸枣,解析它們?cè)趶?fù)雜組織中的空間組織虏等,并解剖它們?cè)跀?shù)十萬(wàn)個(gè)細(xì)胞中的調(diào)控。這種規(guī)模的指數(shù)級(jí)增長(zhǎng)正在促成從對(duì)健康組織圖譜到描述對(duì)疾病和實(shí)驗(yàn)干擾的細(xì)胞類型特異性反應(yīng)的轉(zhuǎn)變适肠。
這種轉(zhuǎn)變需要分析方法做相應(yīng)的轉(zhuǎn)變霍衫,從分細(xì)胞類型之間的顯著分子差異到解決細(xì)胞類型內(nèi)部更微妙的表型變化。現(xiàn)有的工具側(cè)重于識(shí)別在不同情況下具有統(tǒng)計(jì)學(xué)顯著差異的單個(gè)基因或蛋白質(zhì)侯养。然而敦跌,在單個(gè)分析水平上的推論不適合解決更廣泛的問(wèn)題,即
哪種細(xì)胞類型對(duì)單細(xì)胞數(shù)據(jù)多維空間的擾動(dòng)反應(yīng)最靈敏逛揩。
這樣的優(yōu)先順序可以闡明每一種細(xì)胞類型對(duì)機(jī)體表型(如疾病狀態(tài))的貢獻(xiàn)柠傍,或者識(shí)別介導(dǎo)外界刺激(如藥物治療)反應(yīng)的細(xì)胞亞群。細(xì)胞類型優(yōu)先化也可以指導(dǎo)下游的研究辩稽,包括實(shí)驗(yàn)系統(tǒng)的選擇惧笛,如Cre線或熒光激活細(xì)胞分類(FACS)門,以支持因果實(shí)驗(yàn)逞泄。然而患整,研究人員目前缺乏定制的工具來(lái)確定受干擾影響的細(xì)胞類型。
我們推斷喷众,在單細(xì)胞測(cè)量的多維空間中各谚,對(duì)擾動(dòng)反應(yīng)最靈敏的細(xì)胞類型應(yīng)該比受影響較小的細(xì)胞更加可分離,而這種分離的相對(duì)難度將為細(xì)胞類型優(yōu)先排序提供定量基礎(chǔ)到千。
我們將這個(gè)困難程度形式化為一個(gè)分類任務(wù)昌渤,詢問(wèn)疾病或擾動(dòng)狀態(tài)如何準(zhǔn)確地從高多維的單細(xì)胞測(cè)量預(yù)測(cè)。對(duì)于每個(gè)細(xì)胞類型憔四,Augur保留一部分樣本標(biāo)簽膀息,并在標(biāo)記的子集上訓(xùn)練一個(gè)分類器望抽。將分類器的預(yù)測(cè)與實(shí)驗(yàn)標(biāo)簽進(jìn)行比較,并根據(jù)預(yù)測(cè)的接受者工作特征曲線(AUC)下的面積對(duì)細(xì)胞類型進(jìn)行交叉驗(yàn)證履婉。
Cell type prioritizations are stored in the AUC data frame - for example:
head(augur$AUC, 5)
A tibble: 20 x 2
cell_type auc
<chr> <dbl>
1 cell type 1 0.752
2 cell type 2 0.729
3 cell type 3 0.674
預(yù)測(cè)嘛煤篙,你給他一個(gè)數(shù)據(jù)總會(huì)預(yù)測(cè)出一個(gè)優(yōu)先級(jí),但是還是要看生物學(xué)解釋毁腿。