一、背景簡述
腫瘤微環(huán)境(Tumor micro-environment, TME)是指腫瘤細(xì)胞周圍異于正常內(nèi)環(huán)境的微環(huán)境眶明,具有缺氧申鱼、慢性炎癥及免疫抑制的三個(gè)特征。TME 包括多種免疫細(xì)胞浅缸,以及癌相關(guān)成纖維細(xì)胞、內(nèi)皮細(xì)胞魄咕、周細(xì)胞和各種其他組織細(xì)胞類型衩椒,不同組織的TME會形成十分復(fù)雜的機(jī)制網(wǎng)絡(luò), 對腫瘤的進(jìn)一步發(fā)展有重要作用。相比常規(guī)研究技術(shù)哮兰,單細(xì)胞測序可以提供每個(gè)細(xì)胞的轉(zhuǎn)錄組信息毛萌,反映出不同細(xì)胞類型及其功能狀態(tài)的改變,更適合研究TME的變化喝滞。
但是阁将,目前單細(xì)胞數(shù)據(jù)識別惡性細(xì)胞大都是通過推斷細(xì)胞的染色體倍數(shù)分類,并不能提供有關(guān)癌癥起源組織的明確信息右遭,也沒有通用方法對異質(zhì)非惡性 TME 細(xì)胞及腫瘤細(xì)胞進(jìn)行有效做盅、詳細(xì)的分類。
基于以上需求窘哈,加拿大安大略省癌癥研究所的研究人員設(shè)計(jì)了一個(gè)全面吹榴、泛癌的TME細(xì)胞類型分類工具scATOMIC(single cell annotation of tumour microenvironments in pan-cancer settings),通過反向?qū)哟畏诸惡透腹?jié)點(diǎn)重復(fù)消除的算法(RHC-REP)改進(jìn)細(xì)胞分類滚婉,降低 TME 多細(xì)胞系統(tǒng)的轉(zhuǎn)錄組復(fù)雜性图筹,對惡性和非惡性細(xì)胞進(jìn)行模塊化注釋。
軟件更新維護(hù)在https://github.com/abelson-lab/scATOMIC让腹,需要在R環(huán)境下運(yùn)行远剩。
二、軟件主要步驟和結(jié)果驗(yàn)證
為了 準(zhǔn)確的區(qū)分不同類型細(xì)胞的特征骇窍,研究團(tuán)隊(duì)使用超過30萬個(gè)細(xì)胞的數(shù)據(jù)集(包括癌癥瓜晤、免疫和基質(zhì)細(xì)胞)進(jìn)行隨機(jī)森林的模型訓(xùn)練,通過RHC-REP算法得到與父節(jié)點(diǎn)總數(shù)相對應(yīng)的 24 個(gè)模型腹纳,并定義了19種常見癌癥的泛癌癥數(shù)據(jù)參照痢掠。
1.細(xì)胞類型父節(jié)點(diǎn)的分類(n ?= 24)
父節(jié)點(diǎn)代表更寬泛的細(xì)胞分類哈恰,終末節(jié)點(diǎn)代表詳細(xì)的細(xì)胞類別。根據(jù)已知細(xì)胞類型的轉(zhuǎn)錄組數(shù)據(jù)集志群,軟件在一個(gè)父節(jié)點(diǎn)內(nèi)着绷,根據(jù)基因差異表達(dá)評分 (DES) ,篩選出可以顯著區(qū)分該細(xì)胞類型與所有其他細(xì)胞類型的差異基因锌云,最后保留對每個(gè)末端類別具有更高特異性的差異表達(dá)基因 (DEG)荠医。如圖2,熱圖頂部的顏色表示不同的細(xì)胞類型桑涎,經(jīng)過 RHC-REP 多次迭代后彬向,找到該細(xì)胞類型最高特異性的DEG基因。
具體方法類似于我們的差異分析 攻冷,對于每個(gè)模型使用 FindMarkers 函數(shù)(Wilcoxon )找到每個(gè)細(xì)胞類型的 DEG 列表:log 2倍數(shù)變化至少為 0.25娃胆,并且 ident.1 或 ident.2 中至少有 10% 的細(xì)胞表達(dá)各自的基因。差異表達(dá)評分為 ident.1 和 ident.2 中各自 DEG 表達(dá)非零值的細(xì)胞分?jǐn)?shù)的差異 等曼,對于每種終末細(xì)胞類型里烦,我們保留的基因的 DES 大于該細(xì)胞類型的所有 DEG 的平均 DES。這里需要去除了所有核糖體基因禁谦,同時(shí)刪除 ident.2 >40% 的 DEG胁黑,以確保 DEG基因在任何特定細(xì)胞類型中的表達(dá)特異性 。(線粒體基因前期質(zhì)控過濾 < 0.25)州泊。為了保證在不同的數(shù)據(jù)集之間軟件的穩(wěn)定性和性能丧蘸,每種細(xì)胞類型特異性的 DEG 基因數(shù)目最小為50,至多 200個(gè)遥皂,在 DES 高于平均值的 DEG 少于 50 個(gè)的情況下力喷,我們保留按 DES 排名的前 50 個(gè) DEG。
2.隨機(jī)森林分類器模型構(gòu)建
對經(jīng)過過濾的數(shù)據(jù)矩陣導(dǎo)入該節(jié)點(diǎn)的模型演训,計(jì)算每個(gè)細(xì)胞在父節(jié)點(diǎn)內(nèi)的所有終末類的樹比例的預(yù)測分?jǐn)?shù) 弟孟,然后 將所有血液和非血細(xì)胞亞型的預(yù)測分?jǐn)?shù)(PS)分別相加,得出將單細(xì)胞與其適當(dāng)?shù)挠H本類別相關(guān)聯(lián)的中間組分?jǐn)?shù)(IGS)分布仇祭。如果細(xì)胞的 IGS 低于置信截止值披蕉,則返回到寬泛的上級細(xì)胞分類。 同理乌奇,在下一個(gè)父節(jié)點(diǎn)的相應(yīng)模型處繼續(xù)迭代,直到獲得最終分類眯娱。
三礁苗、模型評估和驗(yàn)證
團(tuán)隊(duì)對大量公開數(shù)據(jù)進(jìn)行了測試和分析,以綜合評估 scATOMIC 的普適性和準(zhǔn)確度徙缴。
1.對多個(gè)泛癌 TME數(shù)據(jù)集進(jìn)行分析试伙,每個(gè)數(shù)據(jù)集的細(xì)胞類型被隨機(jī)分為 5 等份子數(shù)據(jù)集嘁信,每個(gè)細(xì)胞類型的 F1 分?jǐn)?shù)(二分類模型,準(zhǔn)確度)均在0.9以上疏叨。表明軟件對TME 環(huán)境下的細(xì)胞識別能力具有普適性潘靖,但是對黑色素瘤數(shù)據(jù)表現(xiàn)不佳;
2.在肺癌/乳腺癌數(shù)據(jù)集的應(yīng)用中蚤蔓,可以對NK細(xì)胞和T 細(xì)胞進(jìn)一步細(xì)化亞型卦溢,提升細(xì)胞類型分辨率。 這表明在高分辨率解析細(xì)胞類型時(shí)秀又,軟件可以識別稀有細(xì)胞類型单寂,避免對未知細(xì)胞進(jìn)行錯(cuò)誤分類以及確定癌癥細(xì)胞的類型。
3.在轉(zhuǎn)移癌癥數(shù)據(jù)中吐辙, 對不同解剖部位的乳腺癌宣决、腎癌、肺癌昏苏、卵巢癌和皮膚癌的 62 個(gè)轉(zhuǎn)數(shù)據(jù)進(jìn)行分析尊沸,正確預(yù)測了52 個(gè)樣本中的癌癥細(xì)胞原發(fā)組織。這表明軟件可以輔助識別或預(yù)測部分腫瘤的起源贤惯。
三椒丧、結(jié)果展示
在實(shí)際的數(shù)據(jù)分析中,我們以公司流程的 rds/h5seurat 作為輸入文件(counts 信息)救巷,通過 run_scATOMIC 函數(shù)預(yù)測細(xì)胞的類型壶熏,并輸出對應(yīng)的feature 圖和注釋表格。
1.人工鑒定和軟件鑒定細(xì)胞類型
如下圖浦译,可以看出高分辨率導(dǎo)致基質(zhì)細(xì)胞棒假,T/NK細(xì)胞的類型更細(xì)化,但是免疫細(xì)胞精盅,腫瘤細(xì)胞與人工注釋的細(xì)胞類型大致相同帽哑。
2.軟件注釋細(xì)胞類型表格
new_celltype 為人工注釋細(xì)胞類型,scATOMIC_pred 為軟件注釋細(xì)胞類型叹俏,pan_cancer_cluster 為腫瘤/ 非腫瘤分類妻枕。classification_confidence 為可信度,軟件一般輸出low_confidence粘驰,嚴(yán)格符合模型閾值的則為confident屡谐。
3.樹形圖展示細(xì)胞分類
軟件可視化部分還提供了細(xì)胞分化的樹形圖,方便追溯感興趣細(xì)胞的來源和分化軌跡蝌数。
四愕掏、結(jié)語
scATOMIC通過大量的細(xì)胞數(shù)據(jù)集建立了可靠的數(shù)據(jù)模型,能夠準(zhǔn)確的識別TME的癌癥和正常組織細(xì)胞顶伞,以及確定腫瘤起源饵撑,為我們解析TME環(huán)境中復(fù)雜的細(xì)胞行為提供了新的工具剑梳,也將進(jìn)一步豐富和促進(jìn)泛癌的研究。
參考文獻(xiàn):
[1]:Nofech-Mozes I, Soave D, Awadalla P, Abelson S. Pan-cancer classification of single cells in the tumour microenvironment. Nat Commun. 2023 Mar 23;14(1):1615. doi: 10.1038/s41467-023-37353-8. PMID: 36959212; PMCID: PMC10036554.