hello航夺,大家好键科,隨著我們認(rèn)識(shí)的深入,分享的內(nèi)容也越來越“高大上”懒构,這次要分享的內(nèi)容就是神經(jīng)網(wǎng)絡(luò)運(yùn)用到我們的單細(xì)胞或者空間的數(shù)據(jù)分析。
密蘇里大學(xué)許東教授和俄亥俄州立大學(xué)馬勤教授的團(tuán)隊(duì)發(fā)表在Nature Communications上的一篇文章 “scGNN is a novel graph neural network framework for single-cell RNA-Seq analyses”耘擂。單細(xì)胞RNA測序 (scRNA-seq) 被廣泛應(yīng)用于揭示組織胆剧、生物和復(fù)雜疾病的異質(zhì)性和動(dòng)力學(xué),但其分析仍面臨多個(gè)重大挑戰(zhàn)醉冤,包括測序的稀疏性和基因表達(dá)的復(fù)雜差異模式秩霍。本文提出了scGNN (單細(xì)胞圖神經(jīng)網(wǎng)絡(luò)),為scRNA-seq分析提供了一個(gè)無假設(shè)的深度學(xué)習(xí)框架蚁阳。這個(gè)框架用圖神經(jīng)網(wǎng)絡(luò)來表達(dá)和聚集細(xì)胞間的關(guān)系铃绒,并使用左截?cái)嗟幕旌细咚鼓P蛠斫.愘|(zhì)基因表達(dá)模式。scGNN集成了三種迭代多模態(tài)自動(dòng)編碼器韵吨,其在四個(gè)scRNA-seq基準(zhǔn)數(shù)據(jù)集上的基因插補(bǔ)和細(xì)胞聚類性能優(yōu)于現(xiàn)有工具匿垄。在一項(xiàng)阿爾茨海默癥研究中,從死后腦組織中提取13214個(gè)單核归粉,scGNN成功地闡明了疾病相關(guān)的神經(jīng)發(fā)育和差異機(jī)制椿疗。scGNN為基因表達(dá)和細(xì)胞間關(guān)系的有效表達(dá)提供了幫助。它也是一個(gè)強(qiáng)大的可以應(yīng)用于一般的scRNA-Seq分析的框架糠悼。
一届榄、研究背景
單細(xì)胞RNA測序 (scRNA-seq) 技術(shù)可在單個(gè)細(xì)胞中進(jìn)行轉(zhuǎn)錄組的基因表達(dá)測量,這對于識(shí)別細(xì)胞類型簇倔喂,根據(jù)軌跡拓?fù)渫茢嗉?xì)胞群體的排列以及在表征復(fù)雜疾病中的細(xì)胞異質(zhì)性時(shí)突出體細(xì)胞克隆結(jié)構(gòu)是必不可少的铝条。但scRNA-seq分析仍然具有挑戰(zhàn)性,因?yàn)樗臄?shù)據(jù)分布復(fù)雜且不確定席噩,具有很高的“dropout”率班缰。一些現(xiàn)有方法,例如Phenograph悼枢,MAGIC和Seurat使用K級最近鄰 (KNN) 圖來建模細(xì)胞之間的關(guān)系埠忘。但是,這樣的圖形表示可能會(huì)過度簡化全局的復(fù)雜細(xì)胞和基因關(guān)系馒索。最近莹妒,新興的圖神經(jīng)網(wǎng)絡(luò) (GNN) 通過在深度學(xué)習(xí)體系結(jié)構(gòu)中傳播近鄰信息來解釋卷積圖中的節(jié)點(diǎn)關(guān)系。與用于scRNA-seq分析的其他自編碼器通過重建自己的輸入來揭示scRNA-seq數(shù)據(jù)的有效表示相比绰上,圖自編碼器的獨(dú)特功能在于能夠?qū)W習(xí)圖拓?fù)涞牡途S表示并在整個(gè)圖的全局視圖中訓(xùn)練節(jié)點(diǎn)關(guān)系旨怠。
本文提出了一個(gè)多模態(tài)框架scGNN (單細(xì)胞圖神經(jīng)網(wǎng)絡(luò)) ,用于從scRNA-seq中建模異質(zhì)細(xì)胞-細(xì)胞關(guān)系及其潛在的復(fù)雜基因表達(dá)模式蜈块。scGNN通過基于基因表達(dá)和轉(zhuǎn)錄調(diào)控信息的拓?fù)涑橄蠹澹?xùn)練低維特征向量來表示細(xì)胞之間的關(guān)系迷扇。scGNN有三個(gè)獨(dú)特的特征:(i) scGNN利用帶有多模式自編碼器的GNN來構(gòu)建和聚集細(xì)胞之間的關(guān)系,提供一個(gè)無假設(shè)的框架來推導(dǎo)生物學(xué)上有意義的關(guān)系拘哨。該框架不需要為基因表達(dá)數(shù)據(jù)或“dropout”事件假定任何統(tǒng)計(jì)分布或關(guān)系谋梭。(ii) 在構(gòu)建細(xì)胞圖時(shí),對細(xì)胞類型特異性的調(diào)節(jié)信號(hào)進(jìn)行建模倦青,對scRNA-seq數(shù)據(jù)采用左截?cái)嗷旌细咚?(LTMG) 模型。這可以提高信噪比盹舞,以嵌入生物學(xué)上有意義的信息产镐。(iii) 自底向上的細(xì)胞關(guān)系由動(dòng)態(tài)修剪的GNN細(xì)胞圖表示。整個(gè)圖可以通過池化在學(xué)習(xí)圖上嵌入圖中的所有節(jié)點(diǎn)來表示踢步⊙⒀牵可以將圖嵌入作為低維、耐噪聲的特征來保持細(xì)胞圖的拓?fù)潢P(guān)系获印。在恢復(fù)基因表達(dá)值的自編碼器訓(xùn)練中述雾,將衍生的細(xì)胞間關(guān)系作為正則化器。
二兼丰、模型
以scRNA-seq生成的基因表達(dá)矩陣為輸入玻孟。LTMG可以將輸入的基因表達(dá)數(shù)據(jù)轉(zhuǎn)換為離散化的調(diào)節(jié)信號(hào),作為特征自編碼器的正則化器鳍征。特征自編碼器學(xué)習(xí)輸入的維度表示作為嵌入黍翎,并在其上構(gòu)造和修剪細(xì)胞圖。圖自編碼器學(xué)習(xí)拓?fù)鋱D嵌入的細(xì)胞圖艳丛,用于細(xì)胞類型聚類匣掸。每種細(xì)胞類型的細(xì)胞都有一個(gè)單獨(dú)的簇式自編碼器來重建基因表達(dá)值。該框架將重構(gòu)后的表達(dá)式作為一個(gè)新的輸入迭代氮双,直到收斂碰酝。最后,特征自編碼器通過學(xué)習(xí)到的細(xì)胞圖上的細(xì)胞間關(guān)系對預(yù)處理后的原始表達(dá)矩陣進(jìn)行正則化戴差,得到插補(bǔ)后的基因表達(dá)值 (圖1)送爸。
- 圖1 scGNN的流程結(jié)構(gòu)
三、實(shí)驗(yàn)結(jié)果
3.1 scGNN可以有效地插補(bǔ)scRNA-seq數(shù)據(jù)造挽,準(zhǔn)確地預(yù)測細(xì)胞簇
為了評估scGNN的插補(bǔ)和細(xì)胞聚類性能碱璃,本文選擇了四個(gè)具有黃金標(biāo)準(zhǔn)的細(xì)胞類型標(biāo)簽的scRNA-seq數(shù)據(jù)集 (Chung,Kolodziejczy饭入,Klein嵌器,Zeisel) 作為基準(zhǔn)數(shù)據(jù)集。通過將一些非零項(xiàng)隨機(jī)轉(zhuǎn)化為零來模擬“dropout”谐丢。實(shí)驗(yàn)計(jì)算了三個(gè)指標(biāo) (中位L1距離爽航,余弦相似度以及RMSE) 來比較scGNN與九種插補(bǔ)方法的性能蚓让。在“dropout”率為10%和30%時(shí),scGNN插補(bǔ)效果最好讥珍。而scGNN的余弦相似度評分在10%的“dropout”中排名第一历极,在30%的概率中排名第三 (圖2a)。此外衷佃,scGNN可以恢復(fù)由于scRNA-seq稀疏性而在原始表達(dá)數(shù)據(jù)中丟失的潛在基因間關(guān)系趟卸。例如,兩個(gè)多能性外胚層基因?qū)κ弦澹珻cnd3與Pou5f1以及Nanog與Trim28锄列,在原始數(shù)據(jù)中相關(guān)性較低,但在經(jīng)過scGNN插補(bǔ)后相關(guān)性變強(qiáng) (圖2b)惯悠。
scGNN還可以放大差異表達(dá)基因 (DEGs) 信號(hào)的倍數(shù)變化 (FC) (圖2c)邻邮。本實(shí)驗(yàn)還利用其他插補(bǔ)工具比較了插值前后DEG信號(hào)的變化。使用Klein數(shù)據(jù)和Zeisel數(shù)據(jù)中第1天細(xì)胞的原始表達(dá)值和scGNN插補(bǔ)的表達(dá)值對DEG的logFC評分進(jìn)行比較克婶。其差異性信號(hào)在插補(bǔ)后被增強(qiáng)筒严。結(jié)果表明,scGNN可以準(zhǔn)確地恢復(fù)表達(dá)值情萤,捕捉真實(shí)的基因間關(guān)系鸭蛙,增加DEG信號(hào),且不會(huì)引入額外的噪聲紫岩。
- 圖2 插補(bǔ)性能比較
3.2 scGNN可以準(zhǔn)確地預(yù)測細(xì)胞簇
除了人工模擬“dropout”的基準(zhǔn)數(shù)據(jù)集规惰,本文繼續(xù)評估scGNN和9個(gè)插補(bǔ)工具在相同兩個(gè)數(shù)據(jù)集上的聚類性能。使用10個(gè)指標(biāo)系統(tǒng)地評估預(yù)測的細(xì)胞標(biāo)簽泉蝌,包括調(diào)整后的蘭德指數(shù) (ARI) 等 (圖3a)歇万。通過UMAP可視化細(xì)胞聚類結(jié)果,與其他9種工具相比勋陪,使用scGNN時(shí)贪磺,可以觀察到同一簇內(nèi)細(xì)胞更接近,不同簇之間更分離 (圖3b)诅愚。隨著胚胎干細(xì)胞發(fā)育寒锚,表達(dá)模式顯示出異質(zhì)性。在Klein的時(shí)間序列數(shù)據(jù)中违孝,scGNN恢復(fù)了一個(gè)原始數(shù)據(jù)不能很好地顯示的復(fù)雜結(jié)構(gòu)刹前,即從第1天到第7天細(xì)胞發(fā)育的一條排列良好的軌跡路徑 (圖3c)。
在此基礎(chǔ)上雌桑,為了說明在scGNN中使用圖自編碼器和簇自編碼器的意義喇喉,本實(shí)驗(yàn)進(jìn)行了消融試驗(yàn)來繞過每個(gè)自編碼器,并比較了Klein數(shù)據(jù)集上的ARI結(jié)果(圖3d)校坑。其中GA-表示去除圖自編碼器的結(jié)果拣技,CA-表示去除聚類自編碼器的結(jié)果千诬,AG表示使用框架中所有基因后的結(jié)果。結(jié)果顯示膏斤,除去這兩個(gè)自編碼器中的任何一個(gè)都會(huì)顯著降低scGNN在細(xì)胞聚類精度方面的性能徐绑。
- 圖3 細(xì)胞聚類和軌跡評估
3.3 scGNN說明AD相關(guān)的神經(jīng)發(fā)育及其潛在的調(diào)節(jié)機(jī)制
為了進(jìn)一步證明scGNN的能力,本實(shí)驗(yàn)將其應(yīng)用于在6個(gè)AD (阿爾茲海默癥) 和6個(gè)對照大腦中收集的13,214個(gè)單核的scRNA-seq數(shù)據(jù)集 (GSE138852)莫辨。scGNN識(shí)別出10個(gè)細(xì)胞簇 (圖4a)傲茄。這10個(gè)細(xì)胞簇中的6個(gè)少突膠質(zhì)細(xì)胞亞簇在AD患者 (Oligos 2、3沮榜、4) 和健康對照者 (Oligos 1烫幕、5、6) 之間的比例不同 (圖4b)敞映。然后將這6個(gè)少突膠質(zhì)細(xì)胞亞簇組合成一個(gè)簇來檢測DEGs。由于scGNN可以顯著增加原始數(shù)據(jù)集中的真實(shí)信號(hào)磷斧,DEG模式更加明確振愿。在所有的DEGs中,確認(rèn)了22個(gè)基因?yàn)榧?xì)胞類型特異性基因 (圖4c)弛饭。此外冕末,一項(xiàng)生物途徑富集分析顯示,與所有五種細(xì)胞類型的細(xì)胞相比侣颂,AD細(xì)胞中有幾種高度陽性的富集 (圖5d)档桃。
為了研究AD相關(guān)神經(jīng)發(fā)育的調(diào)控機(jī)制,實(shí)驗(yàn)將scGNN插補(bǔ)的矩陣應(yīng)用于IRIS3 (來自scRNA-seq的整合細(xì)胞類型特異性調(diào)控的服務(wù)器)憔晒,并在5種細(xì)胞類型中鑒定出21種細(xì)胞類型特異性調(diào)控 (CTSR) (圖4e)藻肄。不足為奇的是,實(shí)驗(yàn)發(fā)現(xiàn)了一些與AD相關(guān)的轉(zhuǎn)錄因子 (TFs) 和靶基因拒担,這些轉(zhuǎn)錄因子和靶基因已經(jīng)被發(fā)現(xiàn)參與了AD的發(fā)展進(jìn)程嘹屯。其中SP2就是一種常見的TF,可在少突膠質(zhì)細(xì)胞和星形膠質(zhì)細(xì)胞中發(fā)現(xiàn)从撼。此外州弟,在所有細(xì)胞簇中都發(fā)現(xiàn)了調(diào)節(jié)神經(jīng)元突觸功能的SP3 TF。這一發(fā)現(xiàn)為發(fā)現(xiàn)SP3在AD研究中的作用提供了方向低零。
- 圖4 基于scGNN的阿爾茨海默氏病數(shù)據(jù)集 (GSE138852) 分析
四婆翔、總結(jié)
與以前在scRNA-seq數(shù)據(jù)分析中應(yīng)用自編碼器不同,scGNN可以使用自底向上的方法有效地聚合相似細(xì)胞之間的關(guān)系掏婶。且scGNN的插補(bǔ)可以減少不同測序技術(shù)引入的批效應(yīng)啃奴。此外,scGNN通過在特征自編碼正則化的LTMG中離散表示基因調(diào)控信號(hào)气堕,而有效地集成了調(diào)控信號(hào)纺腊。這些信號(hào)可以幫助識(shí)別生物學(xué)上有意義的基因-基因關(guān)系畔咧。值得注意的是,scGNN是一個(gè)基于數(shù)據(jù)驅(qū)動(dòng)細(xì)胞圖模型的無假設(shè)深度學(xué)習(xí)框架揖膜,它可以靈活地合并不同的統(tǒng)計(jì)模型 (例如誓沸,LTMG) 來分析復(fù)雜的scRNA-seq數(shù)據(jù)集。除上述實(shí)驗(yàn)之外壹粟,作者在原文中還進(jìn)行了一些其他的實(shí)驗(yàn)并在補(bǔ)充材料中提供了許多其他的實(shí)驗(yàn)數(shù)據(jù)拜隧,感興趣的可以深入研究一下。
代碼在scGNN,大家多多嘗試一些新的方法趁仙,對自己的幫助很大洪添。
生活很好,有你更好