scGraph: a graph neural network-based approach toautomatically identify cell types
https://doi.org/10.1093/bioinformatics/btac199
Abstract
Motivation: 單細胞技術在過去十年的生物學研究革命中發(fā)揮著至關重要的作用,這從單細胞水平的角度加強了我們對細胞分化、發(fā)育和調控的理解衣式。單細胞RNA測序(scRNA-seq)是最常見的單細胞技術之一,它可以在一次實驗中探測數(shù)千個細胞的轉錄狀態(tài)盖矫。從scRNA-seq測量中識別細胞類型是一個需要回答的基本和關鍵問題厌丑。以往的研究大多直接以基因表達為輸入,而忽略了基因-基因之間的綜合相互作用匹耕。
Results: 我們提出了scGraph聚请,一種利用基因相互作用關系的自動細胞識別算法來提高細胞類型識別的性能。scGraph是基于圖神經(jīng)網(wǎng)絡來聚合相互作用基因的信息。在一系列的實驗中驶赏,我們證明了scGraph在細胞類型識別方面是準確的炸卑,并且優(yōu)于8種比較方法。此外煤傍,scGraph可以從生物數(shù)據(jù)中自動學習基因相互作用關系盖文,通路富集分析的結果與之前的分析一致,為調控機制的分析提供了見解蚯姆。
1 Introduction
隨著跨越特定組織五续、器官甚至物種的scRNA-seq數(shù)據(jù)的快速積累,建立一個計算模型來自動識別新測序細胞的細胞類型是有意義的龄恋。這樣的模型可以利用來自這些公共數(shù)據(jù)集的信息來確定單細胞的細胞類型疙驾,從而消除了主觀性的問題,同時隨后降低了分析工作流的復雜性郭毕。
有了豐富的注釋和公開的scRNA-seq數(shù)據(jù)集荆萤,許多計算方法已經(jīng)發(fā)展出來。CHETAH(de Kanter et al., 2019)是一種細胞類型識別算法铣卡,通過將查詢的scRNA-seq數(shù)據(jù)與參考文獻相關聯(lián),以分層的方式分配細胞類型偏竟。scID(Boufea et al., 2020)通過線性判別分析框架識別scRNA-seq數(shù)據(jù)集中轉錄相關的細胞類型煮落。SingleR (Aran et al., 2019)基于查詢scRNA-seq數(shù)據(jù)和參考數(shù)據(jù)之間的相關基因表達,為scRNA-seq分配細胞身份踊谋。
人工智能的最新進展使得在尋找數(shù)據(jù)中的模式和提取信息豐富的高級特征方面獲得良好的性能成為可能 (Emmert-Streib et al., 2020)蝉仇。越來越多的研究表明,深度學習技術殖蚕,如word2vec (Zeng et al., 2018),卷積神經(jīng)網(wǎng)絡(Chen et al., 2021b; Liu et al., 2018)轿衔,長短期記憶網(wǎng)絡(Li et al., 2019)、生成對抗網(wǎng)絡(Liu et al., 2019) 和深度生成神經(jīng)網(wǎng)絡(Liu et al., 2021)睦疫,在生物信息學研究中表現(xiàn)非常出色害驹。在scRNA-seq領域,也有一些由先驅者開發(fā)的深度學習方法蛤育。例如ACTINN(Ma and Pellegrini, 2020)使用一個多層感知器(MLP)來提取scRNA-seq數(shù)據(jù)的高級特征宛官,然后自動識別細胞類型。此外瓦糕,圖表示學習也廣泛適用于單細胞生物學(Hetzel et al.底洗,2021)。scGNN是一種圖神經(jīng)網(wǎng)絡咕娄,聚集細胞間的關系亥揖,用于基因推斷和細胞聚類(Wang et al.,2021)圣勒。scFEA是一種圖神經(jīng)網(wǎng)絡费变,利用代謝網(wǎng)絡結構從scRNA-seq數(shù)據(jù)中推斷細胞級通量組(Alghamdi et al.摧扇,2021)。雖然已經(jīng)提出了許多細胞識別方法胡控,但當應用于從不同管道生成的數(shù)據(jù)時扳剿,沒有一種方法是足夠穩(wěn)健的方法(Abdelaal et al.,2019)昼激。此外庇绽,上述方法都將基因表達作為輸入特征,很少考慮基因之間的關系橙困。
然而瞧掺,研究表明,涉及基因調控網(wǎng)絡或蛋白-蛋白相互作用(PPI)網(wǎng)絡的基因相互作用在不同的生物環(huán)境中具有信息價值凡傅。例如辟狈,GCNN(Bigness et al.,2022)整合了Hi-C圖譜中的遠程調控相互作用來預測基因表達夏跷。DCell(Ma et al., 2018)是一個可見的神經(jīng)網(wǎng)絡哼转,利用大型復雜的信號通路,以基因破壞基因型作為模型輸入槽华,可解釋地預測細胞生長壹蔓。此外,先前的研究表明猫态,將scRNA-seq數(shù)據(jù)與先前的基因相互作用信息進行聯(lián)合分析佣蓉,可以導致對數(shù)據(jù)的有意義的理解。NetNMF-sc(Elyanow et al.亲雪,2020)是一種網(wǎng)絡正則化的非負矩陣分解方法勇凭,設計用于scRNA-seq分析,它利用先驗的基因網(wǎng)絡獲得更有意義的基因低維表示义辕。相反虾标,scRNA-seq數(shù)據(jù)也包含了豐富的信息來推斷基因-基因相互作用(Fiers et al.,2018)灌砖。
基于上述理解夺巩,我們提出了scGraph,一種基于圖神經(jīng)網(wǎng)絡的計算方法周崭,它利用基因相互作用網(wǎng)絡來克服技術噪聲柳譬,并自動識別細胞類型。通過整合基因表達和基因相互作用信息续镇,scGraph不僅可以用來識別單個細胞的細胞類型美澳,還可以從實驗數(shù)據(jù)中學習關鍵的基因相互作用關系。通過對跨越不同物種的8個數(shù)據(jù)集的scGraph和8種最先進的方法進行基準測試,結果顯示scGraph的性能始終優(yōu)于所有基線方法制跟。最后舅桩,我們在人類細胞景觀(HCL)數(shù)據(jù)集上訓練scGraph(Han et al.,2020)雨膨,并使用訓練后的模型直接識別另一個人類scRNA-seq數(shù)據(jù)集的細胞類型擂涛,這證明了scGraph使用參考數(shù)據(jù)集準確識別細胞類型的能力。
2 Materials and methods
2.1 scRNA-seq數(shù)據(jù)集
收集了8個公開的數(shù)據(jù)集來對我們的方法進行基準測試聊记。
在數(shù)據(jù)預處理中撒妈,我們首先過濾出少于10個細胞、不明確注釋或注釋為異常值的細胞類型/亞型排监。然后狰右,將每個細胞的表達數(shù)據(jù)歸一化,除以其總表達值舆床,再乘以比例因子棋蚌。我們假設基因表達的讀取計數(shù)遵循負二項分布。因此挨队,我們添加了一個偽計數(shù)谷暮,然后對每個縮放的表達式值應用log2轉換。當原始讀取計數(shù)值為零時盛垦,添加偽計數(shù)以避免任何無效的對數(shù)轉換湿弦。
2.2 基因相互作用網(wǎng)絡
scGraph利用基因相互作用關系來聚合每個基因的鄰居信息,從而提高細胞嵌入和細胞識別情臭。我們收集了7個不同的人類基因相互作用網(wǎng)絡和1個小鼠基因相互作用網(wǎng)絡杖狼,以評估scGraph作為不同的主干網(wǎng)絡的性能运提。
我們注意到,當將基因相互作用網(wǎng)絡應用于某個數(shù)據(jù)集時彼棍,只有在該數(shù)據(jù)集中出現(xiàn)兩個相互作用基因的相互作用對被保留娃惯,其余的對被丟棄跷乐。換句話說,不同數(shù)據(jù)集的基因相互作用網(wǎng)絡的相互作用對的數(shù)量可能會有所不同趾浅。為了捕捉一對基因中的兩個調控方向及其對應的強度愕提,基因相互作用網(wǎng)絡被認為是一個有向圖,因此對于來自無向基因網(wǎng)絡的A基因和B基因的一條邊皿哨,例如STRING PPI網(wǎng)絡浅侨,我們將其視為一對邊(即從 A 到 B 的邊和從 B 到 A 的邊)。我們此外证膨,將每個基因的偽自作用對添加到基因相互作用網(wǎng)絡中如输,以收集鄰近基因的信息,同時保留基因本身的信息。
2.3 scGraph的構建
scGraph是一個圖神經(jīng)網(wǎng)絡不见,以scRNA-seq數(shù)據(jù)和基因交互網(wǎng)絡作為模型輸入澳化,自動預測細胞標簽。如圖1所示稳吮,scGraph由三個模塊組成:(i)圖表示模塊缎谷,(ii)特征提取模塊和(iii)分類模塊≡钏疲基因之間的相互作用關系可以自發(fā)地以圖的形式呈現(xiàn)列林,其中應用圖神經(jīng)網(wǎng)絡來建模這種關系。在圖的卷積層中喻奥,每個節(jié)點代表一個基因席纽,而兩個節(jié)點之間的邊代表這兩個對應的基因之間的關系。圖表示模塊被設計為一個圖卷積層撞蚕,通過聚合每個節(jié)點的相鄰節(jié)點的信息來更新每個節(jié)點润梯。我們在圖表示模塊中使用改進的GraphSAGE卷積層(Haimlton et al., 2017)。GraphSAGE的原始更新公式可以表示為
由于在基因網(wǎng)絡中甥厦,一些hub基因纺铭,如轉錄因子,比其他基因更重要刀疙。相互作用關系的重要性可能會有很大差異舶赔。為此,我們?yōu)槊織l邊設計了一個可訓練的參數(shù)谦秧,公式可以表示為
在這里竟纳,每個基因在圖卷積操作后作為一個8D特征嵌入。
在特征提取模塊中鹅心,每個基因聚合的基因特征首先分別經(jīng)過包含12和4個隱藏節(jié)點的兩個線性層,然后變平并輸入包含256和64個節(jié)點的兩個隱藏層的簡單MLP纺荧。我們在每個全連接層后使用校正的線性單位函數(shù)和歸一化層巴帮。特征提取模塊降低了聚合基因特征的維數(shù)溯泣,該模塊的輸出不僅作為分類器模塊的輸入,還用于t-SNE可視化榕茧。最后垃沦,分類模塊基于特征提取模塊使用softmax函數(shù)提取的高級特征進行預測。
2.4 模型訓練
scGraph的參數(shù)使用Kaiming初始化器進行初始化(He et al.用押,2015)。交叉熵損失用于訓練蜻拨,可以定義為
由于scRNA-seq數(shù)據(jù)集通常是不平衡的夹纫,因此使用了兩種策略來減少不平衡訓練集的影響。首先舰讹,利用加權交叉熵為不同的類別分配不同的損失值進行反向傳播。然后月匣,為了避免來自微小細胞類型的巨大交叉熵權重钻洒,對小類進行數(shù)據(jù)增強(見補充方法),以減少不平衡的概率锄开。
3 Results
3.1 scGraph在自動細胞類型分類任務中優(yōu)于基線
首先素标,我們用8種基線方法對scGraph進行了基準測試(見補充方法)院刁。我們在8個數(shù)據(jù)集上評估了這些模型粪狼,并根據(jù)mean-F1進行了5倍交叉驗證(表1和補充圖S1A)和準確性(補充表S3和補充圖S1B)退腥。
如圖2B所示再榄,scGraph在每個處理不同數(shù)量的高度可變基因的數(shù)據(jù)集上都優(yōu)于SVM和ACTINN,這表明scGraph處理不同基因規(guī)模的數(shù)據(jù)集具有魯棒性能嗅蔬。
我們還在兩個mouse數(shù)據(jù)集(即 AMB 和 TM)上使用基線方法對 scGraph 進行了基準測試。 為此消玄,使用來自 STRING 數(shù)據(jù)庫的mouse PPI 網(wǎng)絡作為 scGraph 的主干網(wǎng)絡丢胚。 并且 scGraph 在八種基線方法上仍然取得了最佳性能受扳,表明 scGraph 可以用于具有特定物種主干網(wǎng)絡的不同物種。
無論 scRNA-seq 管道如何勘高,技術噪聲都固有地包含在數(shù)據(jù)中,應在下游分析之前將其移除 (Hwang et al., 2018)层亿。 為了測試 scGraph 解決技術批次效應問題的能力立美,我們在 HCL 項目的胎兒大腦數(shù)據(jù)集上訓練了 scGraph匿又,該數(shù)據(jù)集包含4個實驗批次和6種細胞類型建蹄。 我們從 scGraph 的特征提取模塊中提取每個細胞的高級特征,并使用 t-SNE 算法進行降維和可視化洞慎。 如補充圖 S2A 和 B 所示,在 t-SNE 可視化中旭绒,細胞按細胞類型而不是按批次聚集在一起焦人,表明 scGraph 可以極大地克服批次效應挥吵,并且可以有效地用于消除批次效應花椭。
為了評估scGraph的結果是否與生物學發(fā)現(xiàn)相一致,我們以Zhang’sT細胞數(shù)據(jù)集作為說明(補充圖S3)丹允。我們首先使用scGraph提取每個細胞的高級特征,并應用t-SNE進行降維和可視化雕蔽。如圖2C和補充圖S3A所示奕污,scGraph都準確地識別了幾乎所有細胞的細胞類型液走。此外贾陷,我們還檢查了每種類型的生物標記物的表達。以生物標志物IL10為例(補充圖髓废。S3B)该抒,我們發(fā)現(xiàn)IL10基因在以IL10為其生物標記物的T細胞亞型中高度特異性表達慌洪。以上分析表明凑保,scGraph在使用scRNA-seq數(shù)據(jù)的細胞類型識別方面具有很大的靈活性和性能。
3.2 scGraph在不同的基因相互作用網(wǎng)絡中表現(xiàn)穩(wěn)狡瞪恕(robustly)
我們首先檢查了不同閾值對 STRING PPI 網(wǎng)絡的影響芝此。 我們使用八個閾值過濾 STRING 網(wǎng)絡憋肖,以便分別保留組合得分最高的交互對的前 1%婚苹、3%、5%怎炊、10%、20%结胀、30%责循、40% 和 50%糟港。 然后院仿,我們在 Zhang’s T cell數(shù)據(jù)集上使用這8個 STRING 主干網(wǎng)絡評估了 scGraph 的性能。如圖2D和補充表S4所示剥汤,scGraph記錄了前1-10%STRING?PPI網(wǎng)絡在mean F1和auPRC方面的可比性能排惨。但對于閾值>10%吭敢,我們觀察到mean F1得分顯著下降暮芭,這可能歸因于STRING PPI網(wǎng)絡中存在太多的組合得分較低的不交互對欲低。接下來畜晰,我們在6個人類數(shù)據(jù)集上評估了具有前1%、3%凄鼻、5%和10%的STRING網(wǎng)絡的scGraph,以確定最佳閾值闰非。如補充表S5和S6所示,使用這些不同的STRING主干網(wǎng)絡的scGraph在mean F1和auPRC方面的性能具有可比性河胎。這4個網(wǎng)絡在6個人類數(shù)據(jù)集上的mean F1得分的標準差為1.23%虎敦,表明這些具有不同閾值的網(wǎng)絡的scGraph的性能是穩(wěn)健的。由于STRING數(shù)據(jù)庫被廣泛使用其徙,而前1%的STRING網(wǎng)絡是最有說服力和凝練性,所以我們使用前1%的STRING網(wǎng)絡作為默認的主干網(wǎng)絡唾那。
接下來,我們評估了scGraph使用不同基因交互網(wǎng)絡作為主干網(wǎng)絡的scGraph的性能期犬。我們從三個數(shù)據(jù)庫中收集了其他四個人類基因交互網(wǎng)絡避诽,即 HumanNet-CF、HumanNet-PI沙庐、GENMANIA 和 FunCoup。請注意拱雏,我們只保留了 GENMANIA 和 FunCoup 得分最高的交互對的前 1% 來分別構建基因交互網(wǎng)絡,因為它們的大型交互對包含大量模糊邊緣贡耽。 我們還從 pgWalk 收集了兩個精心設計的功能網(wǎng)絡,它們是基于功能相似性構建的(參見材料和方法)蒲赂。 我們比較了在6個人類數(shù)據(jù)集上使用不同主干網(wǎng)絡的scGraph的性能。如補充表S7和S8所示凳宙,scGraph在不同的主干網(wǎng)絡下取得了相當?shù)男阅苤暗弧T?個人類數(shù)據(jù)集上,具有不同主干網(wǎng)絡的scGraph的標準偏差為0.013是尖。圖 2E 直接根據(jù) Zhang’s T細胞數(shù)據(jù)集上的精確召回曲線說明了 scGraph 在不同主干網(wǎng)絡中的性能。從這些結果中饺汹,我們得出結論痰催,scGraph對不同的主干網(wǎng)絡具有魯棒性,可以從不同的基因相互作用數(shù)據(jù)庫中獲得夸溶。
相比之下,我們另外用隨機主干網(wǎng)絡評估了scGraph的性能缝裁,以驗證基因相互作用網(wǎng)絡的有效性。我們將主干網(wǎng)絡隨機打亂10次韩脑,并在不同的數(shù)據(jù)集上進行評估粹污。如圖2F所示,與相應的主干網(wǎng)絡相比壮吩,隨機主干網(wǎng)絡的平均fmean F1性能顯著下降,平均下降了3.78%粥航。以上分析表明,只要主干網(wǎng)絡包含有效的基因-基因相互作用信息柄延,它是非常穩(wěn)健的,即使這些網(wǎng)絡不僅在網(wǎng)絡中的節(jié)點數(shù)和邊數(shù)上不同搜吧,而且在網(wǎng)絡功能類型上也不同。
3.3 scGraph可以準確和自適應地識別細胞類型
我們首先證明了 scGraph 的泛化能力不僅可以克服技術噪聲滤奈,還可以克服設計的擾動。 scRNA-seq 實驗通常在捕獲時間绅你、設備甚至技術平臺方面存在顯著差異昭躺,這可能會給數(shù)據(jù)帶來技術噪音。 為了分析不同實驗室引起的技術噪聲领炫,我們分別使用 CEL-seq2 和 SmartSeq2 協(xié)議從不同實驗室收集了兩個人類胰腺 scRNA-seq 數(shù)據(jù)集,并進行了與上述類似的分析帝洪。如補充圖S4A和D所示,細胞按細胞類型而不是實驗室類別很好地聚集起來啄枕,這表明scGraph可以克服技術人員引入的技術噪聲族沃。此外,scGraph還可以準確地預測細胞類型脆淹,而不管設計的擾動如何,這是細胞類型分類器廣泛應用于不同場景的一個重要優(yōu)勢盖溺,如在體內、體外和其他刺激條件下昆禽。為此蝇庭,我們首先收集了Kang's PBMCs數(shù)據(jù)集,其中有暴露于細胞因子干擾素(IFN-b)后的PBMCs實驗組和正常PBMCs的對照組哮内。實驗組暴露于細胞因子IFN-b。這兩組細胞的表達有顯著不同的模式,在t-SNE圖中也很容易通過實驗條件分離(補充圖喷屋。S4B和E)瞭恰,這是由原始論文中一般的scRNA-seq無監(jiān)督處理分析生成的。我們在數(shù)據(jù)集的控制組上訓練scGraph惊畏,并直接對治療組進行細胞類型預測。我們通過上述類似的分析收集了細胞嵌入和預測的細胞類型驳棱。如補充圖S4C和F所示农曲,scGraph能夠克服不同實驗條件下的變化,準確預測實驗組的細胞類型乳规『夏牛總的來說,scGraph不僅可以很好地解決由不同的scRNA-seq協(xié)議和不同的實驗室所引入的技術噪聲淌实,而且還可以克服由設計的擾動引起的變異。
為了驗證 scGraph 是否可以使用預訓練模型準確識別細胞類型拆祈,我們收集了三個人類胰腺數(shù)據(jù)集恨闪。 我們在 Baron 的胰腺數(shù)據(jù)集中訓練了 scGraph 模型放坏,因為該數(shù)據(jù)集的庫容量很大,并且可以直接識別其他兩個胰腺數(shù)據(jù)集的細胞類型钧敞。 如圖 3 所示麸粮,scGraph 準確識別 Muraro's 數(shù)據(jù)集(圖 3A)和 Segerstolpe's 數(shù)據(jù)集(圖 3B)中大多數(shù)細胞的細胞類型。 例如弄诲,scGraph 分別為 Muraro 的胰腺數(shù)據(jù)集精確地恢復了 97.3%、95.3%凤巨、90.2%视乐、98.4% 和 98.1% 的 α 細胞敢茁、β 細胞、ductal細胞伸刃、δ 細胞和 γ 細胞逢倍。
為了評估 scGraph 處理大型 scRNAseq 數(shù)據(jù)集的能力,我們構建了一個完整的人類細胞類型自動分類模型较雕,在整個 HCL 數(shù)據(jù)集上進行訓練,其中包括 59 種人體組織和 63 種細胞類型扣典。我們首先在這個參考數(shù)據(jù)集上訓練了 scGraph慎玖,混淆矩陣證明了 scGraph 模型的高精度(補充圖 S5A)贮尖。接下來趁怔,我們在其他獨立的人類 scRNA-seq 數(shù)據(jù)集上驗證了 scGraph 的性能,假設它們是新的測序 scRNA-seq 數(shù)據(jù)集关斜。如果某個細胞的所有細胞類型的預測概率小于閾值任连,即這里的 0.1蚤吹,scGraph 將拒絕進行分類随抠。換言之,該細胞可能屬于不在參考數(shù)據(jù)集中的新細胞類型二驰。我們通過訓練有素的 scGraph 模型對 Kang's PBMC 數(shù)據(jù)集進行了細胞類型預測秉沼。如補充圖 S5B 所示矿酵,PBMC 數(shù)據(jù)集中的幾乎所有細胞類型都被投影為正確的參考矗积。上述分析證明了 scGraph 在細胞類型自動識別中的實用性。
3.4 scGraph揭示了重要的基因相互作用關系
值得注意的是,scGraph 不僅達到了最先進的性能呜投,而且還從邊緣重要性得分向量 S 中學習了基因相互作用關系。請注意矩动,邊緣重要性得分向量 S 會隨著模型訓練過程而更新释漆,一次 scGraph模型完成訓練,得到基因-基因國際網(wǎng)絡的權重男图。 然后甜橱,我們根據(jù)邊緣重要性分數(shù) s 對基因-基因相互作用對進行排序,并選擇最重要的獨特靶基因進行下游分析岂傲。
為了證明 scGraph 可以學習一致的必需基因,我們從具有 STRING 主干網(wǎng)絡的 5 個訓練好的 scGraph 模型中收集了 5 個前 50 個目標基因的列表乃戈,這些模型是從 Zhang 的 T 細胞數(shù)據(jù)集的不同交叉驗證折疊中訓練出來的亩进。如圖4A所示,這5個必要基因列表相互一致归薛,平均重疊奇數(shù)(見補充方法)為79.2%匪蝙,由93個獨特的基因組成习贫,稱為組合必需基因列表。對于分別使用HumNet-PI和pgwalk-KEGG骨干網(wǎng)絡的scGraph模型苫昌,也可以得到類似的結果(補充圖。S6A和B)屋厘。接下來月而,我們證明了由不同的主干網(wǎng)絡優(yōu)先排序的必要基因列表是相互一致的。如圖4C所示父款,STRING、HumNet-PI 和 pgwalk-KEGG 主干網(wǎng)絡的組合基因列表分別由93世杀、96和97個基因組成(見補充表S9)肝集。平均重疊奇數(shù)為49.7%,背景的平均重疊奇數(shù)為0.003%(見補充方法)杏瞻,表明不同主干網(wǎng)絡優(yōu)先排序的基本基因列表的一致性。這一結果也解釋了為什么scGraph在不同的主干網(wǎng)絡上存檔了相似的性能捞挥。以上分析表明,scGraph可以從不同的主干網(wǎng)絡中穩(wěn)健地發(fā)現(xiàn)一致的必要基因斩披。
接下來庇楞,我們展示了scGraph發(fā)現(xiàn)的組合必要基因聚集了來自數(shù)據(jù)集和主干網(wǎng)絡的信息。如補充表S10所示吕晌,來自帶STRING 主干網(wǎng)絡的scGraph組合必需基因中,只有6個和13個基因與前100個高變異基因和前100個高表達基因重疊烙心。使用HumNet-PI和pgwalk-KEGG骨干網(wǎng)絡在scGraph上進行了類似的分析乏沸。這些結果進一步支持了必需基因的發(fā)現(xiàn)不僅取決于基因的表達水平或變異水平淫茵,還取決于基因在基因相互作用網(wǎng)絡中的位置的結論蹬跃。
此外,為了證明scGraph得出的組合必需基因列表具有組織特異性辆苔,我們首先通過類似的分析扼劈,在Barons胰腺數(shù)據(jù)集上進行了101個必需基因的組合必需基因列表(圖4b)菲驴。有趣的是,來自T細胞數(shù)據(jù)集和胰腺數(shù)據(jù)集的兩個curated 基因列表之間沒有任何重疊赊瞬。然后,我們通過MetaScape進行了途徑富集分析(Zhouetal.薯蝎,2019)谤绳。T細胞和胰腺數(shù)據(jù)集的通路富集結果分別如圖4D和補充圖S6C所示袒哥。對于Zhang’sT細胞數(shù)據(jù)集消略,大多數(shù)通路與免疫反應高度相關。最顯著富集的氧化石墨烯生物學過程是GO:0042110(T細胞活化)艺演,經(jīng)過多重檢驗調整的P值為,描述了刺激導致的成熟或未成熟T細胞的形態(tài)和行為的變化晓殊。Reactome 基因集富集分析表明伤提,最重要的途徑是 R-HSA-198933(淋巴和非淋巴細胞之間的免疫調節(jié)相互作用),經(jīng)過多重檢驗調整的 P 值為 飘弧,它由許多作為適應性免疫系統(tǒng)的一部分,受體和細胞粘附分子在改變免疫細胞對自身痴昧、病原生物和腫瘤抗原的反應方面發(fā)揮著重要作用冠王。它令人信服地證明了這些 T 細胞的功能,這些 T 細胞是從結腸直腸腫瘤和鄰近的正常組織中取樣的柱彻。至于胰腺數(shù)據(jù)集,scGraph 還發(fā)現(xiàn)了重要的胰腺特異性通路瘤载,包括 Reactome 通路 R-HSA-420092(胰高血糖素型配體受體)和 GO Biological Processes GO:0033762(對胰高血糖素的反應)卖擅。上述通路富集分析充分勾勒出相應數(shù)據(jù)集的共同屬性,表明 scGraph 有效地利用了基因相互作用骨干網(wǎng)絡惩阶,并準確地從 scRNA-seq 數(shù)據(jù)中學習組織特異性基因-基因關系。
4 Discussion
我們提出了 scGraph锨匆,一個由用于自動細胞識別的圖神經(jīng)網(wǎng)絡組成的計算框架冬筒。 我們首先在8個數(shù)據(jù)集上針對8種基線方法(包括 SVM 和 ACTINN)對 scGraph 進行了基準測試紊遵。 結果表明,scGraph 可以準確地區(qū)分細胞類型和亞型暗膜,顯示其性能優(yōu)于比較方法鞭衩。在證明了scGraph對不同基因主干網(wǎng)絡的魯棒性后,我們在不同條件數(shù)據(jù)集上設計了一系列實驗论衍,并說明了 scGraph 在可視化、魯棒性炬丸、可擴展性和靈活性方面的性能蜒蕾。
為了進一步說明 scGraph 的這一優(yōu)勢,我們利用在特定數(shù)據(jù)集上訓練的 scGraph 模型的邊緣重要性評分向量來發(fā)現(xiàn)組織特異性必需基因咪啡。 通過一系列實驗,我們發(fā)現(xiàn)scGraph發(fā)現(xiàn)的必需基因是合理的毅桃,并且與多次運行一致准夷。 這些必需基因的通路富集還表明,scGraph 能夠從不同的數(shù)據(jù)集中提取有意義的組織特異性基因-基因相互作用信息衫嵌。
在本研究中,我們說明了圖神經(jīng)網(wǎng)絡能夠提取有意義的特征论悴,并基于scRNA-seq譜和主干網(wǎng)絡提供生物學見解,從而為理解基因調控機制提供了思路墓律。當然,我們的工作也有一些方面需要改進幔亥。首先耻讽,scGraph識別稀有細胞類型的性能需要提高,這對許多生物過程都很重要帕棉。其次针肥,需要改進scGraph的訓練過程饼记,以減少計算時間。然后慰枕,值得將通路信息或GO本體生物過程信息嵌入到模型中具则,僅類似于DCell,它將生物本體嵌入到模型中具帮,以預測酵母的生長表型和遺傳相互作用博肋。將不同種類的基因相互作用網(wǎng)絡組裝成一個模型來促進性能也是值得的。最后蜂厅,隨著其他單細胞技術的快速發(fā)展,利用圖神經(jīng)網(wǎng)絡整合不同的組學數(shù)據(jù)掘猿,利用調控網(wǎng)絡分析單細胞數(shù)據(jù)是值得的病游。我們把這些方向上的探索留給了未來的工作。