10X單細胞(10X空間轉(zhuǎn)錄組)之基因網(wǎng)絡推斷方法之間的優(yōu)劣勢

大家應該經(jīng)常用SCENIC或者pySCENIC推斷單細胞數(shù)據(jù)的基因網(wǎng)絡吧,但是大家知道網(wǎng)絡推斷方法之間的算法和優(yōu)劣勢么,這一篇我們來分享一下推斷基因網(wǎng)絡調(diào)控的多方法比較,參考文章在Identifying strengths and weaknesses of methods for computational network inference from single cell RNA-seq data,分享一下如何準確推斷細胞調(diào)控網(wǎng)絡。

圖片.png

先說一下最終的結(jié)論

  • top(PIDC魂那、MERLIN、SCENIC稠项、PEARSON)
  • mid(Inferelator涯雅、 SCODE、LEAP皿渗、Scribe)
  • bottom(knnDREMI斩芭、SILGGM)

Abstract

單細胞 RNA 測序 (scRNA-seq) 通過測量數(shù)千個單個細胞的轉(zhuǎn)錄組,為不同細胞狀態(tài)的轉(zhuǎn)錄程序提供了無與倫比的洞察力乐疆。 scRNA-seq 分析中的一個新問題是轉(zhuǎn)錄基因調(diào)控網(wǎng)絡的推斷划乖,并且已經(jīng)開發(fā)了許多具有不同學習框架的方法。在這里挤土,在考慮不同類型的黃金標準網(wǎng)絡和評估指標的情況下琴庵,針對人類、小鼠和酵母中 6 個已發(fā)布的單細胞 RNA 測序數(shù)據(jù)集,介紹了最近 11 種網(wǎng)絡推理方法的擴展基準研究根據(jù)它們的計算要求以及它們恢復網(wǎng)絡結(jié)構(gòu)的能力來評估方法扫尖。分析發(fā)現(xiàn)兴想,雖然沒有一種方法是萬能的啼止,而且大多數(shù)方法都可以適度恢復基于 AUPR 等全局指標的實驗衍生交互,但方法能夠捕獲與所研究系統(tǒng)相關的regulators的目標。基于整體性能懦尝,將這些方法分為三個主要類別,并發(fā)現(xiàn)information-theoretic and regression-based methods的組合具有普遍較高的性能壤圃。分析還評估了基因調(diào)控網(wǎng)絡推斷插補的效用陵霉,并發(fā)現(xiàn)少數(shù)方法受益于插補,這進一步取決于數(shù)據(jù)集伍绳。最后踊挠,在可比較的bulk條件下與推斷網(wǎng)絡的比較表明,從 scRNA-seq 數(shù)據(jù)集推斷的網(wǎng)絡通常更好或與bulk推斷的網(wǎng)絡相當冲杀,這表明 scRNA-seq 數(shù)據(jù)集可以成為基因調(diào)控網(wǎng)絡推斷的一種具有cost-effective的方式效床。分析應該有利于選擇執(zhí)行網(wǎng)絡推理的算法睹酌,但也主張改進方法和更好的黃金標準,以準確評估哺乳動物系統(tǒng)的regulatory network推理方法扁凛。

Introduction

Inference of genome-scale regulatory networks from global mRNA profiles has been a long-standing problems in systems biology and gene regulation.這些網(wǎng)絡對于理解細胞類型規(guī)范和疾病的機制很重要忍疾。 單細胞組學數(shù)據(jù)的可用性為 reverse engineer transcriptional regulatory networks開辟了新的機會闯传,使我們能夠研究多種細胞類型的調(diào)控網(wǎng)絡谨朝。 單細胞 RNA-seq (scRNA-seq) 測量數(shù)萬個細胞的全基因組表達譜,這大大降低了生成計算網(wǎng)絡推理所需的大樣本數(shù)據(jù)集的成本甥绿。 此外字币,它提供了在同一實驗中為已知和新細胞群推斷細胞類型特異性調(diào)節(jié)網(wǎng)絡的潛力,提供了一種剖析異質(zhì)細胞群的有效方法 共缕。

scRNA-seq 數(shù)據(jù)集的可用性推動了許多從這些數(shù)據(jù)進行網(wǎng)絡推理的方法的發(fā)展洗出,這些方法使用不同類型的模型,包括高斯圖模型图谷、信息論方法翩活、隨機森林、常微分方程和布爾網(wǎng)絡便贵。方法在包含偽時間或估算的去噪信號方面也有所不同菠镇。其中一些方法專門對 scRNAseq 數(shù)據(jù)的統(tǒng)計特性進行建模,而另一些方法則是對現(xiàn)有方法的bulk數(shù)據(jù)的改編承璃。在方法開發(fā)的同時利耍,有兩個基準研究來比較現(xiàn)有的網(wǎng)絡推理算法。一項研究表明盔粹,現(xiàn)有方法在模擬數(shù)據(jù)和真實數(shù)據(jù)上的表現(xiàn)都很差隘梨,而另一項研究表明,在模擬數(shù)據(jù)上表現(xiàn)良好的方法在真實數(shù)據(jù)上可能相對較差舷嗡。雖然這些研究很有用轴猎,但仍有許多未解決的問題需要解決,以全面了解來自 scRNA-seq 數(shù)據(jù)集的現(xiàn)有網(wǎng)絡推理算法的優(yōu)缺點〗眩現(xiàn)有的基準測試工作還研究了來自真實數(shù)據(jù)(<2000 個基因)的相對較少數(shù)量的網(wǎng)絡捻脖,而實際上基因組規(guī)模的調(diào)控網(wǎng)絡可能有 5-10k 個基因。另一個未知數(shù)是不同的基準(例如來自 ChIP 與監(jiān)管機構(gòu)擾動的基準)會在多大程度上影響性能垮斯,以及方法在多大程度上彼此一致以及在黃金標準網(wǎng)絡的specific components上郎仆。此外,有人建議對從 scRNA-seq 獲得的稀疏計數(shù)矩陣進行插補兜蠕,以改進 scRNA-seq 數(shù)據(jù)集的下游分析扰肌,包括識別基因之間的功能關系。然而熊杨,目前尚不清楚這是否更普遍地有益于網(wǎng)絡推理方法曙旭。最后盗舰,目前尚不清楚從同一系統(tǒng)的單個細胞與bulk數(shù)據(jù)集推斷出的網(wǎng)絡相互比較的程度 。

圖片.png

在這里桂躏,在人類钻趋、小鼠和酵母樣本的已發(fā)表 scRNA-seq 實驗的六個數(shù)據(jù)集上比較了 11 種網(wǎng)絡推理方法。對不同大小數(shù)據(jù)集的時間和內(nèi)存消耗計算要求的算法進行基準測試剂习,確定了幾種不太可能擴展到全基因組基因調(diào)控網(wǎng)絡的算法蛮位。分析使用不同的全局指標(例如精確召回曲線下的面積和 F 分數(shù))以及局部指標(例如可以準確預測目標的監(jiān)管機構(gòu)的數(shù)量)來比較算法性能×廴疲基于簡單相關性的方法在這些指標上表現(xiàn)得同樣好或更好失仁。基于全局指標们何,網(wǎng)絡推理方法與隨機方法相比性能適中萄焦,但局部指標表明該方法可以預測多個相關監(jiān)管機構(gòu)的目標。通常冤竹,與其他算法相比表現(xiàn)良好的算法往往彼此一致拂封,盡管這取決于數(shù)據(jù)集的深度。 scRNA-seq 數(shù)據(jù)集的插補并沒有為大多數(shù)網(wǎng)絡推理方法提供實質(zhì)性的好處鹦蠕。最后冒签,我們將這些算法在單細胞數(shù)據(jù)集上的性能與bulk數(shù)據(jù)進行了比較,并發(fā)現(xiàn)了幾種情況片部,其中 scRNA-seq 數(shù)據(jù)集的推理與改進的推理相關镣衡。總體而言档悠,研究對來自 scRNA-seq 數(shù)據(jù)集的網(wǎng)絡推理的最新算法進行了擴展分析比較廊鸥,確定了不同類型黃金標準的共同優(yōu)勢和劣勢,這些優(yōu)勢和劣勢應該有利于網(wǎng)絡推理社區(qū)以改進網(wǎng)絡推理辖所。

Results

Computing requirements of regulatory network inference algorithms from single cell RNA-seq data

從 11 種專門設計用于從單細胞測序數(shù)據(jù)推斷監(jiān)管網(wǎng)絡的算法以及bulk推斷方法開始惰说。除了這些已發(fā)表的算法之外,分析還構(gòu)建了一個網(wǎng)絡缘回,其中基因?qū)χg的邊緣通過它們在實驗范圍內(nèi)的表達相關性進行加權吆视。首先使用從 10 到 8000 個基因的不同數(shù)量的基因?qū)@些算法進行了基準測試。估計了每個網(wǎng)絡推理算法的內(nèi)存和運行時間酥宴。在比較的方法中啦吧,SCHiRM 和 BTR 沒有在合理的時間內(nèi)完成,因此被排除在進一步分析之外拙寡。 SCRIBE 和 HurdleNormal 最多可以運行 2000 個基因授滓,但超出這個范圍需要更長的時間來運行。大多數(shù)可針對多達 8k 個基因運行的算法消耗了多達 15G 的 RAM。例外情況是 SCHiRM般堆、Inferelator 和 PIDC在孝,它們占用了更高的內(nèi)存。 SCHiRM 內(nèi)存消耗呈指數(shù)增長淮摔,被認為對于更大的基因集是不可行的私沮。對于隨后的分析,我們從我們的分析中排除了 SCHiRM和橙、BTR 和 HurdleNormal仔燕。

圖片.png

圖片.png

Assessing the performance of scRNA-seq regulatory network inference algorithms based on global metrics

接下來比較了算法在來自三個物種(酵母、小鼠和人類)的真實黃金標準網(wǎng)絡上的性能胃碾。這些數(shù)據(jù)集包括兩個酵母應激相關數(shù)據(jù)集涨享、四個小鼠數(shù)據(jù)集筋搏、一個用于樹突細胞仆百、三個從細胞重編程到不同培養(yǎng)基產(chǎn)生的胚胎干細胞,以及一個用于人類胚胎干細胞分化的人類數(shù)據(jù)集奔脐。數(shù)據(jù)集有一系列細胞俄周,從 Gasch 等人的 163 個細胞到 Zhao 等人的 36,199 個細胞的最大數(shù)據(jù)集。對于每個物種數(shù)據(jù)集髓迎,我們有三種黃金標準峦朗,那些來自敲除或敲除調(diào)節(jié)器,然后進行全局 mRNA 分析排龄,來自 ChIP-chip 或 ChIP-seq 實驗的那些波势,以及來自這兩者交集的那些黃金標準。我們使用精確召回曲線下的標準面積和 F 分數(shù)評估算法的性能橄维,考慮每個數(shù)據(jù)集上的每個算法尺铣。雖然精確召回曲線 (AUPR) 下的面積考慮了由網(wǎng)絡推理算法估計的所有邊緣,但 F 分數(shù)是使用頂部邊緣計算的争舞。為了選擇 F-score 計算的邊數(shù)凛忿,考慮了不同的邊數(shù)并選擇了 5k 邊,因為這導致了跨算法最穩(wěn)定的結(jié)果竞川。

圖片.png

圖片.png

圖片.png

圖片.png

圖片.png

圖片.png

首先檢查了每種算法對來自不同生物體的單個數(shù)據(jù)集的性能店溢,并根據(jù)其 F-score 對每種方法進行排名。 大多數(shù)方法在他們的排名中表現(xiàn)出一些變化委乌,但是除了少數(shù)例外床牧,性能總體上是一致的。 例如遭贸,SILGGM 在大多數(shù)數(shù)據(jù)集上的性能相對較低戈咳,但 Sridharan A2S/FBS Perturb+ChIP 除外,它的排名很高。 SCODE 在酵母數(shù)據(jù)集上表現(xiàn)良好除秀,但在哺乳動物數(shù)據(jù)集上表現(xiàn)相對較差糯累。 LEAP 在 Shalek 數(shù)據(jù)集上表現(xiàn)不佳,但通常屬于中等排名方法册踩。 算法的相對性能在兩個指標 F-score 和 AUPR 之間基本一致泳姐。 在不同的方法中,PIDC暂吉、SCENIC胖秒、MERLIN 和 Pearson 相關在基于 F-score 和 AUPR 的數(shù)據(jù)集上的性能最穩(wěn)定。

根據(jù)不同類型的黃金標準檢查了算法的性能慕的。 與 ChIP 黃金標準相比阎肝,Perturb 黃金標準數(shù)據(jù)集的 F 分數(shù)和 AUPR 通常高于隨機數(shù)。 例外是 SCODE肮街,與 Knockdown 相比风题,它更適合 ChIP。 接下來嫉父,我們根據(jù)每個黃金標準的中位數(shù)排名匯總所有數(shù)據(jù)集的算法沛硅,并根據(jù)其在兩種黃金標準中的整體中位數(shù)排名對每種方法進行排名。 根據(jù)跨數(shù)據(jù)集的所有算法的中位數(shù)排名绕辖,相關性摇肌、SCENIC、MERLIN 和 PIDC 在使用 F-score 或 AUPR 時也名列前四仪际。 當使用 F-score 和 AUPR 檢查隨機網(wǎng)絡性能的individual fold improvements時围小,這種趨勢很明顯。

Assessing the performance of scRNA-seq regulatory network inference algorithms based on subnetwork metrics

AUPR 和 F-score 提供了監(jiān)管網(wǎng)絡全局準確性的量化树碱,并一次比較一個邊緣肯适。然而,從生物學的角度來看赴恨,了解是否有一些轉(zhuǎn)錄因子 (TF) 的目標與其他轉(zhuǎn)錄因子相比更容易預測可能是有益的疹娶。此外,跨方法的比較可以確定特定方法是否對某些 TF 更敏感伦连。因此雨饺,我們接下來通過測量預測單個轉(zhuǎn)錄因子的目標的能力,根據(jù) Siahpirani 等人描述的預測集中 TF 真實目標的倍數(shù)富集來關注推斷網(wǎng)絡的更細粒度的視圖惑淳。我們使用 FDR 校正的超幾何測試為重疊分配了 p 值额港,并使用顯著可預測的 TF 的數(shù)量作為網(wǎng)絡性能的另一種量化。與算法性能通常接近隨機的 AUPR 和 F-score 不同歧焦,隨機基線的可預測 TF 的數(shù)量不超過 1移斩,通常為 0肚医。在數(shù)據(jù)集上,這些方法排名一致向瓷,除了 LEAP在 Shalek 中表現(xiàn)更差肠套,而在 Gasch 中表現(xiàn)更好的 SCODE。當使用中位數(shù)對數(shù)據(jù)集進行聚合時猖任,我們發(fā)現(xiàn) SCENIC 和 Pearson 是排名靠前的方法你稚,其次是 MERLIN 和 PIDC。綜合考慮 AUPR朱躺、F-score 和可預測 TF 的所有三個指標刁赖,表現(xiàn)最好的方法是 SCENIC、MERLIN 和 Correlation长搀。

圖片.png

圖片.png

接下來檢查了每個數(shù)據(jù)集哪些特定的 TF 是通過不同的方法預測的宇弛。此信息可以幫助確定網(wǎng)絡的某些部分是否可以通過特定類別的方法或所有方法進行預測。對于在胚胎干細胞狀態(tài)譜系規(guī)范過程中描述轉(zhuǎn)錄程序的 Han 數(shù)據(jù)集源请,發(fā)現(xiàn)幾個 ESC 特異性調(diào)節(jié)因子枪芒,如 POU5F1、SOX2 和 NANOG巢钓,在使用 ChIP 黃金標準的多種方法中作為可預測的 TF病苗。這些是負責建立此狀態(tài)的關鍵 ESC TF。還發(fā)現(xiàn)了一些譜系特異性 TF症汹,如 CDX2 和 TBX3,它們是通過多種方法預測的不同譜系的主要調(diào)節(jié)因子贷腕。在比較 Perturb 金標準時背镇,發(fā)現(xiàn)了與 ChIP 金標準類似的regulators,但另外還有用于視網(wǎng)膜和造血譜系的 OTX2 和 GATA3 等regulators泽裳。對于小鼠細胞重編程數(shù)據(jù)集瞒斩,發(fā)現(xiàn)許多方法都具有類似的行為,這些方法能夠在 ChIP 和 Perturb 黃金標準中識別多種發(fā)育調(diào)節(jié)因子涮总,例如 Pou5f1胸囱、Esrrb 和 Sox2。 SCODE 在 Han 數(shù)據(jù)集中有許多可預測的 TF瀑梗,但是烹笔,其中許多是general regulators,例如 SP1抛丽、YY1谤职、POL2RA、ATF2亿鲜。重要的是允蜈,與樹突細胞數(shù)據(jù)集 (Shalek) 相比,發(fā)現(xiàn)不同方法的一組不同的regulators一致地over-representation。特別是饶套,這包括與免疫反應相關的調(diào)節(jié)因子漩蟆,如 Rel、Nfkb妓蛮、Stat1 和 Stat3爆安,并通過多種方法進行鑒定,包括 SCENIC仔引、MERLIN扔仓、PIDC、Scribe咖耘、Inferelator 和 Pearson翘簇。發(fā)現(xiàn)酵母數(shù)據(jù)集有類似的行為,這些方法一致地能夠恢復與應激反應相關的關鍵調(diào)節(jié)因子儿倒,如 HAP4(氧化應激)和 GCN4(氨基酸饑餓)版保。與哺乳動物數(shù)據(jù)集相比,酵母數(shù)據(jù)集的可預測 TF 的總體富集倍數(shù)更高夫否。在兩個數(shù)據(jù)集之間彻犁,與 Gasch 相比,Jackson 表現(xiàn)出更豐富的目標凰慈,這可能是因為 Gasch 數(shù)據(jù)集中的細胞數(shù)量較少汞幢。總的來說微谓,這表明雖然這些方法的 AUPR 不大森篷,但這些方法能夠始終如一地恢復特定系統(tǒng)的相關regulators

圖片.png

圖片.png

圖片.png

圖片.png

圖片.png

圖片.png

最后豺型,為了更深入地了解每種方法恢復哺乳動物調(diào)節(jié)網(wǎng)絡的能力仲智,從文獻中報道的調(diào)節(jié)相互作用中策劃了small黃金標準網(wǎng)絡。調(diào)節(jié)網(wǎng)絡有 35 個調(diào)節(jié)子和 90 個目標基因(其中一些也包括調(diào)節(jié)子)姻氨,由 267 個邊連接钓辆。接下來,使用了從 Tran A2S 數(shù)據(jù)集推斷出的網(wǎng)絡中的前 5000 條邊肴焊,并在 267 次交互中的 199 次中描繪了真陽性(通過一種方法發(fā)現(xiàn))和假陰性(通過一種方法遺漏)前联,由于缺少表達,在去除邊緣后仍然存在.大多數(shù)方法恢復了 Nanog抖韩、Sox2 和 Pou5f1 之間的交叉調(diào)節(jié)相互作用蛀恩,它們是建立 ESC 狀態(tài)的主要調(diào)節(jié)器∶。恢復最少真陽性數(shù)的方法包括 SCODE双谆、knnDREMI 和 PIDC壳咕。有趣的是,像 PIDC 一樣基于信息理論的 SCRIBE 與 PIDC 相比能夠推斷出更多的真陽性顽馋∥嚼澹總體而言,基于不是真正正邊緣恢復的性能與分析的全局和可預測的 TF 指標一致寸谜,但也突出了網(wǎng)絡推理方法在策劃監(jiān)管交互恢復方面的其他屬性竟稳。

Defining common and method-specific network components

接下來query算法在他們的預測中的一致程度。為此熊痴,測量了每對推斷網(wǎng)絡的前 500他爸、5,000 和 50,000 條邊之間的 Jaccard 相似度和 F-score。發(fā)現(xiàn)無論包含多少頂部邊緣和相似性度量果善,相似性模式通常都是相似的诊笤。隨著考慮更多邊緣,相似性的大小通常會增加巾陕。專注于在前 5k 邊緣獲得的 Jaccard 分數(shù)讨跟,以與我們的其他結(jié)果保持一致。我們使用兩種順序?qū)Ψ椒ㄟM行分組鄙煤。首先晾匠,我們根據(jù)為每個數(shù)據(jù)集推斷的網(wǎng)絡的中值相似度對方法進行聚類。這使我們能夠跨數(shù)據(jù)集將所有方法相互比較梯刚。與其他數(shù)據(jù)集相比凉馆,一些數(shù)據(jù)集產(chǎn)生了更多相似的網(wǎng)絡。例如乾巧,在 Han hESC 數(shù)據(jù)集上句喜,與具有較低相似性的 Shalek 和 Gasch 相比,最大 Jaccard 系數(shù)最高沟于。這兩個數(shù)據(jù)集也是兩個數(shù)據(jù)集中最小的,這可以解釋較低的相似性植康。與其他方法相比旷太,SILGGM 和 knnDREMI 通常學習不同的網(wǎng)絡,包括基于同一類模型的網(wǎng)絡销睁,例如knnDREMI (PIDC, Scribe) 的信息論和 SILGGM (MERLIN, Inferelator) 的概率模型供璧。 Scribe 與其他方法的相似性取決于數(shù)據(jù)集,然而冻记,在大多數(shù)情況下它與 PIDC 最相似睡毒,這與依賴信息論度量的兩種方法一致。 LEAP 與 Correlation 最相似冗栗,但通常識別不同的網(wǎng)絡演顾。其中相似度最高的方法是 Pearson供搀、SCENIC、Inferelator 和 PIDC钠至。

圖片.png

圖片.png

圖片.png

圖片.png

圖片.png

圖片.png

接下來根據(jù)每個數(shù)據(jù)集上的網(wǎng)絡 Jaccard 相似度對方法進行聚類葛虐。 后者揭示了更多特定于數(shù)據(jù)集的分組。 特別是棉钧,發(fā)現(xiàn) LEAP 和 Pearson 是 Gasch 和 Zhao 數(shù)據(jù)集中最相似的方法屿脐,而 PIDC 在七個數(shù)據(jù)集中的四個(Jackson、Tran (A2S)宪卿、Tran (FBS) 和 Han)中與 Pearson 最相似的诵。 還發(fā)現(xiàn) LEAP 和 SILGGM 在 Shalek 上形成了一個集群,而另一組包括 SCRIBE佑钾、PIDC西疤、SCENIC、Pearson次绘、MERLIN 和 Inferelator瘪阁。 總之,這些比較表明邮偎,性能最好的算法傾向于學習相似的網(wǎng)絡管跺,然而,PIDC 和 Pearson 等方法經(jīng)常學習相似的網(wǎng)絡禾进。 此外豁跑,方法之間的一致性和差異可以由數(shù)據(jù)集的性質(zhì)決定,包括樣本大小和實驗條件泻云。

Examining the impact of imputation on scRNA-seq network inference

單細胞表達數(shù)據(jù)的特點是有大量的零表達計數(shù)艇拍,這可能是由于技術(低深度)或生物學原因而產(chǎn)生的,這是基因在細胞中真正不表達宠纯。為了解決這個問題卸夕,已經(jīng)開發(fā)了幾種方法來估算缺失表達計數(shù)的值。我們將 MAGIC 算法應用于每個數(shù)據(jù)集婆瓜,這是最近基準研究中最重要的插補方法之一快集。 MAGIC 計算單元格之間的成對相似性,并基于這些相似性創(chuàng)建馬爾可夫轉(zhuǎn)移圖廉白。然后它基于這個馬爾可夫轉(zhuǎn)換圖在相似的單元格之間“擴散”表達計數(shù)个初。我們使用來自每個實驗的估算數(shù)據(jù)來推斷網(wǎng)絡,并將它們的 AUPR猴蹂、F 分數(shù)和可預測的 TF 指標與從稀疏數(shù)據(jù)中推斷出的網(wǎng)絡進行比較院溺。基于 F 分數(shù)磅轻,大多數(shù)方法并沒有從跨數(shù)據(jù)集的插補中受益珍逸。一個例外是 Shalek 和 Gasch 數(shù)據(jù)集逐虚,正如我們之前提到的,它們屬于較小的數(shù)據(jù)集弄息。我們匯總了不同黃金標準和數(shù)據(jù)集的 F 分數(shù)值痊班,并比較了與插補前的比率,發(fā)現(xiàn)使用插補數(shù)據(jù)時 SCODE 和 kNN-DREMI 似乎有所改善摹量。然而涤伐,我們發(fā)現(xiàn)插補通常不利于網(wǎng)絡推理過程。我們根據(jù) AUPR 和可預測的 TF 重復了這些比較缨称。 AUPR 在有和沒有插補的情況下通常沒有太大變化凝果,但是,我們注意到 Shalek 數(shù)據(jù)集的性能有類似的提升睦尽。最后器净,基于可預測的 TF,我們發(fā)現(xiàn)大多數(shù)算法并沒有從跨數(shù)據(jù)集的平滑中受益当凡,Tran 數(shù)據(jù)集為 SCODE 和 knnDREMI 方法提供了適度的好處山害。綜上所述,我們在不同實驗數(shù)據(jù)集和黃金標準上的實驗表明沿量,插補可以在少數(shù)算法和數(shù)據(jù)集的情況下受益浪慌,但通常對大多數(shù)方法的網(wǎng)絡推理沒有幫助。


圖片.png

圖片.png

Discussion

單細胞 RNA-seq 數(shù)據(jù)集的快速增長為基于表達的基因調(diào)控網(wǎng)絡推斷領域開辟了巨大的機遇朴则。 因此权纤,已經(jīng)投入了大量努力來開發(fā)和應用監(jiān)管網(wǎng)絡推理算法到單細胞數(shù)據(jù)集。 在這里乌妒,我們對跨越不同物種和模型細胞系的大量數(shù)據(jù)集的計算要求和網(wǎng)絡結(jié)構(gòu)恢復方法的整體性能進行了基準測試汹想。 我們的努力通過考慮更多的數(shù)據(jù)集、額外的方法類別和多個本地和全球網(wǎng)絡評估指標來擴展先前的努力撤蚊,這些指標可以為不同方法所做的預測提供更多的生物學洞察力古掏,并揭示方法學和資源生成進步的潛在方向,以改進網(wǎng)絡恢復侦啸。

根據(jù)計算要求以及在不同黃金標準網(wǎng)絡上的性能評估方法冗茸。由于過多的計算要求,無法對幾種專門用于處理單細胞數(shù)據(jù)集統(tǒng)計特性的方法進行排名匹中,例如 SCHiRM、HurdleNormal 和 BTR豪诲。隨著單細胞數(shù)據(jù)集的增長顶捷,算法的有效實施將變得很重要。我們的評估指標既包括 AUPR 和 F-score 等全球指標屎篱,也包括可顯著預測目標的數(shù)量regulators等本地指標服赎】伲基于 AUPR 和 F 分數(shù),方法的整體性能仍然略好于隨機重虑,但是践付,發(fā)現(xiàn)可預測的 TF 作為更敏感的指標,突出了網(wǎng)絡推理方法的優(yōu)勢缺厉。重要的是永高,不同的方法能夠概括感興趣系統(tǒng)的相關regulators,例如發(fā)育數(shù)據(jù)集中的關鍵干細胞regulators和樹突細胞數(shù)據(jù)集中的免疫反應regulators提针。沒有一種方法能在所有數(shù)據(jù)集和黃金標準中獲勝命爬,但是,根據(jù)方法的整體性能和計算要求辐脖,將它們分為三大類:頂級(PIDC饲宛、MERLIN、SCENIC嗜价、PEARSON)艇抠、中(Inferelator、 SCODE久锥、LEAP家淤、Scribe)和底部(knnDREMI、SILGGM)的一組方法奴拦。

scRNA-seq 數(shù)據(jù)集的一個挑戰(zhàn)是零的高比例媒鼓,這可能是由于生物學和技術原因造成的。 由于已經(jīng)提出插補作為處理高度稀疏數(shù)據(jù)集(例如 scRNA-seq 數(shù)據(jù)集)的方法错妖,因此研究了插補對推斷網(wǎng)絡質(zhì)量的影響绿鸣。 由于這種插補并沒有提高大多數(shù)方法的性能,但是暂氯,它確實受益的數(shù)據(jù)集往往是那些細胞數(shù)量相對較少的數(shù)據(jù)集潮模。 我們分析中的一個警告是,我們只考慮了一種插補方法 MAGIC痴施,它被證明是最重要的插補方法之一擎厢。 未來工作的一個方向是考慮額外的插補方法并進行額外的實驗來檢查插補對網(wǎng)絡推理的影響。

單細胞轉(zhuǎn)錄組數(shù)據(jù)集的優(yōu)勢在于辣吃,單個實驗可以產(chǎn)生大量樣本动遭,這些樣本與已用于網(wǎng)絡推理的現(xiàn)有bulk數(shù)據(jù)集相當或更大。 因此神得,我們使用bulk和單細胞數(shù)據(jù)集的方法比較了酵母厘惦、小鼠和人類的bulk和單細胞 RNA-seq 數(shù)據(jù)集的推斷網(wǎng)絡的質(zhì)量。 發(fā)現(xiàn) scRNA-seq 數(shù)據(jù)集盡管很稀疏哩簿,但在使用bulk RNA-seq 數(shù)據(jù)集時能夠捕獲足夠的有意義的生物變異并表現(xiàn)出同等水平宵蕉。 然而酝静,我們的研究并不完美,因為bulk和單細胞數(shù)據(jù)集是從不同來源收集的羡玛。 生成的受控數(shù)據(jù)集捕獲同一系統(tǒng)的bulk和單細胞profiles别智,可以進一步了解 scRNA-seq 數(shù)據(jù)集在推斷基因調(diào)控網(wǎng)絡方面的相對優(yōu)勢

目前的研究比較了僅依賴表達的方法稼稿。來自bulk數(shù)據(jù)的實驗表明褒链,結(jié)合先驗信息來約束網(wǎng)絡結(jié)構(gòu)以及估計隱藏的監(jiān)管活動可以有益于網(wǎng)絡推理淆攻。未來工作的一個方向是開發(fā)將先驗知識納入推斷網(wǎng)絡估計的基準方法号显。在工作中收集的黃金標準和數(shù)據(jù)集應該有利于這些未來的研究砚偶。未來工作的另一個方向是利用 scRNA-seq 數(shù)據(jù)集的固有異質(zhì)性和種群結(jié)構(gòu)∈窃剑基于多任務學習的方法是一個很有前景的框架來模擬人口和網(wǎng)絡的異質(zhì)性耳舅。發(fā)現(xiàn)的一個令人驚訝的發(fā)現(xiàn)是一個簡單的基于 Pearson 相關性的指標的相對較好的表現(xiàn)。這可能是我們公認不完美的黃金標準的產(chǎn)物倚评。基于更新的高通量擾動研究(如 Perturb-seq 和 Perturb-ATAC)產(chǎn)生改進的黃金標準浦徊,特別是對于哺乳動物系統(tǒng),可以顯著提高我們推斷基因組規(guī)奶煳啵基因調(diào)控網(wǎng)絡的能力盔性。

Method

Regulatory network inference algorithms for single cell RNA-seq datasets

圖片.png

圖片.png

圖片.png

生活很好,有你更好

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載呢岗,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者冕香。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市后豫,隨后出現(xiàn)的幾起案子悉尾,更是在濱河造成了極大的恐慌,老刑警劉巖挫酿,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件构眯,死亡現(xiàn)場離奇詭異,居然都是意外死亡早龟,警方通過查閱死者的電腦和手機惫霸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來葱弟,“玉大人壹店,你說我怎么就攤上這事≈ゼ樱” “怎么了茫打?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我老赤,道長,這世上最難降的妖魔是什么制市? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任抬旺,我火速辦了婚禮,結(jié)果婚禮上祥楣,老公的妹妹穿的比我還像新娘开财。我一直安慰自己,他們只是感情好误褪,可當我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布责鳍。 她就那樣靜靜地躺著,像睡著了一般兽间。 火紅的嫁衣襯著肌膚如雪历葛。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天嘀略,我揣著相機與錄音恤溶,去河邊找鬼。 笑死帜羊,一個胖子當著我的面吹牛咒程,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播讼育,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼帐姻,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了奶段?” 一聲冷哼從身側(cè)響起饥瓷,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎忧饭,沒想到半個月后扛伍,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡词裤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年刺洒,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吼砂。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡逆航,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出渔肩,到底是詐尸還是另有隱情因俐,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站抹剩,受9級特大地震影響撑帖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜澳眷,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一胡嘿、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧钳踊,春花似錦衷敌、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至祭埂,卻和暖如春面氓,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背沟堡。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工侧但, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人航罗。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓禀横,卻偏偏與公主長得像,于是被迫代替她去往敵國和親粥血。 傳聞我的和親對象是個殘疾皇子柏锄,可洞房花燭夜當晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容