單細(xì)胞分析工具收集的網(wǎng)頁:www.scRNA-tools.org

已發(fā)表推文請查看:
https://mp.weixin.qq.com/s?__biz=Mzg4MjA2NTY5OQ==&mid=2247483869&idx=1&sn=05dc75c4474cc8f0ee7a87a74bd0ad54&chksm=cf5d2991f82aa087d199d88c2fce26c41547f60f82fb991c40f7869dba7617c5ac03da95ab85&token=2074624126&lang=zh_CN#rd

詳細(xì)內(nèi)容:

開門見山

www.scRNA-tools.org:專門收集scRNA-seq分析的工具

使用scRNA-tools數(shù)據(jù)庫探索單細(xì)胞RNA-seq分析領(lǐng)域

Exploring the single-cell RNA-seq analysis landscape with the scRNA-tools database

雜志:plos computational biology

時間:收稿日期: 2017年12月6日; 接受日期: 2018年5月30日; 發(fā)布時間: 2018年6月25日

作者:盧克扎皮亞

角色 概念化,形式分析,調(diào)查,方法論鹃共,軟件吨述,寫作 - 原始草稿纸镊,寫作 - 審查和編輯

隸屬于 生物信息學(xué),默多克兒童研究所突那,墨爾本侨颈,維多利亞余赢,澳大利亞,墨爾本大學(xué)肛搬,墨爾本没佑,維多利亞毕贼,澳大利亞科學(xué)學(xué)院生物科學(xué)學(xué)院

http://orcid.org/0000-0001-7744-8565

貝琳達(dá)皮森

角色 監(jiān)督温赔,寫作 - 審查和編輯

隸屬 生物信息學(xué),默多克兒童研究所鬼癣,墨爾本陶贼,維多利亞州,澳大利亞

http://orcid.org/0000-0002-1711-7454

艾麗西亞奧什拉克

角色 監(jiān)督待秃,寫作 - 審查和編輯

*電子郵件: alicia.oshlack@mcri.edu.au

隸屬于 生物信息學(xué)拜秧,默多克兒童研究所,墨爾本章郁,維多利亞枉氮,澳大利亞,墨爾本大學(xué)暖庄,墨爾本聊替,維多利亞,澳大利亞科學(xué)學(xué)院生物科學(xué)學(xué)院

[TOC]

摘要

? 隨著單細(xì)胞RNA測序(scRNA-seq)數(shù)據(jù)集的普及培廓,用于分析這些數(shù)據(jù)的工具數(shù)量急劇增加∪乔模現(xiàn)在可用的大量工具導(dǎo)航對于研究人員來說變得越來越具有挑戰(zhàn)性。為了更好地選擇合適的分析工具肩钠,我們創(chuàng)建了scRNA-tools數(shù)據(jù)庫(www.scRNA-tools.org)在分析工具可用時對其進(jìn)行分類和輔助分析泣港。我們的數(shù)據(jù)庫收集有關(guān)每個scRNA-seq分析工具的一系列信息暂殖,并根據(jù)他們執(zhí)行的分析任務(wù)對其進(jìn)行分類。對該數(shù)據(jù)庫的探索提供了對scRNA-seq數(shù)據(jù)分析方法快速發(fā)展領(lǐng)域的見解当纱。我們看到許多工具執(zhí)行特定于scRNA-seq分析的任務(wù)呛每,特別是細(xì)胞的聚類和排序。我們還發(fā)現(xiàn)scRNA-seq社區(qū)采用開源和開放科學(xué)的方法坡氯,大多數(shù)工具在開源許可下可用莉给,且被廣泛用作描述方法的手段。scRNA-tools數(shù)據(jù)庫為開展scRNA-seq分析的研究人員提供了寶貴的資源廉沮,并隨時間記錄了該領(lǐng)域的成長颓遏。

作者摘要

? 近年來,出現(xiàn)了單細(xì)胞RNA測序技術(shù)滞时,使科學(xué)家能夠同時測量數(shù)千個細(xì)胞中基因的活性叁幢。這意味著我們可以開始查看樣本中每個cell正在做什么,而不是考慮樣本中所有cell的平均值坪稽,就像舊技術(shù)的情況一樣曼玩。然而,雖然訪問這類數(shù)據(jù)提供了大量機(jī)會窒百,但它帶來了一系列新挑戰(zhàn)黍判。世界各地的研究人員已經(jīng)開發(fā)出新的方法和軟件工具來充分利用這些數(shù)據(jù)集,但該領(lǐng)域正在以如此快的速度發(fā)展篙梢,很難跟上目前可用的數(shù)據(jù)顷帖。為了使這更容易,我們開發(fā)了scRNA-tools數(shù)據(jù)庫和網(wǎng)站(www.scRNA-tools.org)渤滞。我們的數(shù)據(jù)庫目錄分析工具贬墩,記錄它們可以用于的任務(wù),可以從哪里下載以及描述它們?nèi)绾喂ぷ鞯某霭嫖锿弧Mㄟ^查看此數(shù)據(jù)庫陶舞,我們可以看到開發(fā)人員專注于特定于單細(xì)胞數(shù)據(jù)的方法,并且他們采用開源方法绪励,允許許可肿孵,共享代碼和發(fā)布預(yù)打印出版物

可以用于的任務(wù),可以從哪里下載以及描述它們?nèi)绾喂ぷ鞯某霭嫖?# 還有引用情況的排序高低疏魏,包含但不限于R停做、python、C++

介紹

? 單細(xì)胞RNA測序(scRNA-seq)作為在單個細(xì)胞的分辨率下詢問轉(zhuǎn)錄組的有效工具已迅速獲得牽引力蠢护。自第一個方案于2009年發(fā)表[ 1 ] 以來雅宾,個體scRNA-seq實驗中分析的細(xì)胞數(shù)量呈指數(shù)增長,超過了摩爾定律[ 2 ]。這種新的轉(zhuǎn)錄組數(shù)據(jù)需要新的分析方法眉抬。scRNA-seq數(shù)據(jù)集的規(guī)模不僅比大量實驗的規(guī)模大得多贯吓,而且單細(xì)胞環(huán)境也存在各種獨特的挑戰(zhàn)[ 3]]。具體來說蜀变,scRNA-seq數(shù)據(jù)極其稀疏(在大多數(shù)細(xì)胞中沒有測量許多基因的表達(dá))悄谐,它可能具有技術(shù)假象,例如低質(zhì)量細(xì)胞或測序批次之間的差異库北,并且感興趣的科學(xué)問題通常不同于那些詢問批量RNA-seq數(shù)據(jù)集爬舰。例如,通過設(shè)計的實驗產(chǎn)生許多大量RNA-seq數(shù)據(jù)集以發(fā)現(xiàn)差異表達(dá)的基因寒瓦,而許多scRNA-seq實驗旨在鑒定或分類復(fù)雜組織中的細(xì)胞類型情屹。

2009年單細(xì)胞技術(shù)開始問世?杂腰!

在大多數(shù)細(xì)胞中沒有測量許多基因的表達(dá))垃你,它可能具有技術(shù)假象,例如低質(zhì)量細(xì)胞或測序批次之間的差異
# 低質(zhì)量細(xì)胞喂很,或者測序得到基因個數(shù)比較的cell惜颇,會在后續(xù)的過濾中,有一點過濾少辣。
# 理論支持分析技術(shù)

# 單細(xì)胞技術(shù)應(yīng)用:
鑒定或分類復(fù)雜組織中的細(xì)胞類型

? 生物信息學(xué)界以驚人的速度接受了這種新型數(shù)據(jù)凌摄,設(shè)計了大量的scRNA-seq數(shù)據(jù)分析方法。跟上scRNA-seq分析的當(dāng)前狀態(tài)現(xiàn)在是一項重大挑戰(zhàn)漓帅,因為該領(lǐng)域提供了大量用于分析數(shù)據(jù)集的選擇锨亏。自2016年9月起,我們對scRNA-seq分析工具進(jìn)行了整理和分類煎殷。該數(shù)據(jù)庫正在不斷更新屯伞,可在www.scRNA-tools.org上公開獲取。為了幫助研究人員駕馭分析工具的廣闊海洋豪直,我們在scRNA-seq分析的典型階段的背景下對數(shù)據(jù)庫中的工具進(jìn)行分類。通過對該數(shù)據(jù)庫的分析珠移,我們不僅展示了這些方法所解決的分析應(yīng)用程序的趨勢弓乙,還展示了它們?nèi)绾伟l(fā)布和許可,以及它們使用的平臺钧惧。<u>基于該數(shù)據(jù)庫暇韧,我們深入了解了這個快速發(fā)展的領(lǐng)域當(dāng)前工具的現(xiàn)狀</u>。

設(shè)計和實施

數(shù)據(jù)庫

? scRNA-tools數(shù)據(jù)庫包含專門用于分析scRNA-seq數(shù)據(jù)的軟件工具的信息浓瞪。要使某個工具有資格包含在數(shù)據(jù)庫中懈玻,它<u>必須可供下載和公共使用</u>。這可以來自軟件包存儲庫(例如Bioconductor [ 4]乾颁,CRAN或PyPI)涂乌,代碼共享網(wǎng)站艺栈,如GitHub或直接來自私人網(wǎng)站。當(dāng)我們注意到新工具時湾盒,它們會被添加到scRNA-tools數(shù)據(jù)庫中湿右。記錄任何相關(guān)出版物的DOI和出版日期。由于預(yù)印本可能經(jīng)常更新罚勾,因此它們被標(biāo)記為預(yù)印本而不是記錄日期毅人。還記錄了用于構(gòu)建工具的平臺,代碼存儲庫的鏈接尖殃,相關(guān)許可證和簡短描述丈莺。每個工具都根據(jù)它可以執(zhí)行的分析任務(wù)進(jìn)行分類,根據(jù)隨附的文章或文檔中的描述送丰,為每個類別接收真或假场刑。我們還記錄了每個條目添加到數(shù)據(jù)庫的日期以及上次更新的日期。https://github.com/seandavi/awesome-single-cell)蚪战。

網(wǎng)站

? 為了構(gòu)建網(wǎng)站牵现,我們從上面描述的表開始,作為使用R腳本處理的CSV文件邀桑。將下載CRAN瞎疼,Bioconductor,PyPI和Anaconda軟件存儲庫中可用的軟件包列表壁畸,并與數(shù)據(jù)庫中的工具進(jìn)行匹配贼急。對于具有相關(guān)出版物的工具,使用rcrossref軟件包(v0.8.0)[ 5 ] 從Crossref數(shù)據(jù)庫(www.crossref.org)檢索他們收到的引用次數(shù)捏萍。我們還使用aRxiv包(v0.5.16)[ 6 ]來檢索有關(guān)arXiv預(yù)印本的信息太抓。生成描述完整表,工具和類別的JSON文件令杈,并用于填充網(wǎng)站走敌。

# R包
rcrossref軟件包(v0.8.0)檢索Crossref數(shù)據(jù)庫([www.crossref.org](http://www.crossref.org/))檢索他們收到的引用次數(shù)

aRxiv包(v0.5.16)

? 該網(wǎng)站由三個主頁組成。主頁顯示了一個交互式表逗噩,可以對數(shù)據(jù)庫進(jìn)行排序掉丽,過濾和下載。第二頁顯示每個工具的條目异雁,給出說明捶障,出版物的詳細(xì)信息,軟件代碼和許可證的詳細(xì)信息以及相關(guān)的軟件類別纲刀∠盍叮徽章被添加到工具中,以提供任何相關(guān)軟件或GitHub存儲庫的清晰可見的詳細(xì)信息。最后一頁描述了類別锭部,可以輕松訪問與其相關(guān)的工具暂论。工具和類別頁面都可以以多種方式進(jìn)行分類,包括相關(guān)出版物或引文的數(shù)量空免。另一頁顯示了此處提供的一些分析的實時和最新版本空另,其中使用ggplot2(v2.2.1.9000)生成可視化[ 7]和情節(jié)(v4.7.1)[ 8 ]。我們歡迎通過向GitHub項目頁面(https://github.com/Oshlack/scRNA-tools)提交問題或通過填寫scRNA-tools網(wǎng)站上的提交表單蹋砚,從更廣泛的社區(qū)向數(shù)據(jù)庫做出貢獻(xiàn)扼菠。

ggplot2 (v2.2.1.9000) [7] and plotly (v4.7.1)

分析

? 最新版本的scRNA-tools數(shù)據(jù)庫截至2018年6月6日用于本文提供的分析。使用dplyr包(v0.7.5)[ 9 ] 在R(v3.5.0)中操作數(shù)據(jù)坝咐,并使用ggplot2(v2.2.1.9000)和cowplot(v0.9.2)[ 10 ]包產(chǎn)生圖循榆。

dplyr包(v0.7.5)

ggplot2(v2.2.1.9000)和cowplot(v0.9.2)

結(jié)果

scRNA-tools數(shù)據(jù)庫概述

? 當(dāng)數(shù)據(jù)庫首次構(gòu)建時,它包含70個scRNA-seq分析工具墨坚,代表了自2013年11月至2016年9月SAMstrt [ 11 ] 發(fā)布三年期間該領(lǐng)域的大部分工作秧饮。自那時起超過160個新工具已被添加(圖1A)。在如此短的時間內(nèi)泽篮,可用工具數(shù)量幾乎增加了三倍盗尸,這表明人們對scRNA-seq及其成熟的興趣日益濃厚,從需要定制設(shè)備和專用方案的技術(shù)到商用產(chǎn)品帽撑。

journal.pcbi.1006245.g001.PNG

圖1 (A)scRNA-tools數(shù)據(jù)庫中的工具數(shù)量隨著時間的推移泼各。自scRNA-seq工具數(shù)據(jù)庫于2016年9月啟動以來,已發(fā)布了160多種新工具亏拉。(B)scRNA-tools數(shù)據(jù)庫中工具的發(fā)布狀態(tài)扣蜻。完整數(shù)據(jù)庫中超過一半的工具至少有一個已發(fā)布的peer-revirew文件,而另外三個工具在預(yù)印本中有描述及塘。(C)當(dāng)按日期分層工具添加到數(shù)據(jù)庫時莽使,我們看到2016年10月之前添加的大多數(shù)工具都已發(fā)布,而大約一半的新工具僅作為預(yù)印本提供笙僚。更新的工具也更有可能以任何形式取消發(fā)布芳肌。(D)大多數(shù)工具都可以使用R或Python編程語言。(E)大多數(shù)工具都是在標(biāo)準(zhǔn)的開源軟件許可下發(fā)布的味咳,GNU公共許可證(GPL)的變體是最常見的庇勃。但是,大部分工具都找不到許可證槽驶。這些圖的最新版本(C除外)可在scRNA-tools網(wǎng)站的分析頁面上找到(https://www.scrna-tools.org/analysis)。

# preprints預(yù)印品:應(yīng)該是指published前的狀態(tài)的paper

? 出版狀態(tài): 大多數(shù)工具在引入我們注意的出版物或描述其方法和用途的預(yù)印本之后被添加到scRNA工具數(shù)據(jù)庫中鸳兽。在數(shù)據(jù)庫中的所有工具中掂铐,大約一半的工具在同行評審期刊中至少有一個出版物,另外三個在預(yù)印本文章中描述,通常在bioRxiv預(yù)印本服務(wù)器上(圖1B)全陨。工具可以拆分為創(chuàng)建數(shù)據(jù)庫時可用的工具和自之后添加的工具爆班。我們可以看到大多數(shù)舊工具已經(jīng)發(fā)布,而更新的工具更有可能僅作為預(yù)印本提供(圖1C)辱姨。這很好地證明了傳統(tǒng)出版過程所造成的延遲柿菩。通過發(fā)布預(yù)印本和通過GitHub等存儲庫發(fā)布軟件,scRNA-seq工具開發(fā)人員可以更早地將其工具提供給社區(qū)雨涛,使其可用于分析枢舶,并在正式發(fā)布之前改進(jìn)其方法[ 12 ]伐庭。

? 平臺和許可: scRNA-seq分析工具的開發(fā)人員可以選擇使用他們用來創(chuàng)建工具的平臺痪宰,他們?nèi)绾蜗蛏鐓^(qū)提供這些工具以及他們是否共享源代碼诲泌。我們發(fā)現(xiàn)創(chuàng)建scRNA-seq分析工具最常用的平臺是R統(tǒng)計編程語言晦溪,通過Bioconductor或CRAN存儲庫提供了許多工具(圖1D)尤溜。Python是第二種最流行的語言屎债,其次是MATLAB浩聋,一種專有的編程語言祟昭,以及較低級的C ++颅拦。R和Python的使用與它們在一系列數(shù)據(jù)科學(xué)領(lǐng)域的普及性是一致的蒂誉。特別是R的流行反映了其作為分析大量RNA-seq數(shù)據(jù)集和一系列其他生物數(shù)據(jù)類型的首選語言的歷史。

我們發(fā)現(xiàn)創(chuàng)建scRNA-seq分析工具最常用的平臺是R統(tǒng)計編程語言距帅,通過Bioconductor或CRAN存儲庫提供了許多工具
# R包很多

? scRNA-tools數(shù)據(jù)庫中的大多數(shù)工具都是采用開源方法開發(fā)的右锨,使得它們的代碼在許可軟件許可下可用(圖1E))。我們認(rèn)為這反映了生物信息學(xué)社區(qū)分享和建立他人工作的一般潛在情感和意愿锥债。GNU公共許可證(GPL)的變化是最常見的陡蝇,幾乎覆蓋了一半的工具。此許可證允許免費使用哮肚,修改和分發(fā)源代碼登夫,但也具有“copyleft”性質(zhì),要求任何衍生工具披露其源代碼并使用相同的許可證允趟。MIT許可證是第二大最受歡迎的許可證恼策,它允許出于任何目的使用代碼,但對分發(fā)或許可沒有任何限制潮剪。幾乎四分之一的工具無法識別相應(yīng)的許可證涣楷。這是有問題的,因為開發(fā)人員必須假設(shè)源代碼不能被重用抗碰,這可能會限制這些工具中方法的有用性狮斗。

scRNA-seq分析的類別

? 單細(xì)胞RNA測序通常用于以無監(jiān)督的方式探索細(xì)胞類型的復(fù)雜混合物。正如在以前的評論中描述在此設(shè)置一個標(biāo)準(zhǔn)scRNA-seq的分析包括可以使用各種工具[完成幾個任務(wù)13 - 17 ]弧蝇。在scRNA-tools數(shù)據(jù)庫中碳褒,我們根據(jù)工具執(zhí)行的分析任務(wù)對工具進(jìn)行分類折砸。在這里,我們將這些任務(wù)分為四個廣泛的分析階段:數(shù)據(jù)采集沙峻,數(shù)據(jù)清理睦授,細(xì)胞分配和基因鑒定圖2)。數(shù)據(jù)采集階段(階段1)從測序?qū)嶒炛蝎@取原始核苷酸序列摔寨,并返回描述每個細(xì)胞中每個基因表達(dá)的矩陣去枷。該階段包括大量RNA-seq實驗常見的任務(wù),例如與參考基因組或轉(zhuǎn)錄組的比對以及表達(dá)的定量是复,但通常擴(kuò)展到處理獨特的分子標(biāo)識符(UMI)[ 18]]删顶。一旦獲得表達(dá)矩陣,確保結(jié)果數(shù)據(jù)具有足夠高的質(zhì)量至關(guān)重要佑笋。在數(shù)據(jù)清洗階段(階段2)翼闹,進(jìn)行細(xì)胞的質(zhì)量控制以及過濾無信息基因〗常可以執(zhí)行附加任務(wù)以標(biāo)準(zhǔn)化數(shù)據(jù)或估算缺失值猎荠。探索性數(shù)據(jù)分析任務(wù)通常在此階段執(zhí)行,例如以縮小的維度查看數(shù)據(jù)集以查找底層結(jié)構(gòu)蜀备。

# 數(shù)據(jù)采集
大量RNA-seq實驗常見的任務(wù)关摇,例如與參考基因組或轉(zhuǎn)錄組的比對以及表達(dá)的定量,處理UMI碾阁,得到表達(dá)矩陣

# 數(shù)據(jù)清理
細(xì)胞的質(zhì)量控制以及過濾無信息基因
以標(biāo)準(zhǔn)化數(shù)據(jù)或估算缺失值
探索數(shù)據(jù)集:探索性數(shù)據(jù)分析任務(wù)通常在此階段執(zhí)行输虱,例如以縮小的維度查看數(shù)據(jù)集以查找底層結(jié)構(gòu)。
journal.pcbi.1006245.g002.PNG

圖2.典型的無監(jiān)督scRNA-seq分析過程的階段脂凶。

? 在階段1(數(shù)據(jù)采集)中宪睹,通過細(xì)胞表達(dá)矩陣將原始測序讀數(shù)轉(zhuǎn)換成基因。對于許多方案蚕钦,這需要基因與參考基因組的比對以及獨特分子標(biāo)識符(UMI)的分配和重復(fù)數(shù)據(jù)刪除亭病。然后清除數(shù)據(jù)(階段2)以去除低質(zhì)量細(xì)胞和無信息基因,從而產(chǎn)生用于進(jìn)一步分析的高質(zhì)量數(shù)據(jù)集嘶居。數(shù)據(jù)也可以歸一化罪帖,并在此階段估算缺失值。階段3以離散方式將細(xì)胞分配給已知(分類)或未知(聚類)組或連續(xù)軌跡上的位置邮屁。然后鑒定有趣的基因(例如整袁,差異表達(dá)的,標(biāo)記佑吝,特定的表達(dá)模式)以解釋這些組或軌跡(階段4)坐昙。

? 高質(zhì)量的表達(dá)矩陣是下一階段分析的重點。在階段3中芋忿,通過聚類或沿著從一種細(xì)胞類型到另一種細(xì)胞類型的連續(xù)軌跡將細(xì)胞分配給離散組民珍。隨著高質(zhì)量參考數(shù)據(jù)集的出現(xiàn)襟士,將細(xì)胞直接分類為不同細(xì)胞類型也變得可行盗飒。一旦分配了細(xì)胞嚷量,分析的焦點就轉(zhuǎn)向解釋這些分配的含義。識別有趣的基因(第4階段)逆趣,例如那些在組間差異表達(dá)的基因蝶溶,在單個組中表達(dá)的標(biāo)記基因或沿著軌跡改變表達(dá)的基因,是這樣做的典型方法宣渗。然后可以通過研究基因本身或通過技術(shù)或數(shù)據(jù)集試驗來獲得更高水平概括來解釋實驗中這些基因的生物學(xué)意義抖所,從而為實驗提供意義。

# 細(xì)胞分配-聚類分析
一種細(xì)胞類型到另一種細(xì)胞類型的連續(xù)軌跡將細(xì)胞分配
分析重點:解釋分配的含義

# 基因鑒定
找到有趣基因

? 雖然可以采用其他方法來分析scRNA-seq數(shù)據(jù)痕囱,但這些階段代表了從原始測序讀數(shù)到適用于許多研究的生物學(xué)見解的最常見途徑田轧。例外情況可能是設(shè)計用于測試特定假設(shè)的實驗,其中細(xì)胞群可能已被分類鞍恢,或者興趣在于實驗條件而非細(xì)胞類型之間的差異傻粘。在這種情況下,可能不需要階段3帮掉,并且可以使用略微不同的工具或方法弦悉,但是將應(yīng)用許多相同的挑戰(zhàn)。此外蟆炊,隨著該領(lǐng)域的擴(kuò)展和發(fā)展稽莉,數(shù)據(jù)可能會以新的方式用于回答其他生物學(xué)問題,需要新的分析技術(shù)涩搓。表1中給出了scRNA工具數(shù)據(jù)庫中類別的描述污秆,以及相關(guān)的分析階段。

journal.pcbi.1006245.t001.PNG

表1. scRNA-tools數(shù)據(jù)庫中工具類別的描述昧甘。

? scRNA-seq分析任務(wù)的趨勢: 數(shù)據(jù)庫中的每個工具都分配給一個或多個分析類別良拼。我們進(jìn)一步詳細(xì)研究了這些類別,以深入了解scRNA-seq分析的趨勢疾层。圖3A顯示了執(zhí)行每個分析任務(wù)的工具的頻率将饺。可視化是最常見的任務(wù),在探索和顯示數(shù)據(jù)和結(jié)果的所有分析階段都很重要痛黎。分配單元格的任務(wù)(排序和聚類)是下一個最常見的任務(wù)予弧。這一直是與集群工具在單細(xì)胞分析發(fā)展的最大面積,例如Seurat [ 19湖饱,20 ]掖蛤,SC3 [ 21 ]和BackSPIN [ 22]所使用的樣品和軌跡分析工具來識別的細(xì)胞類型(例如單片眼鏡[ 23 - 25],橫臂[ 26 ]和DPT [ 27 ])被用來研究基因跨越發(fā)育過程如何變化井厌。這些領(lǐng)域反映了單細(xì)胞數(shù)據(jù)提供的新分析機(jī)會蚓庭,這是大量RNA-seq實驗無法實現(xiàn)的致讥。

tools:
1. 可視化最多(含降維)
2. 細(xì)胞的排序和聚類:例如Seurat、SC3器赞、和BackSPIN9父ぁ!港柜!
journal.pcbi.1006245.g003.PNG

圖3(A)scRNA-tools數(shù)據(jù)庫中的工具類別请契。可以根據(jù)可以完成的任務(wù)將每個工具分配到多個類別夏醉。與多個分析階段(可視化爽锥,降維)相關(guān)聯(lián)的類別是最常見的類別,與細(xì)胞分配階段(排序畔柔,聚類)相關(guān)聯(lián)的類別也是最常見的氯夷。(B)分析類別隨時間的變化,比較2016年10月之前和之后添加的工具靶擦。與可視化腮考,降維,基因網(wǎng)絡(luò)和模擬相關(guān)的工具百分比顯著增加奢啥。包括表達(dá)模式秸仙,排序和交互性在內(nèi)的類別相對減少。(C)隨著時間的推移與分析階段相關(guān)的工具百分比的變化桩盲。數(shù)據(jù)采集和數(shù)據(jù)清理階段涉及的工具百分比增加寂纪,為替代分析任務(wù)設(shè)計的工具也增加了《慕幔基因識別階段的工具數(shù)量相對減少捞蛋。(D)與scRNA-tools數(shù)據(jù)庫中的每個工具相關(guān)的類別數(shù)。大多數(shù)工具執(zhí)行的任務(wù)很少柬姚。(E)完成許多任務(wù)的大多數(shù)工具都是相對較新的拟杉。

? 降維也是一項常見任務(wù),可應(yīng)用于可視化(通過諸如t-SNE [ 28 ]等技術(shù))量承,質(zhì)量控制和作為分析的起點搬设。差異表達(dá)(DE)測試可能是對大量RNA-seq數(shù)據(jù)集進(jìn)行的最常見分析,它也常用于許多scRNA-seq分析工具撕捍,通常用于鑒定一組細(xì)胞中與其他細(xì)胞不同的基因拿穴。 然而,應(yīng)當(dāng)注意的是忧风,通過scRNA-SEQ工具施加的DE測試往往是不那么復(fù)雜的工具嚴(yán)格的統(tǒng)計結(jié)構(gòu) bulk RNA-SEQ開發(fā)諸如edgeR[ 29默色,30 ],DESeq2 [ 31 ]和LIMMA [ 32]狮腿,經(jīng)常使用簡單的統(tǒng)計檢驗腿宰,如似然比檢驗呕诉。雖然方法設(shè)計測試DE特別是在單細(xì)胞數(shù)據(jù)集確實存在(如SCDE [ 33 ],和SCDD [ 34 ])吃度,目前還不清楚他們是否在已經(jīng)建立了大容量數(shù)據(jù)[方法提高35 - 37 ]甩挫,與日期發(fā)現(xiàn)最全面的比較,批量方法的表現(xiàn)并不比scRNA-seq數(shù)據(jù)設(shè)計的差[ 38 ]规肴。

降維也是一項常見任務(wù)捶闸,可應(yīng)用于可視化(通過諸如t-SNE等技術(shù))

差異表達(dá)(DE)測試可能是對大量RNA-seq數(shù)據(jù)集進(jìn)行的最常見分析,它也常用于許多scRNA-seq分析工具拖刃。通常用于鑒定一組細(xì)胞中與其他細(xì)胞不同的基因。 

# 比較
bulk RNA-seq工具施加的DE測試:edgeR贪绘、DESeq2 兑牡、LIMMA 
設(shè)計測試DE特別是在單細(xì)胞數(shù)據(jù)集確實存在(如SCDE和SCDD),目前還不清楚他們是否在已經(jīng)建立了大容量數(shù)據(jù)

? 為了研究scRNA-seq工具開發(fā)的重點如何隨著時間的推移而改變税灌,我們再次將scRNA-tools數(shù)據(jù)庫劃分為2016年10月之前和之后添加的工具均函。這使我們能夠看到哪些分析任務(wù)在最近發(fā)布的工具中更常見。我們研究了在不同分析類別中執(zhí)行任務(wù)的每個時間段內(nèi)的工具百分比(圖3B))菱涤。某些類別顯示執(zhí)行它們的工具比例變化不大苞也,而其他區(qū)域發(fā)生了顯著變化。具體而言粘秆,最近的工具更常見地解決了可視化和降維問題如迟。UMI種類最近也出現(xiàn)了大幅增長,因為基于UMI的方案已經(jīng)普遍使用攻走,并且已經(jīng)開發(fā)了用于處理所需額外處理步驟的工具(例如UMI-tools [ 39 ]殷勘,umis [ 40 ],zUMIs [ 41 ]) 昔搂。模擬是開發(fā)玲销,測試和驗證scRNA-seq工具的有用技術(shù)。現(xiàn)在有更多的軟件包包括它們的模擬功能摘符,并且已經(jīng)開發(fā)了一些工具用于生成真實的合成scRNA-seq數(shù)據(jù)集的特定目的(例如powsimR [ 42]]贤斜,Splatter [ 43 ])。隨著參考數(shù)據(jù)集變得可用并且更多工具識別或利用共同調(diào)節(jié)的基因網(wǎng)絡(luò)逛裤,細(xì)胞分類成已知組也已增加瘩绒。

UMI處理工具:
UMI-tools 、umis 别凹、zUMIs

合成真實數(shù)據(jù)的R:powsimR 草讶、Splatter 

? 有些類別的工具比例有所下降,最引人注目的是沿著軌跡測試表達(dá)模式炉菲。這可能與細(xì)胞排序分析的變化有關(guān)堕战,細(xì)胞排序分析是2016年10月之后添加的較低百分比工具的重點坤溃。細(xì)胞沿著軌跡的排序是scRNA-seq分析的最初發(fā)展之一,并且這些工具的開發(fā)可能表明研究人員已經(jīng)轉(zhuǎn)向其他技術(shù)嘱丢,或者已經(jīng)將這些技術(shù)融合到一套成熟的工具上薪介。

細(xì)胞排序分析策略,早期出現(xiàn)的越驻,也有可能未來被更新~

? 通過基于相關(guān)分析階段對類別進(jìn)行分組汁政,我們可以看到類似的趨勢(圖3C))。我們看到缀旁,在多個階段(例如可視化和降維)和替代分析任務(wù)中记劈,在階段1(量化)中執(zhí)行任務(wù)的工具百分比有所增加。相比之下并巍,執(zhí)行基因識別任務(wù)(第4階段)的工具的百分比已經(jīng)減少目木,并且分配細(xì)胞的百分比(階段3)保持穩(wěn)定。階段2(質(zhì)量控制和過濾)隨著時間的推移而波動懊渡,但目前處于略高于首次創(chuàng)建數(shù)據(jù)庫時的水平刽射。這也表明分析空間的成熟,因為開發(fā)人員偏離了批量RNA-seq分析的重點任務(wù)剃执,并繼續(xù)關(guān)注scRNA-seq特有的那些誓禁,同時致力于處理來自新方案的數(shù)據(jù)和執(zhí)行替代方案的方法分析任務(wù)。

? 管道和工具箱: 雖然有相當(dāng)數(shù)量的scRNA-seq工具只執(zhí)行單個分析任務(wù)肾档,但許多工作至少執(zhí)行兩次(圖3D)摹恰。一些工具(dropEst [ 44 ],DrSeq2 [ 45 ]阁最,scPipe [ 46 ])是預(yù)處理管道戒祠,采用原始測序讀取并產(chǎn)生表達(dá)矩陣。其他如Scanpy [ 47 ]速种,SCell [ 48 ]姜盈,Seurat,Monocle和scater [ 49 ]可以被認(rèn)為是分析工具箱配阵,能夠從基因表達(dá)矩陣開始完成一系列復(fù)雜分析馏颂。完成許多任務(wù)的大多數(shù)工具都是相對較新的(圖3E)。能夠使用單個工具完成多個任務(wù)可以簡化分析棋傍,因為可以避免在不同數(shù)據(jù)格式之間轉(zhuǎn)換的問題救拉。然而,重要的是要記住瘫拣,具有許多功能的工具難以繼續(xù)代表所有這些功能的現(xiàn)有技術(shù)亿絮。支持通用數(shù)據(jù)格式,例如最近發(fā)布的SingleCellExperiment [ 50 ],anndata [ 47 ]或loom(http://loompy.org)對象派昧,為開發(fā)人員提供了另一種方式黔姜,允許他們輕松使用他們的工具,并為用戶構(gòu)建自定義專業(yè)工具的工作流程蒂萎。

一些工具(dropEst 秆吵、DrSeq2 、scPipe)是預(yù)處理管道五慈,采用原始測序讀取并產(chǎn)生表達(dá)矩陣纳寂。

Scanpy 、SCell泻拦、Seurat毙芜,Monocle和scater可以被認(rèn)為是分析工具箱,能夠從基因表達(dá)矩陣開始完成一系列復(fù)雜分析

? 替代分析: 一些工具執(zhí)行的分析不在上述scRNA-seq數(shù)據(jù)上執(zhí)行的常見任務(wù)之外聪轿。模擬是已經(jīng)提到的一個替代任務(wù)爷肝,但是還有一組工具被設(shè)計用于檢測除了表達(dá)變化之外的scRNA-seq數(shù)據(jù)中的生物信號。例如陆错,識別可變剪接(BRIE [ 51 ],Outrigger [ 52 ]金赦,SingleSplice [ 53 ])音瓷,單核苷酸變異(SSrGE [ 54 ]),拷貝數(shù)變異(inferCNV [ 55 ])和等位基因特異性表達(dá)(SCALE [ 56] ])夹抗。免疫細(xì)胞受體的重建是另一個區(qū)域绳慎,收到相當(dāng)關(guān)注的領(lǐng)域,例如BASIC [ 57 ]漠烧,TraCeR 等工具杏愤。58 ]和TRAPeS [ 59 ]。雖然完成這些任務(wù)的工具不太可能主導(dǎo)scRNA-seq分析已脓,但我們期望看到研究專業(yè)分析的方法有所增加珊楼,因為研究人員繼續(xù)推動使用scRNA-seq數(shù)據(jù)觀察到的界限。

單細(xì)胞也可以分析的類別:
識別可變剪接:BRIE度液、Outrigger厕宗、SingleSplice

單核苷酸變異(SSrGE)

拷貝數(shù)變異(inferCNV)

等位基因特異性表達(dá)(SCALE)

免疫細(xì)胞受體的重建: BASIC、TraCeR 堕担、TRAPeS

可用性和未來方向

? 自2016年10月以來已慢,我們已經(jīng)看到用于分析單細(xì)胞RNA-seq數(shù)據(jù)的軟件工具數(shù)量超過三倍,現(xiàn)在有超過230種分析工具可用霹购。隨著新工具的推出佑惠,我們已經(jīng)在scRNA工具數(shù)據(jù)庫中對其進(jìn)行了策劃和編目,在這些數(shù)據(jù)庫中我們記錄了他們可以完成的分析任務(wù),以及其他信息膜楷,例如任何相關(guān)的出版物旭咽。通過分析該數(shù)據(jù)庫,我們發(fā)現(xiàn)工具開發(fā)人員將他們的大部分精力集中在處理scRNA-seq數(shù)據(jù)特有的新問題的方法上把将,特別是將細(xì)胞聚類成組或沿著軌跡對它們進(jìn)行排序轻专。

? 未來幾年有望在scRNA-seq分析中產(chǎn)生重大的新發(fā)展。將繼續(xù)生產(chǎn)新工具察蹲,變得越來越復(fù)雜请垛,旨在解決scRNA-seq數(shù)據(jù)可能帶來的更多問題。我們預(yù)計一些現(xiàn)有工具將繼續(xù)改進(jìn)和擴(kuò)展其功能洽议,而其他工具將不再更新和維護(hù)宗收。詳細(xì)的基準(zhǔn)測試和比較將顯示工具在不同情況下的表現(xiàn)以及表現(xiàn)良好,持續(xù)開發(fā)并提供良好用戶體驗的工具將成為標(biāo)準(zhǔn)分析的首選亚兄。隨著單細(xì)胞捕獲和測序技術(shù)不斷改進(jìn)混稽,分析工具必須適應(yīng)可能需要專門數(shù)據(jù)結(jié)構(gòu)和算法的顯著更大的數(shù)據(jù)集(在數(shù)百萬個細(xì)胞中)。組合多個scRNA-seq數(shù)據(jù)集以及將scRNA-seq數(shù)據(jù)與其他單細(xì)胞數(shù)據(jù)類型(例如DNA-seq审胚,ATAC-seq或甲基化)整合的方法將是另一個增長領(lǐng)域匈勋。此外,Human Cell Atlas等項目[60]將提供全面的細(xì)胞類型參考膳叨,將開辟新的分析途徑洽洁。

組合多個scRNA-seq數(shù)據(jù)集以及將scRNA-seq數(shù)據(jù)與其他單細(xì)胞數(shù)據(jù)類型(例如DNA-seq,ATAC-seq或甲基化)整合的方法將是另一個增長領(lǐng)域.
# 多組學(xué)分析

Human Cell Atlas等項目

? 隨著該領(lǐng)域的擴(kuò)展菲嘴,scRNA-tools數(shù)據(jù)庫將繼續(xù)在社區(qū)的支持下進(jìn)行更新饿自。我們希望它為研究人員提供了一種資源,可以在接近scRNA-seq分析時進(jìn)行探索龄坪,并提供分析前景及其隨時間變化的記錄昭雌。

可用性

? scRNA-tools數(shù)據(jù)庫可通過網(wǎng)站www.scRNA-tools.org公開訪問。有關(guān)添加健田,更新和改進(jìn)的建議在相關(guān)的GitHub存儲庫(https://github.com/Oshlack/scRNA-tools)或網(wǎng)站上的提交表單中受到熱烈歡迎烛卧。本文中用于分析的代碼和數(shù)據(jù)集可從https://github.com/Oshlack/scRNAtools-paper獲得。

scRNA-tools:
(https://github.com/Oshlack/scRNAtools-paper)

致謝

? 我們要感謝Sean Davis在管理令人敬畏的單細(xì)胞page和生成用于處理數(shù)據(jù)庫的腳本原型方面的工作抄课。Daniel Wells有想法記錄軟件許可證唱星,并為當(dāng)時數(shù)據(jù)庫中的工具提供許可證。Breon Schmidt設(shè)計了scRNA-tools網(wǎng)站的原型跟磨,回答了很多關(guān)于HTML和Javascript的問題间聊。我們還要感謝Matt Ritchie對早期版本手稿的看法。

彩蛋

請認(rèn)真看表1:理解任務(wù)分為四個廣泛的分析階段:數(shù)據(jù)采集抵拘,數(shù)據(jù)清理哎榴,細(xì)胞分配和基因鑒定(并非全部都必須)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子尚蝌,更是在濱河造成了極大的恐慌迎变,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件飘言,死亡現(xiàn)場離奇詭異衣形,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)姿鸿,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門谆吴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人苛预,你說我怎么就攤上這事句狼。” “怎么了热某?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵腻菇,是天一觀的道長。 經(jīng)常有香客問我昔馋,道長筹吐,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任秘遏,我火速辦了婚禮骏令,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘垄提。我一直安慰自己,他們只是感情好周拐,可當(dāng)我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布铡俐。 她就那樣靜靜地躺著,像睡著了一般妥粟。 火紅的嫁衣襯著肌膚如雪审丘。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天勾给,我揣著相機(jī)與錄音滩报,去河邊找鬼。 笑死播急,一個胖子當(dāng)著我的面吹牛脓钾,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播桩警,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼可训,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起握截,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤飞崖,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后谨胞,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體固歪,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年胯努,在試婚紗的時候發(fā)現(xiàn)自己被綠了牢裳。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡康聂,死狀恐怖贰健,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情恬汁,我是刑警寧澤伶椿,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站氓侧,受9級特大地震影響脊另,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜约巷,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一偎痛、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧独郎,春花似錦踩麦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至贪婉,卻和暖如春反粥,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背疲迂。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工才顿, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人尤蒿。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓郑气,卻偏偏與公主長得像,于是被迫代替她去往敵國和親优质。 傳聞我的和親對象是個殘疾皇子竣贪,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容