- PMID: 33288955 https://www.nature.com/articles/s41596-020-00409-w#Sec1
- DOI: 10.1038/s41596-020-00409-w
單細(xì)胞RNA測序(scRNA-seq)是一種流行且功能強(qiáng)大的技術(shù)截歉,它允許您分析大量單個(gè)細(xì)胞的整個(gè)轉(zhuǎn)錄組只搁。然而氓奈,分析這些實(shí)驗(yàn)產(chǎn)生的大量數(shù)據(jù)需要專門的統(tǒng)計(jì)和計(jì)算方法用爪。這里我們概述了處理scRNA序列數(shù)據(jù)所涉及的計(jì)算工作流程病袄。我們將討論一些最常見的任務(wù)和解決中心生物學(xué)問題的工具。在本文和我們的指南網(wǎng)站(https://scrnaseq-course.cog.sanger.ac.uk/website/index.html)佑女,我們提供有關(guān)執(zhí)行計(jì)算分析的最佳實(shí)踐的指南奥秆。本教程為有興趣分析數(shù)據(jù)的實(shí)驗(yàn)者提供了實(shí)踐指南,也為尋求開發(fā)新計(jì)算方法的生物信息學(xué)家提供了概述傅是。
請直接閱讀原文并實(shí)踐~~
這是一條分割線
介紹
scRNA-seq已成為一種轉(zhuǎn)化技術(shù)匪燕,用于表征復(fù)雜組織,并回答無法通過批量RNA測序解決的問題喧笔。自2009年第一個(gè)scRNA-seq協(xié)議發(fā)布以來帽驯,許多協(xié)議和商業(yè)平臺已經(jīng)發(fā)布。如今书闸,scRNA-seq實(shí)驗(yàn)有兩種主要模式尼变。最常見的方法是使用顯微鏡下的復(fù)制品或孔來分離大量細(xì)胞,然后對文庫進(jìn)行相對較淺的排序4,5浆劲。為了確定給定轉(zhuǎn)錄本來自哪個(gè)細(xì)胞嫌术,這些方法使用了細(xì)胞弧(附在每個(gè)讀數(shù)上的短核苷酸標(biāo)簽是液滴或井所特有的)牌借。這種高通量度气、低深度的模式是使用流行的10×Chromium平臺進(jìn)行實(shí)驗(yàn)的典型模式。這項(xiàng)技術(shù)的一個(gè)重要優(yōu)點(diǎn)是它支持獨(dú)特的分子標(biāo)識符(UMI)膨报。UMI是在擴(kuò)增前附加在轉(zhuǎn)錄本上的短條形碼磷籍,使得消除聚合酶鏈反應(yīng)重復(fù)并獲得更準(zhǔn)確的表達(dá)水平估計(jì)成為可能。一個(gè)主要缺點(diǎn)是該平臺僅允許對每個(gè)信使RNA(mRNA)的5′或3′端進(jìn)行測序现柠。許多研究采取了相反的方法择示,即分離相對較少的細(xì)胞,但更深入地排列它們晒旅。這些低通量栅盲、高深度的實(shí)驗(yàn)通常將細(xì)胞分離到單個(gè)孔中,并應(yīng)用Smart-seq2協(xié)議废恋。除了最近引入的Smart-seq3協(xié)議外谈秫,這些方法不支持UMIs,但它們通常顯示出比基于液滴的技術(shù)更高的靈敏度鱼鼓,并且它們還允許對整個(gè)轉(zhuǎn)錄本進(jìn)行分析拟烫。有關(guān)不同平臺的深入概述,請參閱最近的綜述和相關(guān)標(biāo)準(zhǔn)迄本。
除了促進(jìn)實(shí)驗(yàn)工作流程外硕淑,最近的創(chuàng)新還大大降低了scRNA-seq的每細(xì)胞成本。因此,就所分析的細(xì)胞數(shù)量而言置媳,出現(xiàn)了指數(shù)增長于樟。鑒于生成的數(shù)據(jù)量巨大,單細(xì)胞數(shù)據(jù)分析需要高效的計(jì)算和統(tǒng)計(jì)方法拇囊。隨著實(shí)驗(yàn)協(xié)議的迅速改進(jìn)迂曲,處理數(shù)據(jù)的計(jì)算工作流也得到了改進(jìn)。本教程的目的是為scRNA序列數(shù)據(jù)提供最常見分析類型的概述寥袭。本文旨在作為我們?yōu)榻淌趕cRNA-seq數(shù)據(jù)的計(jì)算分析而開發(fā)的課程材料的配套(https://scrnaseq-course.cog.sanger.ac.uk/website/index.html)路捧。該網(wǎng)站于2016年首次推出,并不斷更新传黄,包括新方法杰扫,并提供最新的最佳實(shí)踐建議。
scRNA序列分析的一個(gè)核心組成部分是表達(dá)矩陣膘掰,它代表每個(gè)基因和細(xì)胞的轉(zhuǎn)錄數(shù)量章姓。工作流程可分為兩個(gè)主要部分:1)表達(dá)式矩陣的生成,2)表達(dá)式矩陣的分析(圖1和表1)炭序。盡管我們的在線教程涵蓋了這兩個(gè)方面,但這里我們重點(diǎn)介紹了獲得表達(dá)式矩陣后執(zhí)行的分析類型苍日。大多數(shù)基因只在一組細(xì)胞類型中使用惭聂,但是,由于在scRNA-seq實(shí)驗(yàn)中普遍使用的起始材料量低和測序深度低相恃,一些基因即使表達(dá)也無法檢測到辜纲。結(jié)果是基因表達(dá)矩陣中存在大量的零值,這是一個(gè)問題拦耐,因?yàn)橐恍┝阒悼梢源砑?xì)胞中實(shí)際的低或零表達(dá)以及測量過程中的變化耕腾。難以區(qū)分這些觀察到的零值并對其進(jìn)行適當(dāng)建模是計(jì)算分析的主要挑戰(zhàn)之一。即使是深度測序的數(shù)據(jù)集也可能有約50%的零杀糯,而測序深度較低的數(shù)據(jù)集可能有99%的零扫俺。相比之下,在非典型批量RNA測序數(shù)據(jù)集中固翰,<20%的數(shù)據(jù)條目為零狼纬。
圖1 | 工作流程概述。在典型場景中骂际,研究人員必須首先組合多個(gè)實(shí)驗(yàn)中的表達(dá)矩陣疗琉,以獲得一個(gè)組合表達(dá)矩陣,該矩陣根據(jù)測序深度歉铝、細(xì)胞周期階段和其他混雜因素進(jìn)行校正盈简。接下來,數(shù)據(jù)被可視化,并通過聚類柠贤、偽時(shí)間和差異表達(dá)分析來識別具有生物學(xué)意義的模式香浩。最后,將結(jié)果與文獻(xiàn)和現(xiàn)有數(shù)據(jù)集進(jìn)行比較种吸。
質(zhì)量控制
分析scRNA序列的第一步是排除不太可能代表完整單個(gè)細(xì)胞的細(xì)胞條形碼弃衍。對于高通量方法,關(guān)鍵步驟是過濾掉不代表單個(gè)細(xì)胞的barcode坚俗。
最直接的方法是計(jì)算需要考慮條形碼作為ACEL11的UMI的數(shù)據(jù)集特定閾值镜盯。或者猖败,一些最近開發(fā)的工具速缆,如MPT-HYDROPS12,首先估計(jì)存在于空孔或液滴中的RNA的背景水平恩闻,然后識別明顯偏離背景的細(xì)胞條形碼艺糜,這表明存在細(xì)胞。這種策略的優(yōu)點(diǎn)是幢尚,相對于樣本中的其他細(xì)胞破停,它能夠檢測RNA含量較低的細(xì)胞類型。
不幸的是尉剩,這些方法都不能區(qū)分完整的活細(xì)胞和受損或垂死的細(xì)胞真慢。必須執(zhí)行第二輪質(zhì)量控制,考慮檢測到的基因數(shù)量理茎、來自線粒體基因組的 RNA 比例以及每個(gè)細(xì)胞不可映射或多映射讀數(shù)的比例黑界。具有高比例的線粒體衍生基因、很少檢測到的基因或高比例的未映射或多映射讀數(shù)的細(xì)胞通常是受損或死亡的細(xì)胞13皂林。 具體閾值通常是通過手動(dòng)檢查質(zhì)量控制指標(biāo)圖來確定的朗鸠,因?yàn)樽罴呀刂怪等Q于組織、解離協(xié)議和其他技術(shù)因素础倍。為關(guān)鍵指標(biāo)定義離群細(xì)胞(根據(jù)中值絕對偏差)允許直接構(gòu)建數(shù)據(jù)集特定閾值烛占,但應(yīng)謹(jǐn)慎應(yīng)用,尤其是對于包含高度異質(zhì)細(xì)胞類型的樣本14沟启。