《Tutorial: guidelines for the computational analysis of single-cell RNA sequencing data》單細(xì)胞流程

這篇文獻(xiàn)是今年12月份發(fā)的柠掂，也就是一個(gè)星期前，是劉小樂(lè)教授推薦閱讀的

推特地址：https://twitter.com/XShirleyLiu/status/1336882218044624896

本篇文章講解了單細(xì)胞RNA-seq的一般分析流程费韭，當(dāng)然文中還推薦了分析的課程：單細(xì)胞課程茧球，這個(gè)課程講的還是比較基礎(chǔ)的，比較適合初學(xué)者入坑
《Tutorial: guidelines for the computational analysis of single-cell RNA sequencing data》

Introduction

目前基于單細(xì)胞測(cè)序主要有兩種建庫(kù)技術(shù)星持，一種是主打細(xì)胞數(shù)量的10X platform抢埋，該技術(shù)的特點(diǎn)是提出了unique molecular identifiers(UMI)，即每一個(gè)細(xì)胞對(duì)應(yīng)唯一的barcode作為區(qū)分于其他細(xì)胞的標(biāo)識(shí)符督暂；簡(jiǎn)而言之就是測(cè)到的每一條reads上都帶有唯一的barcode揪垄，一個(gè)barcode對(duì)應(yīng)一個(gè)細(xì)胞，這樣我們就可以知道測(cè)到的reads分別來(lái)自于哪一個(gè)細(xì)胞逻翁，而UMI即代表mapping到某一個(gè)barcode（細(xì)胞）上的reads數(shù)
另外一個(gè)是主打基因的smart-seq饥努，該方法測(cè)的是5'到3'端的mRNA，即容易測(cè)到全長(zhǎng)的mRNA八回，但是采用該技術(shù)建庫(kù)分離的細(xì)胞數(shù)目較少

scRNA-seq分析的主要組成部分是表達(dá)矩陣酷愧，它表示每個(gè)細(xì)胞中每個(gè)基因的轉(zhuǎn)錄本數(shù)量；因此scRNA分析流程可以分為兩類：1.產(chǎn)生表達(dá)矩陣缠诅；2.分析表達(dá)矩陣

在特定的情況下溶浴，研究人員必須首先組合來(lái)自多個(gè)實(shí)驗(yàn)所產(chǎn)生的表達(dá)矩陣以獲得組合的表達(dá)矩陣，并針對(duì)測(cè)序深度管引，細(xì)胞周期階段和其他混雜因素進(jìn)行校正士败。接下來(lái)，將數(shù)據(jù)可視化褥伴，并通過(guò)聚類谅将，偽時(shí)間和差異表達(dá)分析確定生物學(xué)上有意義的模式漾狼。最后，將結(jié)果與文獻(xiàn)和現(xiàn)有數(shù)據(jù)集進(jìn)行比較戏自。

Quality control

那么質(zhì)控的第一步就是去除一些不太可能代表單個(gè)細(xì)胞的barcode邦投，最簡(jiǎn)單的方法就是對(duì)于每一個(gè)barcode，設(shè)置UMI的最小閾值擅笔，小于該閾值的將其舍去
其次要考慮的是檢測(cè)到的基因數(shù)量，線粒體基因組轉(zhuǎn)錄出來(lái)的mRNA如果比例過(guò)高屯援，那么意味著同樣測(cè)序深度猛们，其他基因分?jǐn)偟降膔eads比例將會(huì)減少；一般針對(duì)這種情況狞洋，我們需要根據(jù)不同器官弯淘，不同技術(shù)路線來(lái)確定線粒體mRNA比例的閾值
最后還應(yīng)該考慮或有一些barcode會(huì)對(duì)應(yīng)于多個(gè)細(xì)胞，這種情況我們稱之為doublets吉懊，我們可以通過(guò)一些軟件進(jìn)行檢測(cè)庐橙，例如scrublet和DoubletFinder。這些軟件對(duì)你的數(shù)據(jù)模擬可能出現(xiàn)的雙峰借嗽，從而判斷哪一些barcode對(duì)應(yīng)于多個(gè)細(xì)胞

歸一化

所謂歸一化就是計(jì)算與樣品的測(cè)序深度相關(guān)的量（通常稱為“size factor”）态鳖，我們可以利用scran包對(duì)每一個(gè)細(xì)胞來(lái)估計(jì)（size factor），還有就是利用spike-in RNA或者管家基因來(lái)估算size factor

還有一個(gè)問(wèn)題就是在單細(xì)胞表達(dá)矩陣中會(huì)出現(xiàn)很多零表達(dá)或者低表達(dá)的基因恶导，這種情況的歸一化方式與高表達(dá)基因的不一樣浆竭。例如：SCnorm 常常用于低通量，高深度的數(shù)據(jù)惨寿，而sctransform 常常用于高通量邦泄，低深度的數(shù)據(jù)。最近在2019年又推出了基于貝葉斯方法進(jìn)行標(biāo)準(zhǔn)化和推斷單細(xì)胞數(shù)據(jù)的count裂垦，稱之為bayNorm顺囊，目的是通過(guò)mRNA捕獲的影響來(lái)推算潛在的基于表達(dá)譜

批次效應(yīng)矯正

批次效應(yīng)是由非生物因素（例如實(shí)驗(yàn)時(shí)間，進(jìn)行實(shí)驗(yàn)的人或試劑的差異）的差異引起的蕉拢。
在bulk-seq中特碳，去除批次效應(yīng)可以用ComBat進(jìn)行矯正，其原理是利用線性模型分開(kāi)生物學(xué)效應(yīng)項(xiàng)和批次效應(yīng)項(xiàng)企量，可閱讀關(guān)于批次效應(yīng)的若干問(wèn)題

但是這種方式并不適合與單細(xì)胞數(shù)據(jù)测萎，因?yàn)樵嫉膯渭?xì)胞表達(dá)矩陣中，我們無(wú)法得知確切的細(xì)胞類型届巩，不像bulk-seq硅瞧，我們可以提前得知每個(gè)樣品的處理方式（在單細(xì)胞中，不同的處理方式可以理解為不同的細(xì)胞類型）恕汇。
去除單細(xì)胞批次效應(yīng)影響的軟件有mnnCorrect腕唧，該軟件利用不同批次中的細(xì)胞之間的相互最鄰近鄰居來(lái)確定事后批次之間的共同生物學(xué)現(xiàn)象或辖，這種方法經(jīng)過(guò)改進(jìn)可以為Seurat的 canonical correlation analysis （CCA）找到“錨點(diǎn)”。mnnCorrect使用PCA從基因表達(dá)矩陣中刪除了批處理效應(yīng)枣接，而CCA則是將細(xì)胞投射到一個(gè)公共的基因相關(guān)空間中并對(duì)該空間進(jìn)行校正颂暇。

Imputation and smoothing

許多歸一化策略不會(huì)更改零表達(dá)的值，因此很容易假設(shè)它們代表丟失的值但惶，原則上耳鸯，刪除零可以降低噪音并使其更容易識(shí)別數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu)（例如，基因與基因的相關(guān)性膀曾，細(xì)胞簇县爬，標(biāo)記基因或發(fā)育軌跡）。已經(jīng)開(kāi)發(fā)了一些工具來(lái)“估算” scRNA-seq數(shù)據(jù)中的零值添谊，包括scImpute财喳，DrImpute和SAVER，這些工具都依賴于在數(shù)據(jù)中尋找可用于預(yù)測(cè)缺失值表達(dá)水平的結(jié)構(gòu)

細(xì)胞周期分析

如果樣品中包含細(xì)胞周期循環(huán)的細(xì)胞斩狱，則可能會(huì)導(dǎo)致生物學(xué)中混雜因素耳高，可能需要將其去除以進(jìn)行下游分析。有兩種廣泛使用的用于識(shí)別細(xì)胞周期階段的工具：Cyclone和Seurat
Cyclone軟件根據(jù)基因在不同細(xì)胞的表達(dá)情況進(jìn)行細(xì)胞時(shí)期的分配（G1 / S和G2 / M時(shí)期）
這兩種工具都將使用通用線性模型來(lái)回歸差異所踊。此外泌枪，Seurat提供了一個(gè)選項(xiàng)，可以只去除G1 / S和G2 / M中細(xì)胞之間的差異污筷，同時(shí)保留周期和非周期細(xì)胞之間的差異工闺。

特征選擇

在scRNA-seq實(shí)驗(yàn)中，每個(gè)基因代表一個(gè)維度瓣蛀，但是陆蟆，許多基因不會(huì)在給定的細(xì)胞或細(xì)胞類型中表達(dá)，并且測(cè)到的細(xì)胞基因總數(shù)有時(shí)<1,000個(gè)基因惋增。
特征選擇可識(shí)別出相對(duì)于技術(shù)噪聲而言具有最強(qiáng)生物信號(hào)的基因叠殷，采用特征選取，并選取信息最豐富的基因诈皿，可以減少維數(shù)的影響林束，降低噪音并簡(jiǎn)化分析。scRNA-seq數(shù)據(jù)中的特征選擇有兩個(gè)復(fù)雜因素：（i）影響每個(gè)基因的技術(shù)噪聲取決于該基因的平均表達(dá)量稽亏，并且（ii）對(duì)于小樣本量很難估計(jì)方差壶冒。用于特征選擇的最廣泛使用的策略是考慮高度可變的基因（即方差比預(yù)期高的基因）。比方說(shuō)Seurat之類的工具使用非參數(shù)方法截歉，通過(guò)經(jīng)驗(yàn)擬合方差和均值表達(dá)之間的關(guān)系來(lái)識(shí)別高度可變的基因

降維和可視化

大多數(shù)scRNA-seq數(shù)據(jù)集都很復(fù)雜胖腾，其結(jié)構(gòu)無(wú)法被兩個(gè)或三個(gè)主要成分捕獲，當(dāng)前的最佳的降維方法是均勻流形逼近和降維投影（UMAP），該算法使用一個(gè)單元間最近鄰網(wǎng)絡(luò)來(lái)近似數(shù)據(jù)的拓?fù)湎套鳎缓蠊烙?jì)最能保留該結(jié)構(gòu)的低維數(shù)據(jù)結(jié)構(gòu)锨阿，然后嵌入， UMAP能夠更好地保存數(shù)據(jù)高維空間結(jié)構(gòu)记罚，因此可以在很大程度上取代t分布隨機(jī)鄰近嵌入（t-SNE）

無(wú)監(jiān)督聚類

scRNA-seq數(shù)據(jù)的無(wú)監(jiān)督聚類至關(guān)重要墅诡，因?yàn)樗梢宰R(shí)別具有相似表達(dá)譜的細(xì)胞群。這些組中的某些可以代表不同的細(xì)胞類型桐智，而其他組則可以被視為中間細(xì)胞狀態(tài)末早，因此可以采用 k-means algorithm， Louvain algorithm進(jìn)行無(wú)監(jiān)督聚類

偽時(shí)間分析

什么是偽時(shí)間分析酵使，我們知道荐吉，一個(gè)組織或者一個(gè)和器官內(nèi)有許多種細(xì)胞類型，誘導(dǎo)蔡剛發(fā)育口渔，有的已經(jīng)發(fā)育成熟，并且存在著一種細(xì)胞類型向另外一種細(xì)胞類型發(fā)育的過(guò)程穿撮。
那么基于單細(xì)胞表達(dá)譜缺脉，推斷出哪一些細(xì)胞類型向另外哪一些細(xì)胞類型發(fā)育的軌跡我們稱之為偽時(shí)間，有別于真時(shí)間的是偽時(shí)間是由于同一時(shí)空下細(xì)胞發(fā)育進(jìn)度的不同而導(dǎo)致的悦穿，并不是真正的有時(shí)間差攻礼。
大多數(shù)工具采用以下兩種方法之一。第一種方法是使用降維技術(shù)來(lái)識(shí)別細(xì)胞所處的低維“流形”栗柒，并且利用細(xì)胞與細(xì)胞間的連接圖來(lái)表示發(fā)育軌跡礁扮。使用此算法的軟件包括Monocle和DPT
第二種方法是利用無(wú)監(jiān)督的聚類方法先將不同的細(xì)胞類型聚類，然后連接每一個(gè)cell cluster瞬沦，再把這些cell cluster投影到每一個(gè)分支上

還有一種是利用RNA降解速率來(lái)推斷細(xì)胞發(fā)育軌跡太伊，RNAvelocity就是利用這個(gè)原理，其原理大致為傳送門(mén)

差異表達(dá)

在單細(xì)胞差異表達(dá)顯著性檢驗(yàn)中逛钻，往往利用非參數(shù)non-parametric Wilcoxon test做檢驗(yàn)僚焦。對(duì)于每一個(gè)差異表達(dá)比較，當(dāng)前的選擇是計(jì)算每個(gè)細(xì)胞類型某基因的平均表達(dá)量曙痘，類似于bulk-seq芳悲，將不同的細(xì)胞類型看作是bulk-seq的不同樣本，比較不同細(xì)胞類型之間的差異表達(dá)

比較與合并數(shù)據(jù)集

隨著scRNA-seq數(shù)據(jù)量的不斷增長(zhǎng)边坤，一項(xiàng)重要的挑戰(zhàn)是確定如何最佳地組合數(shù)據(jù)集名扛。批處理效應(yīng)是組合來(lái)自不同實(shí)驗(yàn)室的分析時(shí)的主要挑戰(zhàn)
當(dāng)給定一個(gè)或多個(gè)具有已知細(xì)胞類型的數(shù)據(jù)集時(shí)，scmap會(huì)建立一個(gè)小的索引茧痒。給定新的數(shù)據(jù)集后肮韧，scmap可以基于單細(xì)胞轉(zhuǎn)錄表達(dá)譜快速識(shí)別在參考數(shù)據(jù)中哪一個(gè)細(xì)胞類型最接近的給定的新細(xì)胞。此外，scmap可以預(yù)測(cè)在參考數(shù)據(jù)中相鄰最近的細(xì)胞惹苗，這意味著在做偽時(shí)間分析時(shí)可以分配偽時(shí)間的值殿较，而不是用離散的cell cluster標(biāo)簽來(lái)推算
另一種方法是MetaNeighbor，目的是測(cè)試多個(gè)scRNA-seq數(shù)據(jù)集之間的細(xì)胞類型是否一致桩蓉。通過(guò)計(jì)算整個(gè)數(shù)據(jù)集之間的細(xì)胞間Spearman相關(guān)性淋纲，MetaNeighbor可以驗(yàn)證細(xì)胞標(biāo)記在多個(gè)實(shí)驗(yàn)中的可重復(fù)性。

最后編輯于：2021.02.04 19:29:14

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末院究，一起剝皮案震驚了整個(gè)濱河市洽瞬，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌业汰，老刑警劉巖伙窃，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異样漆，居然都是意外死亡为障，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)放祟，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)鳍怨，“玉大人，你說(shuō)我怎么就攤上這事跪妥⌒” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵眉撵，是天一觀的道長(zhǎng)侦香。經(jīng)常有香客問(wèn)我，道長(zhǎng)纽疟，這世上最難降的妖魔是什么罐韩？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮仰挣，結(jié)果婚禮上伴逸，老公的妹妹穿的比我還像新娘。我一直安慰自己膘壶，他們只是感情好错蝴，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著颓芭，像睡著了一般顷锰。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上亡问，一...
開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說(shuō)
那天官紫，我揣著相機(jī)與錄音肛宋，去河邊找鬼。笑死束世，一個(gè)胖子當(dāng)著我的面吹牛酝陈，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播毁涉，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼沉帮，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了贫堰？” 一聲冷哼從身側(cè)響起穆壕，我...
開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎其屏，沒(méi)想到半個(gè)月后喇勋，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡偎行，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年川背，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蛤袒。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡渗常，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出汗盘，到底是詐尸還是另有隱情，我是刑警寧澤询一，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布隐孽，位于F島的核電站，受9級(jí)特大地震影響健蕊，放射性物質(zhì)發(fā)生泄漏菱阵。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一缩功、第九天我趴在偏房一處隱蔽的房頂上張望晴及。院中可真熱鬧，春花似錦嫡锌、人聲如沸虑稼。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0贊 22
一樁弒父案势木，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)蛛倦。三九已至，卻和暖如春啦桌，著一層夾襖步出監(jiān)牢的瞬間溯壶，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留且改，地道東北人验烧。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像又跛，于是被迫代替她去往敵國(guó)和親碍拆。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353