《Tutorial: guidelines for the computational analysis of single-cell RNA sequencing data》單細(xì)胞流程

這篇文獻(xiàn)是今年12月份發(fā)的柠掂,也就是一個(gè)星期前,是劉小樂(lè)教授推薦閱讀的


推特地址:https://twitter.com/XShirleyLiu/status/1336882218044624896

本篇文章講解了單細(xì)胞RNA-seq的一般分析流程费韭,當(dāng)然文中還推薦了分析的課程:單細(xì)胞課程茧球,這個(gè)課程講的還是比較基礎(chǔ)的,比較適合初學(xué)者入坑
《Tutorial: guidelines for the computational analysis of single-cell RNA sequencing data》

Introduction

目前基于單細(xì)胞測(cè)序主要有兩種建庫(kù)技術(shù)星持,一種是主打細(xì)胞數(shù)量的10X platform抢埋,該技術(shù)的特點(diǎn)是提出了unique molecular identifiers(UMI),即每一個(gè)細(xì)胞對(duì)應(yīng)唯一的barcode作為區(qū)分于其他細(xì)胞的標(biāo)識(shí)符督暂;簡(jiǎn)而言之就是測(cè)到的每一條reads上都帶有唯一的barcode揪垄,一個(gè)barcode對(duì)應(yīng)一個(gè)細(xì)胞,這樣我們就可以知道測(cè)到的reads分別來(lái)自于哪一個(gè)細(xì)胞逻翁,而UMI即代表mapping到某一個(gè)barcode(細(xì)胞)上的reads數(shù)
另外一個(gè)是主打基因的smart-seq饥努,該方法測(cè)的是5'到3'端的mRNA,即容易測(cè)到全長(zhǎng)的mRNA八回,但是采用該技術(shù)建庫(kù)分離的細(xì)胞數(shù)目較少

scRNA-seq分析的主要組成部分是表達(dá)矩陣酷愧,它表示每個(gè)細(xì)胞中每個(gè)基因的轉(zhuǎn)錄本數(shù)量;因此scRNA分析流程可以分為兩類:1.產(chǎn)生表達(dá)矩陣缠诅;2.分析表達(dá)矩陣



在特定的情況下溶浴,研究人員必須首先組合來(lái)自多個(gè)實(shí)驗(yàn)所產(chǎn)生的表達(dá)矩陣以獲得組合的表達(dá)矩陣,并針對(duì)測(cè)序深度管引,細(xì)胞周期階段和其他混雜因素進(jìn)行校正士败。 接下來(lái),將數(shù)據(jù)可視化褥伴,并通過(guò)聚類谅将,偽時(shí)間和差異表達(dá)分析確定生物學(xué)上有意義的模式漾狼。 最后,將結(jié)果與文獻(xiàn)和現(xiàn)有數(shù)據(jù)集進(jìn)行比較戏自。

Quality control

那么質(zhì)控的第一步就是去除一些不太可能代表單個(gè)細(xì)胞的barcode邦投,最簡(jiǎn)單的方法就是對(duì)于每一個(gè)barcode,設(shè)置UMI的最小閾值擅笔,小于該閾值的將其舍去
其次要考慮的是檢測(cè)到的基因數(shù)量,線粒體基因組轉(zhuǎn)錄出來(lái)的mRNA如果比例過(guò)高屯援,那么意味著同樣測(cè)序深度猛们,其他基因分?jǐn)偟降膔eads比例將會(huì)減少;一般針對(duì)這種情況狞洋,我們需要根據(jù)不同器官弯淘,不同技術(shù)路線來(lái)確定線粒體mRNA比例的閾值
最后還應(yīng)該考慮或有一些barcode會(huì)對(duì)應(yīng)于多個(gè)細(xì)胞,這種情況我們稱之為doublets吉懊,我們可以通過(guò)一些軟件進(jìn)行檢測(cè)庐橙,例如scrubletDoubletFinder。這些軟件對(duì)你的數(shù)據(jù)模擬可能出現(xiàn)的雙峰借嗽,從而判斷哪一些barcode對(duì)應(yīng)于多個(gè)細(xì)胞

歸一化

所謂歸一化就是計(jì)算與樣品的測(cè)序深度相關(guān)的量(通常稱為“size factor”)态鳖,我們可以利用scran包對(duì)每一個(gè)細(xì)胞來(lái)估計(jì)(size factor),還有就是利用spike-in RNA或者管家基因來(lái)估算size factor

還有一個(gè)問(wèn)題就是在單細(xì)胞表達(dá)矩陣中會(huì)出現(xiàn)很多零表達(dá)或者低表達(dá)的基因恶导,這種情況的歸一化方式與高表達(dá)基因的不一樣浆竭。例如:SCnorm 常常用于低通量,高深度的數(shù)據(jù)惨寿,而sctransform 常常用于高通量邦泄,低深度的數(shù)據(jù)。最近在2019年又推出了基于貝葉斯方法進(jìn)行標(biāo)準(zhǔn)化和推斷單細(xì)胞數(shù)據(jù)的count裂垦,稱之為bayNorm顺囊,目的是通過(guò)mRNA捕獲的影響來(lái)推算潛在的基于表達(dá)譜

批次效應(yīng)矯正

批次效應(yīng)是由非生物因素(例如實(shí)驗(yàn)時(shí)間,進(jìn)行實(shí)驗(yàn)的人或試劑的差異)的差異引起的蕉拢。
在bulk-seq中特碳,去除批次效應(yīng)可以用ComBat進(jìn)行矯正,其原理是利用線性模型分開(kāi)生物學(xué)效應(yīng)項(xiàng)和批次效應(yīng)項(xiàng)企量,可閱讀關(guān)于批次效應(yīng)的若干問(wèn)題

但是這種方式并不適合與單細(xì)胞數(shù)據(jù)测萎,因?yàn)樵嫉膯渭?xì)胞表達(dá)矩陣中,我們無(wú)法得知確切的細(xì)胞類型届巩,不像bulk-seq硅瞧,我們可以提前得知每個(gè)樣品的處理方式(在單細(xì)胞中,不同的處理方式可以理解為不同的細(xì)胞類型)恕汇。
去除單細(xì)胞批次效應(yīng)影響的軟件有mnnCorrect腕唧,該軟件利用不同批次中的細(xì)胞之間的相互最鄰近鄰居來(lái)確定事后批次之間的共同生物學(xué)現(xiàn)象或辖,這種方法經(jīng)過(guò)改進(jìn)可以為Seurat的 canonical correlation analysis (CCA)找到“錨點(diǎn)”。mnnCorrect使用PCA從基因表達(dá)矩陣中刪除了批處理效應(yīng)枣接,而CCA則是將細(xì)胞投射到一個(gè)公共的基因相關(guān)空間中并對(duì)該空間進(jìn)行校正颂暇。

Imputation and smoothing

許多歸一化策略不會(huì)更改零表達(dá)的值,因此很容易假設(shè)它們代表丟失的值但惶,原則上耳鸯,刪除零可以降低噪音并使其更容易識(shí)別數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu)(例如,基因與基因的相關(guān)性膀曾,細(xì)胞簇县爬,標(biāo)記基因或發(fā)育軌跡)。已經(jīng)開(kāi)發(fā)了一些工具來(lái)“估算” scRNA-seq數(shù)據(jù)中的零值添谊,包括scImpute财喳,DrImpute和SAVER,這些工具都依賴于在數(shù)據(jù)中尋找可用于預(yù)測(cè)缺失值表達(dá)水平的結(jié)構(gòu)

細(xì)胞周期分析

如果樣品中包含細(xì)胞周期循環(huán)的細(xì)胞斩狱,則可能會(huì)導(dǎo)致生物學(xué)中混雜因素耳高,可能需要將其去除以進(jìn)行下游分析。有兩種廣泛使用的用于識(shí)別細(xì)胞周期階段的工具:Cyclone和Seurat
Cyclone軟件根據(jù)基因在不同細(xì)胞的表達(dá)情況進(jìn)行細(xì)胞時(shí)期的分配(G1 / S和G2 / M時(shí)期)
這兩種工具都將使用通用線性模型來(lái)回歸差異所踊。此外泌枪,Seurat提供了一個(gè)選項(xiàng),可以只去除G1 / S和G2 / M中細(xì)胞之間的差異污筷,同時(shí)保留周期和非周期細(xì)胞之間的差異工闺。

特征選擇

在scRNA-seq實(shí)驗(yàn)中,每個(gè)基因代表一個(gè)維度瓣蛀,但是陆蟆,許多基因不會(huì)在給定的細(xì)胞或細(xì)胞類型中表達(dá),并且測(cè)到的細(xì)胞基因總數(shù)有時(shí)<1,000個(gè)基因惋增。
特征選擇可識(shí)別出相對(duì)于技術(shù)噪聲而言具有最強(qiáng)生物信號(hào)的基因叠殷,采用特征選取,并選取信息最豐富的基因诈皿,可以減少維數(shù)的影響林束,降低噪音并簡(jiǎn)化分析。scRNA-seq數(shù)據(jù)中的特征選擇有兩個(gè)復(fù)雜因素:(i)影響每個(gè)基因的技術(shù)噪聲取決于該基因的平均表達(dá)量稽亏,并且(ii)對(duì)于小樣本量很難估計(jì)方差壶冒。用于特征選擇的最廣泛使用的策略是考慮高度可變的基因(即方差比預(yù)期高的基因)。比方說(shuō)Seurat之類的工具使用非參數(shù)方法截歉,通過(guò)經(jīng)驗(yàn)擬合方差和均值表達(dá)之間的關(guān)系來(lái)識(shí)別高度可變的基因

降維和可視化

大多數(shù)scRNA-seq數(shù)據(jù)集都很復(fù)雜胖腾,其結(jié)構(gòu)無(wú)法被兩個(gè)或三個(gè)主要成分捕獲,當(dāng)前的最佳的降維方法是均勻流形逼近和降維投影(UMAP),該算法使用一個(gè)單元間最近鄰網(wǎng)絡(luò)來(lái)近似數(shù)據(jù)的拓?fù)湎套鳎缓蠊烙?jì)最能保留該結(jié)構(gòu)的低維數(shù)據(jù)結(jié)構(gòu)锨阿,然后嵌入, UMAP能夠更好地保存數(shù)據(jù)高維空間結(jié)構(gòu)记罚,因此可以在很大程度上取代t分布隨機(jī)鄰近嵌入(t-SNE)

無(wú)監(jiān)督聚類

scRNA-seq數(shù)據(jù)的無(wú)監(jiān)督聚類至關(guān)重要墅诡,因?yàn)樗梢宰R(shí)別具有相似表達(dá)譜的細(xì)胞群。這些組中的某些可以代表不同的細(xì)胞類型桐智,而其他組則可以被視為中間細(xì)胞狀態(tài)末早,因此可以采用 k-means algorithm, Louvain algorithm進(jìn)行無(wú)監(jiān)督聚類

偽時(shí)間分析

什么是偽時(shí)間分析酵使,我們知道荐吉,一個(gè)組織或者一個(gè)和器官內(nèi)有許多種細(xì)胞類型,誘導(dǎo)蔡剛發(fā)育口渔,有的已經(jīng)發(fā)育成熟,并且存在著一種細(xì)胞類型向另外一種細(xì)胞類型發(fā)育的過(guò)程穿撮。
那么基于單細(xì)胞表達(dá)譜缺脉,推斷出哪一些細(xì)胞類型向另外哪一些細(xì)胞類型發(fā)育的軌跡我們稱之為偽時(shí)間,有別于真時(shí)間的是偽時(shí)間是由于同一時(shí)空下細(xì)胞發(fā)育進(jìn)度的不同而導(dǎo)致的悦穿,并不是真正的有時(shí)間差攻礼。
大多數(shù)工具采用以下兩種方法之一。第一種方法是使用降維技術(shù)來(lái)識(shí)別細(xì)胞所處的低維“流形”栗柒,并且利用細(xì)胞與細(xì)胞間的連接圖來(lái)表示發(fā)育軌跡礁扮。使用此算法的軟件包括Monocle和DPT
第二種方法是利用無(wú)監(jiān)督的聚類方法先將不同的細(xì)胞類型聚類,然后連接每一個(gè)cell cluster瞬沦,再把這些cell cluster投影到每一個(gè)分支上

還有一種是利用RNA降解速率來(lái)推斷細(xì)胞發(fā)育軌跡太伊,RNAvelocity就是利用這個(gè)原理,其原理大致為傳送門(mén)

差異表達(dá)

在單細(xì)胞差異表達(dá)顯著性檢驗(yàn)中逛钻,往往利用非參數(shù)non-parametric Wilcoxon test做檢驗(yàn)僚焦。對(duì)于每一個(gè)差異表達(dá)比較,當(dāng)前的選擇是計(jì)算每個(gè)細(xì)胞類型某基因的平均表達(dá)量曙痘,類似于bulk-seq芳悲,將不同的細(xì)胞類型看作是bulk-seq的不同樣本,比較不同細(xì)胞類型之間的差異表達(dá)

比較與合并數(shù)據(jù)集

隨著scRNA-seq數(shù)據(jù)量的不斷增長(zhǎng)边坤,一項(xiàng)重要的挑戰(zhàn)是確定如何最佳地組合數(shù)據(jù)集名扛。批處理效應(yīng)是組合來(lái)自不同實(shí)驗(yàn)室的分析時(shí)的主要挑戰(zhàn)
當(dāng)給定一個(gè)或多個(gè)具有已知細(xì)胞類型的數(shù)據(jù)集時(shí),scmap會(huì)建立一個(gè)小的索引茧痒。給定新的數(shù)據(jù)集后肮韧,scmap可以基于單細(xì)胞轉(zhuǎn)錄表達(dá)譜快速識(shí)別在參考數(shù)據(jù)中哪一個(gè)細(xì)胞類型最接近的給定的新細(xì)胞。此外,scmap可以預(yù)測(cè)在參考數(shù)據(jù)中相鄰最近的細(xì)胞惹苗,這意味著在做偽時(shí)間分析時(shí)可以分配偽時(shí)間的值殿较,而不是用離散的cell cluster標(biāo)簽來(lái)推算
另一種方法是MetaNeighbor,目的是測(cè)試多個(gè)scRNA-seq數(shù)據(jù)集之間的細(xì)胞類型是否一致桩蓉。 通過(guò)計(jì)算整個(gè)數(shù)據(jù)集之間的細(xì)胞間Spearman相關(guān)性淋纲,MetaNeighbor可以驗(yàn)證細(xì)胞標(biāo)記在多個(gè)實(shí)驗(yàn)中的可重復(fù)性。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末院究,一起剝皮案震驚了整個(gè)濱河市洽瞬,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌业汰,老刑警劉巖伙窃,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異样漆,居然都是意外死亡为障,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)放祟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)鳍怨,“玉大人,你說(shuō)我怎么就攤上這事跪妥⌒” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵眉撵,是天一觀的道長(zhǎng)侦香。 經(jīng)常有香客問(wèn)我,道長(zhǎng)纽疟,這世上最難降的妖魔是什么罐韩? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮仰挣,結(jié)果婚禮上伴逸,老公的妹妹穿的比我還像新娘。我一直安慰自己膘壶,他們只是感情好错蝴,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著颓芭,像睡著了一般顷锰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上亡问,一...
    開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1 297
  • 那天官紫,我揣著相機(jī)與錄音肛宋,去河邊找鬼。 笑死束世,一個(gè)胖子當(dāng)著我的面吹牛酝陈,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播毁涉,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼沉帮,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了贫堰?” 一聲冷哼從身側(cè)響起穆壕,我...
    開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎其屏,沒(méi)想到半個(gè)月后喇勋,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡偎行,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年川背,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蛤袒。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡渗常,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出汗盘,到底是詐尸還是另有隱情,我是刑警寧澤询一,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布隐孽,位于F島的核電站,受9級(jí)特大地震影響健蕊,放射性物質(zhì)發(fā)生泄漏菱阵。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一缩功、第九天 我趴在偏房一處隱蔽的房頂上張望晴及。 院中可真熱鬧,春花似錦嫡锌、人聲如沸虑稼。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)蛛倦。三九已至,卻和暖如春啦桌,著一層夾襖步出監(jiān)牢的瞬間溯壶,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留且改,地道東北人验烧。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像又跛,于是被迫代替她去往敵國(guó)和親碍拆。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容