單細胞入門【2】:scRNA-seq測序數(shù)據(jù)的計算分析指南

單細胞入門【1】:單細胞測序方法該如何選擇纵寝?

02?scRNA-seq測序數(shù)據(jù)的計算分析指南

scRNA-seq是一種流行且功能強大的技術身隐,可分析大量單個細胞的整個轉錄組惑艇。然而對這些實驗生成的大量數(shù)據(jù)的分析需要專門的統(tǒng)計和計算方法。

2020年12月榴徐,來自英國威康桑格研究所和澳大利亞墨爾本大學的研究團隊在《Nature Protocols》雜志發(fā)表綜述:scRNA-seq測序數(shù)據(jù)的計算分析指南砂吞,為分析scRNA-seq數(shù)據(jù)的實驗者提供了實踐指南,也為尋求開發(fā)新計算方法的生物信息學家提供了概述兴溜。

2016年該團隊首次推出scRNA-seq數(shù)據(jù)計算分析的課程教材(https://scrnaseq-course.cog.sanger.ac.uk/website/index.html),本次綜述內容可作為其配套教材共同使用耻陕。

scRNA-seq分析的核心部分是表達矩陣拙徽,它代表了每個基因和細胞觀察到的轉錄本數(shù)量。工作流程可以分為兩個主要部分:1)表達矩陣的生成和2)表達矩陣的分析诗宣。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 工作流程概述

對于最常見的分析膘怕,研究團隊列出了一些最流行的方法以及它們所依賴的理論框架。

Quality control

分析scRNA-seq的第一步是排除不太可能代表完整的單個細胞的細胞barcode召庞。最直接的方法是計算一個特定于數(shù)據(jù)集的閾值岛心,或者如EmptyDrops,首先估計空孔或液滴中存在的RNA的背景水平篮灼,然后識別與背景顯著偏離的細胞barcode鹉梨。

上述方法均無法將完整的活細胞與受損或垂死的細胞區(qū)分開,所以還必須進行第二輪質控穿稳,考慮檢測到的基因數(shù)量、線粒體基因組衍生的RNA比例和每個細胞未映射或多映射reads的比例晌坤。線粒體衍生基因比例高逢艘、檢測到的基因數(shù)量少或未映射或多映射reads比例高的細胞往往是受損或垂死的細胞旦袋。

除了一些代表背景噪聲的細胞barcode外,還有一種可能是細胞barcode對應多個細胞它改。通常情況下疤孕,約5%的細胞barcode都會標記多個細胞。

Normalization

從測序實驗中獲得的有用reads在不同細胞之間會有所不同央拖,必須對這種差異進行校正祭阀。對于scRNA-seq數(shù)據(jù),這種影響是明顯的鲜戒,因為每個細胞的RNA數(shù)量可以由于細胞周期階段和其他生物因素而顯著變化专控,即使在同一細胞類型內也是如此。技術因素(如液滴大小不同)可能會進一步增加測序深度的差異性遏餐。

Scran軟件包通過使用細胞池來估計size factor伦腐,比其他標準化方法對后續(xù)批次校正和差異表達分析效果更好。此外失都,低表達的基因可能與高表達的基因在響應不同的測序深度時表現(xiàn)不同柏蘑。為了補償這種行為,可以使用針對每個基因表達水平的歸一化策略粹庞。例如咳焚,SCnorm可以用于低通量、高深度數(shù)據(jù)庞溜,sranctorm可以用于高通量革半、低深度數(shù)據(jù)。

Batch effect correction

與測序深度的差異類似强缘,批次效應也是技術上的混雜因素督惰。傳統(tǒng)的校正方法,如ComBat旅掂,假設每個細胞的生物學條件是先驗的赏胚,并利用這一信息,使用線性模型將生物效應和批量效應分開商虐。然而觉阅,這種假設對于scRNA-seq數(shù)據(jù)往往是不合適的。mnnCorrect和Seurat的典型相關分析(CCA)是新開發(fā)的校正方法秘车,這兩種工具的主要區(qū)別在于mnnCorrect使用PCA從基因表達矩陣中去除批效應典勇,而CCA將細胞投射到一個共同的基因相關空間中,并在該空間上執(zhí)行校正叮趴。

Imputation and smoothing

已經(jīng)開發(fā)了幾種工具來 "插補 "在scRNA-seq數(shù)據(jù)中發(fā)現(xiàn)的零值割笙,包括scImpute、DrImpute和SAVER。DrImpute和scImpute性能相似伤溉,而SAVER對數(shù)據(jù)的影響往往較小般码,產(chǎn)生的錯誤信號也少得多。其他工具乱顾,如使用擴散模型的MAGIC和使用自動編碼器的scVI板祝,應用平滑算法來減少噪聲。隨著可公開獲得的單細胞圖譜數(shù)量的增加走净,使用外部參照來填補缺失變得可行券时。例如SAVER-X和netNMF-sc能夠合并來自其他來源的相關信息。插補有助于提高scRNA-seq數(shù)據(jù)的可視化伏伯,但插補數(shù)據(jù)中確定的任何結構或模式(如差異表達基因或軌跡)必須通過對預插補數(shù)據(jù)進行適當?shù)慕y(tǒng)計檢驗進行驗證橘洞。

Cell cycle assignment

如果樣品中含有活躍循環(huán)的細胞,這可能導致生物混雜物舵鳞,需要在下游分析中去除震檩。另外,細胞周期的階段可能與所調查的生物問題有關蜓堕。在這兩種情況下抛虏,有必要將細胞分配到其適當?shù)募毎芷陔A段。有兩個廣泛使用的工具用于識別細胞周期階段:Cyclone和Seurat套才。Cyclone分析相對于彼此表達水平不同的基因對迂猴,將細胞分配到G1、S或G2/M背伴。雖然無論如何歸一化沸毁,Cyclone的準確率都很高,但它難以區(qū)分非周期細胞傻寂。Seurat根據(jù)G1/S和G2/M的已知標記物的平均歸一化表達對細胞進行評分息尺。此外,Seurat還提供了一個選項疾掰,只回歸G1/S和G2/M細胞之間的差異搂誉,同時保留循環(huán)和非循環(huán)細胞之間的差異。如果對周期性和非周期性亞群之間的差異有興趣静檬,后一種情況很重要炭懊。

Feature selection

在一個scRNA-seq實驗中,每個基因代表一個維度拂檩,因此侮腹,對于一個小鼠或人類數(shù)據(jù)集,將有大約20000個維度稻励。高通量父阻、基于液滴的方法可以識別多達5000個基因,而更敏感的方法可以檢測兩倍多的基因。

特征選擇可以識別出相對于技術噪聲而言具有最強生物信號的基因至非。通過將下游分析限制在信息量最大的基因上钠署,減弱了維度的影響,減少了噪聲荒椭,簡化了分析。最廣泛使用的特征選擇策略是考慮高變異基因(即方差高于預期的基因)舰蟆。Seurat等工具使用非參數(shù)方法趣惠,通過經(jīng)驗擬合方差和平均表達之間的關系來識別高度可變的基因。而對于罕見細胞類型中差異表達的基因身害,替代性指標如量化轉錄本不平等分布的Gini指數(shù)味悄,可能更合適,如GiniClust方法旨在識別小細胞群塌鸯。

Dimensionality reduction and visualization

減少表達矩陣高維度帶來的負面影響的另一個策略是對縮小后的特征空間進行降維侍瑟。有許多方法可供選擇,但最常用的策略為主成分分析(PCA)丙猬。大多數(shù)scRNA-seq數(shù)據(jù)集是復雜的涨颜,它們的結構不能被兩個或三個主成分所捕獲。因此茧球,可視化算法被用來創(chuàng)建一個二維圖庭瑰,從更多的重要成分總結scRNA-seq數(shù)據(jù)集。目前的最佳實踐方法是UMAP抢埋,UMAP在很大程度上取代了t-SNE弹灭。t-SNE和UMAP的一個缺點是它們都需要一個用戶定義的超參數(shù),而結果可能對所選的值很敏感揪垄。

Unsupervised clustering

早在scRNA-seq出現(xiàn)之前穷吮,各種聚類方法就已經(jīng)被開發(fā)出來,現(xiàn)有的工具是經(jīng)典方法的應用饥努。其中一個例子是廣泛使用的k-means算法捡鱼,它是SC3算法的基礎。除了基本的k-means算法外肪凛,SC3還使用共識方法對多個聚類結果進行平均堰汉。另一個例子是用于網(wǎng)絡聚類的Louvain算法,該算法在Phenograph中被成功地改編為單細胞數(shù)據(jù)集伟墙,隨后被Seurat和scanpy采用翘鸭。

Pseudotime

軌跡推斷方法將單細胞數(shù)據(jù)視為連續(xù)過程的一個個快照。這一過程通過最小化相鄰細胞之間的轉錄改變構建細胞空間的轉換路徑戳葵。這些路徑上的細胞排序由偽時間變量 (pseudotime variable)描述就乓。

大多數(shù)工具采取兩種方法之一。第一種方法是使用維度減少技術來識別細胞所在的低維 "manifold",并使用細胞-細胞圖來描述manifold的拓撲結構生蚁。使用這種策略的流行方法包括Monocle5和DPT噩翠。第二種方法是使用無監(jiān)督聚類對細胞進行分組,然后再將聚類連接起來邦投,并將單個細胞投影到分支上伤锚。這種方法的例子包括TSCAN和Mpath。

外顯子和內含子讀數(shù)的相對豐度志衣,代表拼接和未拼接的轉錄物屯援,可以用來推斷scRNA-seq實驗中的時間動態(tài)。RNAvelocity和scVelo等工具可以推斷每個基因在細胞采樣時的表達量是增加還是減少念脯。

Differential expression

差異表達(DE)對于scRNA-seq來說更具挑戰(zhàn)性狞洋,因為不僅僅是比較每個基因的單一數(shù)值,而是可以比較表達水平的分布绿店。另一個單細胞數(shù)據(jù)特有的挑戰(zhàn)是吉懊,要比較的細胞組不是先驗定義的。相反假勿,通常是根據(jù)想要比較的表達水平來定義組借嗽。最近的一項比較得出結論,與特制方法相比废登,非參數(shù)Wilcoxon檢驗的表現(xiàn)非常好淹魄。在專門為scRNA-seq定制的方法中,MAST的性能最好堡距。

Comparing versus combining datasets

隨著scRNA-seq數(shù)據(jù)量的不斷增加甲锡,一個重要的挑戰(zhàn)是如何最好地合并數(shù)據(jù)集。當其中一個數(shù)據(jù)集非常大(例如細胞圖譜)時,比較它們的策略特別有用羽戒。當給定一個或多個具有已知單元類型的數(shù)據(jù)集時缤沦,scmap會構建一個小索引。當給定一個新的查詢數(shù)據(jù)集時易稠,scmap可以根據(jù)轉錄概況快速確定新數(shù)據(jù)集的每個細胞在引用中最接近的細胞類型缸废。此外,scmap可以預測參考文獻中最近的單元驶社,這意味著當為單元分配偽時間值而不是離散的簇標簽時企量,可以使用scmap。

另一種方法MetaNeighbor亡电,被設計用來測試細胞類型在多個scRNA序列數(shù)據(jù)集中是否一致届巩。它通過計算跨數(shù)據(jù)集的細胞-細胞Spearman相關性來實現(xiàn),允許MetaNeighbor驗證細胞標簽在多個實驗中的可重復性份乒。

計算性scRNA-seq分析是一個快速發(fā)展的領域恕汇。很可能在未來幾年內會有新的分析工具腕唧,進一步擴大scRNA-seq的使用范圍。此外瘾英,研究團隊還希望能夠改進提供綜合工作流程的軟件工具(如Seurat枣接、scanpy和Bioconductor),使具有有限生物信息學專業(yè)知識的用戶更容易獲得分析結果缺谴。


首發(fā)公號:國家基因庫大數(shù)據(jù)平臺??

參考文獻

Andrews, T.S., Kiselev, V.Y., McCarthy, D.?et al.?Tutorial: guidelines for the computational analysis of single-cell RNA sequencing data.?Nat Protoc?16,?1–9 (2021).?

圖片均來源于參考文獻但惶,如有侵權請聯(lián)系刪除。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末湿蛔,一起剝皮案震驚了整個濱河市榆骚,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌煌集,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件捌省,死亡現(xiàn)場離奇詭異苫纤,居然都是意外死亡,警方通過查閱死者的電腦和手機纲缓,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門卷拘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人祝高,你說我怎么就攤上這事栗弟。” “怎么了工闺?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵乍赫,是天一觀的道長。 經(jīng)常有香客問我陆蟆,道長雷厂,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任叠殷,我火速辦了婚禮改鲫,結果婚禮上,老公的妹妹穿的比我還像新娘林束。我一直安慰自己像棘,他們只是感情好,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布壶冒。 她就那樣靜靜地躺著缕题,像睡著了一般。 火紅的嫁衣襯著肌膚如雪依痊。 梳的紋絲不亂的頭發(fā)上避除,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天怎披,我揣著相機與錄音,去河邊找鬼瓶摆。 笑死凉逛,一個胖子當著我的面吹牛,可吹牛的內容都是我干的群井。 我是一名探鬼主播状飞,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼书斜!你這毒婦竟也來了诬辈?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤荐吉,失蹤者是張志新(化名)和其女友劉穎焙糟,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體样屠,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡穿撮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了痪欲。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片悦穿。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖业踢,靈堂內的尸體忽然破棺而出栗柒,到底是詐尸還是另有隱情,我是刑警寧澤知举,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布瞬沦,位于F島的核電站,受9級特大地震影響负蠕,放射性物質發(fā)生泄漏蛙埂。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一遮糖、第九天 我趴在偏房一處隱蔽的房頂上張望绣的。 院中可真熱鬧,春花似錦欲账、人聲如沸屡江。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽惩嘉。三九已至,卻和暖如春踢故,著一層夾襖步出監(jiān)牢的瞬間文黎,已是汗流浹背惹苗。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留耸峭,地道東北人桩蓉。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像劳闹,于是被迫代替她去往敵國和親院究。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內容