單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析流程

回顧一下：什么是單細(xì)胞轉(zhuǎn)錄組測序技術(shù)苫拍？

細(xì)胞異質(zhì)性是生物組織的普遍特征围肥。由于傳統(tǒng)的轉(zhuǎn)錄組測序(RNA-Seq)技術(shù)的測序水平是在個體或群體水平上對數(shù)萬個細(xì)胞進(jìn)行轉(zhuǎn)錄組測序虫蝶，因此傳統(tǒng)轉(zhuǎn)錄組測序技術(shù)的測序結(jié)果就只能檢測到個體間或者群體間的轉(zhuǎn)錄組差異桩卵，而細(xì)胞間的轉(zhuǎn)錄差異則無法精確地檢測到棘催。而單細(xì)胞轉(zhuǎn)錄組技術(shù)則提供了一種在單個細(xì)胞水平進(jìn)行高通量轉(zhuǎn)錄組測序的一項新技術(shù)劲弦，能夠有效解決細(xì)胞間轉(zhuǎn)錄組異質(zhì)性以細(xì)胞群間轉(zhuǎn)錄組異質(zhì)性的難題。

單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析的難點主要在于細(xì)胞的質(zhì)量不確定醇坝，細(xì)胞的數(shù)量大邑跪，從單細(xì)胞測序技術(shù)誕生至今，測到的細(xì)胞通量越來越高呼猪，現(xiàn)在一次單細(xì)胞轉(zhuǎn)錄組測到的細(xì)胞數(shù)可達(dá)100K~200K[1]画畅。因而，對分析人員的要求也越來越高宋距。

雖然單細(xì)胞轉(zhuǎn)錄組的分析不容易轴踱，但依然是有清晰的流程噠（見下圖）:

接下來我們一起看看，每一步都需要做些啥谚赎。

01測序原始數(shù)據(jù)的處理

測序原始數(shù)據(jù)通常指測序下機(jī)得到的fastq文件淫僻，需要經(jīng)過一定的處理，將其中我們需要的信息壶唤，如barcode嘁傀，UMI以及基因的序列等，給提取出來视粮，方便下一步分析细办。

最初處理原始數(shù)據(jù)常用的是perl腳本，后來有了更方便的軟件或工具。目前我們常用的是fastp笑撞、 cutadapt岛啸、 trimmomatic等分析工具。這步處理主要是為了去除測序時引入的連續(xù)的N茴肥、低質(zhì)量reads坚踩、以及建庫時引入的接頭序列等。

通過這步分析瓤狐，我們可以得到關(guān)注的barcode瞬铸、UMI以及基因的序列。

02 獲得表達(dá)矩陣

處理完fastq之后础锐，我們需要從中分析出每個細(xì)胞中基因表達(dá)的信息嗓节，即獲得表達(dá)矩陣。對于這一步處理皆警，我們常采用的是STAR或者salmon拦宣，kallisto等比對工具，將測得的序列片段比對到參考基因組或者轉(zhuǎn)錄組信姓。同時根據(jù)建庫時的barcode白名單對每個真實捕獲到的細(xì)胞barcode進(jìn)行比對鸵隧，分出每個細(xì)胞的基因表達(dá)矩陣。

表達(dá)矩陣示意圖

表達(dá)矩陣中包含了每個細(xì)胞轉(zhuǎn)錄組中各個基因表達(dá)水平的信息意推，是我們后續(xù)各類分析的基礎(chǔ)豆瘫。

這樣的分析之后，我們可以統(tǒng)計得到細(xì)胞的個數(shù)菊值，各個細(xì)胞表達(dá)的基因數(shù)等信息外驱。同時，通過對這些信息的統(tǒng)計分析俊性，我們還可以判斷單細(xì)胞測序數(shù)據(jù)整體的質(zhì)量，為后面的分析步驟提供依據(jù)和參考描扯。

單細(xì)胞測序數(shù)據(jù)質(zhì)控的指標(biāo)有很多定页，這里我們來重點看看3個最為常見的指標(biāo)。

細(xì)胞數(shù) Number of Cells
即捕獲到的細(xì)胞數(shù)绽诚，是通過分析與細(xì)胞關(guān)聯(lián)的條形碼的數(shù)目計算出來的典徊。根據(jù)這個值，我們可以知道這次單細(xì)胞測序捕獲了多少細(xì)胞恩够。

中值UMI數(shù) Median UMI Counts per Cell
這個指標(biāo)代表的是每個細(xì)胞中被檢測到UMI數(shù)據(jù)的中位數(shù)卒落。UMI是目前許多高通量單細(xì)胞測序平臺用到的一種分子標(biāo)簽，會給細(xì)胞中每個被捕獲的mRNA分子打上一個獨特的標(biāo)簽蜂桶，用來在分析中校準(zhǔn)基因的表達(dá)量儡毕。通過這個指標(biāo)，我們可以了解到每個高質(zhì)量細(xì)胞中大概有多少個mRNA分子被捕獲到。

中值基因數(shù) Median Genes per Cell
這個指標(biāo)代表的是每個細(xì)胞中被檢測到基因數(shù)目的中位數(shù)腰湾。雖然人體一共有約2萬個基因雷恃，但由于轉(zhuǎn)錄水平的不同和測序量的限制，每個細(xì)胞中能測到的基因只是這2萬個中的一部分——當(dāng)然费坊，我們希望能測到的基因越多越好倒槐。這個指標(biāo)可以讓我們了解到，在這次單細(xì)胞測序?qū)嶒炛校?strong>每個細(xì)胞中大概有多少個基因被測到附井。

03 細(xì)胞過濾

雖然上一步中我們得到了所有細(xì)胞中基因表達(dá)的信息讨越，但并不是每個細(xì)胞中信息的質(zhì)量都符合我們后續(xù)分析的標(biāo)準(zhǔn)，因此永毅，我們需要對細(xì)胞進(jìn)行過濾把跨，以便獲得相對完好的細(xì)胞。那么卷雕，怎樣進(jìn)行過濾呢节猿？

在單細(xì)胞測序分析中，過濾的標(biāo)準(zhǔn)往往是某些特定基因的表達(dá)量漫雕，用來鑒別出質(zhì)量欠佳的細(xì)胞滨嘱，將其過濾掉。其中最重要的參考標(biāo)準(zhǔn)是基因數(shù)以及線粒體基因表達(dá)情況浸间。

以下3幅小提琴圖太雨，分別展示了基因數(shù)，mRNA分子總數(shù)魁蒜、線粒體基因占比這三個常用的過濾指標(biāo)囊扳。

細(xì)胞過濾參考的指標(biāo)

首先可以通過基因數(shù)、mRNA分子數(shù)兜看、線粒體基因占比三個參數(shù)進(jìn)行質(zhì)控去除質(zhì)量差的細(xì)胞锥咸。

nFeature_RNA 是每個細(xì)胞中檢測到的基因數(shù)量。
nCount_RNA 是細(xì)胞內(nèi)檢測到的mRNA分子總數(shù)细移。
percent.mt 是細(xì)胞內(nèi)線粒體基因表達(dá)量占所有基因表達(dá)量的比例搏予。

如果nFeature_RNA 過低，表示該細(xì)胞可能已經(jīng)死亡或?qū)⒁劳龌蛘呖赡苁强找旱巍?/p>

如果nFeature_RNA 與 nCount_RNA 數(shù)值過高弧轧，表示細(xì)胞在形成油包水的結(jié)構(gòu)制備過程中雪侥，兩個或者多個細(xì)胞被包裹在一個液滴中。

如果線粒體基因占比較高精绎，則說明細(xì)胞的質(zhì)量較差速缨。這是因為線粒體基因會在受損或凋亡細(xì)胞表達(dá)升高，因而線粒體基因占比較高代乃，表明細(xì)胞可能已經(jīng)受損或者正處于凋亡過程中旬牲。

不過，每種細(xì)胞或組織類型如何設(shè)定線粒體閾值，要依實際情況而定引谜。比如某些細(xì)胞的呼吸作用很旺盛牍陌，其線粒體基因的比例就會可能很高，而不是因為細(xì)胞破裂或者細(xì)胞狀態(tài)不好引起的员咽。而有些細(xì)胞本來基因的表達(dá)數(shù)就很少毒涧，比如中性粒細(xì)胞。所以這三個參數(shù)的設(shè)置要根據(jù)細(xì)胞類型而設(shè)置贝室。

04 降維和聚類

拿到過濾后的細(xì)胞后契讲，我們就可以進(jìn)行進(jìn)一步的分析，了解樣本中有哪些類型的細(xì)胞滑频，每個細(xì)胞分別屬于哪種細(xì)胞類型捡偏，甚至細(xì)胞亞型。

要做到這一點峡迷，我們首先要知道哪些細(xì)胞是屬于同一類的银伟，這就需要進(jìn)行降維和聚類。

所謂降維绘搞，就是把多維度的復(fù)雜數(shù)據(jù)用更少的維度展示出來彤避，同時盡量保留原始數(shù)據(jù)中的主要信息。比如照片和地圖夯辖，就是對三維物體和真實世界的一種降維展示琉预。

從三維的地球到二維的世界地圖，就是一種“降維”

而聚類的概念就比較簡單了蒿褂，顧名思義圆米，就是把相似的類別聚在一起。

單細(xì)胞測序分析的降維聚類圖啄栓，就是將各個細(xì)胞的基因表達(dá)情況在二維平面上展示出來娄帖，并且將基因表達(dá)特征近似的細(xì)胞聚在一起。

在降維聚類圖中昙楚，細(xì)胞間的距離是由它們表達(dá)譜的相似程度決定的近速。表達(dá)譜相似的細(xì)胞會聚在一起，被標(biāo)記為同一種顏色桂肌，提示它們可能屬于同一種細(xì)胞類型数焊，為后續(xù)判斷細(xì)胞類型提供分析基礎(chǔ)永淌。

聚類后UMAP可視化結(jié)果

05 找到細(xì)胞簇的 Maker 基因

對于第四步中發(fā)現(xiàn)的每一個細(xì)胞簇（cluster崎场，即降維聚類圖中聚在一起的一群細(xì)胞），我們可以通過分析找到在其中特異表達(dá)的cluster marker基因遂蛀，用于后續(xù)的細(xì)胞類型注釋分析谭跨。

在通常情況下，我們會將某一個cluster與其他所有cluster相比的差異基因作為這個cluster的marker基因。當(dāng)然螃宙，如果需要的話蛮瞄，也可以計算兩實驗組間或者兩cluster間的差異基因來作為marker。這些都可以用Seurat軟件包內(nèi)的FindMarkers函數(shù)來實現(xiàn)谆扎。

06 細(xì)胞類型注釋

在得到細(xì)胞簇以及它們的marker基因后挂捅，我們就要對這些細(xì)胞簇的細(xì)胞類型進(jìn)行判定，這一步就是細(xì)胞類型注釋堂湖。

細(xì)胞類型注釋是基于不同細(xì)胞類型中特異表達(dá)的marker基因來進(jìn)行的闲先。在第五步中，我們找到了每個細(xì)胞簇的marker基因无蜂，如果某個細(xì)胞簇的marker和某個細(xì)胞類型的marker基因相符伺糠，就可以被判定為對應(yīng)的細(xì)胞類型。

這一步是單細(xì)胞分析中非常重要的環(huán)節(jié)斥季，有一些細(xì)胞自動注釋軟件可以幫助我們定義細(xì)胞類型训桶，比如singleR或者scCATCH。

當(dāng)然受限于前期實驗設(shè)計或數(shù)據(jù)分析的差異酣倾，自動注釋的結(jié)果有時并不能與預(yù)期相符舵揭，我們還可以通過單細(xì)胞公共數(shù)據(jù)庫（比如CellMarker、PangLaoDB灶挟、CancerSCEM琉朽、SingleCellPortal等）或者已發(fā)表文章，來尋找自己感興趣的單細(xì)胞注釋參考數(shù)據(jù)集或已知的細(xì)胞類型marker稚铣，以提高注釋準(zhǔn)確度箱叁。

比如，對于外周血單個核細(xì)胞（PBMC）數(shù)據(jù)集惕医，我們可以用第五步中的方法計算出每個細(xì)胞簇的marker（下表中第二列）耕漱，然后基于這些marker基因，就可以找到對應(yīng)的細(xì)胞類型（下表中第三列）抬伺，于是就能輕松地進(jìn)行細(xì)胞類型注釋啦螟够！

進(jìn)行了注釋后，我們在降維聚類圖上看到的峡钓，就不再是以數(shù)字編號的細(xì)胞簇妓笙，而是有名有姓的具體細(xì)胞類型：

細(xì)胞類型注釋結(jié)果樣例

當(dāng)我們獲得了完整的細(xì)胞類型注釋后，就可以開始進(jìn)行下游的深入分析啦能岩，比如不同細(xì)胞類型的差異基因寞宫、通路富集，也可以進(jìn)行擬時序分析拉鹃、細(xì)胞通訊分析等等辈赋，對樣本中各類細(xì)胞的功能鲫忍、狀態(tài)和相互作用進(jìn)行更加深入詳細(xì)的分析。

其他

繼續(xù)介紹一下轉(zhuǎn)錄本定量分析钥屈、實驗設(shè)計、批次效應(yīng)和混雜因素篷就。??

我們先思考幾個問題射亏，如下：
Q1: 不同protocol有什么區(qū)別，優(yōu)缺點是什么竭业？
Q2: 在進(jìn)行scRNA-seq的實驗設(shè)計時鸦泳，要考慮哪些問題？
Q3: 與bulk RNA-seq的數(shù)據(jù)相比永品，scRNA-seq數(shù)據(jù)有什么不同做鹰？

1. 定量方法

目前我們常見的轉(zhuǎn)錄本定量方法有兩種，full-length和tag鼎姐。full-length實現(xiàn)整個轉(zhuǎn)錄本的count钾麸，而tag的只capture5’或3’端。

1.1 full-length
scRNA-seq的full-length文庫構(gòu)建與bulk RNA-seq相似炕桨，如SMART-seq2饭尝。從理論上講，full-length應(yīng)該可以提供一個均勻的轉(zhuǎn)錄本coverage献宫，但有時在coverage上還是有一定的偏差钥平。full-length一大優(yōu)勢就是可以檢測到不同剪接體(splice variants)。

1.2 tag
如果使用tag的方法進(jìn)行scRNA-seq姊途，則只對轉(zhuǎn)錄本的一端（3'或5'）進(jìn)行測序涉瘾。目前大多數(shù)scRNA-seq都是基于tag的，如10x Chromium捷兰，

優(yōu)點：可以與UMI（unique molecular identifiers）結(jié)合立叛，提高定量的準(zhǔn)確性。
缺點: 由于只限于轉(zhuǎn)錄本的一端贡茅，無法區(qū)分isoforms秘蛇。

Note! 這個圖展示了不同細(xì)胞中average coverage的情況，有明顯的3' bias顶考。

而且3個細(xì)胞群明顯離群赁还，可能是RNA降解導(dǎo)致的。

1.3 為什么使用UMI
由于在PCR的過程中驹沿，擴(kuò)增是指數(shù)級的艘策，可能會導(dǎo)致擴(kuò)增不均，從而高估基因的表達(dá)量甚负。為了解決這個問題柬焕，cell barcodes會標(biāo)記上一段隨機(jī)核苷酸序列（UMI），而這個UMI是唯一的梭域。在讀取count時斑举，將UMI納入，從而更準(zhǔn)確的計算轉(zhuǎn)錄本的豐度病涨。

1.4 選3’ 還是5’ tag
這個可能要根據(jù)大家具體的實驗?zāi)康膩磉M(jìn)行選擇富玷，常用的就是3’的方法。但5'也有其優(yōu)勢既穆，如可以獲得有關(guān)轉(zhuǎn)錄起始位點（TSS）的信息赎懦，從而探索不同細(xì)胞之間是否存在不同的TSS。

2. 實驗設(shè)計

**那么多方法怎么選幻工？
首先我們要明確的就是選擇不同方法還是要基于你的科學(xué)問題励两，你的研究目的。??

低通量的方法與高通量的方法相比具有更高的靈敏度囊颅，如10x Chromium当悔。

另一方面，低通量方法很難capture到樣本中一些比較稀有的細(xì)胞類型踢代，導(dǎo)致細(xì)胞群的特征不完整盲憎。??

scRNA-seq數(shù)據(jù)的不同之處
測序完成后，每個library代表一個細(xì)胞胳挎，而不是一群細(xì)胞饼疙。所以，每個細(xì)胞都是獨一無二的慕爬，在單細(xì)胞水平上沒有辦法進(jìn)行 “生物學(xué)重復(fù)”窑眯。我們一般需要進(jìn)行相似性聚類，然后在相似細(xì)胞群之間進(jìn)行比較医窿。

批次效應(yīng)
批次效應(yīng)（batch effects）是一定要考慮到的問題伸但，即使用不同的技術(shù)對相同的樣本進(jìn)行scRNA-seq，也會有批次效應(yīng)留搔，可以通過normalise來減少批次效應(yīng)更胖。

混雜因素
整個scRNA-seq的過程中，應(yīng)避免實驗因素（如治療隔显、表型或疾病等）却妨、準(zhǔn)備樣品時間、測序時間等對結(jié)果的影響括眠。

舉個栗子
假設(shè)我們準(zhǔn)備對10個病人的control和diseased組織進(jìn)行scRNA-seq彪标，如果每天只能處理10個樣本，最好是每天做5個control和5個diseased的樣本掷豺，而不是一天準(zhǔn)備所有control的樣本捞烟，另一天準(zhǔn)備所有diseased的樣本薄声。
另一個需要考慮到的就是樣本的可重復(fù)性。

當(dāng)從一個器官收集組織時题画，最好從器官的不同部位采集多個樣本默辨。
由于基因表達(dá)可能受晝夜節(jié)律（circadian changes）的影響，我們最好也在同一個時間點進(jìn)行取樣苍息。

參考文獻(xiàn)

[1] Svensson V, Vento-Tormo R, Teichmann S A. Exponential scaling of single-cell RNA-seq in the past decade[J]. Nature Protocols, 2018, 13(4):599-604.

[2] Malte D L., Fabian J T.. Current best practices in single‐cell RNA‐seq analysis: a tutorial. Molecular Systems Biology. 2019 Jun; 15(6): e8746.

[3] Macosko, E. Z. , Basu, A. , Satija, R. , Nemesh, J. , & Mccarroll, S. A. . Highly parallel genome-wide expression profiling of individual cells using nanoliter droplets. Cell, 2015, 161(5), 1202-1214.

[4] Butler, A. , Hoffman, P. , Smibert, P. , Papalexi, E. , & Satija, R. . Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nature Biotechnology, 2018, 36(5).

[5] Papalexi E, Satija R. Single-cell RNA sequencing to explore immune cell heterogeneity. Nat Rev Immunol. 2018;18(1):35-45.

參考：
https://zhuanlan.zhihu.com/p/532134856
https://blog.csdn.net/m0_72224305/article/details/127148666

最后編輯于：2023.03.25 17:14:55

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末缩幸，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子竞思，更是在濱河造成了極大的恐慌表谊，老刑警劉巖，帶你破解...
沈念sama閱讀 211,123評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件盖喷，死亡現(xiàn)場離奇詭異爆办，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)课梳，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,031評論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門押逼，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人惦界，你說我怎么就攤上這事挑格。” “怎么了沾歪？”我有些...
開封第一講書人閱讀 156,723評論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵漂彤，是天一觀的道長。經(jīng)常有香客問我灾搏，道長挫望，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,357評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任狂窑，我火速辦了婚禮媳板，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘泉哈。我一直安慰自己蛉幸，他們只是感情好，可當(dāng)我...
茶點故事閱讀 65,412評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布丛晦。她就那樣靜靜地躺著奕纫，像睡著了一般。火紅的嫁衣襯著肌膚如雪烫沙。梳的紋絲不亂的頭發(fā)上匹层，一...
開封第一講書人閱讀 49,760評論 1贊 289
城市分裂傳說
那天，我揣著相機(jī)與錄音锌蓄，去河邊找鬼升筏。笑死撑柔，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的您访。我是一名探鬼主播铅忿，決...
沈念sama閱讀 38,904評論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼洋只！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起昼捍，我...
開封第一講書人閱讀 37,672評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤识虚，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后妒茬，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體担锤，經(jīng)...
沈念sama閱讀 44,118評論 1贊 303
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,456評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年乍钻，在試婚紗的時候發(fā)現(xiàn)自己被綠了肛循。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,599評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡银择，死狀恐怖多糠，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情浩考，我是刑警寧澤夹孔，帶...
沈念sama閱讀 34,264評論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站析孽，受9級特大地震影響搭伤，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜袜瞬，卻給世界環(huán)境...
茶點故事閱讀 39,857評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一怜俐、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧邓尤，春花似錦拍鲤、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,731評論 0贊 21
一樁弒父案殿漠，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至佩捞，卻和暖如春绞幌，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背一忱。一陣腳步聲響...
開封第一講書人閱讀 31,956評論 1贊 264
情欲美人皮
我被黑心中介騙來泰國打工莲蜘，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留谭确，地道東北人。一個月前我還...
沈念sama閱讀 46,286評論 2贊 360
代替公主和親
正文我出身青樓票渠，卻偏偏與公主長得像逐哈，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子问顷，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,465評論 2贊 348