--- 大師害驹,大師察蹲,我想學習單細胞
··· 閉上眼睛跟我來
單細胞轉(zhuǎn)錄組數(shù)據(jù)分析系列教程
- sc-RAN-seq 數(shù)據(jù)分析||Seurat新版教程:Guided Clustering Tutorial
- sc-RAN-seq 數(shù)據(jù)分析||Seurat新版教程: Integrating datasets to learn cell-type specific responses
- sc-RAN-seq 數(shù)據(jù)分析||Seurat新版教程: Using sctransform in Seurat
- 單細胞轉(zhuǎn)錄組數(shù)據(jù)分析||Seurat新版教程:Differential expression testing
- 單細胞轉(zhuǎn)錄組 數(shù)據(jù)分析||Seurat新版教程:New data visualization methods in v3.0
- 單細胞轉(zhuǎn)錄組數(shù)據(jù)分析||Seurat并行策略
- Seurat Weekly NO.0 || 開刊詞
- Seurat Weekly NO.1 || 到底分多少個群是合適的蠕蚜?玛荞!
- Seurat Weekly NO.2 || 我該如何取子集
- 你到底想要什么樣的umap/tsne圖裸违?
- scRNA-seq擬時分析 || Monocle2 踩坑教程
- scRNA-seq數(shù)據(jù)分析 || Monocle3
Every cell is unique—it occupies an exclusive position in space, carries distinct errors in its copied genome and is subject to programmed and induced changes in gene expression. Yet most DNA and RNA sequencing is performed on tissue samples or cell populations, in which biological differences between cells can be obscured by averaging or mistaken for technical noise.
---
簡史
其實單細胞測序已有十年的歷史了鞍匾,十年來,通量不斷提升送粱,成本不斷降低靴庆,已經(jīng)到了“舊時王謝堂前燕侍筛,飛入尋常百姓家”的歷史階段。不信請看《Nature Methods》2013年度技術撒穷;《Nature》2017年7月刊的封面推薦 ;《Science》2018十大科學突破榜首裆熙。2019年就國內(nèi)的情形的來看端礼,大大小小的測序公司開始布局單細胞測序市場,高通量價格戰(zhàn)不日將拉開序幕入录。單細胞測序技術將伴隨著高通量技術給臨床以及學術界帶來新的革命蛤奥。
為什么說他已經(jīng)基本成熟了,因為單細胞測序分析三要素:軟件僚稿、數(shù)據(jù)庫凡桥、流程(R包,Python庫等)已經(jīng)準備齊全了蚀同。一個剛剛考上研究生的年輕人只要拿到測序數(shù)據(jù)就可以做基本的分析缅刽,因為高通量技術的發(fā)展給單細胞測序天然培養(yǎng)了用戶群啊掏。比如最近一直被大家學習的在線課程Analysis of single cell RNA-seq data 在公眾號,簡書衰猛,知乎已經(jīng)有大量的學習筆記產(chǎn)生了迟蜜。
那么,為什么要使用單細胞測序啡省?
單細胞基因組測序通過在單個細胞水平上進行測序娜睛,解決了用組織樣本無法獲得不同細胞間的異質(zhì)性信息或樣本量太少無法進行常規(guī)測序的難題,為科學家研究單個細胞的行為卦睹、機制等提供了新的方向畦戒。單細胞基因組測序主要包括四個步驟:單細胞分離→全基因組擴增→高通量測序→數(shù)據(jù)分析。其中结序,單細胞分離及全基因組擴增對最終結(jié)果的準確性起到了關鍵作用障斋。另一種是提取RNA,構建轉(zhuǎn)錄本調(diào)查不同細胞轉(zhuǎn)錄水平的差異笼痹。也就是單細胞測序分為:單細胞全基因組測序和單細胞轉(zhuǎn)錄組測序配喳。
世界上沒有兩片相同的葉子。對于多細胞生物來說凳干,在不同的發(fā)育階段細胞與細胞之間是有差異的晴裹。當然了,這個差異可大可小救赐。
比如說涧团,受精卵從一個細胞開始分裂,并逐漸形成囊胚经磅,最終發(fā)育成個體的時候泌绣,細胞與細胞之間的差異會越來越大:有的分化成神經(jīng)元,有的分化成骨骼肌预厌,各自表達著不同的遺傳信息阿迈,承擔著不同的生理功能。
又比如在腫瘤組織中轧叽,腫塊中心的細胞苗沧,腫塊周圍的細胞,淋巴轉(zhuǎn)移灶的細胞炭晒,以及遠端轉(zhuǎn)移的細胞待逞,其基因組和轉(zhuǎn)錄組等遺傳信息,是存在差異的网严。而這種差異识樱,在臨床上,可以決定該腫瘤對某種療法是否有效。這就是所謂的遺傳信息的異質(zhì)性怜庸。
理解單細胞水平的遺傳信息異質(zhì)性当犯,為我們理解遺傳、發(fā)育休雌、疾病機理打開了新的大門灶壶。
在科研界單細胞測序技術也是火的不行。根據(jù)小張聊科研的調(diào)查杈曲,以singe cell RNA seq為關鍵詞搜索驰凛,通過pubmed的文章檢索 ,在搜索到的1469篇文章中担扑,10分以上的文章有367篇(占比24.98%)恰响,5-10分的文章有300篇(占比20.42%),也就是說5分以上的文章占到了45.40%涌献,這個比例可以說是非常高了胚宦。
流程
現(xiàn)在有許多處理單細胞測序的流程,比如13年的SAMRT-seq2燕垃,12年的CELL-seq枢劝,15年的Drop-seq。有一些做單細胞的平臺卜壕,包括Fluidigm C1您旁、Wafergen ICELL8、10X Genomics Chromium轴捎。發(fā)展到現(xiàn)在常用的就是SAMRT-seq2和10XGenomics流程了鹤盒。
10X Genomics起源自Drop-Seq技術, 橫向孔道逐個導入凝膠微珠Gel beads侦副,第一個縱向道輸入細胞侦锯。當凝膠微珠和細胞碰撞會被吸附在微珠上,然后通過微流控技術運送到第二個縱向通道(“油管”)秦驯。這時就會形成一個個的油滴GEMs(一個油滴就是一個凝膠微珠尺碰,也就是一個單細胞),然后收集在EP管中译隘。每一個凝膠微珠都布滿了不同的Barcode和UMI連接的序列亲桥,然后再加上PolyT就形成了像“刺”一樣的捕獲抓手,隨后細胞裂解细燎,利用3'端 poly(A) 堿基互補特定抓取mRNA構建轉(zhuǎn)錄文庫。據(jù)說可以7分鐘內(nèi)完成100~80,000個細胞的捕獲
在Smart-Seq2方案中皂甘,人們在包含游離dNTP和帶有通用5’ 錨定序列的oligo(dT)寡核苷酸的緩沖液中裂解單細胞玻驻。之后開展逆轉(zhuǎn)錄,這個反應也在cDNA的3’端添加2-5個無模板的C核苷酸。然后加入模板轉(zhuǎn)換寡核苷酸(TSO)璧瞬,它攜帶了兩個核糖鳥苷和一個修飾鳥苷户辫,在3’端產(chǎn)生LNA,作為最后一個堿基嗤锉。在第一鏈反應后渔欢,利用有限的循環(huán)擴增cDNA。然后通過Tagmentation瘟忱,利用擴增出的cDNA快速有效地構建測序文庫奥额。
優(yōu)點:
- 使用低至50 pg的起始材料。
- 不需要知道m(xù)RNA的序列访诱。
- 不再需要純化步驟垫挨。
- 轉(zhuǎn)錄本的覆蓋度改善。
- 高水平的可定位序列触菜。
缺點:
- 并非鏈特異的九榔。
- 只測序poly(A)+ RNA。
這些方案利用現(xiàn)成的試劑涡相,讓研究人員能夠更低成本哲泊、更大規(guī)模地開展復雜的單細胞分析。它的組分和原理向大家公開催蝗,讓研究人員可進一步對其進行改良切威。在此之后,許多單細胞測序的新成果涌現(xiàn)生逸。
測序結(jié)束之后就是數(shù)據(jù)的分析了牢屋,總體數(shù)據(jù)分析流程如下圖所示,前面三步(黃色)對于任何高通量測序數(shù)據(jù)是通用的槽袄,緊隨其后的四步(橙色)是要將傳統(tǒng)RNA-Seq分析中已有的方法和新開發(fā)的方法結(jié)合起來解決scRNA-seq的技術差異問題烙无,最后的部分(藍色)是使用專門為scRNA-seq開發(fā)的方法來進行生物分析解讀。
作為一個生物信息學分析流程我們可以清楚地看到遍尺,這里面的分析三要素:軟件(質(zhì)控截酷,比對等)、數(shù)據(jù)庫(比對乾戏、注釋等迂苛,如KEGG,GO等)鼓择、流程(R包三幻,Python庫等搭建的pipeline用于數(shù)據(jù)分析)。用于單細胞測序分析的軟件呐能、數(shù)據(jù)庫和流程每一項都可以寫一篇文章了念搬,這項工作已經(jīng)有很好的總結(jié)性的文章了抑堡。下面主要介紹一下質(zhì)控之后,得到表達矩陣的數(shù)據(jù)分析方法朗徊。
方法
由于每個單細胞都是獨特的首妖,不可能開展重復實驗并評估噪音。因此爷恳,必須采取一些質(zhì)量控制手段有缆,以確保數(shù)據(jù)的可靠性。專家建議温亲,向每個細胞裂解液中加入已知序列和數(shù)量的合成mRNA棚壁,如外源RNA對照聯(lián)盟(ERCC)開發(fā)的加標RNA。這些RNA的讀數(shù)將提供樣本間差異的信息铸豁。
- 過濾
根據(jù)基因的表達量等特征灌曙,對細胞進行過濾,通常的做法就是指定一個閾值节芥,比如要求一個細胞中檢測到的基因數(shù)必須大于100在刺,才可以進入到下游分析,如果小于這個數(shù)字头镊,就過濾掉該細胞蚣驼。需要強調(diào)的是,在設定過濾的閾值時相艇,需要人為判斷颖杏,這樣的設定方式會受到主觀因素的干擾,所以往往都會指定一個非常小的過濾范圍坛芽,保證只過濾掉極少數(shù)的離群值點留储。
- 歸一化
- 聚類分析
聚類分析用于識別細胞亞型(如細胞異質(zhì)性、細胞分化周期的判定等)咙轩,如在R包Seurat中获讳,不是直接對所有細胞進行聚類分析,而是首先進行PCA主成分分析活喊,然后挑選貢獻量最大的幾個主成分(也相當于做了特征選擇)丐膝,用挑選出的主成分的值來進行聚類分析。2019年的Nature Review上面發(fā)表了一篇文章來討論單細胞測序數(shù)據(jù)聚類遇到的挑戰(zhàn)钾菊,聚類分析是后續(xù)分析的起點帅矗,聚類方法的選擇顯得格外重要,同時也是對已有聚類算法的挑戰(zhàn)煞烫。
常用的有圖聚類和k-means聚類算法浑此。
-
t-SNE降維分析
t-SNE是目前來說效果最好的數(shù)據(jù)降維與可視化方法,但是它的缺點也很明顯滞详,比如:占內(nèi)存大凛俱,運行時間長喘落。但是,當我們想要對高維數(shù)據(jù)進行分類最冰,又不清楚這個數(shù)據(jù)集有沒有很好的可分性(即同類之間間隔小,異類之間間隔大)稀火,可以通過t-SNE投影到2維或者3維的空間中觀察一下暖哨。如果在低維空間中具有可分性,則數(shù)據(jù)是可分的凰狞;如果在高維空間中不具有可分性篇裁,可能是數(shù)據(jù)不可分,也可能僅僅是因為不能投影到低維空間赡若。
- 差異表達分析(Differential expression analysis)
細胞很多达布,每個細胞的基因也有很多,那么那些基因才是有意義的呢逾冬?需要一些統(tǒng)計手段來把這些基因識別出來黍聂,這就是差異表達分析,針對單細胞測序(特別是scRNA-seq)數(shù)據(jù)的特點身腻,已經(jīng)開發(fā)的算法和軟件見下圖:
- mark基因識別
通過差異分析來識別每個cluster下的標記基因产还,將該cluster下的細胞作為一組,其他cluster下的細胞作為另一組嘀趟,然后進行差異分析脐区。
- 富集分析
一般提到富集分析,首先想到的就是GO她按、KEGG這兩把刷子牛隅,然后還需要知道兩個重要概念:前景基因、背景基因
前景基因:你關注的要重點研究的基因集酌泰;
背景基因:所有的基因集
比如做轉(zhuǎn)錄組測序媒佣,一般都要設置處理組和對照組,前景基因是處理和對照的差異基因宫莱,背景基因就是兩組樣本的全部表達基因丈攒。
另外還有一種是Gene Set Enrichment Analysis 基因集富集分析,用于評估一個基因集的基因在表型相關度排序中的分布趨勢授霸,進而判斷它們對表型的貢獻巡验。
- 蛋白互作網(wǎng)絡分析
蛋白互作網(wǎng)絡(protein protein interaction network,PPI network)分析有助于從系統(tǒng)的角度研究疾病分子機制碘耳、發(fā)現(xiàn)新藥靶點等等显设。一個常用的PPI數(shù)據(jù)庫是STRING數(shù)據(jù)庫。STRING數(shù)據(jù)庫是一個搜索已知蛋白質(zhì)之間和預測蛋白質(zhì)之間相互作用的數(shù)據(jù)庫辛辨,該數(shù)據(jù)庫可應用于2031個物種捕捂,包含960萬種蛋白和1380萬中蛋白質(zhì)之間的相互作用瑟枫。蛋白質(zhì)之間的相互作用包括了直接的物理相互作用和間接的功能相關性。
- 單細胞多組學分析
以上介紹的其實都是基于高通量的單細胞轉(zhuǎn)錄組分析思路指攒,開創(chuàng)性的單細胞分析現(xiàn)在能夠?qū)蚪M慷妙、表觀基因組、轉(zhuǎn)錄組允悦、蛋白質(zhì)組和代謝組譜系進行分析膝擂。Cell旗下的Trends inBiotechnology早在2016年就綜述了為同一的細胞提供復雜的譜系,將不同維度的分析組合成多組學分析的方法隙弛。單細胞多組學分析測量同一細胞內(nèi)的細胞狀態(tài)的不同方面的能力有望揭開細胞的基因組架馋、表觀基因、轉(zhuǎn)錄組全闷、蛋白質(zhì)組與代謝組之間的相關聯(lián)系叉寂;可以揭示DNA甲基化、染色質(zhì)于轉(zhuǎn)錄起始之間的復雜關系总珠。同時這篇文章也給予單細胞多組學(單細胞系統(tǒng)生物學)極高的評價屏鳍。一篇評論文章稱:單細胞系統(tǒng)生物學是一個令人興奮的新領域,關注單細胞作為生物學的核心將為基礎科學提供見解局服,在生物技術和生物醫(yī)學方法提供有效的應用機會孕蝉。
新的分析點:
? 批次效應矯正
? RNA velocity分析
? 細胞間通信
? 分析百萬單細胞的軟件
挑戰(zhàn)
- 測序
比較不同細胞(不同測序文庫)的結(jié)果需要格外注意。文庫之間差異的主要來源是:
- 擴增效率和擴增偏好性(部分文庫可擴增多達100萬倍)
- 基因 ‘dropouts’: 基因在一個細胞中呈現(xiàn)中等表達水平,但在另一個細胞中未檢測到表達腌逢,這可能來源于scRNA-seq中RNA總量低導致的擴增建庫丟失或RNA表達的隨機性降淮。
取自于單獨一個細胞的低轉(zhuǎn)錄本總量是這兩個文庫差異的一個主要原因。提高轉(zhuǎn)錄本捕獲效率和降低擴增偏好可以降低差異搏讶,是目前活躍的研究方向佳鳖。從后續(xù)課程學習中也可以看 到,合適的標準化和校正方法也可以抵消一部分文庫構建引入的噪音媒惕。
- 分析
本身高通量測序數(shù)據(jù)給傳統(tǒng)的數(shù)據(jù)分析(主要是統(tǒng)計學)就帶來了挑戰(zhàn)系吩,如高緯度、非正態(tài)妒蔚、高噪聲等穿挨。單細胞帶著這些特點加上其較高的通量(一次可測個細胞)、多個數(shù)據(jù)庫的注釋結(jié)果等特點肴盏,使得單細胞測序數(shù)據(jù)的分析對數(shù)學知識和計算機資源有著更高的要求科盛。
- 成像技術
當前,光學顯微鏡菜皂,尤其是熒光顯微鏡仍然被許多生物學家經(jīng)常使用贞绵。然而作者們認為傳統(tǒng)的光學顯微鏡有一個主要的局限:由于受到衍射現(xiàn)象的影響,無法解析距離小于半個光波的物體恍飘。無論使用多高的放大倍數(shù)榨崩,衍射均使得成像看起來模糊谴垫,相互重疊。
盡管在過去的幾年里母蛛,超分辨率顯微鏡領域取得了大量的成果翩剪,空間分辨率不斷提高,然而由于需要高時間分辨率活細胞成像仍是一個挑戰(zhàn)彩郊。
- 走向臨床
除了技術肢专,主要表現(xiàn)在操作規(guī)范以及法律法規(guī)上。
名詞解釋
spike-in control是常用的評估技術差異的方法, Lun et al.的研究發(fā)現(xiàn)spike-in control 在確定測序過程中的empty Wells和的dead cells有重要作用焦辅,因為高的ERCC含量與低質(zhì)量數(shù)據(jù)相關,并且通常是排除的標準椿胯。
Spike-in:A molecule or a set of molecules introduced to the sample in order to calibrate measurements and account for technical variation; commonly used examples include external RNA control consortium (ERCC) controls (Ambion/Thermo Fisher Scientific) and Spike-in RNA variant control mixes筷登。一個分子或一組分子引入到樣品中以校準測量并解釋技術變化;常用的例子包括外部RNA控制聯(lián)合體(Ercc)和spike-in RNA變體控制混合物哩盲。nGene代表的是在該細胞中共檢測到的表達量大于0的基因個數(shù)前方,nUMI代表的是該細胞中所有基因的表達量之和,mito.percent代表的是線粒體基因表達量的百分比廉油,一般通過小提琴圖來展示對應的分布
參考:
單細胞測序的知識
單細胞測序綜述
單細胞測序掃盲:是什么惠险?為什么?怎么做抒线?
單細胞RNA測序技術之入門指南
Single-cell RNA sequencing technologies and bioinformatics pipelines
Seurat:用于分析10X單細胞轉(zhuǎn)錄組數(shù)據(jù)的R包
單細胞轉(zhuǎn)錄組3大R包之Seurat
單細胞轉(zhuǎn)錄組3大R包之scater
單細胞轉(zhuǎn)錄組3大R包之monocle2
單細胞測序技術之研究必看8篇經(jīng)典綜述
單細胞測序平臺如何選班巩?5種大規(guī)模單細胞測序平臺性能詳解
Analysis of single cell RNA-seq data
Hemberg-lab單細胞轉(zhuǎn)錄組數(shù)據(jù)分析(一)
單細胞基因組測序:從實驗到分析,步步解析
全網(wǎng)第一個單細胞轉(zhuǎn)錄組數(shù)據(jù)分析實戰(zhàn)視頻教程
用這個技術發(fā)表的文章中嘶炭,每4篇中就有1篇10分+抱慌,還不趕快了解一下!
干貨│一分鐘讀懂單細胞測序
Full-length RNA-seq from single cells using Smart-seq2
單個細胞的測序眨猎?Single Cell抑进!
單細胞RNA測序技術回顧(一):Smart-seq
技術分享 | 單細胞RNA測序的實驗設計參考
單細胞轉(zhuǎn)錄組數(shù)據(jù)處理綜述
List of software packages for single-cell data analysis, including RNA-seq, ATAC-seq, etc.
數(shù)據(jù)降維與可視化——t-SNE
Conquer-對單細胞數(shù)據(jù)差異表達分析的重新審視
富集分析Enrich me again!
蛋白互作網(wǎng)絡(PPI)分析——STRING數(shù)據(jù)庫
Fluidigm發(fā)布單細胞多組學分析的新方案
綜述】如何同時對單細胞進行多組學研究
Nature methods:單細胞成像新技術
2015重大技術進展:單細胞分析、成像
Science:開發(fā)出單細胞生物發(fā)光成像系統(tǒng)
耶魯大學樊榮教授:做單細胞測序技術臨床轉(zhuǎn)化的拓荒者
Single-cell Transcriptome Study as Big Data
Challenges in unsupervised clustering
of single-cell RNA-seq data