根據(jù)所用文庫(kù)的制備方法,RNA序列((also referred to as reads or tags)將從轉(zhuǎn)錄本(10X Genomics, CEL-seq2, Drop-seq, inDrops)或全長(zhǎng)轉(zhuǎn)錄本(Smart-seq)的3'端(或5'端)中衍生。
方法的選擇涉及感興趣的生物學(xué)問(wèn)題恐仑。 下面列出了這些方法的優(yōu)點(diǎn):
3’ (or 5’)-end sequencing:**
- 通過(guò)使用獨(dú)特的分子標(biāo)識(shí)符進(jìn)行更準(zhǔn)確的定量伴澄,從而將生物學(xué)復(fù)制品與擴(kuò)增復(fù)制品(PCR)復(fù)制品區(qū)分開(kāi)來(lái)
- 測(cè)序的細(xì)胞數(shù)量更多叠赐,從而可以更好地鑒定細(xì)胞類(lèi)型群
- 降低每細(xì)胞成本
- 獲得超過(guò)10,000個(gè)細(xì)胞的最佳結(jié)果
Full length sequencing:**
- 檢測(cè)表達(dá)的同工型水平差異
- 鑒定表達(dá)中的等位基因
- 測(cè)序深,細(xì)胞數(shù)量少
- 適合細(xì)胞數(shù)量少的樣品
3'末端測(cè)序需要進(jìn)行與全長(zhǎng)測(cè)序相同的許多分析步驟顷牌,但3'方案越來(lái)越流行展父,并且在分析中還包含一些其他步驟返劲。 因此,我們的材料將詳細(xì)介紹這3'方案的數(shù)據(jù)分析栖茉,重點(diǎn)是基于液滴的方法(inDrops篮绿,Drop-seq,10X Genomics)吕漂。
1. 3’-end reads (includes all droplet-based methods)
對(duì)于分析scRNA-seq數(shù)據(jù)搔耕,了解每個(gè)讀數(shù)中存在哪些信息以及我們?nèi)绾卧诜治鲞^(guò)程中使用該信息將很有幫助。
對(duì)于3'端測(cè)序方法痰娱,源自相同轉(zhuǎn)錄本的不同分子的reads僅會(huì)源自轉(zhuǎn)錄本的3'末端,因此具有相同序列的可能性很高菩收。
但是梨睁,文庫(kù)制備過(guò)程中的PCR步驟也可能會(huì)產(chǎn)生重復(fù)讀物。 為了確定讀數(shù)是生物學(xué)的還是技術(shù)的重復(fù)娜饵,這些方法使用唯一的分子標(biāo)識(shí)符unique molecular identifiers或UMI坡贺。
- UMI不同代表reads來(lái)自不同的molecule,mapping到相同轉(zhuǎn)錄本的不同UMI的讀段代表來(lái)自不同的分子箱舞,并且是生物學(xué)重復(fù)項(xiàng)-每個(gè)讀段均應(yīng)計(jì)數(shù)遍坟;
- 具有相同的UMI的讀段來(lái)自同一分子,是技術(shù)重復(fù)項(xiàng)-the UMIs should be collapsed to be counted as a single read晴股;
-
在下圖中愿伴,應(yīng)折疊ACTB的讀數(shù)并將其計(jì)為單個(gè)讀數(shù),而應(yīng)將ARL1的讀數(shù)分別計(jì)數(shù)电湘。
因此隔节,我們知道需要跟蹤UMI鹅经,但是還需要什么其他信息來(lái)正確量化樣本中每個(gè)細(xì)胞中每個(gè)基因的表達(dá)? 無(wú)論采用液滴法怎诫,在細(xì)胞水平進(jìn)行正確定量都需要以下條件:
-
Sample index: determines which sample the read originated from
=> Added during library preparation - needs to be documented -
Cellular barcode: determines which cell the read originated from
=> Each library preparation method has a stock of cellular barcodes used during the library preparation -
Unique molecular identifier (UMI): determines which transcript molecule the read originated from
=>The UMI will be used to collapse PCR duplicates - Sequencing read1: the Read1 sequence
- Sequencing read2: the Read2 sequence
例如瘾晃,當(dāng)使用inDrops v3庫(kù)準(zhǔn)備方法時(shí),以下內(nèi)容表示如何通過(guò)四次讀取來(lái)獲取所有信息:
[圖片上傳失敗...(image-42432b-1590059217326)], Director of the Single Cell Sequencing Core at HMS*
](https://upload-images.jianshu.io/upload_images/11904209-be5239321de7c14f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
對(duì)于不同的基于液滴的scRNA-seq方法幻妓,scRNA-seq的分析工作流程相似蹦误,但是UMI,cell ID和樣品索引sample indices不同肉津, 例如强胰,以下是10X genomics讀取的示意圖,其中indices, UMIs and barcodes的放置位置不同:
[圖片上傳失敗...(image-8cb477-1590059217326)], Director of the Single Cell Sequencing Core at HMS
](https://upload-images.jianshu.io/upload_images/11904209-5b3656ed47c6747e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
2. Single-cell RNA-seq workflow
scRNA-seq方法將確定如何從測(cè)序讀數(shù)中解析條形碼和UMI阀圾。 因此哪廓,盡管一些特定步驟會(huì)略有不同,但無(wú)論采用何種方法初烘,總體工作流程通常都將遵循相同的步驟涡真。 常規(guī)工作流程如下所示:
The steps of the workflow are:
- 計(jì)數(shù)矩陣的生成Generation of the count matrix(method-specific steps):
格式化讀取,對(duì)樣本進(jìn)行多路分解demultiplexing samples肾筐,mapping and quantification哆料; - 原始計(jì)數(shù)的質(zhì)量控制Quality control of the raw counts:過(guò)濾質(zhì)量較差的細(xì)胞
- 過(guò)濾計(jì)數(shù)的聚類(lèi):基于轉(zhuǎn)錄活性相似性對(duì)細(xì)胞進(jìn)行聚類(lèi)(細(xì)胞類(lèi)型= 不同的簇)
- 標(biāo)記鑒定:為每個(gè)簇鑒定基因標(biāo)記
-
下游步驟-可選
無(wú)論進(jìn)行何種分析,基于每種條件的單個(gè)樣本得出的種群結(jié)論都不可靠吗铐。 仍然需要生物替代品东亦!BIOLOGICAL REPLICATES ARE STILL NEEDED!也就是說(shuō),如果您要得出與總體相對(duì)應(yīng)的結(jié)論唬渗,不能僅僅是單個(gè)樣本典阵。
3.Generation of count matrix
我們將從討論此工作流程的第一部分開(kāi)始,該部分將根據(jù)原始測(cè)序數(shù)據(jù)生成計(jì)數(shù)矩陣镊逝。 我們將重點(diǎn)介紹基于液滴的方法(如inDrops壮啊,10X Genomics和Drop-seq)使用的3'末端測(cè)序。
測(cè)序后撑蒜,測(cè)序工具將以BCL或FASTQ格式輸出原始測(cè)序數(shù)據(jù)歹啼,或生成計(jì)數(shù)矩陣。 如果讀取的是BCL格式座菠,則我們將需要轉(zhuǎn)換為FASTQ格式狸眼。 有一個(gè)有用的命令行工具bcl2fastq
,可以輕松執(zhí)行此轉(zhuǎn)換浴滴。
對(duì)于許多scRNA-seq方法拓萌,從原始測(cè)序數(shù)據(jù)中生成計(jì)數(shù)矩陣都將經(jīng)歷相似的步驟。
umis 和 zUMIs是用于評(píng)估scRNA-seq數(shù)據(jù)表達(dá)的命令行工具升略,已對(duì)轉(zhuǎn)錄本的3'端進(jìn)行了測(cè)序司志。 兩種工具都合并了UMI的折疊甜紫,以校正放大偏差。 此過(guò)程中的步驟包括:
如果使用10X Genomics庫(kù)制備方法骂远,則上述所有步驟可以按照這個(gè)pipeline來(lái)進(jìn)行:Cell Ranger pipeline
4.data處理步驟
4.1 Formatting reads and filtering noisy cellular barcodes
The FASTQ files can then be used to parse out 解析 the cell barcodes, UMIs, and sample barcodes. For droplet-based methods, many of the cellular barcodes will match a low number of reads (< 1000 reads) due to:
以下這些原因可能造成barcode匹配的RNA的顯著減少:
- barcode包裹了floating RNA from dying cells囚霸;
- simple cell (RBCs, etc) expressing few genes;
- cells that failed for some reasons
在讀取比對(duì)之前,需要從序列數(shù)據(jù)中過(guò)濾掉這些多余的條形碼激才。 要進(jìn)行此過(guò)濾拓型,請(qǐng)?zhí)崛〔⒈4婷總€(gè)細(xì)胞的“cellular barcode”和“molecular barcode”。 例如瘸恼,如果使用“umis”工具劣挫,則信息將以以下格式添加到每次讀取的標(biāo)題行中:
@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT
AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN
+
@@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#
文庫(kù)制備方法中使用的已知細(xì)胞條形碼應(yīng)該是已知的,未知的條形碼將被丟棄东帅。
4.2 Demultiplexing sample reads
The next step of the process is to demultiplex the samples, if sequencing more than a single sample. This is the one step of this process not handled by the ‘umis’ tools, but is accomplished by ‘zUMIs’. We would need to parse the reads to determine the sample barcode associated with each cell.
4.3 Mapping/pseudo-mapping to cDNAs
To determine which gene the read originated from, the reads are aligned using traditional (STAR) or light-weight methods (Kallisto/RapMap).
4.4 Collapsing UMIs and quantification of reads
The duplicate UMIs are collapsed, and only the unique UMIs are quantified using a tool like Kallisto or featureCounts. The resulting output is a cell by gene matrix of counts:
矩陣中的每個(gè)值代表源自相應(yīng)基因的細(xì)胞中的讀取次數(shù)压固。 使用計(jì)數(shù)矩陣,我們可以探索和過(guò)濾數(shù)據(jù)靠闭,僅保留更高質(zhì)量的細(xì)胞數(shù)據(jù)帐我。