Cell Ranger 軟件是 10X genomics 官方提供的配套分析軟件,相信使用過(guò) 10X genomics 平臺(tái)進(jìn)行單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析的老師們對(duì)它一定不陌生著觉,但該軟件在進(jìn)行比對(duì)定量時(shí)究竟遵循什么樣的原則?它是如何識(shí)別高質(zhì)量細(xì)胞的粘咖?產(chǎn)生的結(jié)果各部分如何解讀?在這里罪裹,我們將使用三篇文章的時(shí)間宾肺,為大家一一解惑~
Cell Ranger 是什么塑崖?
Cell Ranger 是 10X genomics 官方提供的一套針對(duì)單細(xì)胞 RNA 測(cè)序輸出結(jié)果進(jìn)行比對(duì)、定量惹苗、聚類(lèi)及基因表達(dá)分析的分析流程殿较,它包含有與單細(xì)胞基因表達(dá)分析相關(guān)的四個(gè)pipelines,分別是:
cellranger mkfastq 流程:其功能為將 Illumina 測(cè)序儀產(chǎn)生的 raw base call (BCL) 文件解析成 FASTQ 文件桩蓉。
cellranger count 流程:其功能為將 cellranger mkfastq 產(chǎn)生的或其他來(lái)源的 FASTQ 文件進(jìn)行比對(duì)淋纲、過(guò)濾、barcode 計(jì)數(shù)以及 UMI 計(jì)數(shù)院究,并可以生成 feature-barcode 定量矩陣洽瞬,隨后確定細(xì)胞群并進(jìn)行基因表達(dá)分析。
cellranger aggr 流程:其功能為將多個(gè) cellranger count 產(chǎn)生的數(shù)據(jù)進(jìn)行整合业汰、標(biāo)準(zhǔn)化伙窃,并可以對(duì)整合后的數(shù)據(jù)進(jìn)行分析。
cellranger reanalyze 流程:其功能為使用 cellranger count 或 cellranger aggr 產(chǎn)生的表達(dá)矩陣重新進(jìn)行降維样漆、聚類(lèi)等后續(xù)分析为障。
以上四個(gè)pipeline 均將轉(zhuǎn)錄組常用比對(duì)軟件 STAR 封裝其中,可以輸出帶有細(xì)胞信息的 BAM、MEX鳍怨、CSV呻右、HDF5 及 HTML 等格式的結(jié)果。
下面鞋喇,我們著重介紹其進(jìn)行基因比對(duì)的理論模型声滥。
Reads 的修剪
針對(duì) 3’ 建庫(kù)數(shù)據(jù)的基因表達(dá)比對(duì),在比對(duì)之前會(huì)先對(duì) reads 進(jìn)行修剪侦香。
cDNA 的全長(zhǎng)結(jié)構(gòu)中落塑,在 3’ 和 5’ 端分別帶有 poly-A 尾和TSO 序列結(jié)構(gòu)(相對(duì)于比較長(zhǎng)的 RNA 分子,一部分來(lái)自短 RNA 分子的 reads 可能僅包含 TSO 和 poly-A 序列的其中一種)罐韩。由于這種低復(fù)雜度的非模板序列的存在有可能混淆 reads 的映射芜赌,所以在比對(duì)之前一般會(huì)將 poly-A 尾和 TSO 序列分別從 reads 的 3’ 端和 5’ 端切除,這一步驟有助于提高分析的靈敏度和軟件分析的效率伴逸。
如何判斷 reads 比對(duì)到了基因組?
Cell Ranger 中封裝了比對(duì)軟件 STAR膘壶,根據(jù)轉(zhuǎn)錄本的注釋文件 GTF 中的注釋信息错蝴,使用 STAR 來(lái)判斷reads 是比對(duì)到了外顯子、內(nèi)含子還是基因間區(qū)上颓芭,或者說(shuō)來(lái)判斷 reads 是否比對(duì)到了基因組上顷锰。
當(dāng)一條 read 至少要有 50% 堿基序列與基因組上的外顯子堿基互補(bǔ)配對(duì),認(rèn)為其比對(duì)到了外顯子上亡问;若 reads 未比對(duì)上外顯子但與內(nèi)含子相交官紫,則認(rèn)為其比對(duì)到了內(nèi)含子上;否則為比對(duì)到了基因間區(qū)州藕。若 reads 比對(duì)到了一個(gè)單一的外顯子位點(diǎn)束世,但同時(shí)比對(duì)到了一個(gè)或多個(gè)非外顯子位點(diǎn),則優(yōu)先認(rèn)為該 read 比對(duì)到了外顯子位點(diǎn)床玻,MAPQ 為 255毁涉。
如何判斷 reads 比對(duì)到了轉(zhuǎn)錄本?
Cell Ranger 通過(guò)檢測(cè) reads 比對(duì)上的外顯子和內(nèi)含子與轉(zhuǎn)錄本的相容性锈死,進(jìn)一步將 reads 與注釋的轉(zhuǎn)錄本對(duì)齊贫堰。如下圖所示,reads 根據(jù)它們是正義還是反義待牵,以及它們是外顯子還是內(nèi)含子其屏,或者它們的剪接模式是否與該基因相關(guān)的轉(zhuǎn)錄本注釋兼容來(lái)分類(lèi)。
上圖中缨该,綠色展示的是基因及基因中所包含的外顯子偎行,Transcript 1 和 Transcript 2 為基因經(jīng)過(guò)可變剪切形成的兩種轉(zhuǎn)錄本所包含的外顯子。針對(duì)比對(duì)到正義鏈上的reads,如果 reads 比對(duì)到了一個(gè)外顯子上或者比對(duì)到兩個(gè)相鄰的外顯子上睦优,則該 read 被分類(lèi)為轉(zhuǎn)錄本 read(藍(lán)色)渗常;如果 reads 比對(duì)到兩個(gè)不相鄰的外顯子上,則該 read 被分類(lèi)為外顯子 read(淺藍(lán)色)汗盘;如果 reads 比對(duì)到內(nèi)含子區(qū)域皱碘,則該 read 被分類(lèi)為內(nèi)含子 read(紅色);紫色表示 reads 比對(duì)到反義鏈上隐孽。
小知識(shí)(敲黑板)
在默認(rèn)情況下癌椿,只有藍(lán)色的轉(zhuǎn)錄本 read 會(huì)被計(jì)入到 UMI 計(jì)數(shù)中。但在某些情況下菱阵,如在實(shí)驗(yàn)時(shí)輸入的為細(xì)胞核時(shí)踢俄,未剪接的轉(zhuǎn)錄本有可能產(chǎn)生高水平的內(nèi)含子序列,為了將這些內(nèi)含子 read 計(jì)入晴及,cellranger count 可以添加一個(gè)參數(shù)為 include-introns都办。當(dāng)使用該參數(shù)時(shí),任何比對(duì)到單個(gè)基因的 reads ---- 包括轉(zhuǎn)錄本 read(藍(lán)色)虑稼、外顯子 read(淺藍(lán)色)和內(nèi)含子 read(紅色)都會(huì)計(jì)入 UMI 計(jì)數(shù)中琳钉。
此外,只有在基因組上有唯一比對(duì)位點(diǎn)的 reads 才被計(jì)入到UMI計(jì)數(shù)中蛛倦。
如何進(jìn)行 UMI 計(jì)數(shù)歌懒?
1. 在計(jì)算 UMIs 之前,Cell Ranger 會(huì)試圖矯正 UMI 序列中的測(cè)序錯(cuò)誤溯壶。
- 在轉(zhuǎn)錄本上有唯一比對(duì)位點(diǎn)的 reads 根據(jù)他們的barcode及皂、UMI 和比對(duì)到的基因被分成不同的組。如果兩個(gè)組的 reads 擁有相同的 barcode 序列并比對(duì)到同一個(gè)基因上且改,但是 UMI 序列中有一個(gè)堿基不同验烧,那么其中一個(gè) UMI 有可能是因?yàn)闇y(cè)序中的堿基替換錯(cuò)誤而引入的。在這種情況下钾虐,UMI 的reads 數(shù)量少的那一組會(huì)被更正為 UMI 的reads數(shù)量多的那組噪窘。
2. 矯正可能的測(cè)序錯(cuò)誤后進(jìn)行 UMI 計(jì)數(shù)。
- Cell Ranger 會(huì)再次按照 UMI(可能是修正后的)效扫、barcode 和比對(duì)到的基因?qū)?reads 進(jìn)行分組倔监。如果兩組或者多組的 reads 擁有相同的 barcods 和 UMI 序列,但是比對(duì)到了不同的基因上菌仁,那么 reads 計(jì)數(shù)最高的那組比對(duì)到的基因會(huì)被進(jìn)行 UMI 計(jì)數(shù)浩习,其他的組則被舍棄掉。如果 reads 最高計(jì)數(shù)相同济丘,則全部的組都被舍棄掉谱秽。
經(jīng)過(guò)這兩步過(guò)濾步驟后洽蛀,每一個(gè)被統(tǒng)計(jì)到的barcode、UMI 和 基因都會(huì)被保存在未過(guò)濾的 feature-barcode 矩陣中疟赊,輸出在 unfiltered feature-barcode matrix 文件夾中郊供。
好啦,以上就是本篇的全部?jī)?nèi)容近哟,在下篇文章中我們會(huì)重點(diǎn)介紹 Cell Ranger 如何判斷識(shí)別高質(zhì)量細(xì)胞驮审,欲知后事如何,且聽(tīng)下回分解~