【scRW】[3]Single-cell RNA-seq data - raw data to count matrix

根據(jù)所用文庫(kù)的制備方法,RNA序列((also referred to as reads or tags)將從轉(zhuǎn)錄本(10X Genomics, CEL-seq2, Drop-seq, inDrops)或全長(zhǎng)轉(zhuǎn)錄本(Smart-seq)的3'端(或5'端)中衍生。

Image credit: Papalexi E and Satija R. Single-cell RNA sequencing to explore immune cell heterogeneity, Nature Reviews Immunology 2018 (https://doi.org/10.1038/nri.2017.76)

方法的選擇涉及感興趣的生物學(xué)問(wèn)題恐仑。 下面列出了這些方法的優(yōu)點(diǎn):

3’ (or 5’)-end sequencing:**

  • 通過(guò)使用獨(dú)特的分子標(biāo)識(shí)符進(jìn)行更準(zhǔn)確的定量伴澄,從而將生物學(xué)復(fù)制品與擴(kuò)增復(fù)制品(PCR)復(fù)制品區(qū)分開(kāi)來(lái)
  • 測(cè)序的細(xì)胞數(shù)量更多叠赐,從而可以更好地鑒定細(xì)胞類(lèi)型群
  • 降低每細(xì)胞成本
  • 獲得超過(guò)10,000個(gè)細(xì)胞的最佳結(jié)果

Full length sequencing:**

  • 檢測(cè)表達(dá)的同工型水平差異
  • 鑒定表達(dá)中的等位基因
  • 測(cè)序深,細(xì)胞數(shù)量少
  • 適合細(xì)胞數(shù)量少的樣品

3'末端測(cè)序需要進(jìn)行與全長(zhǎng)測(cè)序相同的許多分析步驟顷牌,但3'方案越來(lái)越流行展父,并且在分析中還包含一些其他步驟返劲。 因此,我們的材料將詳細(xì)介紹這3'方案的數(shù)據(jù)分析栖茉,重點(diǎn)是基于液滴的方法(inDrops篮绿,Drop-seq,10X Genomics)吕漂。

1. 3’-end reads (includes all droplet-based methods)

對(duì)于分析scRNA-seq數(shù)據(jù)搔耕,了解每個(gè)讀數(shù)中存在哪些信息以及我們?nèi)绾卧诜治鲞^(guò)程中使用該信息將很有幫助。

對(duì)于3'端測(cè)序方法痰娱,源自相同轉(zhuǎn)錄本的不同分子的reads僅會(huì)源自轉(zhuǎn)錄本的3'末端,因此具有相同序列的可能性很高菩收。
但是梨睁,文庫(kù)制備過(guò)程中的PCR步驟也可能會(huì)產(chǎn)生重復(fù)讀物。 為了確定讀數(shù)是生物學(xué)的還是技術(shù)的重復(fù)娜饵,這些方法使用唯一的分子標(biāo)識(shí)符unique molecular identifiers或UMI坡贺。

  • UMI不同代表reads來(lái)自不同的molecule,mapping到相同轉(zhuǎn)錄本的不同UMI的讀段代表來(lái)自不同的分子箱舞,并且是生物學(xué)重復(fù)項(xiàng)-每個(gè)讀段均應(yīng)計(jì)數(shù)遍坟;
  • 具有相同的UMI的讀段來(lái)自同一分子,是技術(shù)重復(fù)項(xiàng)-the UMIs should be collapsed to be counted as a single read晴股;
  • 在下圖中愿伴,應(yīng)折疊ACTB的讀數(shù)并將其計(jì)為單個(gè)讀數(shù),而應(yīng)將ARL1的讀數(shù)分別計(jì)數(shù)电湘。


    Image credit: modified from Macosko EZ et al. Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets, Cell 2015 (https://doi.org/10.1016/j.cell.2015.05.002)

因此隔节,我們知道需要跟蹤UMI鹅经,但是還需要什么其他信息來(lái)正確量化樣本中每個(gè)細(xì)胞中每個(gè)基因的表達(dá)? 無(wú)論采用液滴法怎诫,在細(xì)胞水平進(jìn)行正確定量都需要以下條件:

  • Sample index: determines which sample the read originated from
    => Added during library preparation - needs to be documented
  • Cellular barcode: determines which cell the read originated from
    => Each library preparation method has a stock of cellular barcodes used during the library preparation
  • Unique molecular identifier (UMI): determines which transcript molecule the read originated from
    =>The UMI will be used to collapse PCR duplicates
  • Sequencing read1: the Read1 sequence
  • Sequencing read2: the Read2 sequence

例如瘾晃,當(dāng)使用inDrops v3庫(kù)準(zhǔn)備方法時(shí),以下內(nèi)容表示如何通過(guò)四次讀取來(lái)獲取所有信息:
[圖片上傳失敗...(image-42432b-1590059217326)], Director of the Single Cell Sequencing Core at HMS*
](https://upload-images.jianshu.io/upload_images/11904209-be5239321de7c14f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

image.png

對(duì)于不同的基于液滴的scRNA-seq方法幻妓,scRNA-seq的分析工作流程相似蹦误,但是UMI,cell ID和樣品索引sample indices不同肉津, 例如强胰,以下是10X genomics讀取的示意圖,其中indices, UMIs and barcodes的放置位置不同:

[圖片上傳失敗...(image-8cb477-1590059217326)], Director of the Single Cell Sequencing Core at HMS
](https://upload-images.jianshu.io/upload_images/11904209-5b3656ed47c6747e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

2. Single-cell RNA-seq workflow

scRNA-seq方法將確定如何從測(cè)序讀數(shù)中解析條形碼和UMI阀圾。 因此哪廓,盡管一些特定步驟會(huì)略有不同,但無(wú)論采用何種方法初烘,總體工作流程通常都將遵循相同的步驟涡真。 常規(guī)工作流程如下所示:

The steps of the workflow are:

  • 計(jì)數(shù)矩陣的生成Generation of the count matrix(method-specific steps):
    格式化讀取,對(duì)樣本進(jìn)行多路分解demultiplexing samples肾筐,mapping and quantification哆料;
  • 原始計(jì)數(shù)的質(zhì)量控制Quality control of the raw counts:過(guò)濾質(zhì)量較差的細(xì)胞
  • 過(guò)濾計(jì)數(shù)的聚類(lèi):基于轉(zhuǎn)錄活性相似性對(duì)細(xì)胞進(jìn)行聚類(lèi)(細(xì)胞類(lèi)型= 不同的簇)
  • 標(biāo)記鑒定:為每個(gè)簇鑒定基因標(biāo)記
  • 下游步驟-可選


    image.png

無(wú)論進(jìn)行何種分析,基于每種條件的單個(gè)樣本得出的種群結(jié)論都不可靠吗铐。 仍然需要生物替代品东亦!BIOLOGICAL REPLICATES ARE STILL NEEDED!也就是說(shuō),如果您要得出與總體相對(duì)應(yīng)的結(jié)論唬渗,不能僅僅是單個(gè)樣本典阵。

3.Generation of count matrix

我們將從討論此工作流程的第一部分開(kāi)始,該部分將根據(jù)原始測(cè)序數(shù)據(jù)生成計(jì)數(shù)矩陣镊逝。 我們將重點(diǎn)介紹基于液滴的方法(如inDrops壮啊,10X Genomics和Drop-seq)使用的3'末端測(cè)序。

image.png

測(cè)序后撑蒜,測(cè)序工具將以BCL或FASTQ格式輸出原始測(cè)序數(shù)據(jù)歹啼,或生成計(jì)數(shù)矩陣。 如果讀取的是BCL格式座菠,則我們將需要轉(zhuǎn)換為FASTQ格式狸眼。 有一個(gè)有用的命令行工具bcl2fastq,可以輕松執(zhí)行此轉(zhuǎn)換浴滴。

對(duì)于許多scRNA-seq方法拓萌,從原始測(cè)序數(shù)據(jù)中生成計(jì)數(shù)矩陣都將經(jīng)歷相似的步驟。

image.png

umiszUMIs是用于評(píng)估scRNA-seq數(shù)據(jù)表達(dá)的命令行工具升略,已對(duì)轉(zhuǎn)錄本的3'端進(jìn)行了測(cè)序司志。 兩種工具都合并了UMI的折疊甜紫,以校正放大偏差。 此過(guò)程中的步驟包括:

image.png

如果使用10X Genomics庫(kù)制備方法骂远,則上述所有步驟可以按照這個(gè)pipeline來(lái)進(jìn)行:Cell Ranger pipeline

4.data處理步驟

4.1 Formatting reads and filtering noisy cellular barcodes

The FASTQ files can then be used to parse out 解析 the cell barcodes, UMIs, and sample barcodes. For droplet-based methods, many of the cellular barcodes will match a low number of reads (< 1000 reads) due to:
以下這些原因可能造成barcode匹配的RNA的顯著減少:

  • barcode包裹了floating RNA from dying cells囚霸;
  • simple cell (RBCs, etc) expressing few genes;
  • cells that failed for some reasons

在讀取比對(duì)之前,需要從序列數(shù)據(jù)中過(guò)濾掉這些多余的條形碼激才。 要進(jìn)行此過(guò)濾拓型,請(qǐng)?zhí)崛〔⒈4婷總€(gè)細(xì)胞的“cellular barcode”和“molecular barcode”。 例如瘸恼,如果使用“umis”工具劣挫,則信息將以以下格式添加到每次讀取的標(biāo)題行中:

@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT
AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN
+
@@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#

文庫(kù)制備方法中使用的已知細(xì)胞條形碼應(yīng)該是已知的,未知的條形碼將被丟棄东帅。

4.2 Demultiplexing sample reads

The next step of the process is to demultiplex the samples, if sequencing more than a single sample. This is the one step of this process not handled by the ‘umis’ tools, but is accomplished by ‘zUMIs’. We would need to parse the reads to determine the sample barcode associated with each cell.

4.3 Mapping/pseudo-mapping to cDNAs

To determine which gene the read originated from, the reads are aligned using traditional (STAR) or light-weight methods (Kallisto/RapMap).

4.4 Collapsing UMIs and quantification of reads

The duplicate UMIs are collapsed, and only the unique UMIs are quantified using a tool like Kallisto or featureCounts. The resulting output is a cell by gene matrix of counts:

image.png

矩陣中的每個(gè)值代表源自相應(yīng)基因的細(xì)胞中的讀取次數(shù)压固。 使用計(jì)數(shù)矩陣,我們可以探索和過(guò)濾數(shù)據(jù)靠闭,僅保留更高質(zhì)量的細(xì)胞數(shù)據(jù)帐我。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市愧膀,隨后出現(xiàn)的幾起案子拦键,更是在濱河造成了極大的恐慌,老刑警劉巖檩淋,帶你破解...
    沈念sama閱讀 216,843評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件芬为,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡蟀悦,警方通過(guò)查閱死者的電腦和手機(jī)媚朦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)日戈,“玉大人莲镣,你說(shuō)我怎么就攤上這事∠牙” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,187評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵的圆,是天一觀(guān)的道長(zhǎng)鼓拧。 經(jīng)常有香客問(wèn)我,道長(zhǎng)越妈,這世上最難降的妖魔是什么季俩? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,264評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮梅掠,結(jié)果婚禮上酌住,老公的妹妹穿的比我還像新娘店归。我一直安慰自己,他們只是感情好酪我,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,289評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布消痛。 她就那樣靜靜地躺著,像睡著了一般都哭。 火紅的嫁衣襯著肌膚如雪秩伞。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,231評(píng)論 1 299
  • 那天欺矫,我揣著相機(jī)與錄音纱新,去河邊找鬼。 笑死穆趴,一個(gè)胖子當(dāng)著我的面吹牛脸爱,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播未妹,決...
    沈念sama閱讀 40,116評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼簿废,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了教寂?” 一聲冷哼從身側(cè)響起捏鱼,我...
    開(kāi)封第一講書(shū)人閱讀 38,945評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎酪耕,沒(méi)想到半個(gè)月后导梆,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,367評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡迂烁,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,581評(píng)論 2 333
  • 正文 我和宋清朗相戀三年看尼,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盟步。...
    茶點(diǎn)故事閱讀 39,754評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡藏斩,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出却盘,到底是詐尸還是另有隱情狰域,我是刑警寧澤,帶...
    沈念sama閱讀 35,458評(píng)論 5 344
  • 正文 年R本政府宣布黄橘,位于F島的核電站兆览,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏塞关。R本人自食惡果不足惜抬探,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,068評(píng)論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望帆赢。 院中可真熱鬧小压,春花似錦线梗、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,692評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至溉痢,卻和暖如春僻造,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背孩饼。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,842評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工髓削, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人镀娶。 一個(gè)月前我還...
    沈念sama閱讀 47,797評(píng)論 2 369
  • 正文 我出身青樓立膛,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親梯码。 傳聞我的和親對(duì)象是個(gè)殘疾皇子宝泵,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,654評(píng)論 2 354