2.單細(xì)胞 RNA-seq:計(jì)數(shù)矩陣的生成

單細(xì)胞 RNA-seq 數(shù)據(jù) - 計(jì)數(shù)矩陣的原始數(shù)據(jù)

根據(jù)所使用的文庫(kù)制備方法特铝,RNA序列(也稱(chēng)為讀序列或標(biāo)簽)將從轉(zhuǎn)錄本的3端(或5端)(10X Genomics, cell -seq2, Drop-seq, inDrops)或全長(zhǎng)轉(zhuǎn)錄本(Smart-seq)中獲得移层。

image

圖片來(lái)源: Papalexi E 和 Satija R. 探索免疫細(xì)胞異質(zhì)性的單細(xì)胞 RNA 測(cè)序,Nature Reviews Immunology 2018 (https://doi.org/10.1038/nri.2017.76)

針對(duì)感興趣的生物學(xué)問(wèn)題選擇不同的方法卓囚。下面列出了這些方法的優(yōu)點(diǎn):

  • 3'(或 5')端測(cè)序:
    • 通過(guò)使用特異性的分子標(biāo)識(shí)符將生物學(xué)重復(fù)與擴(kuò)增 (PCR) 重復(fù)區(qū)分開(kāi)來(lái)進(jìn)行更準(zhǔn)確的量化
    • 測(cè)序能夠獲得更多細(xì)胞數(shù)亿卤,可以更好地識(shí)別細(xì)胞亞群類(lèi)型
    • 每個(gè)細(xì)胞的測(cè)序成本低
    • 最佳的測(cè)序結(jié)果大于10000 個(gè)細(xì)胞
  • 全長(zhǎng)測(cè)序:
    • 檢測(cè)異構(gòu)體水平中的表達(dá)差異
    • 鑒定等位基因特異性表達(dá)差異
    • 對(duì)較少數(shù)量的細(xì)胞進(jìn)行更深入的測(cè)序
    • 非常適合細(xì)胞數(shù)量少的樣品

3 '端測(cè)序與全長(zhǎng)測(cè)序需要進(jìn)行許多相同的分析步驟生百,但 3' 端測(cè)序來(lái)越受歡迎肋坚,在分析中包含更多步驟。因此几苍,我們將詳細(xì)分析來(lái)自這些 3' 端測(cè)序的數(shù)據(jù)翻屈,主要是基于液滴的方法(inDrops、Drop-seq妻坝、10X Genomics)伸眶。

3' 端reads(所有基于液滴的方法)

對(duì)于 scRNA-seq 數(shù)據(jù)的分析,了解每個(gè)reads中存在哪些信息以及我們?nèi)绾卧诜治鲋惺褂盟呛苡袔椭摹?/p>

對(duì)于3 '端測(cè)序方法來(lái)說(shuō)刽宪,從同一轉(zhuǎn)錄本的不同分子中讀取的信息厘贼,只會(huì)從轉(zhuǎn)錄本的3 '端讀取,因此序列相同的可能性很大纠屋。然而涂臣,在文庫(kù)制備過(guò)程中的PCR步驟也可以產(chǎn)生read 復(fù)制盾计。為了確定一個(gè)reads是生物的還是技術(shù)上的重復(fù)售担,這些方法使用獨(dú)特的分子標(biāo)識(shí)符(UMIs)。

  • 與讀出不同的UMI映射到相同的轉(zhuǎn)錄從推導(dǎo)不同的分子和生物是重復(fù)-每次讀取應(yīng)進(jìn)行計(jì)數(shù)署辉。
  • 具有相同 UMI 的讀取源自相同的分子并且是技術(shù)重復(fù) - UMI 應(yīng)折疊以計(jì)為單個(gè)讀取族铆。
  • 在下圖中,ACTB 的讀數(shù)應(yīng)折疊并計(jì)為單個(gè)讀數(shù)哭尝,而 ARL1 的讀數(shù)應(yīng)計(jì)算每個(gè)讀數(shù)哥攘。
  • 映射到相同轉(zhuǎn)錄本的不同UMIs的Reads來(lái)自不同的分子,是生物重復(fù)——每個(gè)Reads都應(yīng)該被計(jì)數(shù)。
  • 具有相同UMI的讀取來(lái)自于相同的分子逝淹,并且在技術(shù)上是重復(fù)的——這些UMI應(yīng)該被折疊以算作一個(gè)單獨(dú)的reads耕姊。
  • 在下圖中,ACTB的reads應(yīng)該被折疊并作為單個(gè)reads計(jì)算栅葡,而ARL1的reads應(yīng)該分別計(jì)算茉兰。


    image

圖片來(lái)源:從 Macosko EZ 等人修改。使用納升液滴對(duì)單個(gè)細(xì)胞進(jìn)行高度平行的全基因組表達(dá)分析欣簇,cell 2015 (https://doi.org/10.1016/j.cell.2015.05.002)*

所以我們需要跟蹤 UMI规脸,但是我們還需要什么信息來(lái)正確量化我們樣本中每個(gè)細(xì)胞中每個(gè)基因的表達(dá)呢? 無(wú)論液滴方法是什么,在細(xì)胞水平上進(jìn)行適當(dāng)?shù)亩慷夹枰韵聴l件:

  • 樣本索引:確定reads來(lái)自于哪個(gè)樣本
    • 在文庫(kù)準(zhǔn)備期間添加 - 需要記錄
  • 細(xì)胞barcode:確定reads源自哪個(gè)細(xì)胞
    • 每種文庫(kù)制備方法都有一個(gè)在文庫(kù)制備過(guò)程中使用的細(xì)胞條形碼庫(kù)
  • 唯一分子標(biāo)識(shí)符 (UMI):確定reads來(lái)自于哪個(gè)轉(zhuǎn)錄本分子
    • UMI 將用于折疊 PCR 重復(fù)序列
  • 測(cè)序 read1: Read1 序列
  • 測(cè)序 read2: Read2 序列

例如熊咽,當(dāng)使用 inDrops v3 文庫(kù)制備方法時(shí)莫鸭,以下表示如何在四次reads中獲取所有信息:

image

圖片來(lái)源: Sarah Boswell(https://scholar.harvard.edu/saboswell),HMS 單細(xì)胞測(cè)序核心主管

  • R1(61 bp read 1):read序列(紅色頂部箭頭)
  • R2(8 bp read索引 1 (i7)):細(xì)胞條形碼 - 細(xì)胞read源自(紫色頂部箭頭)
  • R3(8 bp read索引 2 (i5)):樣本/文庫(kù)索引 - 樣本read源自(紅色底部箭頭)
  • R4(14 bp read 2):read 2 和剩余的細(xì)胞條形碼和 UMI - 轉(zhuǎn)錄read源自(紫色底部箭頭)

對(duì)于不同的基于液滴的 scRNA-seq 方法横殴,scRNA-seq 的分析工作流程是相似的被因,但它們之間的 UMI、細(xì)胞 ID 和樣本索引會(huì)有所不同衫仑。例如氏身,下面是 10X 序列讀取的示意圖,其中索引惑畴、UMI 和條形碼的放置方式不同:

image

圖片來(lái)源: Sarah Boswell(https://scholar.harvard.edu/saboswell)蛋欣,HMS 單細(xì)胞測(cè)序核心主管*

單細(xì)胞 RNA-seq 工作流程

scRNA-seq 方法將確定如何從測(cè)序讀數(shù)中解析條形碼和 UMI。因此如贷,盡管一些特定步驟會(huì)略有不同陷虎,但無(wú)論使用何種方法,整個(gè)工作流程通常都會(huì)遵循相同的步驟杠袱。一般工作流程如下圖所示:

image

圖片來(lái)源:醫(yī)學(xué)博士 Luecken 和 FJ 的 Theis尚猿。當(dāng)前單細(xì)胞 RNA-seq 分析的最佳實(shí)踐:教程,Mol Syst Biol 2019(doi:https://doi.org/10.15252/msb.20188746)*

工作流程的步驟是:

  • 計(jì)數(shù)矩陣的生成(特定于方法的步驟):格式化reads楣富、樣本demultiplexing凿掂、映射和定量
  • 原始計(jì)數(shù)的質(zhì)量控制:過(guò)濾劣質(zhì)細(xì)胞
  • 過(guò)濾計(jì)數(shù)聚類(lèi):基于轉(zhuǎn)錄活性的相似性對(duì)細(xì)胞進(jìn)行聚類(lèi)(細(xì)胞類(lèi)型 = 不同的聚類(lèi))
  • 標(biāo)記識(shí)別和簇注釋?zhuān)?/strong>識(shí)別每個(gè)簇的基因標(biāo)記并注釋已知的細(xì)胞類(lèi)型簇
  • 下游步驟可選

無(wú)論進(jìn)行何種分析,基于每個(gè)條件的單個(gè)樣本得出的關(guān)于總體的結(jié)論都是不可信的纹蝴。仍然需要生物學(xué)重復(fù)庄萎!也就是說(shuō),如果您想得出與總體相對(duì)應(yīng)的結(jié)論塘安,而不單是做單個(gè)樣本糠涛。

計(jì)數(shù)矩陣的生成

我們首先討論工作流程的第一部分,即從原始測(cè)序數(shù)據(jù)生成計(jì)數(shù)矩陣兼犯。我們將重點(diǎn)介紹基于液滴的方法使用的 3' 端測(cè)序忍捡,例如 inDrops集漾、10X Genomics 和 Drop-seq。

image

測(cè)序后砸脊,測(cè)序設(shè)備將以BCL 或 FASTQ 格式輸出原始測(cè)序數(shù)據(jù)或生成計(jì)數(shù)矩陣具篇。如果reads是 BCL 格式,那么我們需要轉(zhuǎn)換為 FASTQ 格式凌埂。有一個(gè)有用的命令行工具bcl2fastq可以輕松執(zhí)行此轉(zhuǎn)換栽连。

注意:我們不會(huì)在工作流程的這一步進(jìn)行多樣本拆分。您可能對(duì) 6 個(gè)樣本進(jìn)行了測(cè)序侨舆,但所有樣本的讀數(shù)可能都存在于同一個(gè) BCL 或 FASTQ 文件中秒紧。

對(duì)于許多 scRNA-seq 方法,從原始測(cè)序數(shù)據(jù)生成計(jì)數(shù)矩陣將經(jīng)歷類(lèi)似的步驟挨下。

image

alevin是一種命令行工具熔恢,用于估計(jì)對(duì)轉(zhuǎn)錄本 3' 端進(jìn)行測(cè)序的 scRNA-seq 數(shù)據(jù)的表達(dá)。umi-toolszUMI是可以執(zhí)行這些過(guò)程的附加工具臭笆。這些工具結(jié)合了 UMI 的折疊以校正放大偏差叙淌。此過(guò)程中的步驟包括:

  1. 格式化reads和過(guò)濾嘈雜的蜂窩barcode
  2. 多樣本拆分
  3. 映射/偽映射到轉(zhuǎn)錄組
  4. 折疊 UMI 和reads的量化

如果使用 10X Genomics 文庫(kù)制備方法,上述所有步驟將通過(guò)Cell Ranger 管道完成愁铺。

1. 格式化reads和過(guò)濾嘈雜的蜂窩barcode

可以使用 FASTQ 文件來(lái)解析細(xì)胞barcode鹰霍、UMI 和樣本barcode。對(duì)于基于液滴的方法茵乱,由于以下原因茂洒,許多細(xì)胞barcode將匹配少量reads(< 1000 次read):

  • 從瀕死細(xì)胞中封裝自由漂浮的 RNA
  • 表達(dá)很少基因的簡(jiǎn)單細(xì)胞(紅細(xì)胞等)
  • 由于某種原因失敗的細(xì)胞

這些多余的條形碼需要在reads比對(duì)之前從序列數(shù)據(jù)中過(guò)濾掉。為了進(jìn)行這種過(guò)濾瓶竭,為每個(gè)細(xì)胞提取并保存“細(xì)胞條形碼”和“分子條形碼”督勺。例如,如果使用“umis”工具斤贰,信息將添加到每次read的標(biāo)題行智哀,格式如下:

@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT
AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN
+
@@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#

文庫(kù)制備方法中使用的已知細(xì)胞條形碼應(yīng)該是已知的,未知條形碼將被丟棄荧恍,同時(shí)允許與已知細(xì)胞條形碼的不匹配數(shù)量可接受瓷叫。

2. 多樣本拆分

如果是對(duì)多個(gè)樣本測(cè)序,則該過(guò)程的下一步是對(duì)對(duì)樣本進(jìn)行拆分送巡。這是此過(guò)程的一個(gè)步驟摹菠,不是由“umis”工具處理的,而是由“zUMI”完成的授艰。我們需要解析reads以確定與每個(gè)細(xì)胞相關(guān)的樣本barcode辨嗽。

3. 映射/偽映射到 cDNAs

為了確定read源自哪個(gè)基因世落,reads使用傳統(tǒng) (STAR) 或輕量級(jí)方法 (Kallisto/RapMap) 進(jìn)行比對(duì)淮腾。

4. 折疊 UMI 和 read量化

重復(fù)的 UMI 被折疊糟需,并且只有唯一的 UMI 使用 Kallisto 或 featureCounts 等工具進(jìn)行量化。結(jié)果輸出是一個(gè)按基因計(jì)數(shù)矩陣的單元格:

image

圖片來(lái)源:摘自 Lafzi 等人谷朝。教程:?jiǎn)渭?xì)胞 RNA 測(cè)序研究的實(shí)驗(yàn)設(shè)計(jì)指南洲押,Nature Protocols 2018 (https://doi.org/10.1038/s41596-018-0073-y)

矩陣中的每個(gè)值代表源自相應(yīng)基因的細(xì)胞中的read數(shù)。使用計(jì)數(shù)矩陣圆凰,我們可以探索和過(guò)濾數(shù)據(jù)杈帐,只保留更高質(zhì)量的細(xì)胞。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末专钉,一起剝皮案震驚了整個(gè)濱河市挑童,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌跃须,老刑警劉巖站叼,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異菇民,居然都是意外死亡尽楔,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)第练,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)阔馋,“玉大人,你說(shuō)我怎么就攤上這事娇掏∨磺蓿” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵婴梧,是天一觀的道長(zhǎng)壁涎。 經(jīng)常有香客問(wèn)我,道長(zhǎng)志秃,這世上最難降的妖魔是什么怔球? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任浮还,我火速辦了婚禮竟坛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘钧舌。我一直安慰自己担汤,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布洼冻。 她就那樣靜靜地躺著崭歧,像睡著了一般。 火紅的嫁衣襯著肌膚如雪撞牢。 梳的紋絲不亂的頭發(fā)上率碾,一...
    開(kāi)封第一講書(shū)人閱讀 51,624評(píng)論 1 305
  • 那天叔营,我揣著相機(jī)與錄音,去河邊找鬼所宰。 笑死绒尊,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的仔粥。 我是一名探鬼主播婴谱,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼躯泰!你這毒婦竟也來(lái)了谭羔?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤麦向,失蹤者是張志新(化名)和其女友劉穎口糕,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體磕蛇,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡景描,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了秀撇。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片超棺。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖呵燕,靈堂內(nèi)的尸體忽然破棺而出棠绘,到底是詐尸還是另有隱情,我是刑警寧澤再扭,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布氧苍,位于F島的核電站,受9級(jí)特大地震影響泛范,放射性物質(zhì)發(fā)生泄漏让虐。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一罢荡、第九天 我趴在偏房一處隱蔽的房頂上張望赡突。 院中可真熱鬧,春花似錦区赵、人聲如沸惭缰。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)漱受。三九已至,卻和暖如春骡送,著一層夾襖步出監(jiān)牢的瞬間昂羡,已是汗流浹背絮记。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留紧憾,地道東北人到千。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓昌渤,卻偏偏與公主長(zhǎng)得像赴穗,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子膀息,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容