02 生成單細(xì)胞測(cè)序表達(dá)矩陣

本文來源于哈佛大學(xué)的單細(xì)胞課程系列锦募,在此做一些學(xué)習(xí)邦邦,不當(dāng)之處請(qǐng)指正掀泳。

scRNA-seq/02_SC_generation_of_count_matrix.md at master · hbctraining/scRNA-seq · GitHub

https://github.com/hbctraining/scRNA-seq/blob/master/lessons/02_SC_generation_of_count_matrix.md

單細(xì)胞RNA序列數(shù)據(jù)-計(jì)數(shù)矩陣的原始數(shù)據(jù)

根據(jù)所用文庫制備方法的不同履因,RNA序列(也稱為讀段或標(biāo)簽)將從(10X基因組學(xué)丐谋,CEL-seq2,Drop-seq)的3'端(或5'端)獲得轉(zhuǎn)錄本片段或全長(zhǎng)轉(zhuǎn)錄本(Smart-seq)饲握。

image

圖片來源:**** Papalexi E和Satija R.單細(xì)胞RNA測(cè)序探索免疫細(xì)胞異質(zhì)性私杜,《自然評(píng)論免疫學(xué)》(Nature Reviews Immunology)2018(https://doi.org/10.1038/nri.2017.76

方法的選擇涉及感興趣的生物學(xué)問題蚕键。下面列出了這些方法的優(yōu)點(diǎn):

  • 3'(或5')端測(cè)序:

  • 通過使用獨(dú)特的分子標(biāo)識(shí)符進(jìn)行更準(zhǔn)確的定量,從而將生物學(xué)復(fù)制品與擴(kuò)增復(fù)制品(PCR)復(fù)制品區(qū)分開

  • 測(cè)序的細(xì)胞數(shù)量更多衰粹,可以更好地鑒定細(xì)胞類型群體

  • 單位成本便宜

  • 10,000個(gè)以上的細(xì)胞可獲得最佳結(jié)果

  • 全長(zhǎng)測(cè)序:

  • 檢測(cè)表達(dá)的同工型水平差異

  • 鑒定表達(dá)中的等位基因特異性差異

  • 更深層次的測(cè)序锣光,數(shù)量更少的細(xì)胞

  • 最適合細(xì)胞數(shù)少的樣品

3'末端測(cè)序需要進(jìn)行與全長(zhǎng)相同的許多分析步驟,但是3'方案越來越流行铝耻,并且在分析中還包含一些其他步驟誊爹。因此,我們的材料將詳細(xì)介紹這3'方案的數(shù)據(jù)分析瓢捉,重點(diǎn)是基于液滴的方法(inDrops频丘,Drop-seq,10X Genomics)泡态。

個(gè)人備注:5'末端測(cè)序可以同時(shí)檢測(cè)VDJ, 分析BCR/TCR的變化搂漠,對(duì)于免疫細(xì)胞分化具有重要幫助。

3'末端讀饶诚摇(包括所有基于液滴的方法)

對(duì)于scRNA-seq數(shù)據(jù)的分析桐汤,有助于了解每個(gè)讀數(shù)中都包含哪些信息,以及我們?nèi)绾卧谡麄€(gè)分析過程中使用它靶壮。

對(duì)于3'端測(cè)序方法怔毛,源自同一轉(zhuǎn)錄本的不同分子的讀段僅會(huì)源自轉(zhuǎn)錄本的3'端,因此具有相同序列的可能性很高腾降。但是拣度,文庫制備過程中的PCR步驟也可能會(huì)產(chǎn)生重復(fù)讀物。為了確定讀數(shù)是生物學(xué)的還是技術(shù)的重復(fù)螃壤,這些方法使用唯一的分子標(biāo)識(shí)符或UMI蜡娶。

  • 具有映射到相同轉(zhuǎn)錄本的不同UMI的讀段來自不同的分子,并且是生物學(xué)上的重復(fù)-每個(gè)讀段均應(yīng)計(jì)數(shù)映穗。

  • 具有相同UMI的讀數(shù)來自同一分子窖张,并且是技術(shù)重復(fù)品-UMI應(yīng)該合并起來才能計(jì)為一次讀數(shù)。

  • 在下圖中蚁滋,應(yīng)合并ACTB的讀取并將其計(jì)為單個(gè)讀取宿接,而應(yīng)將ARL1的讀取各計(jì)數(shù)。

image

圖片來源:****由Macosko EZ等人修改辕录。使用納升微滴對(duì)細(xì)胞進(jìn)行高度并行的全基因組表達(dá)譜分析睦霎,Cell 2015(https://doi.org/10.1016/j.cell.2015.05.002

因此,我們知道我們需要跟蹤UMI走诞,但是還需要什么其他信息來正確量化樣本中每個(gè)細(xì)胞中每個(gè)基因的表達(dá)副女?無論采用液滴法,在細(xì)胞水平進(jìn)行正確定量都需要以下條件:

  • 樣本索引:確定讀取來自哪個(gè)樣本

  • 庫準(zhǔn)備過程中添加-需要記錄

  • 細(xì)胞條形碼:確定讀取來自哪個(gè)細(xì)胞

  • 每種文庫制備方法都有在文庫制備過程中使用的細(xì)胞條形碼庫存

  • 唯一分子識(shí)別符(UMI):確定讀取的是哪個(gè)轉(zhuǎn)錄物分子

  • UMI將用于合并PCR重復(fù)項(xiàng)

  • 讀取1序列:讀取1序列

  • 讀取2序列讀取2序列

例如蚣旱,當(dāng)使用inDrops v3庫準(zhǔn)備方法時(shí)碑幅,以下內(nèi)容表示如何通過四次讀取來獲取所有信息:

image

圖片來源:**** HMS單細(xì)胞測(cè)序核心主管Sarah Boswell

R1(61 bp讀1):引物序列(紅色頂部箭頭)

  • R2(8 bp索引讀取1(i7)):細(xì)胞條形碼-讀取細(xì)胞的來源(紫色頂部箭頭)

  • R3(8 bp索引讀取2(i5)):樣本/庫索引-所讀取的樣本源自(紅色底部箭頭)

  • R4(14 bp讀取2):讀取2和剩余的細(xì)胞條形碼和UMI-讀取的轉(zhuǎn)錄本源自(紫色底部箭頭)

對(duì)于不同的基于液滴的scRNA-seq方法戴陡,scRNA-seq的分析工作流程相似,但是UMI沟涨,細(xì)胞ID和樣品索引的解析在它們之間將有所不同恤批。例如,以下是10X序列讀取的示意圖裹赴,其中索引喜庞,UMI和條形碼的放置位置不同:

image

圖片來源:**** HMS單細(xì)胞測(cè)序核心主管Sarah Boswell

單細(xì)胞RNA-seq工作流程

scRNA-seq方法將確定如何從測(cè)序讀數(shù)中解析條形碼和UMI。因此棋返,盡管一些特定步驟會(huì)稍有不同延都,但無論采用哪種方法,總體工作流程通常都將遵循相同的步驟睛竣。常規(guī)工作流程如下所示:

image

圖片來源:****醫(yī)學(xué)博士Luecken和FJ Theis晰房。單細(xì)胞RNA序列分析中的當(dāng)前最佳實(shí)踐:教程,Mol Syst Biol 2019(doi:https* : //doi.org/10.15252/msb.20188746)*

工作流程的步驟是:

  • 計(jì)數(shù)矩陣的生成(特定于方法的步驟):格式化讀取酵颁,對(duì)樣本進(jìn)行校正,映射和量化

  • 原始計(jì)數(shù)的質(zhì)量控制:劣質(zhì)細(xì)胞的過濾

  • 篩選細(xì)胞聚類基于轉(zhuǎn)錄活性的相似性對(duì)細(xì)胞進(jìn)行聚類(細(xì)胞類型=不同聚類)

  • 標(biāo)記鑒定:鑒定每個(gè)簇的基因標(biāo)記

  • 可選的下游步驟

無論進(jìn)行何種分析月帝,基于每種條件的單個(gè)樣本得出的種群結(jié)論都是不可信的躏惋。仍然需要生物替代品!也就是說嚷辅,如果您要得出與總體相對(duì)應(yīng)的結(jié)論簿姨,而不僅僅是單個(gè)樣本。

計(jì)數(shù)矩陣的生成

我們將從討論此工作流程的第一部分開始簸搞,該部分將根據(jù)原始測(cè)序數(shù)據(jù)生成計(jì)數(shù)矩陣扁位。我們將重點(diǎn)介紹基于液滴的方法(如inDrops,10X Genomics和Drop-seq)使用的3'末端測(cè)序趁俊。

image

測(cè)序后域仇,測(cè)序設(shè)備將以BCL或FASTQ格式輸出原始測(cè)序數(shù)據(jù),或生成計(jì)數(shù)矩陣寺擂。如果讀取的是BCL格式暇务,則我們將需要轉(zhuǎn)換為FASTQ格式。有一個(gè)有用的命令行工具bcl2fastq怔软,可以輕松地執(zhí)行此轉(zhuǎn)換垦细。

注意:在工作流程的此步驟中,我們不進(jìn)行多路分解挡逼。您可能已對(duì)6個(gè)樣本進(jìn)行了測(cè)序括改,但所有樣本的讀數(shù)可能全部存在于同一BCL或FASTQ文件中。

對(duì)于許多scRNA-seq方法家坎,從原始測(cè)序數(shù)據(jù)中生成計(jì)數(shù)矩陣都將經(jīng)歷相似的步驟嘱能。

image

umiszUMIs是命令行工具吝梅,用于估計(jì)已對(duì)轉(zhuǎn)錄本的3'端進(jìn)行了測(cè)序scRNA-seq數(shù)據(jù)的表達(dá)。兩種工具都合并了UMI的合并焰檩,以校正放大偏差憔涉。此過程中的步驟包括:

  1. 格式化讀取并過濾的細(xì)胞條形碼

  2. 校正樣本

  3. 映射/偽映射到轉(zhuǎn)錄組

  4. UMI和讀數(shù)量化

如果使用10X Genomics庫制備方法,則Cell Ranger流程將用于上述所有步驟析苫。

1.格式化讀取并過濾嘈雜的細(xì)胞條形碼

然后兜叨,F(xiàn)ASTQ文件可用于解析細(xì)胞格條形碼,UMI和樣本條形碼衩侥。對(duì)于基于液滴的方法国旷,由于以下原因,許多細(xì)胞條形碼將匹配少量讀让K馈(<1000個(gè)讀裙虻):

  • 垂死細(xì)胞中游離浮動(dòng)RNA的包封

  • 表達(dá)少量基因的簡(jiǎn)單細(xì)胞(RBC等)

  • 由于某種原因而失敗的細(xì)胞格

在讀取比對(duì)之前,需要從序列數(shù)據(jù)中過濾掉這些多余的條形碼峦萎。為了進(jìn)行這種過濾屡久,提取并保存每個(gè)細(xì)胞的“細(xì)胞條形碼”和“分子條形碼”。例如爱榔,如果使用“ umis”工具被环,則信息將以以下格式添加到每次讀取的標(biāo)題行中:

<pre style="margin: 0px; padding: 0px; max-width: 100%; overflow-wrap: break-word !important; box-sizing: border-box !important; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN + @@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#</pre>

文庫制備方法中使用的已知細(xì)胞條形碼應(yīng)該是已知的,未知的條形碼將被丟棄详幽,同時(shí)允許與已知細(xì)胞條形碼的可接受的不匹配數(shù)筛欢。

2.校正樣本讀取

如果測(cè)序多于一個(gè)樣品,則該過程的下一步是對(duì)樣品進(jìn)行多路分解唇聘。這是該過程的第一步版姑,不是由“ umis”工具處理,而是由“ zUMIs”完成迟郎。我們將需要解析讀取以確定與每個(gè)細(xì)胞相關(guān)的樣本條形碼剥险。

3.映射/偽映射到cDNA

為了確定讀段源自哪個(gè)基因,使用傳統(tǒng)的(STAR)或輕量級(jí)方法(Kallisto / RapMap)對(duì)讀段進(jìn)行比對(duì)宪肖。

4.合并的UMI和讀數(shù)的量化

重復(fù)的UMI被合并炒嘲,并且使用Kallisto或featureCounts之類的工具僅量化唯一的UMI。產(chǎn)生的輸出是按基因矩陣計(jì)數(shù)的細(xì)胞:

image

圖片來源:****摘自Lafzi等匈庭。教程:《單細(xì)胞RNA測(cè)序研究實(shí)驗(yàn)設(shè)計(jì)指南》夫凸,《自然協(xié)議》 2018(https://doi.org/10.1038/s41596-018-0073-y

矩陣中的每個(gè)值代表源自相應(yīng)基因的細(xì)胞中的讀取次數(shù)。使用計(jì)數(shù)矩陣阱持,我們可以探索和過濾數(shù)據(jù)夭拌,僅保留更高質(zhì)量的細(xì)胞。


本課程由哈佛大學(xué)生物信息學(xué)核心(HBC)的教學(xué)團(tuán)隊(duì)成員開發(fā)。這些是根據(jù)知識(shí)共享署名許可(CC BY 4.0)的條款分發(fā)的開放獲取材料鸽扁,只要注明原始作者和出處蒜绽,就可以在任何介質(zhì)中進(jìn)行不受限制的使用,分發(fā)和復(fù)制桶现。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末躲雅,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子骡和,更是在濱河造成了極大的恐慌相赁,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件慰于,死亡現(xiàn)場(chǎng)離奇詭異钮科,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)婆赠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門绵脯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人休里,你說我怎么就攤上這事蛆挫。” “怎么了妙黍?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵悴侵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我废境,道長(zhǎng)畜挨,這世上最難降的妖魔是什么筒繁? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任噩凹,我火速辦了婚禮,結(jié)果婚禮上毡咏,老公的妹妹穿的比我還像新娘驮宴。我一直安慰自己,他們只是感情好呕缭,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布堵泽。 她就那樣靜靜地躺著,像睡著了一般恢总。 火紅的嫁衣襯著肌膚如雪迎罗。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天片仿,我揣著相機(jī)與錄音纹安,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛厢岂,可吹牛的內(nèi)容都是我干的光督。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼塔粒,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼结借!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起卒茬,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤船老,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后扬虚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體努隙,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年辜昵,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了荸镊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡堪置,死狀恐怖躬存,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情舀锨,我是刑警寧澤岭洲,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站坎匿,受9級(jí)特大地震影響盾剩,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜替蔬,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一告私、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧承桥,春花似錦驻粟、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至剩彬,卻和暖如春酷麦,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背喉恋。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工沃饶, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留粪摘,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓绍坝,卻偏偏與公主長(zhǎng)得像徘意,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子轩褐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容