本文來源于哈佛大學(xué)的單細(xì)胞課程系列锦募,在此做一些學(xué)習(xí)邦邦,不當(dāng)之處請(qǐng)指正掀泳。
scRNA-seq/02_SC_generation_of_count_matrix.md at master · hbctraining/scRNA-seq · GitHub
https://github.com/hbctraining/scRNA-seq/blob/master/lessons/02_SC_generation_of_count_matrix.md
單細(xì)胞RNA序列數(shù)據(jù)-計(jì)數(shù)矩陣的原始數(shù)據(jù)
根據(jù)所用文庫制備方法的不同履因,RNA序列(也稱為讀段或標(biāo)簽)將從(10X基因組學(xué)丐谋,CEL-seq2,Drop-seq)的3'端(或5'端)獲得轉(zhuǎn)錄本片段或全長(zhǎng)轉(zhuǎn)錄本(Smart-seq)饲握。
圖片來源:**** Papalexi E和Satija R.單細(xì)胞RNA測(cè)序探索免疫細(xì)胞異質(zhì)性私杜,《自然評(píng)論免疫學(xué)》(Nature Reviews Immunology)2018(https://doi.org/10.1038/nri.2017.76)
方法的選擇涉及感興趣的生物學(xué)問題蚕键。下面列出了這些方法的優(yōu)點(diǎn):
3'(或5')端測(cè)序:
通過使用獨(dú)特的分子標(biāo)識(shí)符進(jìn)行更準(zhǔn)確的定量,從而將生物學(xué)復(fù)制品與擴(kuò)增復(fù)制品(PCR)復(fù)制品區(qū)分開
測(cè)序的細(xì)胞數(shù)量更多衰粹,可以更好地鑒定細(xì)胞類型群體
單位成本便宜
10,000個(gè)以上的細(xì)胞可獲得最佳結(jié)果
全長(zhǎng)測(cè)序:
檢測(cè)表達(dá)的同工型水平差異
鑒定表達(dá)中的等位基因特異性差異
更深層次的測(cè)序锣光,數(shù)量更少的細(xì)胞
最適合細(xì)胞數(shù)少的樣品
3'末端測(cè)序需要進(jìn)行與全長(zhǎng)相同的許多分析步驟,但是3'方案越來越流行铝耻,并且在分析中還包含一些其他步驟誊爹。因此,我們的材料將詳細(xì)介紹這3'方案的數(shù)據(jù)分析瓢捉,重點(diǎn)是基于液滴的方法(inDrops频丘,Drop-seq,10X Genomics)泡态。
個(gè)人備注:5'末端測(cè)序可以同時(shí)檢測(cè)VDJ, 分析BCR/TCR的變化搂漠,對(duì)于免疫細(xì)胞分化具有重要幫助。
3'末端讀饶诚摇(包括所有基于液滴的方法)
對(duì)于scRNA-seq數(shù)據(jù)的分析桐汤,有助于了解每個(gè)讀數(shù)中都包含哪些信息,以及我們?nèi)绾卧谡麄€(gè)分析過程中使用它靶壮。
對(duì)于3'端測(cè)序方法怔毛,源自同一轉(zhuǎn)錄本的不同分子的讀段僅會(huì)源自轉(zhuǎn)錄本的3'端,因此具有相同序列的可能性很高腾降。但是拣度,文庫制備過程中的PCR步驟也可能會(huì)產(chǎn)生重復(fù)讀物。為了確定讀數(shù)是生物學(xué)的還是技術(shù)的重復(fù)螃壤,這些方法使用唯一的分子標(biāo)識(shí)符或UMI蜡娶。
具有映射到相同轉(zhuǎn)錄本的不同UMI的讀段來自不同的分子,并且是生物學(xué)上的重復(fù)-每個(gè)讀段均應(yīng)計(jì)數(shù)映穗。
具有相同UMI的讀數(shù)來自同一分子窖张,并且是技術(shù)重復(fù)品-UMI應(yīng)該合并起來才能計(jì)為一次讀數(shù)。
在下圖中蚁滋,應(yīng)合并ACTB的讀取并將其計(jì)為單個(gè)讀取宿接,而應(yīng)將ARL1的讀取各計(jì)數(shù)。
圖片來源:****由Macosko EZ等人修改辕录。使用納升微滴對(duì)細(xì)胞進(jìn)行高度并行的全基因組表達(dá)譜分析睦霎,Cell 2015(https://doi.org/10.1016/j.cell.2015.05.002)
因此,我們知道我們需要跟蹤UMI走诞,但是還需要什么其他信息來正確量化樣本中每個(gè)細(xì)胞中每個(gè)基因的表達(dá)副女?無論采用液滴法,在細(xì)胞水平進(jìn)行正確定量都需要以下條件:
樣本索引:確定讀取來自哪個(gè)樣本
庫準(zhǔn)備過程中添加-需要記錄
細(xì)胞條形碼:確定讀取來自哪個(gè)細(xì)胞
每種文庫制備方法都有在文庫制備過程中使用的細(xì)胞條形碼庫存
唯一分子識(shí)別符(UMI):確定讀取的是哪個(gè)轉(zhuǎn)錄物分子
UMI將用于合并PCR重復(fù)項(xiàng)
讀取1序列:讀取1序列
讀取2序列:讀取2序列
例如蚣旱,當(dāng)使用inDrops v3庫準(zhǔn)備方法時(shí)碑幅,以下內(nèi)容表示如何通過四次讀取來獲取所有信息:
圖片來源:**** HMS單細(xì)胞測(cè)序核心主管Sarah Boswell
R1(61 bp讀1):引物序列(紅色頂部箭頭)
R2(8 bp索引讀取1(i7)):細(xì)胞條形碼-讀取細(xì)胞的來源(紫色頂部箭頭)
R3(8 bp索引讀取2(i5)):樣本/庫索引-所讀取的樣本源自(紅色底部箭頭)
R4(14 bp讀取2):讀取2和剩余的細(xì)胞條形碼和UMI-讀取的轉(zhuǎn)錄本源自(紫色底部箭頭)
對(duì)于不同的基于液滴的scRNA-seq方法戴陡,scRNA-seq的分析工作流程相似,但是UMI沟涨,細(xì)胞ID和樣品索引的解析在它們之間將有所不同恤批。例如,以下是10X序列讀取的示意圖裹赴,其中索引喜庞,UMI和條形碼的放置位置不同:
圖片來源:**** HMS單細(xì)胞測(cè)序核心主管Sarah Boswell
單細(xì)胞RNA-seq工作流程
scRNA-seq方法將確定如何從測(cè)序讀數(shù)中解析條形碼和UMI。因此棋返,盡管一些特定步驟會(huì)稍有不同延都,但無論采用哪種方法,總體工作流程通常都將遵循相同的步驟睛竣。常規(guī)工作流程如下所示:
圖片來源:****醫(yī)學(xué)博士Luecken和FJ Theis晰房。單細(xì)胞RNA序列分析中的當(dāng)前最佳實(shí)踐:教程,Mol Syst Biol 2019(doi:https* : //doi.org/10.15252/msb.20188746)*
工作流程的步驟是:
計(jì)數(shù)矩陣的生成(特定于方法的步驟):格式化讀取酵颁,對(duì)樣本進(jìn)行校正,映射和量化
原始計(jì)數(shù)的質(zhì)量控制:劣質(zhì)細(xì)胞的過濾
篩選細(xì)胞聚類:基于轉(zhuǎn)錄活性的相似性對(duì)細(xì)胞進(jìn)行聚類(細(xì)胞類型=不同聚類)
標(biāo)記鑒定:鑒定每個(gè)簇的基因標(biāo)記
可選的下游步驟
無論進(jìn)行何種分析月帝,基于每種條件的單個(gè)樣本得出的種群結(jié)論都是不可信的躏惋。仍然需要生物替代品!也就是說嚷辅,如果您要得出與總體相對(duì)應(yīng)的結(jié)論簿姨,而不僅僅是單個(gè)樣本。
計(jì)數(shù)矩陣的生成
我們將從討論此工作流程的第一部分開始簸搞,該部分將根據(jù)原始測(cè)序數(shù)據(jù)生成計(jì)數(shù)矩陣扁位。我們將重點(diǎn)介紹基于液滴的方法(如inDrops,10X Genomics和Drop-seq)使用的3'末端測(cè)序趁俊。
測(cè)序后域仇,測(cè)序設(shè)備將以BCL或FASTQ格式輸出原始測(cè)序數(shù)據(jù),或生成計(jì)數(shù)矩陣寺擂。如果讀取的是BCL格式暇务,則我們將需要轉(zhuǎn)換為FASTQ格式。有一個(gè)有用的命令行工具bcl2fastq
怔软,可以輕松地執(zhí)行此轉(zhuǎn)換垦细。
注意:在工作流程的此步驟中,我們不進(jìn)行多路分解挡逼。您可能已對(duì)6個(gè)樣本進(jìn)行了測(cè)序括改,但所有樣本的讀數(shù)可能全部存在于同一BCL或FASTQ文件中。
對(duì)于許多scRNA-seq方法家坎,從原始測(cè)序數(shù)據(jù)中生成計(jì)數(shù)矩陣都將經(jīng)歷相似的步驟嘱能。
umis和zUMIs是命令行工具吝梅,用于估計(jì)已對(duì)轉(zhuǎn)錄本的3'端進(jìn)行了測(cè)序scRNA-seq數(shù)據(jù)的表達(dá)。兩種工具都合并了UMI的合并焰檩,以校正放大偏差憔涉。此過程中的步驟包括:
格式化讀取并過濾的細(xì)胞條形碼
校正樣本
映射/偽映射到轉(zhuǎn)錄組
UMI和讀數(shù)量化
如果使用10X Genomics庫制備方法,則Cell Ranger流程將用于上述所有步驟析苫。
1.格式化讀取并過濾嘈雜的細(xì)胞條形碼
然后兜叨,F(xiàn)ASTQ文件可用于解析細(xì)胞格條形碼,UMI和樣本條形碼衩侥。對(duì)于基于液滴的方法国旷,由于以下原因,許多細(xì)胞條形碼將匹配少量讀让K馈(<1000個(gè)讀裙虻):
垂死細(xì)胞中游離浮動(dòng)RNA的包封
表達(dá)少量基因的簡(jiǎn)單細(xì)胞(RBC等)
由于某種原因而失敗的細(xì)胞格
在讀取比對(duì)之前,需要從序列數(shù)據(jù)中過濾掉這些多余的條形碼峦萎。為了進(jìn)行這種過濾屡久,提取并保存每個(gè)細(xì)胞的“細(xì)胞條形碼”和“分子條形碼”。例如爱榔,如果使用“ umis”工具被环,則信息將以以下格式添加到每次讀取的標(biāo)題行中:
<pre style="margin: 0px; padding: 0px; max-width: 100%; overflow-wrap: break-word !important; box-sizing: border-box !important; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN + @@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#</pre>
文庫制備方法中使用的已知細(xì)胞條形碼應(yīng)該是已知的,未知的條形碼將被丟棄详幽,同時(shí)允許與已知細(xì)胞條形碼的可接受的不匹配數(shù)筛欢。
2.校正樣本讀取
如果測(cè)序多于一個(gè)樣品,則該過程的下一步是對(duì)樣品進(jìn)行多路分解唇聘。這是該過程的第一步版姑,不是由“ umis”工具處理,而是由“ zUMIs”完成迟郎。我們將需要解析讀取以確定與每個(gè)細(xì)胞相關(guān)的樣本條形碼剥险。
3.映射/偽映射到cDNA
為了確定讀段源自哪個(gè)基因,使用傳統(tǒng)的(STAR)或輕量級(jí)方法(Kallisto / RapMap)對(duì)讀段進(jìn)行比對(duì)宪肖。
4.合并的UMI和讀數(shù)的量化
重復(fù)的UMI被合并炒嘲,并且使用Kallisto或featureCounts之類的工具僅量化唯一的UMI。產(chǎn)生的輸出是按基因矩陣計(jì)數(shù)的細(xì)胞:
圖片來源:****摘自Lafzi等匈庭。教程:《單細(xì)胞RNA測(cè)序研究實(shí)驗(yàn)設(shè)計(jì)指南》夫凸,《自然協(xié)議》 2018(https://doi.org/10.1038/s41596-018-0073-y)
矩陣中的每個(gè)值代表源自相應(yīng)基因的細(xì)胞中的讀取次數(shù)。使用計(jì)數(shù)矩陣阱持,我們可以探索和過濾數(shù)據(jù)夭拌,僅保留更高質(zhì)量的細(xì)胞。
本課程由哈佛大學(xué)生物信息學(xué)核心(HBC)的教學(xué)團(tuán)隊(duì)成員開發(fā)。這些是根據(jù)知識(shí)共享署名許可(CC BY 4.0)的條款分發(fā)的開放獲取材料鸽扁,只要注明原始作者和出處蒜绽,就可以在任何介質(zhì)中進(jìn)行不受限制的使用,分發(fā)和復(fù)制桶现。