單細(xì)胞分析流程之Cell Ranger
相信做單細(xì)胞的小伙伴對(duì)Cell Ranger這個(gè)軟件都不陌生泼橘,我們今天就來了解一下Cell Ranger的安裝和使用方法锋喜。
Cell Ranger是10X Genomics為單細(xì)胞分析專門打造的分析軟件悯许,直接對(duì)10X的下機(jī)數(shù)據(jù)進(jìn)行基因組比對(duì)迷郑、定量、生成單細(xì)胞矩陣每币、聚類以及其他的分析等携丁。所以Cell Ranger能做的分析有很多,我們今天主要學(xué)一下Cell Ranger的安裝以及對(duì)單細(xì)胞RNA-Seq數(shù)據(jù)的定量兰怠。
Cell Ranger的官網(wǎng):https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger
1 Cell Ranger的下載與安裝
1. 首先進(jìn)入Cell Ranger官網(wǎng)梦鉴,點(diǎn)擊對(duì)下方的Download Link鏈接;
如果是第一次進(jìn)入下載界面,需要填寫一些基本信息揭保,填寫完后點(diǎn)擊continue即可(如下:)
2. 根據(jù)需求下載Cell Ranger肥橙,可使用curl或者wget命令下載(在linux系統(tǒng)中運(yùn)行黑框中的內(nèi)容即可);
注:默認(rèn)下載最新版的Cell Ranger,如果需要選擇之前的版本可點(diǎn)擊右下方的紅框秸侣,選擇想要的版本(如下圖)存筏;
3. 安裝包下載完之后直接使用tar命令進(jìn)行解壓即可宠互。
tar -xzvf xxx.tar.gz
這樣就完成Cell Ranger的安裝啦
2 使用Cell Ranger進(jìn)行單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)(scRNA-Seq)的定量
因?yàn)槲沂亲鰡渭?xì)胞轉(zhuǎn)錄組方向的,所以下面介紹一下常用的Cell Ranger命令---cellrange count椭坚。
count也是cellrange中一個(gè)很重要的命令予跌,用來對(duì)單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行基因組比對(duì),細(xì)胞定量最終得到用后下游分析的單細(xì)胞表達(dá)矩陣(默認(rèn)情況也會(huì)對(duì)表達(dá)矩陣進(jìn)行聚類)藕溅。
在做定量之前匕得,我們首先需要準(zhǔn)備2組文件:原始fq文件以及物種的References(其中包括參考基因組序列、gtf文件以及star的索引文件)巾表。
1. 原始fq文件
cellranger的輸入文件格式是fq格式汁掠,并且文件的命名也是有要求,文件命名格式如下:
**[Sample Name]**
S1_L00**[Lane Number]**
**[Read Type]**
_001.fastq.gz
如果fq的文件名格式不對(duì)集币,在運(yùn)行的過程中會(huì)出現(xiàn)錯(cuò)誤考阱,所以最開始需要確定文件名的格式以及進(jìn)行修改。習(xí)慣是重新創(chuàng)建一個(gè)目錄并且用軟連接將原始文件鏈接到新的目錄中鞠苟,這樣做的好處是首先不會(huì)改變?cè)嘉募拿郑êε滦薷牧宋募笥行┪募]有同步乞榨,導(dǎo)致最后找不到具體的文件),其實(shí)也不會(huì)占用很多存儲(chǔ)(畢竟我們還要在夾縫中生存)当娱,下面就是我使用的風(fēng)格:
2. 物種的References
第二個(gè)需要準(zhǔn)備的文件就是物種的References吃既。
好消息就是Cell Ranger官網(wǎng)已經(jīng)為我們提供了人和小鼠的References,如果大家的樣本是人或者小鼠的某些細(xì)胞可以直接去Cell Ranger官網(wǎng)進(jìn)行下載跨细。
下載流程和Cell Ranger軟件下載流程一致鹦倚,其中也是有很多版本的References可供大家選擇,下載后解壓就可用了冀惭;
下載網(wǎng)頁:
https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest?
那么問題來了震叙,如果我研究的是其他物種,那怎么構(gòu)建這個(gè)References散休?
cellranger的mkref就是這么一個(gè)功能媒楼,可用對(duì)其他的物種構(gòu)建cellranger需要的References格式,只需要準(zhǔn)備物種的參考基因組序列和gtf注釋文件就可以直接運(yùn)行戚丸。
這里就以擬南芥為例子構(gòu)建References划址。
mkdir refdata-cellranger-Arabidopsis-TAIR10
#首先創(chuàng)建存放References的目錄,這是我的一個(gè)習(xí)慣限府,也推薦大家在運(yùn)行不同步驟的時(shí)候能夠創(chuàng)建專門的文件猴鲫,這樣也便于文檔管理。
具體命令如下:
cellranger mkref \
--genome=TAIR10 \
--nthreads=10 \
--fasta=TAIR10.fa \
--genes=TAIR10_GFF3_genes.miRBase20.gtf
--genome:生成索引的目錄
--fasta:基因組序列
--genes:基因注釋文件(gtf格式)
運(yùn)行完上面的命令就構(gòu)建完索引啦~
這里還要推薦一個(gè)運(yùn)行腳本的命令谣殊,希望能夠?qū)Υ蠹矣袔椭鷡
我們可以使用vi編輯器,將上面的內(nèi)容存放在一個(gè)shell腳本中牺弄,然后使用后面運(yùn)行shell腳本姻几,這樣后臺(tái)在運(yùn)行的同時(shí),我們?nèi)匀豢梢栽诋?dāng)前界面進(jìn)行其他操作,并且網(wǎng)絡(luò)不穩(wěn)定的時(shí)候也不會(huì)影響我們的運(yùn)行蛇捌,所以非常推薦抚恒。(腳本名:index_test.sh)~
投后臺(tái)的命令是:
nohup sh index_test.sh >index_test.sh.o 2>index_test.sh.e &
這樣的話中間的輸出文件會(huì)保存在index_test.sh.o,如果腳本報(bào)錯(cuò)就會(huì)保存在index_test.sh.e中络拌。我們可以通過查看這兩個(gè)文件了解運(yùn)行的進(jìn)展俭驮。可以通過使用jobs命令查看后臺(tái)運(yùn)行的命令是不是還在春贸。
References構(gòu)建完后就會(huì)生成TAIR10目錄混萝,并且該目錄下的文件有:
3. 定量
在所有文件都準(zhǔn)備好了以后,就可以使用count對(duì)單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行定量啦萍恕。
具體命令如下(一般使用默認(rèn)參數(shù)):
cellranger count \
--id=sample_test \
--transcriptome=/xx/ AT \
--fastqs=/xxx/fastq_path \
--localcores=8 \
--localmem=64
參數(shù)解釋:
id:樣本名(唯一性)
transcriptome:上一步創(chuàng)建的索引的目錄名
fastqs:下機(jī)數(shù)據(jù)的目錄名
localcores:內(nèi)核
localmem:內(nèi)存
下面是我的腳本逸嘀,和上面是同樣的腳本格式~
成功運(yùn)行之后會(huì)生成sample_test目錄(腳本中id參數(shù)后面輸入的內(nèi)容),最終結(jié)果都保存在sample_test/outs中允粤。
目錄
analysis:cellranger聚類的結(jié)果
filtered_feature_bc_matrix:過濾后的單細(xì)胞表達(dá)矩陣(后續(xù)可以對(duì)接到seurat中)
raw_feature_bc_matrix:過濾前的單細(xì)胞表達(dá)數(shù)據(jù)(一般不怎么使用)
文件
possorted_genome_bam.bam:?jiǎn)渭?xì)胞比對(duì)的bam文件崭倘,其中包含了每個(gè)reads的信息
web_summary.html:報(bào)告網(wǎng)頁(單細(xì)胞定量后的報(bào)告,包括檢測(cè)到的細(xì)胞數(shù)类垫、基因數(shù)司光、UMI、分群等等)
END Cell Ranger
以上就是cellranger的下載悉患、安裝以及初步的使用流程残家,希望能夠幫到大家啦~
結(jié)果解讀
01
首先我們了解一下運(yùn)行完Cell Ranger之后,在哪里可以看到生成的結(jié)果购撼。
還記得我們?cè)谶\(yùn)行Cell Ranger的時(shí)候有個(gè)參數(shù)--id嗎跪削?--id=XXX,這里的XXX就是最終生成的目錄迂求,該目錄中保存了運(yùn)行過程中所有的中間文件碾盐、日記文件以及最終的結(jié)果。如下圖:
其中outs目錄中即保存的最終結(jié)果揩局,也是我們最后需要的毫玖。當(dāng)然如果中間出現(xiàn)了報(bào)錯(cuò),我們也可以通過查看日志文件凌盯,例如:_log付枫,查看具體的報(bào)錯(cuò)原因,隨后進(jìn)行修改即可驰怎。
02
結(jié)果目錄"outs"
首先我們看一下outs目錄下的文件結(jié)構(gòu)阐滩,如下圖:
這些結(jié)果中主要分成了兩部分:1. 集群中可以使用的結(jié)果(具體的內(nèi)容可以參考上期文章“單細(xì)胞分析流程之Cell Ranger”);2. 網(wǎng)頁版報(bào)告县忌。
本期的重點(diǎn)是解讀網(wǎng)頁報(bào)告中的內(nèi)容掂榔。
03
網(wǎng)頁報(bào)告"web_summary.html"**
為了快速了解和方便的了解Cell Ranger定量之后的結(jié)果继效,我們首先會(huì)查看html文件,即web_summary.html装获,了解初步情況瑞信。如下圖:
可以看到該網(wǎng)頁中主要分成了兩部分:Summary和Analysis.
04
"Summary"**
1. 異常結(jié)果警告
如果數(shù)據(jù)中存在異常情況,網(wǎng)頁的上面會(huì)出現(xiàn)黃色的警告信息穴豫。找了一下之前遇到警告信息凡简,如下圖:
當(dāng)遇到這種報(bào)錯(cuò)情況的時(shí)候我們不要慌,首先看一下是哪些值異常精肃,對(duì)數(shù)據(jù)有無影響以及解決辦法秤涩。在Detail部分會(huì)詳細(xì)解釋這個(gè)參數(shù)是什么,以及解決辦法肋杖。例如上圖中說到在運(yùn)行Cell Ranger的時(shí)候可以調(diào)用--force-cells參數(shù)溉仑,這個(gè)參數(shù)的修改需要不斷的嘗試,所以也沒有固定的值??
當(dāng)然如果這些報(bào)錯(cuò)信息并不影響結(jié)果状植,我們是可以用這個(gè)結(jié)果繼續(xù)往后分析的~
2. 細(xì)胞和基因數(shù)的統(tǒng)計(jì)
隨后就是查看這次分析中捕獲到的細(xì)胞數(shù)以及基因數(shù)的情況浊竟,從這里就能大概知道數(shù)據(jù)的情況。
我也做過好多10X的數(shù)據(jù)津畸,一般捕獲的細(xì)胞數(shù)都是5,000-10,000振定,平均的基因數(shù)大概是1,200-15,00,大家可以看看自己的數(shù)據(jù)是否也在這些范圍內(nèi)肉拓。如果這些值都是在可接受的范圍后频,那么就可以進(jìn)入下一步的分析啦~
3. 細(xì)胞的選取
隨后就是細(xì)胞的選取了(也是一個(gè)相當(dāng)重要的圖),幫助我們更加直觀的篩選細(xì)胞(如下圖)
先我們先來看一下上方的折線圖怎么看:
Y軸是每個(gè)細(xì)胞中UMI的值暖途,X軸是單個(gè)細(xì)胞的按照UMI大小的排序(降序)卑惜,所以這個(gè)圖中的曲線是下降的趨勢(shì)。藍(lán)色的線是選取的細(xì)胞(和**2\. 細(xì)胞和基因數(shù)的統(tǒng)計(jì)**中的細(xì)胞數(shù)是一致的)驻售,灰色的線是背景露久。
正常的數(shù)據(jù)來說會(huì)有兩個(gè)下降的趨勢(shì)(如下圖),第1個(gè)下降的趨勢(shì):區(qū)分完整細(xì)胞和背景物質(zhì)(因?yàn)榧?xì)胞和其他物質(zhì)相比欺栗,真正細(xì)胞中會(huì)有更多的UMI毫痕,而其他物質(zhì)可能沒有或者由于一些污染能捕獲到少量的轉(zhuǎn)錄本,所以會(huì)出現(xiàn)第一個(gè)下降的趨勢(shì))迟几;第2個(gè)下降的趨勢(shì):區(qū)分細(xì)胞的質(zhì)量消请,捕獲率低或細(xì)胞破碎(這類細(xì)胞中基因數(shù)會(huì)很少,導(dǎo)致UMI數(shù)也少)类腮,而正常的細(xì)胞中UMI多且分布比較接近臊泰,所以質(zhì)量好和不好的細(xì)胞在UMI上也會(huì)存在很大的差異,隨后就出現(xiàn)了第2個(gè)下降趨勢(shì)蚜枢。
當(dāng)數(shù)據(jù)出現(xiàn)了這兩個(gè)下降趨勢(shì)因宇,且在藍(lán)色區(qū)域的線條比較平穩(wěn)時(shí)七婴,也能說明我們的數(shù)據(jù)質(zhì)量好~
4. 測(cè)序結(jié)果統(tǒng)計(jì)
繼續(xù)往下走,下一部分是測(cè)序的信息察滑,包括總的reads數(shù)目以及一些質(zhì)控的指標(biāo),一般情況下Q30>90%表明質(zhì)量是相當(dāng)不錯(cuò)的修肠。
當(dāng)我們看數(shù)據(jù)的時(shí)候贺辰,如果遇到一些指標(biāo)不太明白是什么意思,大家可以點(diǎn)擊左上角的嵌施?饲化,隨后會(huì)列出下列指標(biāo)的解釋晃洒。
5. 比對(duì)結(jié)果統(tǒng)計(jì)
報(bào)告中除了會(huì)給出測(cè)序信息以外木人,也會(huì)給出與基因組的比對(duì)信息鸵膏,主要包括Genome擎勘、Intergenic朦佩、Intronic遇绞、 Exonic暇韧、Transcriptome护桦、Antisense to Gene(見下圖)巧号。
雖然測(cè)序和比對(duì)結(jié)果都是一些常規(guī)的質(zhì)控信息族奢,當(dāng)我們數(shù)據(jù)一切正常的時(shí)候,看這些指標(biāo)可能沒有那么重要丹鸿,但是一旦我們的數(shù)據(jù)比較奇怪的時(shí)候越走,例如發(fā)現(xiàn)檢測(cè)到的細(xì)胞數(shù)還行,但是基因數(shù)特別少靠欢,這個(gè)時(shí)候測(cè)序和比對(duì)結(jié)果就相當(dāng)重要了廊敌!之前遇到一個(gè)數(shù)據(jù)就是檢測(cè)到的基因數(shù)特別少,然后聚類的時(shí)候就結(jié)果很差门怪,后來就返回去看這些質(zhì)控信息骡澈,驚奇的發(fā)現(xiàn)很多reads都是比對(duì)到了基因間區(qū)!
所以測(cè)序的reads根本就沒有落在基因上薪缆,導(dǎo)致了最終每個(gè)細(xì)胞檢測(cè)到的基因非常少秧廉,然后再去繼續(xù)往下找原因。
拣帽。所以呀疼电,還是得多看數(shù)據(jù),從那以后减拭,數(shù)據(jù)下來都會(huì)先看看這些質(zhì)控信息是否正常蔽豺,才會(huì)繼續(xù)往后做(質(zhì)控也是做科研非常重要的一步呀~)
6. 樣本信息
最后一部分就是樣本信息啦(如下圖)~
這一部分就是在運(yùn)行Cell Ranger時(shí)候的參數(shù)信息,例如樣本名拧粪、Chemistry(運(yùn)行Cell Ranger時(shí)候我們沒有設(shè)置這個(gè)參數(shù)修陡,那么就默認(rèn)選擇auto:自動(dòng)配置沧侥,在報(bào)告中會(huì)給出具體的類型,這個(gè)就是3' V3版本)魄鸦、Reference以及Reference路徑等等宴杀。這些信息的給出方便后面查找信息。
05
"Analysis"**
****介紹完Summary之后拾因,下面就是Analysis.
1. 分群結(jié)果
左圖:在TNSE中映射每個(gè)細(xì)胞UMI的值旺罢;右圖:TSNE中分群的情況。
Cell Ranger做完定量之后呢绢记,會(huì)默認(rèn)拿已有的結(jié)果跑一下基本的分群扁达,所以在看報(bào)告的時(shí)候我們也可以看一下這里的分群結(jié)果,心里大概有個(gè)數(shù)~
2. 基因差異表達(dá)分析
Cell Ranger除了做了分群以外蠢熄,還找了每個(gè)群差異表達(dá)的基因跪解,類似于Seurat中的 "FindAllMarkers"。
這里比較好的是签孔,上面Graph-based如果選擇K=2叉讥,那么這里差異基因列表也會(huì)隨之變動(dòng)。所以如果覺得Cell Ranger的分群結(jié)果已經(jīng)很符合自己的預(yù)期了骏啰,完全可以就用這個(gè)結(jié)果了节吮,而且還可以自己選擇分群的個(gè)數(shù)(直接網(wǎng)頁挑選,人性化呀)
3. 飽和度評(píng)估
對(duì) reads 抽樣判耕,計(jì)算不同抽樣條件下檢測(cè)到的轉(zhuǎn)錄本數(shù)量占檢測(cè)到的所有轉(zhuǎn)錄本的比例(測(cè)序飽和度)透绩,如下圖:
曲線末端接近平滑狀態(tài)說明測(cè)序達(dá)到飽和,因?yàn)槔^續(xù)增加測(cè)序量壁熄,檢測(cè)到的轉(zhuǎn)錄本也不會(huì)有特別大的變化
對(duì) reads 抽樣帚豪,計(jì)算不同抽樣條件下檢測(cè)基因數(shù)目的分布,如下圖:
同樣地草丧,曲線末端接近平滑狀態(tài)說明測(cè)序達(dá)到飽和狸臣,因?yàn)槔^續(xù)增加測(cè)序量,每個(gè)細(xì)胞檢測(cè)到的基因數(shù)也不會(huì)有特別大的變化
下游barcodes.tsv.gz/features.tsv.gz/matrix.mtx.gz
cellranger count輸出結(jié)果中的outs.文件夾有幾個(gè)是非常重要的信息昌执,我們今天只關(guān)注于filtered_feature_bc_matrix文件夾下的內(nèi)容和possorted_genome_bam.bam文件烛亦。
一般來說,我們下游的Seurat分析的輸入文件會(huì)選擇filtered_feature_bc_matrix中的文件懂拾,而不選擇raw_feature_bc_matrix下的文件煤禽,前者是經(jīng)過過濾的,去掉了低質(zhì)量的信息岖赋。進(jìn)入filtered_feature_bc_matrix文件夾會(huì)發(fā)現(xiàn)它下面包含3個(gè)文件:分別是barcodes.tsv.gz檬果、features.tsv.gz和matrix.mtx.gz。
barcodes.tsv.gz
AAACCCAAGAGATGCC-1
AAACCCAAGGTCGTAG-1
AAACCCACATCAGTCA-1
AAACCCAGTTTCCCAC-1
AAACCCATCCAAACCA-1
AAACCCATCCCTCTAG-1
AAACGAAAGCTGGTGA-1
AAACGAACAGACACAG-1
AAACGAAGTGAGATAT-1
這個(gè)文件當(dāng)中記載了每個(gè)細(xì)胞的barcode信息。
features.tsv.gz
ENSMUSG00000051951 Xkr4 Gene Expression
ENSMUSG00000089699 Gm1992 Gene Expression
ENSMUSG00000102331 Gm19938 Gene Expression
ENSMUSG00000102343 Gm37381 Gene Expression
ENSMUSG00000025900 Rp1 Gene Expression
ENSMUSG00000025902 Sox17 Gene Expression
ENSMUSG00000104238 Gm37587 Gene Expression
ENSMUSG00000104328 Gm37323 Gene Expression
這個(gè)文件記載了小鼠基因注釋文件中包含的基因id與symbol信息选脊,注意杭抠,這個(gè)文件的來源是小鼠基因組的注釋文件。
matrix.mtx.gz
%%MatrixMarket matrix coordinate integer general
%metadata_json: {"software_version": "cellranger-6.0.1", "format_version": 2}
32285 5741 11436472
1 1 4
2 1 1
22 1 1
24 1 8
31 1 1
41 1 1
43 1 1
這個(gè)文件主體部分包含三列恳啥,第一列為基因偏灿,即這個(gè)基因在前面features.tsv.gz中的位置;第二列為細(xì)胞角寸,即這個(gè)細(xì)胞對(duì)應(yīng)于barcodes.tsv.gz中的barcodes信息菩混;最后一列代表在這個(gè)細(xì)胞中檢測(cè)到的這個(gè)基因的reads數(shù)。舉個(gè)例子來說:
例如第一行:1 1 4扁藕,就表示barcode為AAACCCAAGAGATGCC-1的細(xì)胞中檢測(cè)到的Xkr4基因的reads數(shù)為4。
細(xì)心的朋友會(huì)發(fā)現(xiàn)在前面還有一行:32285 5741 11436472 疚脐,這一行實(shí)際上就是一個(gè)匯總信息亿柑,例如有32285個(gè)基因,5741個(gè)細(xì)胞棍弄,11436472個(gè)非零數(shù)值望薄。而最前面不過是指明軟件的相關(guān)信息罷了。
思考
實(shí)際上在我們進(jìn)行數(shù)據(jù)分析時(shí)呼畸,都覺得這3個(gè)文件一個(gè)不可少痕支,但實(shí)際上真的是這樣嗎?
-
features.tsv.gz
前面已經(jīng)說到蛮原,這個(gè)文件實(shí)際上是來源于小鼠基因組的注釋文件卧须,所以理論上只要你在使用cellranger count時(shí)用的基因組注釋文件是一樣的,這個(gè)文件是不會(huì)變的儒陨,你可以進(jìn)入Cell Ranger推薦的參考基因組看是否是這樣花嘶。
cd cellranger/reference/refdata-gex-mm10-2020-A/genes
#這個(gè)文件夾下面你會(huì)看到一個(gè)小鼠基因組的gtf注釋文件,名稱應(yīng)該為genes.gtf
cat genes.gtf | awk '$15=="gene_name"{print$10"\t"$16}' | less -S
#看看這樣提取的基因id和name是否和features.tsv.gz一樣
"ENSMUSG00000051951"; "Xkr4";
"ENSMUSG00000089699"; "Gm1992";
"ENSMUSG00000102331"; "Gm19938";
"ENSMUSG00000102343"; "Gm37381";
"ENSMUSG00000025900"; "Rp1";
"ENSMUSG00000025902"; "Sox17";
"ENSMUSG00000104238"; "Gm37587";
你會(huì)發(fā)現(xiàn)蹦漠,順序和內(nèi)容竟然和features.tsv.gz一樣的椭员,所以看起來似乎features.tsv.gz也不是那么不可或缺,咱也可以自己做笛园,或者說可以通用隘击。
-
matrix.mtx.gz
這個(gè)文件,毫無疑問研铆,是必不可少的埋同,可以說花那么多錢做個(gè)single cell RNA sequencing就是為了這個(gè)文件。蚜印。
-
barcodes.tsv.gz
光聽這個(gè)文件的內(nèi)容莺禁,感覺這個(gè)文件很重要,像某個(gè)地區(qū)居民的名單一樣窄赋,丟了豈不麻煩大了哟冬?但實(shí)際上仔細(xì)想想楼熄,它真的重要到我們不能丟嗎?
我們說浩峡,matrix.mtx.gz里面實(shí)際上已經(jīng)包含了單個(gè)細(xì)胞可岂、單個(gè)基因的表達(dá)信息了,這是cellranger count已經(jīng)返給我們的信息翰灾,舉個(gè)形象的例子缕粹,小孩子在出生時(shí),當(dāng)?shù)貞艏块T記錄了這個(gè)小孩的性別信息纸淮,當(dāng)然還有他的名字平斩。但是一年后,這個(gè)小朋友改名字了咽块,但是他的性別變了嗎绘面?并沒有!所以實(shí)際上這個(gè)barcodes.tsv.gz文件如果我們改了侈沪,只不過是給每個(gè)細(xì)胞新起了一個(gè)名字揭璃,本身并不會(huì)造成細(xì)胞RNA信息的變化和混亂。
說到這里亭罪,不得不提到possorted_genome_bam.bam文件瘦馍,這個(gè)文件里面實(shí)際上包含了每個(gè)細(xì)胞的barcode信息,就在其中以CB開頭的那個(gè)字段里应役。
samtools view possorted_genome_bam.bam | less -S
#部分信息如下
CB:Z:ATTCTTGTCTCCTGTG-1
CB:Z:GTGCTGGTCACTCGAA-1
CB:Z:GCATGATAGCCGGATA-1
CB:Z:GCACGTGGTTGCCTAA-1
你可以把這部分信息提取出來情组,重復(fù)內(nèi)容合并,然后以任意順序作為barcodes.tsv.gz就可以進(jìn)行Seurat分析了扛吞。哦對(duì)了呻惕,得某位大佬指點(diǎn),cellranger count輸出的barcodes.tsv.gz是按字母表順序的滥比,所以(誰知道它是不是最后隨意用字母表順序輸出的呢亚脆?)