10X文庫(kù)送測(cè)序后,從測(cè)序公司拿到的測(cè)序數(shù)據(jù)是fastq格式的东且,要經(jīng)過(guò)linux上跑cellranger程序,得到表達(dá)矩陣金度,才能做后面的功能分析应媚。這里就是講一下如何跑cellranger。
biomamba沒(méi)有做視頻猜极,但是提供了文字版學(xué)習(xí)資料:?jiǎn)渭?xì)胞分析的最上游——處理Fastq文件:cellranger中姜。鏈接如下:
https://mp.weixin.qq.com/s?__biz=MzAwMzIzOTk5OQ==&mid=2247484923&idx=1&sn=b5876af14fbee68d1e9db4b0f70cd1c8&chksm=9b3f7cabac48f5bdb3aac7d20201d89121a83720b41a10017564fedbb8c4a13df0da92daffd7&scene=21#wechat_redirect
一、下載安裝cellranger
https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest
在表格中填寫(xiě)具體信息跟伏。之后會(huì)轉(zhuǎn)到下載界面丢胚。可以直接點(diǎn)擊:Download - Linux 64-bit – 600 MB下載受扳,再上傳到服務(wù)器携龟。也可以在服務(wù)器上直接用curl或者wget命令下載。點(diǎn)擊右下角紅色數(shù)字勘高,也可以下載老版本的cellranger峡蟋。我選擇下載稍微老一些的版本文件名是cellranger-6.1.2.tar。要把這個(gè)文件放到software文件夾下相满,而不是直接就在家目錄下,因?yàn)樽詈靡獙④浖w類(lèi)放置桦卒。
在服務(wù)器上進(jìn)入到software文件夾下立美,輸入:tar -xzvf cellranger-6.1.2.tar.gz 來(lái)解壓縮。會(huì)生成一個(gè)新的文件夾名為cellranger-6.1.2情萤。
二达传、在北鯤云服務(wù)器里設(shè)置環(huán)境變量棍潘,添加系統(tǒng)路徑
首先通過(guò)WinSCP軟件登錄北鯤云服務(wù)器,用WinSCP比直接從網(wǎng)頁(yè)界面操作要更方便洞慎,因?yàn)?bashrc等隱藏文件,在軟件里可以點(diǎn)擊直接打開(kāi)嘿棘,如同文本一樣操作保存就行劲腿。可是網(wǎng)頁(yè)界面就不能直接打開(kāi)編輯隱藏文件鸟妙。
在.bashrc文件里面加一句:export PATH=/home/cloudam/software/cellranger-6.1.2:$PATH焦人。之后到家目錄下運(yùn)行:source .bashrc,來(lái)激活環(huán)境重父。
在任何目錄下花椭,輸入:cellranger,都會(huì)顯示如下界面房午,表明安裝cellranger成功矿辽。
三、準(zhǔn)備reference
一般常用的就是人和小鼠的,在前面下載cellranger的界面下面就有下載鏈接袋倔。
下載文件:refdata-gex-GRCh38-2020-A.tar.gz和refdata-gex-mm10-2020-A.tar.gz雕蔽,放到reference文件夾下。
在服務(wù)器進(jìn)入到reference文件夾下解壓就行:tar -xzvf refdata-gex-GRCh38-2020-A.tar.gz 奕污,tar -xzvf refdata-gex-mm10-2020-A.tar.gz萎羔。會(huì)生成相應(yīng)種屬的文件夾,其中包括參考基因組序列碳默、gtf文件以及star的索引文件等贾陷。
四、準(zhǔn)備fastq格式的測(cè)序文件
公司測(cè)序回來(lái)的文件都有一定的格式嘱根,Illumina測(cè)序儀下機(jī)FASTQ命名類(lèi)似Ery_S1_L004_R2_001.fastq.gz(V2有12個(gè)文件)
比如下圖
1髓废,最前面Ery是樣本名,和填寫(xiě)測(cè)序單上樣本名一樣该抒。
2慌洪,S后跟的數(shù)字與樣本在sampleSheet中的順序一致,從1開(kāi)始凑保。同一個(gè)樣本名可能對(duì)應(yīng)多個(gè)S冈爹,因?yàn)闀?huì)有一個(gè)樣本有多個(gè)index的情況,在10X單細(xì)胞V2版本的實(shí)驗(yàn)里欧引,一個(gè)樣本就對(duì)應(yīng)4個(gè)index频伤,也就會(huì)依次從S1-S4。
3芝此,L后面表明在那個(gè)line上憋肖。
4,同一個(gè)樣本同一個(gè)index有三個(gè)fastq文件婚苹,I1為index岸更,R1時(shí)barcode和UMI。R2才是測(cè)序read膊升,文件最大怎炊。
五、cellranger對(duì)fastq文件進(jìn)行分析
cellranger有好幾個(gè)命令廓译,最核心的是cellranger count结胀。
cellranger count這個(gè)命令是把fastq文件中的序列比對(duì)到參考轉(zhuǎn)錄組上并產(chǎn)生一個(gè)以.cloupe為結(jié)尾的文件以便在loupe cell browser上分析,同時(shí)會(huì)產(chǎn)生多個(gè)與目前主流分析軟件兼容的文件以便進(jìn)一步分析责循。
cellranger count
--id=run_count_1kpbmcs \
--fastqs=/mnt/home/user.name/yard/run_cellranger_count/pbmc_1k_v3_fastqs \
--sample=pbmc_1k_v3 \
--transcriptome=/mnt/home/user.name/yard/run_cellranger_count/refdata-cellranger-GRCh38-3.0.0
--nosecondary
說(shuō)明
--id是自己起的糟港,將來(lái)會(huì)生成這個(gè)id名的文件夾,分析結(jié)果統(tǒng)統(tǒng)在里面院仿。
--fastqs是fastq數(shù)據(jù)的具體保存路徑秸抚。
--sample是S1前面那個(gè)樣本名速和。
--transcriptome是reference的路徑
--nosecondary是
六、建立slurm腳本剥汤,運(yùn)行
建立slurm腳本:
#!/bin/bash
#SBATCH --output=cellranger.out
#SBATCH --error=cellranger.err
#SBATCH --mail-type=end
#SBATCH --mail-user=zmeraner@126.com
project=~/singlecell #項(xiàng)目文件夾
cellranger count --id=Li1_cellranger --fastqs=$project/fastq --sample=Li1 --transcriptome=/home/cloudam/reference/refdata-gex-mm10-2020-A
因?yàn)?0X官網(wǎng)顯示颠放,cellranger的運(yùn)行條件為:
- 8-core Intel or AMD processor (16 cores recommended)
- 64GB RAM (128GB recommended)
- 1TB free disk space
- 64-bit CentOS/RedHat 7.0 or Ubuntu 14.04; See the [10x Genomics OS Support]
Note: Cell Ranger v6.1 was the last version that supported CentOS/RedHat 6 or Ubuntu 12.04
北鯤云服務(wù)器好像硬盤(pán)只有200G,有點(diǎn)兒少吭敢。我的數(shù)據(jù)有36G碰凶。不知道可以運(yùn)行不?
用sinfo
命令查看可以選擇的隊(duì)列鹿驼。CPU分區(qū)命名規(guī)則為c-核心數(shù)-每核心內(nèi)存大小欲低,如c-8-4:表示單節(jié)點(diǎn)規(guī)格為8核,每核心有4G內(nèi)存畜晰,即節(jié)點(diǎn)規(guī)格為8核32G砾莱。
輸入:
sbatch -p c-16-4 cellranger.slurm
提交作業(yè)輸入:
squeue
查看作業(yè)運(yùn)行情況JOBID:作業(yè)號(hào)。ST:狀態(tài) (R:運(yùn)行中凄鼻;CF:配置中腊瑟;PD:排隊(duì)中)。
提交之后用squeue查看块蚌,先顯示為CF闰非,幾分鐘后顯示為PD,又過(guò)了兩分鐘左右顯示為R峭范。
運(yùn)行了大約21.5個(gè)小時(shí)之后财松,結(jié)果出來(lái)了。
Li1_cellranger文件夾下有個(gè)out文件夾虎敦。下載這個(gè)out文件夾到本地電腦游岳,里面的文件很多政敢,有些文件可以進(jìn)行質(zhì)控其徙,有些是可以用cloupe打開(kāi)看分群特征的,有些是可以用做其他分析的輸入文件喷户。
參考教程:https://zhuanlan.zhihu.com/p/390516422?ivk_sa=1024320u
1唾那,web_summary.html這個(gè)文件打開(kāi)就可以看到這個(gè)樣本的質(zhì)控信息。
2褪尝,cloupe文件可用cloupe軟件打開(kāi)闹获。
3,filtered_feature_bc_matrix文件夾中是過(guò)濾過(guò)后的表達(dá)矩陣河哑,可以對(duì)接searat等后期分析
4避诽,raw_feature_bc_matrix文件夾是未過(guò)濾的,沒(méi)啥用璃谨。
5沙庐,possorted_genome_bam.bam是比對(duì)的bam文件鲤妥,包含每個(gè)reads的,所以這個(gè)文件挺大拱雏。
七棉安、cellranger count結(jié)果解讀之summary
左上角Sequencing模塊
Number of Reads總reads pair的量
Valid Barcodes是有效的barcode——表示包了beads合格的液滴比率。Valid UMIs是有效的UMI——表示合格的RNA序列比率铸抑。實(shí)驗(yàn)沒(méi)問(wèn)題的話(huà)贡耽,這兩個(gè)參數(shù)都能達(dá)到大于95%以上。
Q30的幾個(gè)參數(shù)鹊汛,一般情況都應(yīng)該大于85%蒲赂,說(shuō)明測(cè)序質(zhì)量不錯(cuò)。
右上角cells模塊
Estimated Number of Cells是預(yù)估的細(xì)胞數(shù)柒昏。根據(jù)曲線(xiàn)圖凳宙,上機(jī)每個(gè)樣本都有幾萬(wàn)個(gè)barcode,但是真正包入細(xì)胞的职祷,才能有足夠多的UMI為藍(lán)色部分氏涩,其他都是灰色部分沒(méi)有啥UMI的液滴。
Fraction Reads in Cells表示在確定為cell的barcode中的reads占到總reads的比率有梆,不低于80%才好是尖。低于70%的話(huà),認(rèn)為實(shí)驗(yàn)有問(wèn)題或者數(shù)據(jù)質(zhì)量不好泥耀。
Mean Reads per Cell表示每個(gè)細(xì)胞平均reads饺汹,一般只要在20-30K reads/cell應(yīng)該就夠了。
Median Genes per Cell為每個(gè)細(xì)胞檢測(cè)到的基因數(shù)量的中位數(shù)痰催,大于1000更好兜辞,有利于后面分群。如果小于500認(rèn)為可能不太可靠夸溶。
Total Genes Detected鑒定到的基因總數(shù)逸吵,這個(gè)參數(shù)沒(méi)啥太大意義,和物種細(xì)胞類(lèi)型相關(guān)缝裁,有些細(xì)胞表達(dá)的基因種類(lèi)就是比較少扫皱。有些組織復(fù)雜度高,細(xì)胞種類(lèi)豐富捷绑,那基因種類(lèi)也就多韩脑。常見(jiàn)的在1.2-2萬(wàn)之間。
Sequencing saturation是測(cè)序飽和度粹污,只要在80%以上就完全可以了段多,再高就浪費(fèi)測(cè)序量了,60%-80%就可以了壮吩。
左下角mapping模塊
為比對(duì)到各個(gè)不同位置上的比率进苍。包括全基因組上蕾总,基因間區(qū),外顯子琅捏,內(nèi)含子生百,轉(zhuǎn)錄本區(qū)等。
Reads Mapped Confidently to Genome這個(gè)比對(duì)率一般都能到85%以上柄延。
Reads Mapped Confidently to Exonic Regions應(yīng)該在60%以上蚀浆。
右下角sample模塊
樣本信息,包括名稱(chēng)搜吧,試劑版本市俊,比對(duì)使用的reference,cellranger版本等滤奈。
八摆昧、cellranger count結(jié)果解讀之a(chǎn)nalysisi
1,t-SNE Projection 分群情況
用 t-SNE算法分群的兩個(gè)圖蜒程。每個(gè)點(diǎn)兒代表一個(gè)細(xì)胞绅你。左圖為每個(gè)細(xì)胞中含的UMI數(shù)量。右圖為分群圖昭躺。
2忌锯,Top Features by Cluster (Log2 fold-change, p-value)
按照上圖分群后,不同群之間的差異表達(dá)基因列表领炫。
可以在這個(gè)列表中類(lèi)似excel操作排序偶垮,查看各個(gè)群的基因表達(dá)情況。比如cluster1列中L2FC值越高的基因帝洪,表明cluster1里這些基因比所有其他群的表達(dá)都要多似舵,那么應(yīng)該可以從L2FC高的基因里面找找有沒(méi)有這一群的marker。葱峡。
3砚哗,Sequencing Saturation飽和度評(píng)估圖
和summary里面的Sequencing saturation參數(shù)相對(duì)應(yīng)。
4族沃,Median Genes per Cell
和summary里面Median Genes per Cell參數(shù)也是相對(duì)應(yīng)的频祝。
上兩個(gè)圖都是對(duì)reads抽樣泌参,觀察不同抽樣條件下檢測(cè)到的轉(zhuǎn)錄本數(shù)量占檢測(cè)到的所有轉(zhuǎn)錄本的比例脆淹,并繪制曲線(xiàn)。發(fā)現(xiàn)抽樣越多沽一,飽和度越高盖溺,每個(gè)細(xì)胞基因數(shù)的中位數(shù)也越高。只要飽和度大于80%都是很不錯(cuò)了铣缠。因?yàn)榛揪涂梢源碚麄€(gè)樣本了烘嘱。
下圖我這個(gè)曾經(jīng)做的實(shí)驗(yàn)昆禽,測(cè)的就過(guò)多了,飽和度都到98%了蝇庭。當(dāng)時(shí)預(yù)計(jì)細(xì)胞6000多個(gè)細(xì)胞醉鳖,但實(shí)際上只捕獲到600來(lái)個(gè)細(xì)胞,所以就測(cè)多了哮内,嗚嗚盗棵。