1 原始數(shù)據(jù)下載及轉(zhuǎn)換
從GEO下載原始數(shù)據(jù)需要使用官方工具SRA-tools,安裝SRA-tools
conda install -y sra-tools
1.1 原始數(shù)據(jù)下載
進(jìn)入NCBI SRA數(shù)據(jù)庫(kù)奔滑,輸入GSE編號(hào)琐旁,選擇要下載的數(shù)據(jù)定欧,下載Accession List信殊,至rawdata文件夾.
在rawdata文件夾中挽绩,使用SRA-tools中prefetch來(lái)下載文件荧库。
cat SRR_Acc_List.txt |xargs -I [] echo 'nohup prefetch [] &'>prefetch.sh
bash prefetch.sh
運(yùn)行上述命令后堰塌,會(huì)在后臺(tái)下載數(shù)據(jù)。
或者
prefetch --option-file SRR_Acc_List.txt
下載完成后會(huì)在目錄下得到包含SRA的文件夾
1.2 SRA批量轉(zhuǎn)換為fastq
在rawdata文件夾下电爹,運(yùn)行批量轉(zhuǎn)換腳本
##-e:線程數(shù)(dflt=6) --include-technical:包含technical reads -b:文件緩存區(qū)(dflt=1MB) -c:動(dòng)態(tài)緩存(dflt=10MB) -m:排序的內(nèi)存限制(dflt=100MB)
ls SRR*/*sra |while read id;do (fasterq-dump --split-files -e 10 --include-technical -b 100MB -c 200MB -m 2000MB $id);done
運(yùn)行完畢后蔫仙,每個(gè)sra文件會(huì)解壓出3個(gè)fq文件,如下所示
$ ls -lh *gz |cut -d" " -f 5-
985M 21:45 SRR13924917_1.fastq.gz
2.2G 21:45 SRR13924917_2.fastq.gz
6.7G 21:45 SRR13924917_3.fastq.gz
987M 21:59 SRR13924918_1.fastq.gz
2.2G 21:59 SRR13924918_2.fastq.gz
6.7G 21:59 SRR13924918_3.fastq.gz
這里可能出現(xiàn)三種情況
- 從sra拆分的fastq文件只有一個(gè):?jiǎn)味藴y(cè)序
- 從sra拆分的fastq文件有兩個(gè):雙端測(cè)序
- 從sra拆分的fastq文件有三個(gè):雙端測(cè)序read+index
詳見(jiàn)以下說(shuō)明
從這3個(gè)fq文件的大小就可以看得出來(lái)它們的格式丐箩,分別是I1摇邦,R1,和R2屎勘。
2 Cell Ranger流程
Cell Ranger是10X Genomics為單細(xì)胞分析專門打造的分析軟件施籍,直接對(duì)10X的下機(jī)數(shù)據(jù)進(jìn)行基因組比對(duì)、定量概漱、生成單細(xì)胞矩陣丑慎、聚類以及其他的分析等。
為了在下游分析中讓Cell Ranger指定識(shí)別我們的fastq文件進(jìn)行下游分析瓤摧,使用官網(wǎng)推薦的命名格式進(jìn)行命名
所以要對(duì)之前得到的fastq文件竿裂,批量改名。
##重命名腳本1
ls *_1.fastq.gz |while read id;do (pre=`basename $id|cut -d"_" -f 1`;echo $pre; ln -s $id ${pre}_S1_L001_I1_001.fastq.gz);done
ls *_2.fastq.gz |while read id;do (pre=`basename $id|cut -d"_" -f 1`;echo $pre; ln -s $id ${pre}_S1_L001_R1_001.fastq.gz);done
ls *_3.fastq.gz |while read id;do (pre=`basename $id|cut -d"_" -f 1`;echo $pre; ln -s $id ${pre}_S1_L001_R2_001.fastq.gz);done
##重命名腳本2
cat SRR_Acc_List.txt | while read id ;do (mv ${id}_1*.gz ${id}_S1_L001_I1_001.fastq.gz;mv ${id}_2*.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${id}_3*.gz ${i}_S1_L001_R3_001.fastq.gz);done
2.1 Cell Ranger的下載與安裝
進(jìn)入CellRanger官網(wǎng)照弥,點(diǎn)擊下載腻异,如果是第一次進(jìn)入下載界面,需要填寫一些基本信息这揣,填寫完后點(diǎn)擊Continue to Download即可悔常。
##LINUX版本下載
curl -o cellranger-6.1.2.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-6.1.2.tar.gz?Expires=1652062386&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci02LjEuMi50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NTIwNjIzODZ9fX1dfQ__&Signature=A9adfYE-gTZugUA8HDIt7K9BaLs72lc8dU3X-Oqj0NMMA-zG5POwSSi9SsBME1pOX8iGyEI1gknodSfFWcf2oBEyF6gZLPxFoFQ71ATS1Z7pQaTWzAVzbnDXj4swuMqX-OM~zngTrKxqDQ9UPcuvTriMCmc2LYVgMjuNR5kxGWKfI1xCXyMpimKNlpttw-~w-xqBGwi2PQ6exgF1oUIAVEeLnl~pd6hm6Ia8IMJEJmpuLDlBVKHzmruimXSoZxIaSphdnSglYqGBltcYHdEUVLZ1LtgwQKvEvlaEo8wtA7IVX9WWB~N2zqiLW0BvHucQUiQAtjYQwfCdclbkhor2Xg__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
- 安裝包下載完成后使用tar命令進(jìn)行解壓。
tar -xzvf cellranger-6.1.2.tar.gz
- 把Cell Ranger添加到系統(tǒng)環(huán)境给赞。
vim ~/.bashrc
##將下方語(yǔ)句添加到.bashrc中机打,注意修改路徑
export PATH=~/t010328/download/cellranger-6.1.2:$PATH
- 更新一下.bashrc文件。
source ~/.bashrc
- 測(cè)試是否正確安裝
cellranger testrun --id=tiny
##顯示Pipestance completed successfully!則成功
2.2 參考基因組下載
CellRanger官網(wǎng)提供了人和小鼠的參考基因組片迅。
##Human reference (GRCh38),Download – 11 GB – md5sum: dfd654de39bff23917471e7fcc7a00cd
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
##Mouse reference dataset,Download – 9.7 GB – md5sum: 886eeddde8731ffb58552d0bb81f533d
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
2.3 CellRanger定量
編寫一個(gè)cellranger運(yùn)行腳本残邀,命名為run-cellranger.sh。內(nèi)容如下:
##db為參考基因組目錄,fq_dir為原始fastq文件目錄,--localcores為最大使用線程數(shù)罐旗,--nosecondary為不進(jìn)行聚類分群分析膳汪,--expect-cells為指定最大細(xì)胞數(shù)
db=~/t010328/download/cellranger/refdata-gex-GRCh38-2020-A;
ls $db
fq_dir=~/t010328/download/10X/raw
echo '
cellranger count --id=$1 \
--localcores=20 \
--transcriptome=$db \
--fastqs=$fq_dir \
--sample=$1 \
--nosecondary \
--expect-cells=5000 ' >run-cellranger.sh
批量運(yùn)行run-cellranger.sh進(jìn)行比對(duì)定量。
nohup cat SRR_Acc_List.txt |while read id;do ( bash run-cellranger.sh $id );done &
2.4 定量結(jié)果
成功運(yùn)行之后會(huì)生成sample目錄(腳本中id參數(shù))九秀,最終結(jié)果都保存在sample/outs中。
analysis:cellranger聚類的結(jié)果
filtered_feature_bc_matrix:過(guò)濾后的單細(xì)胞表達(dá)矩陣(后續(xù)可以對(duì)接到seurat包)
raw_feature_bc_matrix:過(guò)濾前的單細(xì)胞表達(dá)數(shù)據(jù)
possorted_genome_bam.bam:?jiǎn)渭?xì)胞比對(duì)的bam文件粘我,其中包含了每個(gè)reads的信息
web_summary.html:報(bào)告網(wǎng)頁(yè)(單細(xì)胞定量后的報(bào)告鼓蜒,包括檢測(cè)到的細(xì)胞數(shù)、基因數(shù)征字、UMI都弹、分群等等)
參考來(lái)源
http://www.reibang.com/p/0b32fe7a2859
https://mp.weixin.qq.com/s/xvXtgzWAFpw-b00HBUVMCg
THE END