對(duì)于我們的10x數(shù)據(jù)上游分析药有,主要靠cellranger
拆分bcl
安裝bcl2fastq
這是它的官網(wǎng):https://support.illumina.com/sequencing/sequencing_software/bcl2fastq-conversion-software.html
我們可以參照上面的安裝過(guò)程
我們一般下載這一個(gè)秃嗜,然后新建一個(gè)文件夾赔退,拖到自己的工作站上
那么在一個(gè)新的文件夾下
#新建build文件夾
mkdir build
#新建install文件夾
mkdir install
#解壓
unzip bcl2fastq2-v2-20-0-tar.zip
tar -xvzf bcl2fastq2-v2.20.0.422-Source.tar.gz
#進(jìn)入build文件夾
cd build
#配置
/...../bcl2fastq/src/configure --prefix=/home/username/.../bcl2fastq/install
#安裝(在build文件夾下)
make
make install
其中,build是你配置的文件夾强窖,install是你安裝的文件夾惋鸥,解壓后的bcl2fastq是存放源的文件夾
如果安裝過(guò)程出錯(cuò)了,那可能是有些依賴庫(kù)你的系統(tǒng)上沒(méi)有滓鸠,那么缺哪個(gè)就安裝哪個(gè)就可以了
如果嫌麻煩的同學(xué)可以利用conda安裝
conda install -c dranew bcl2fastq
然后添加到環(huán)境里即可
cellranger安裝(V3)
安裝地址:https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest
按照官網(wǎng)上安裝即可
解壓后,這里我偷了個(gè)懶第喳,把bin/bcl2fastq這個(gè)二進(jìn)制可執(zhí)行文件拷貝到了cellranger-3.1.0/cellranger-cs/3.1.0/bin/下
這樣就不用加到環(huán)境里面了
文件下載
下載測(cè)試的地址如上
作為測(cè)試糜俗,可以先下載bcl文件
wget http://cf.10xgenomics.com/supp/cell-exp/cellranger-tiny-bcl-1.2.0.tar.gz
tar zxvf cellranger-tiny-bcl-1.2.0
mv cellranger-tiny-bcl-1.2.0 tiny_bcl
接下來(lái)是csv文件
接著就可以拆分了
cellranger mkfastq --id=tiny-bcl \
--run=tiny_bcl \
--csv=cellranger-tiny-bcl-simple-1.2.0.csv
--id表示輸出文件路徑,
--run表示輸入文件路徑,
--csv即為你下載illumina公司的csv文件
輸出結(jié)果在tiny-bcl/out/fastq_path/下
整合參考基因
首先我們從Ensemble上下載對(duì)應(yīng)物種的gtf文件和fasta文件
#filter
cellranger mkgtf gtf filtered.gtf
--attribute=gene_biotype:protein_coding \
--attribute=gene_biotype:IG_LV_gene \
--attribute=gene_biotype:IG_V_gene \
--attribute=gene_biotype:IG_D_gene \
--attribute=gene_biotype:IG_J_gene \
--attribute=gene_biotype:IG_C_gene \
--attribute=gene_biotype:TR_V_gene \
--attribute=gene_biotype:TR_D_gene \
--attribute=gene_biotype:TR_J_gene \
--attribute=gene_biotype:TR_C_gene
cellranger mkgtf genomic.gtf genomic_coding.filtered.gtf
--attribute=gene_biotype:protein_coding
過(guò)濾的目的是除去一些假基因等一些在分析中沒(méi)有什么用的注釋悠抹,代碼中的gtf指的是過(guò)濾前的gtf文件珠月,filtered.gtf 指的是過(guò)濾后的gtf文件
建立索引
cellranger mkref
--genome=GRCz11_coding
--fasta=/.../GRCz11_genomic.fa
--genes=/.../genomic_coding.filtered.gtf
其中,
--genome是輸出的文件楔敌,
--fasta是你下載參考基因組文件啤挎,是以fa結(jié)尾的文件,
--genes是過(guò)濾的gtf文件
貌似我在操作中--genome這個(gè)參數(shù)加不了絕對(duì)路徑卵凑,不清楚是怎么回事
count計(jì)數(shù)
cellranger主要是利用STAR進(jìn)行比對(duì)庆聘,然后在分選計(jì)數(shù)
在這里千萬(wàn)注意文件的命名,這里對(duì)命名要求是真的嚴(yán)格
命名:
存放測(cè)序數(shù)據(jù)fastq文件的文件夾的命名一定要和測(cè)序數(shù)據(jù)的文件命名相同勺卢,比方說(shuō)
測(cè)序數(shù)據(jù)命名如上圖伙判,那么我們?nèi)S1前面的TES42來(lái)做該文件夾的命名,如下圖所示
cellranger count
--id=output_test
--transcriptome=/.../GRCz11_coding/
--fastqs=/.../TES42/
--sample=TES42
--force-cells=8000
其中:
--id是你輸出路徑文件夾值漫,
--transcriptome是你之前過(guò)濾的參考基因組文件夾澳腹,
--fastqs是測(cè)序文件路徑织盼,寫(xiě)到存放的文件夾即可杨何,
--sample要和你存放測(cè)序文件夾的文件名相同,
--force-cells是你的復(fù)現(xiàn)細(xì)胞數(shù)和實(shí)驗(yàn)設(shè)計(jì)有關(guān)
這是運(yùn)行完的文件:
那么我們的下游分析(monocle和Seurat)的輸入文件在哪里呢沥邻?
在out/filtered_feature_bc_matrix文件夾下
那么這三個(gè)就是下游分析的input:
參考:https://www.jieandze1314.com/post/cnposts/pre-learn-scrna-3/