在單細胞測序的軌跡推斷中慷暂,我們介紹了RNA速率分析的原理俏扩,進行速率分析的前提就是需要得到未剪切的 (unspliced) 和剪切的 (spliced) mRNA信息营罢。
這個文件需要我們從fastq文件開始肪凛,與基因組比對的到sam文件劳景,從sam文件轉(zhuǎn)成bam配紫,再從bam中提取上面的消息视搏,得到.loom
為后綴的文件审孽。(參考:生物信息學常見數(shù)據(jù)格式)
loom文件的生成需要使用velocyto。針對不同的測序平臺浑娜,velocyto有不同的方法進行l(wèi)oom文件的提取佑力,參考官網(wǎng):http://velocyto.org/velocyto.py/tutorial/cli.html#run-smartseq2-run-on-smartseq2-samples
- 安裝velocyto
## 1. 創(chuàng)建python>3.6的環(huán)境
conda create -n velocyto python=3.6
## 2. 安裝前置軟件
conda install numpy scipy cython numba matplotlib scikit-learn h5py click
pip install pysam
## 3. 安裝velocyto
pip install velocyto
## 4. 測試
velocyto --help
Usage: velocyto [OPTIONS] COMMAND [ARGS]...
Options:
--version Show the version and exit.
--help Show this message and exit.
Commands:
run Runs the velocity analysis outputting a loom file
run10x Runs the velocity analysis for a Chromium Sample
run-dropest Runs the velocity analysis on DropEst preprocessed data
run-smartseq2 Runs the velocity analysis on SmartSeq2 data (independent bam file per cell)
tools helper tools for velocyto
repeat_masker.gtf生成
運行velocyto需要準備三個文件,單細胞數(shù)據(jù)分析的結(jié)果文件棚愤,基因組注釋文件搓萧,重復序列注釋文件,其中前兩個在單細胞分析時就會得到宛畦,關(guān)鍵是repeat_masker.gtf的生成loom文件生成
接下來是生成loom文件瘸洛,運行velocyto需要準備三個文件,基因組注釋文件(gtf)次和,repeat_masker.gtf(重復序列注釋文件)反肋,cellranger的結(jié)果文件夾(以樣本名WT_1為例,里面包含cell matrix和bam文件)