劉小澤寫于18.9.29
上一次是理論知識和準備工作腾供,這次開始軟件安裝和測試
軟件安裝和檢測
cellranger這個軟件內容十分豐富,整合了大量的第三方工具,因此解壓需要一段時間,解壓完成后導入環(huán)境變量虱岂,按照官方要求,還要進行安裝檢測菠红,看一下安裝是否完整第岖;另外把下載的數據庫文件也解壓一下
cd /db/10X
tar -xzvf refdata-cellranger-ercc92-1.2.0.tar.gz
tar -xzvf refdata-cellranger-hg19-1.2.0.tar.gz
tar -xzvf refdata-cellranger-hg19-and-mm10-1.2.0.tar.gz
cd /opt
tar -xzvf cellranger-2.2.0.tar.gz
export PATH=/opt/cellranger-2.2.0:$PATH
cellranger testrun --id=tiny # 32核檢測大約8分鐘,檢查結束如下圖,會生成tiny/tiny.mri.tgz這樣的文件
cellranger主要包括:
# Usage:
cellranger mkfastq #將Illumina得到的原始BCL文件轉為FASTQ
cellranger count # 比對试溯、過濾蔑滓、條形碼和UMI計數
cellranger aggr # 針對多個樣本的情況,把count合并而且標準化成相同的測序深度之后遇绞,再計算gene-barcode矩陣
cellranger reanalyze #將count或者aggr得到的gene-barcode 矩陣進行降維键袱、聚類
# 10X Genomics的專屬算法和RNA測序比對軟件STAR結合,可以得到BAM摹闽、MEX蹄咖、CSV、HDF5付鹿、HTML的標準格式的結果
下載測序數據
cellranger要求fastq格式的數據澜汤,可以通過cellranger mkfastq轉換蚜迅、illumina的bcl2fastq轉換、已發(fā)布數據集俊抵、cellranger bamtofastq轉換得到
下載已有的數據集:https://support.10xgenomics.com/single-cell-gene-expression/datasets谁不,選擇小鼠1k Brain Cells from an E18 Mouse數據集,來自E18小鼠皮層徽诲、海馬區(qū)和腦室下區(qū)刹帕,結果檢測到了931個細胞
nohup wget http://cf.10xgenomics.com/samples/cell-exp/2.1.0/neurons_900/neurons_900_fastqs.tar &
# total 5.4G
37M Aug 25 2017 neurons_900_S1_L001_I1_001.fastq.gz
643M Aug 25 2017 neurons_900_S1_L001_R1_001.fastq.gz
1.8G Aug 25 2017 neurons_900_S1_L001_R2_001.fastq.gz
239M Aug 25 2017 neurons_900_S1_L002_I1_001.fastq.gz
646M Aug 25 2017 neurons_900_S1_L002_R1_001.fastq.gz
1.8G Aug 25 2017 neurons_900_S1_L002_R2_001.fastq.gz
文件的命名規(guī)則:[Sample Name]
S1_L00 [Lane Number]
[Read Type]
_001.fastq.gz。
比如這里sample name是neurons_900谎替,lane有兩個1和2偷溺,
Read type有三種:I1
Sample index read也就是cell-barcode;R1
read1((UMI) reads)院喜;R2
read2
與普通fastq文件相比亡蓉,單細胞RNASeq fastq文件包含條形碼和唯一分子標識符(UMI)的額外信息晕翠。從文件大小也能看出來喷舀,只有read2是轉錄本序列
cellranger count --id= mm_neurons \ #生成的文件都放在這個名字的目錄下(必選)
--fastqs=/project/scRNA-seq/10X/raw/neurons_900_fastqs \ #(必選)
--transcriptome=/db/10X/refdata-cellranger-mm10-1.2.0 \ #(必選)
--expect-cells=900 #(可選)期望得到的細胞數
--localcores 10 \ # CPU
如果數據包括許多sample,可以指定--sample=SMAPLENAME
淋肾,另外還可以指定lane的編號硫麻,如--lanes=1
運行成功會提示:
目錄 | 描述 |
---|---|
analysis | 降維PCA、聚類樊卓、差異分析(全是CSV矩陣) |
cloupe.cloupe | Loupe Cell Browser可視化及分析文件 |
filtered_gene_bc_matrices | 過濾后的gene-barcode矩陣(只包含MEX格式) |
filtered_gene_bc_matrices_h5.h5 | 過濾后的gene-barcode矩陣(HDF5格式) |
molecule_info.h5 | 使用cellranger aggr產生的信息拿愧,作用是把樣本組合成更大的數據集 |
possorted_genome_bam.bam | reads比對到帶有barcode注釋的基因組和轉錄組 |
possorted_genome_bam.bam.bai | bam的index信息 |
raw_gene_bc_matrices | 未過濾的gene-barcode矩陣 |
web_summary.html | 網頁版總結(下圖) |
Cellranger的一些知識
比對流程
- 基因組比對:使用STAR將reads比對到基因組的過程是考慮剪切位點的,然后cellranger將轉錄組注釋信息GTF分解成外顯子碌尔、內含子以及基因間的區(qū)域浇辜,并給出比對類型的顯著性。如果比對的位置與外顯子有超過50%的交叉唾戚,那么就認為它比對到了外顯子柳洋;如果不是外顯子并且和內含子有交叉,就認為是內含子叹坦,否則就是基因間區(qū)域
- MAPQ調整:
MapQ = -10 log10(P)
熊镣,比如結果為30,那就是1/1000的概率會出現這個比對結果募书。對于比對到一個外顯子位點但同時還比對到一或多個的非外顯子位點绪囱,優(yōu)先考慮比對到外顯子,MAPQ 255值為255時果斷認為read比對上了外顯子 - 比對轉錄組:比對上外顯子的read繼續(xù)與有注釋的轉錄本比對莹捡,尋找兼容性鬼吵。與轉錄組的外顯子匹配并且比對到同一條鏈上,就可以被認為比對到了轉錄組篮赢;如果只匹配一個基因的注釋而柑,那么它的比對是唯一的并且可信度高文捶。只有比對到轉錄組可信度高的reads才能用于UMI計數
了解下分子條形碼/標簽
分子條形碼又稱分子標簽(MolecularBarcode, 又稱UID Unique identifiers, UMI Unique molecularidentifiers)是對原始樣本基因組打斷后的每一個片段都加上一段特有的標簽序列,來區(qū)分同一樣本中成千上萬的不同的片段媒咳,在后續(xù)的數據分析中可以通過這些標簽序列來排除 DNA 聚合酶粹排、擴增以及測序過程中所引入的錯誤
一般UMI由大約10nt的隨機序列(如:NNNNNNNNN)或者簡并堿基(根據密碼子的兼并性,常用一個符號代替某兩個或者更多堿基,如NNNRNYN)涩澡。它和樣本標簽(sample barcode)不同顽耳,UMI是針對一個樣本的不同片段,而樣本標簽是為區(qū)分不同樣本 加上的標簽序列妙同。
一個樣本只能有一個相同的樣品標簽射富,但可以有成千上萬的分子條形碼
- 同一個樣本的 DNA 片段,每一個片段都接上一個特定的標簽序列粥帚;
- 隨目標序列一起經過文庫構建胰耗、PCR 擴增,然后被一同測序芒涡;
- 最終測序結果中柴灯,帶有不同UMI的序列,代表它們來自不同的原始 DNA 片段分子费尽;帶有相同UMI的序列赠群,表示它們是從同一條原始的 DNA 片段擴增而
設置UMI目的:PCR 和測序過程中的錯誤是隨機發(fā)生的,根據UMI可以去除冗余旱幼,降低低頻突變的假陽性率
歡迎關注我們的公眾號~_~
我們是兩個農轉生信的小碩查描,打造生信星球,想讓它成為一個不拽術語柏卤、通俗易懂的生信知識平臺冬三。需要幫助或提出意見請后臺留言或發(fā)送郵件到jieandze1314@gmail.com