隨著單細(xì)胞研究越來越多,基于Single-Cell Sequencing發(fā)表的文章也越來越多更振,涉及領(lǐng)域涵蓋了腫瘤、發(fā)育饭尝、神經(jīng)科學(xué)肯腕、免疫等。如何從龐大測序數(shù)據(jù)中獲得單個(gè)細(xì)胞的表達(dá)譜成為數(shù)據(jù)解析的關(guān)鍵點(diǎn)芋肠。CellRanger是10x genomic公司專為單細(xì)胞轉(zhuǎn)錄組分析提供的分析軟件乎芳,可實(shí)現(xiàn)從Illumina原始數(shù)據(jù)(BCL或fastq格式)到文庫拆分,細(xì)胞拆分及定量帖池,pca奈惑,聚類以及可視化(t-SNE和UMAP)結(jié)果。該軟件高度集成化睡汹,即使您不會寫代碼也可以快速掌握其用法肴甸,使單細(xì)胞研究簡單化。
1
10x單細(xì)胞標(biāo)記原理
在講軟件用法之前囚巴,先給大家回顧下10x單細(xì)胞標(biāo)記原理(詳細(xì)信息可查看:10X Genomics單細(xì)胞轉(zhuǎn)錄組技術(shù)流程和優(yōu)勢)原在,Gel bead(下左圖)由凝膠珠和磁珠上的一段引物構(gòu)成友扰,引物序列構(gòu)成依次為:全長Illumina TruSeq Read 1 測序引物、16nt 10X Barcode序列(每個(gè)Gel bead的10X Barcode均不相同庶柿,形成GEM后用于區(qū)分細(xì)胞)村怪、12 nt unique molecular identifier (UMI) (區(qū)分同一細(xì)胞的不同轉(zhuǎn)錄本并去除PCR Duplications,實(shí)現(xiàn)絕對定量)浮庐、30 nt poly dT反轉(zhuǎn)錄引物甚负。最終形成的文庫結(jié)構(gòu)為下圖:
Tips:對于V2試劑(如5’轉(zhuǎn)錄組),10x Barcode-16nt审残,UMI-10nt(比V3試劑少2nt)梭域,10x Barcode+UMI=26nt
2
Cell Ranger軟件下載與安裝
1)該軟件的官方下載網(wǎng)址:
https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest 目前該軟件更新至3.1.0版本(2019-7-24),下載完成后(提醒:需要注冊并登陸才能下載)搅轿,直接解壓即可使用病涨,無需安裝,方便快捷璧坟。
2)對應(yīng)庫文件的下載
官方已經(jīng)提供了用于cellranger分析的了人(Human reference (GRCh38)及Human reference (hg19))既穆,小鼠(Mouse)及Human (hg19) and mouse 的reference。如果您的樣本來自這兩個(gè)物種建議直接下載用于后續(xù)的分析雀鹃,下載路徑同上循衰。如果您研究的對象不是人和小鼠,不用擔(dān)心褐澎,cellranger也有專門用于構(gòu)建reference的指令会钝。具體指令如下:
正常的輸出文件結(jié)構(gòu)如下:
Tips:如果您的基因組比較大,運(yùn)行該代碼時(shí)可能會報(bào)內(nèi)存的錯誤工三,添加參數(shù)--memgb進(jìn)行調(diào)整迁酸,該參數(shù)默認(rèn)16 (GB)。對于超大基因組(如小麥)俭正,染色體長度超過512M的基因組需要進(jìn)行拆分奸鬓,否則后續(xù)cellranger分析無法進(jìn)行下去。
3
Cell Ranger分析pipeline
cellranger mkfastq文庫拆分
Cell Ranger封裝了bcl2fastq軟件掸读,可以基于Illumina下機(jī)的原始數(shù)據(jù)(BCL格式)進(jìn)行數(shù)據(jù)拆分却邓,得到fastq數(shù)據(jù)薄料。一般情況下,GEO數(shù)據(jù)庫下載的數(shù)據(jù)或公司提供的數(shù)據(jù)基本上都是拆分后的fastq,因此這步可以不用運(yùn)行胰默。該模塊的原理及使用方法如下:
--id 由mkfastq創(chuàng)建的文件夾的名稱
--run Illumina BCL run文件夾路徑
--csv 包含lane夸政,sample和index的文件练慕,格式如下:
輸出文件結(jié)果如下:
Tips:由于10x測序數(shù)據(jù)量龐大贴浙,為了保證讀取的準(zhǔn)確性,每個(gè)10x sample_Index包含4個(gè)8堿基的引物(其中每個(gè)堿基位置上均包含了ATCG堿基)铛铁,樣本對應(yīng)的Index需仔細(xì)核對隔显。
cellranger count細(xì)胞及基因定量聚類等分析
count是cellranger軟件最重要核心的部分却妨,可以完成細(xì)胞鑒定,基因組比對括眠,基因定量彪标,細(xì)胞降維,聚類掷豺,差異分析等功能捐下。
--id 輸出結(jié)果文件夾
--tranome reference 所在文件夾
--fastqs 樣本對應(yīng)測序fastq 所在文件夾
--sample 樣本名,即mkfastq輸出的樣本名
Tips:--id參數(shù)不能寫絕對路徑萌业,因此如果需要輸出到指定路徑下,需要先通過cd到輸出結(jié)果路徑奸柬,fastq對應(yīng)的數(shù)據(jù)格式應(yīng)為:subject1_S1_L001_R1_001.fastq.gz生年,設(shè)置--sample=subject1,除這些參數(shù)外廓奕,還可以設(shè)置線程數(shù)和內(nèi)存以及reads長度抱婉,預(yù)計(jì)細(xì)胞數(shù),強(qiáng)制細(xì)胞數(shù)等參數(shù)桌粉,其他參數(shù)可在官方網(wǎng)站查看學(xué)習(xí)
輸出文件結(jié)果如下:
結(jié)果文件說明:
metrics_summary.csv 匯總指標(biāo)csv格式蒸绩,表格信息來自html中的summary部分
possorted_genome_bam.bam reads 比對基因組bam文件
filtered_feature_bc_matrix 過濾后的細(xì)胞和基因及對應(yīng)的定量信息
raw_feature_bc_matrix 原始的細(xì)胞和基因及對應(yīng)的定量信息
Analysis tsne,差異分析等二級分析相應(yīng)的輸出結(jié)果
molecule_info.h5 多樣本整合aggr分析輸入文件
cloupe.cloupe 配套軟件Loupe Cell Browser 輸入文件
Tips:cellranger count并不能對一些低質(zhì)量的細(xì)胞(比如線粒體表達(dá)高處于凋亡的細(xì)胞)以及可能包含多個(gè)細(xì)胞的結(jié)果進(jìn)行過濾铃肯。
cellranger aggr GEM文庫整合
當(dāng)實(shí)驗(yàn)中用到了多個(gè)GEM well患亿,需要整合分析時(shí),選擇該分析押逼,該分析是基于單個(gè)樣本cellranger count分析得到的molecule_info.h5步藕,進(jìn)一步整合分析的。分析得到的結(jié)果結(jié)構(gòu)與cellranger count結(jié)果結(jié)構(gòu)基本一致挑格,這里不再詳細(xì)介紹咙冗。
--id 輸出結(jié)果文件夾
--csv 樣本對應(yīng)cellranger count輸出結(jié)果文件,格式如下:
Tips:如果需要整合的樣本中既有用v2試劑又有用v3試劑的漂彤,在第三列加入相應(yīng)樣本對應(yīng)的試劑信息雾消,如果只用了一種試劑,只保留前兩列的信息即可挫望。
cellranger reanalyze
相比于count和aggr立润,reanalyze接受更多的可選的參數(shù),更進(jìn)一步分析媳板,相應(yīng)的分析指令及參數(shù)請參考:https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/reanalyze
一文輕松玩轉(zhuǎn)10X單細(xì)胞轉(zhuǎn)錄組官方分析軟件CellRange | 單細(xì)胞專題_fastq (sohu.com)