Cell Ranger
Cell Ranger是用于10x單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)處理一套Linux工具集叹谁,包含數(shù)據(jù)比對(duì)攀细,生成表達(dá)矩陣胶惰,聚類分析和圖形可視化等多個(gè)功能鹉戚。一般用cell ranger進(jìn)行上游分析垫桂。
官網(wǎng):https://www.10xgenomics.com/support/software/cell-ranger/latest
由于測(cè)序儀器的測(cè)序能力遠(yuǎn)大于測(cè)試樣本序列量师幕,為避免儀器浪費(fèi),因此一個(gè)lane同時(shí)測(cè)定多個(gè)樣品成為很自然的思路诬滩。然而為了區(qū)分多種樣品的序列霹粥,就必須要給不同樣品加上特定的“標(biāo)簽”,從而可以在后續(xù)數(shù)據(jù)分析時(shí)將不同樣品數(shù)據(jù)分開疼鸟,而這個(gè)“標(biāo)簽”就是barcode后控。10xBarcode是一段16nt的核苷酸序列(序列空間350萬),在每一個(gè)Gel Beads中的Barcode序列都是一致的空镜,在后面Barcode與細(xì)胞融合形成水凝珠之后浩淘,可以保證一個(gè)細(xì)胞的所有基因序列都帶著相同的Barcode序列捌朴,也就可以認(rèn)定這些序列來自同一個(gè)細(xì)胞。所以我們通常說Barcode序列是用來標(biāo)記細(xì)胞的张抄。Cellranger主要就是用于區(qū)分barcode的識(shí)別與所連reads的定量砂蔽。
UMI(unique molecular identifier分子標(biāo)簽)
UMI是一段12nt的核苷酸序列(序列空間100萬),但與Barcode序列不同的是署惯,一個(gè)Gel Beads中UMI序列是不同的察皇。UMI序列的空間很大,遠(yuǎn)多于需要檢測(cè)的原始細(xì)胞的mRNA數(shù)量泽台,(即使一種mRNA有多條什荣,也是達(dá)不到UMI的序列空間的)。所以每一條mRNA都會(huì)帶上一個(gè)獨(dú)特的UMI怀酷。UMI的最大作用是去重和絕對(duì)定量稻爬。
可以這樣理解:barcode是每個(gè)凝膠微珠的身份證號(hào)碼;UMI是每個(gè)DNA標(biāo)簽分子的身份證號(hào)碼
軟件下載
mkdir cellranger #在目標(biāo)路徑下新建文件夾cd cellranger#下載軟件wget -O cellranger-8.0.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-8.0.0.tar.gz?Expires=1714073771&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA&Signature=CHmp~VHwcV2qCWGIk-wiR-LIT2FVFVny09DXCrksxPRGxI8llh6N87Z2kd4RQin5TH57AlpIjfh5iMdDw54pB3u7oMzANtgdQLd1AUA8FlPzikAvW6Kv02yCwvlpiGnFUwzYnr3aJuATgdgOJLT6RGJumRGt2PQVim45u1jkJ~DeahmRIuntllk8QJ4sOIHqAPvYoPTQ47NN5HXlqMIbw1K8-W7SHMTIXJ4PDudwblqf6xCJltxcLob1P2vD9nwutSsJrdvyaEblv1ZjPGFg5fXkw0Yk8H0He4MRGdhxDTLRgP2~Svneje4yglVQCu~Xe5Yd-UybpW6mhHiTx0GFdg__"#解壓tar -zxvf cellranger-8.0.0.tar.gz#添加環(huán)境量export PATH=./path/cellranger/cellranger-8.0.0:$PATH#進(jìn)入cellrangercellranger
成功后返回如下:
常用命令-mkgtf&mkref 建立索引文件
GTF文件(共9列):是對(duì)基因組進(jìn)行注釋的
mkgtf:Raw gtf—mkgtf—filtered gtf蜕依,從網(wǎng)上下載的GTF文件幾乎包含所有基因桅锄,可以利用此命令將不需要的信息過濾掉。
常用命令-mkfastq 格式轉(zhuǎn)換
可以用cellranger mkfastq
將BCL格式文件轉(zhuǎn)換為fastq文件样眠。
BCL:測(cè)序儀得到的初始格式(測(cè)序公司才用的到友瘤,普通用戶用不到)。
注意:在定量之前檐束,必須先將格式按照要求修改辫秧,cell range對(duì)格式要求嚴(yán)格,正確格式如下:
[Sample Name]_S1_L00[Lane Number]_[Read Type]_001.fastq.gzRead Type:T1:Sample index read(optional)T2:Sample index read(optional)R1:Read1R2:Read2eg:Test_S1_L001_R1_001.fastq.gzTest_S1_L001_R2_001.fastq.gz
常用命令-count:對(duì)原始數(shù)據(jù)進(jìn)行比對(duì)定量被丧,最后得到基因-細(xì)胞的表達(dá)矩陣
語法:
cellranger count--id #輸出目錄名 --transcriptome #基因組索引文件路徑 --fastqs #FASTQ數(shù)據(jù)存放路徑 --sample #需要運(yùn)行的樣本名稱 --include-introns #定量時(shí)是否包含內(nèi)含子(7.0版本默認(rèn)為True) #下面非必選項(xiàng) --lanes #指定lane編號(hào) --no-bam #不輸出Bam文件 --nosecondary #不進(jìn)行下游分析(僅定量) --ocalcores #指定最大核心數(shù) --localmem #指定最大內(nèi)存(GB)
例如:
cellranger count--id sample_test --transcriptome /home/wangyan/cellranger/refdata-gex-GRCh38-2020-A --fastqs /home/wangyan/cellranger/sample_fastqs --sample Sample_1 --include-introns false
如果運(yùn)行成功會(huì)出現(xiàn)以下這串代碼:
輸出的文件包括以下內(nèi)容:
其中的reanalyze input文件可以用于下游的Seurat分析盟戏。
如果在前面的命令中設(shè)置了--nosecondary fasle
,則cellranger不進(jìn)行進(jìn)一步下游分析: