10× Genomics提供了完整的數(shù)據(jù)分析方案肪笋,單細(xì)胞數(shù)據(jù)轉(zhuǎn)錄組分析類似友绝,VDJ數(shù)據(jù)也使用CellRanger軟件進(jìn)行分析键畴,在使用之前盈罐,我們先了解其工作原理如何識(shí)別和矯正數(shù)據(jù)扮念∷鸢幔基礎(chǔ)知識(shí)見單細(xì)胞免疫組庫VDJ——基礎(chǔ)知識(shí)(一)。
一柜与、10X cellranger VDJ pipeline工作原理:
1巧勤、對(duì)barcode和umi進(jìn)行校正
barcode是已知序列,當(dāng)有一個(gè)堿基匹配不上弄匕,如果此片段是低質(zhì)量的測(cè)序颅悉,那么就校正為已知的barcode。同樣對(duì)UMI的校正類似迁匠,當(dāng)有多個(gè)count的UMI序列中出現(xiàn)有一條reads有一個(gè)錯(cuò)配時(shí)剩瓶,就進(jìn)行校正秕脓。2、tirm reads
去掉已知的adapter和引物3儒搭、組裝
4吠架、注釋
關(guān)鍵在于CDR3序列注釋,TCR的α鏈和BCR的輕鏈中CDR3一般位于V搂鲫、J區(qū)段間傍药,TCR的β鏈和BCR的重鏈,CDR3一般位于V魂仍、D拐辽、J基因片段。另外:CDR3必須起始于C氨基酸擦酌,整體長(zhǎng)度大約5-27個(gè)氨基酸俱诸,并且沒有終止密碼子。有時(shí)候不止找到一個(gè)CDR3區(qū)間赊舶,此時(shí)將得分最高的最為CDR3區(qū)域睁搭。5、過濾
6笼平、call cells
區(qū)分barcode是來自真實(shí)細(xì)胞园骆,還是來自背景包括的核酸7、將細(xì)胞barcode分組生成不同克隆型(指一組含有相同成對(duì)的免疫細(xì)胞寓调,來源于共同的祖細(xì)胞)
二锌唾、CellRanger分析操作
cd /data/Analysis/Cellranger
/data/softwares/cellranger-6.1.2/bin/cellranger vdj --id=sample_name \
--reference=/data/pipeline/10X_VDJ/database/ref/GRCh38 \
--fastqs=/data/Analysis/VDJ/rawdata \
--sample=sample_name \
--localcores=8 \
--localmem=64
--id 此分析項(xiàng)目名稱,cellranger會(huì)生成以此命名的文件夾
--reference 參考基因組夺英,人和小鼠的可在10X官網(wǎng)下載晌涕,其余物種可通過cellranger自行構(gòu)建
--fastqs 原始數(shù)據(jù)的路徑
--sample 原始數(shù)據(jù)文件名稱的前綴
--localcore和--localmem參數(shù)是計(jì)算資源的設(shè)置,根據(jù)實(shí)際情況設(shè)置
三痛悯、CellRanger輸出的結(jié)果
cellranger會(huì)產(chǎn)生很多文件余黎,重要的結(jié)果都存放在在以id命名的文件夾中的outs文件夾里。這部分內(nèi)容較多灸蟆,會(huì)單獨(dú)記錄驯耻。四亲族、mult pipeline聯(lián)合分析
mult部分可以直接一起分析轉(zhuǎn)錄組和VDJ數(shù)據(jù)炒考,見官網(wǎng)。
轉(zhuǎn)錄組和VDJ的區(qū)別:當(dāng)轉(zhuǎn)錄組數(shù)據(jù)遠(yuǎn)遠(yuǎn)大于VDJ發(fā)現(xiàn)的細(xì)胞數(shù)的情況霎迫,一般長(zhǎng)出現(xiàn)在TCR中斋枢,是由于TCR的基因表達(dá)量過低,將真實(shí)的TCR細(xì)胞過濾掉知给,無法識(shí)別瓤帚,新版的的試劑提高了TCR的識(shí)別描姚。當(dāng)VDJ的細(xì)胞數(shù)遠(yuǎn)遠(yuǎn)大于轉(zhuǎn)錄組,一般出現(xiàn)在BCR的數(shù)據(jù)分析中戈次,BCR基因表達(dá)量相對(duì)高轩勘,或者把背景RNA的當(dāng)初真實(shí)BCR,新pipeline有效降低了假陽性的結(jié)果
參考:
10x Software Downloads
Understanding V(D)J Output
Web Summary