安裝
conda安裝
conda install -c milaboratories mixcr
普通安裝
在Mac OS X上使用Homebrew或者在Linux系統(tǒng)上使用linuxbrew安裝
brew install milaboratory/all/mixcr
將已經(jīng)安裝的MiXCR更新到最新版本
brew update
brew upgrade mixcr
手動安裝
- 在release page下載最新版穩(wěn)定編譯的MiXCR
- 解開壓縮包
- 將解壓縮生成的文件夾添加到環(huán)境變量中
- 添加mixcr腳本的符號鏈接到bin文件夾
- 或者在執(zhí)行腳本中指定MiXCR的全路徑來直接使用
快速使用
綜述
典型的MiXCR工作流程主要由三個部分構(gòu)成:
- align:將測序結(jié)果比對到T細(xì)胞或B細(xì)胞受體的V、D、J铅搓、C基因參考序列上
- assemble:利用前一步驟獲得的比對結(jié)果拼接clonotypes(為了提取特定的基因區(qū)域信息次企,比如CDR3)
- export:輸出比對結(jié)果(exportAlignments模塊)或者clones信息(exportClones模塊)昧廷,生成可讀文件
MiXCR的assemble模塊有幾種不同的拼接方法可以選擇:
- assembleContigs:拼接完整的TCR或者IG受體clonotype序列
- 對于RNA-Seq or non-targeted DNA data, 工作流程可能包括以下兩部分:
- assemblePartial:將有重疊區(qū)域的序列片段拼接成相對較長的包含CDR3區(qū)域的contigs
- extend: 估算測序和比對質(zhì)量較好但長度較短的TCR比對序列的germline序列
為了簡化輸入命令被碗,MiXCR提供了analyze命令模塊奏属,打包了整個分析流程
MiXCR支持一下若干種數(shù)據(jù)類型:fasta伶丐,fastq悼做,fastq.gz,paired-end fastq和fastq.gz哗魂。作為每一步驟的輸出結(jié)果肛走,MiXCR生成包含各種信息的二進(jìn)制壓縮文件(比對生成alignments,拼接生成clones)录别。利用exportAlignments和exportClones命令模塊朽色,每一個二進(jìn)制文件都可以轉(zhuǎn)化成tab分割的可讀文本文件故硅。
實例
默認(rèn)流程 / multiplex-PCR
利用analyze amplicon命令分析multiplex-PCR擴增的TCR/BCR基因DNA片段
mixcr analyze amplicon --species hs --starting-material dna --5-end v-primers --3-end j-primers --adapters adapters-present --receptor-type IGH input_R1.fastq input_R2.fastq analysis
只有一個參數(shù)修改為非默認(rèn)值(--receptor-type IGH),這個參數(shù)的改變可以讓MiXCR 調(diào)用針對B細(xì)胞優(yōu)化的比對模塊并且只輸出IGH序列纵搁。其實這個參數(shù)是可以缺省的吃衅,缺省狀態(tài)下MiXCR會調(diào)用默認(rèn)的比對模塊并輸出樣本中所有的TCR/BCR序列。
生成的文件(analysis.clonotypes.IGH.txt)是一個tab分隔的表格腾誉,包含CDR3序列拼接的所有clonotypes(克隆豐度徘层,CDR3序列, VDJ基因等)利职。
詳細(xì)流程
利用analyze amplicon模塊與執(zhí)行下面的命令是等價的
> mixcr align -s hs -p kAligner2 input_R1.fastq input_R2.fastq alignments.vdjca
... Building alignments
> mixcr assemble alignments.vdjca clones.clns
... Assembling clones
> mixcr exportClones --chains IGH clones.clns clones.txt
... Exporting clones to tab-delimited file
基于5’RACE擴增實驗的數(shù)據(jù)分析
考慮基于5’RACE(一個read覆蓋CDR3區(qū)域和臨近序列趣效,另一個read覆蓋V基因的5’UTR和下游序列)實驗準(zhǔn)備的IGH基因cDNA文庫雙端測序的數(shù)據(jù)處理流程,全部分析流程可以通過analyze amplicon命令實現(xiàn)
> mixcr analyze amplicon --species hs --starting-material rna --5-end v-primers --3-end j-primers --adapters adapters-present input_R1.fastq input_R2.fastq analysis
結(jié)果文件(analysis.clonotypes.<chains>.txt)包含詳細(xì)的clonotypes信息猪贪。
詳細(xì)流程
利用analyze amplicon模塊將執(zhí)行下面的流程:
- Align 把原始序列比對到IGH基因的VDJ基因序列片段上
> mixcr align -s hs -OvParameters.geneFeatureToAlign=VTranscript --report analysis.report input_R1.fastq input_R2.fastq analysis.vdjca
用來比對V基因的非默認(rèn)基因特征(-OvParameters.geneFeatureToAlign=VTranscript)同時利用了兩個reads的信息跷敬,為了讓MiXCR利用CDR3反向read比對V基因的5’UTRS和部分5’端編碼區(qū)域。MiXCR還會生成report文件(通過可選參數(shù)--report指定)热押,其中包含的具體運行統(tǒng)計信息如下
Analysis Date: Mon Aug 25 15:22:39 MSK 2014
Input file(s): input_r1.fastq,input_r2.fastq
Output file: alignments.vdjca
Command line arguments: align --report alignmentReport.log input_r1.fastq input_r2.fastq alignments.vdjca
Total sequencing reads: 323248
Successfully aligned reads: 210360
Successfully aligned, percent: 65.08%
Alignment failed because of absence of V hits: 4.26%
Alignment failed because of absence of J hits: 30.19%
Alignment failed because of low total score: 0.48%
可以利用exportAlignments命令將比對生成的二進(jìn)制結(jié)果(analysis.vdjca)轉(zhuǎn)化為可讀的文本文件西傀。
- Assemble 拼接clonotypes
> mixcr assemble --report analysis.report analysis.vdjca -a analysis.clna
這一步驟會校正PCR和測序錯誤并建立clonotypes,默認(rèn)情況下clonotypes會拼接CDR3序列桶癣;可以通過設(shè)置assemble模塊的參數(shù)來制定其他的基因區(qū)域(參考assemble documentation)拥褂,可選的report文件analysis.report包含各種調(diào)試信息
Analysis Date: Mon Aug 25 15:29:51 MSK 2014
Input file(s): alignments.vdjca
Output file: clones.clns
Command line arguments: assemble --report assembleReport.log alignments.vdjca clones.clns
Final clonotype count: 11195
Total reads used in clonotypes: 171029
Reads used, percent of total: 52.89%
Reads used as core, percent of used: 92.04%
Mapped low quality reads, percent of used: 7.96%
Reads clustered in PCR error correction, percent of used: 0.04%
Clonotypes eliminated by PCR error correction: 72
Percent of reads dropped due to the lack of clonal sequence: 2.34%
Percent of reads dropped due to low quality: 3.96%
Percent of reads dropped due to failed mapping: 5.87%
- Export 將包含clones列表的二進(jìn)制文件(analysis.clna)導(dǎo)出為可讀的文本文件
> mixcr exportClones --chains TRA analysis.clna analysis.clonotypes.TRA.txt
> mixcr exportClones --chains TRB analysis.clna analysis.clonotypes.TRB.txt
> ...
導(dǎo)出的clones信息如下表所示
Clone count | Clone fraction | … | V hits | J hits | seq. CDR3 | AA. seq. CDR3 | … |
---|---|---|---|---|---|---|---|
4369 | 2.9E-3 | … | IGHV4-39*00(1388) | IGHJ6 *00(131) | TGTGTGAG… | CVRHKPM… | … |
3477 | 2.5E-3 | … | IGHV4-34*00(1944) | IGHJ4 *00(153) | TGTGCGAT… | CAIWDVGL… | … |
… | … | … | … | … | … | … | … |
導(dǎo)出的各種選項詳見export文檔,上述的所有步驟都可以根據(jù)特定研究的分析流程進(jìn)行個性化設(shè)置牙寞。
高質(zhì)量全長IG免疫組庫分析
對于基于cDNA全長的IG免疫組庫分析饺鹃,我們一般推薦UMI標(biāo)簽制備文庫并使用非對稱雙端測序350 bp + 100 bp Illumina MiSeq測序方法(詳情參考Nature Protocols paper)。這種方法可以獲得長片段高質(zhì)量測序結(jié)果间雀,而且可以利用MiGEC software有效去除PCR和測序錯誤悔详。獲得的高質(zhì)量數(shù)據(jù)可以進(jìn)一步利用MiXCR處理,以提取全長IGH或IGL組庫惹挟。
全部分析流程可以使用analyze amplicon命令
> mixcr analyze amplicon --species hs --starting-material rna --5-end v-primers --3-end j-primers --adapters adapters-present --receptor-type BCR --region-of-interest VDJRegion --only-productive --align "-OreadsLayout=Collinear" --assemble "-OseparateByC=true" --assemble "-OqualityAggregationType=Average" --assemble "-OclusteringFilter.specificMutationProbability=1E-5" --assemble "-OmaxBadPointsPercent=0" input_R1.fastq input_R2.fastq analysis
這一步驟會生成以下結(jié)果文件(analysis.clonotypes.IGH.txt茄螃,analysis.clonotypes.IGK.txt和analysis.clonotypes.IGL.txt),其中包括詳細(xì)的clonotypes信息匪煌。這里我們要強調(diào)幾個可選參數(shù):
- --receptor-type BCR 需要MiXCR調(diào)用B細(xì)胞優(yōu)化的比對模塊(等同于對align模塊使用-p kAligner2參數(shù))并且只輸出IG序列责蝠。
- region-of-interest VDJRegion 對assemble模塊使用-OassemblingFeatures=VDJRegion參數(shù)
- --only-production 在export輸出的clonotypes中過濾掉out-of-frame和stop codon
- --align <option> 在align過程中設(shè)置其他的參數(shù)
- --assemble <option> 在assemble過程中設(shè)置其他參數(shù)
詳細(xì)流程
使用analyze amplicon命令等同于執(zhí)行下面的MiXCR步驟
> mixcr align -p kaligner2 -s hs -r alignmentReport.txt -OreadsLayout=Collinear -OvParameters.geneFeatureToAlign=VTranscript read_R1.fastq.gz read_R2.fastq.gz alignments.vdjca
選項-s用來指定物種(e.g. homo sapiens - hsa, mus musculus - mmu)萎庭,參數(shù)-OreadsLayout 用來設(shè)定reads方向(Collinear, Opposite, Unknown)。這里需要注意的是齿拂,經(jīng)過MiGEC分析的雙端reads方向是Collinear驳规。
除了KAligner2,也可以使用默認(rèn)的MiXCR比對模塊署海,只是也許會忽略一些亞變異類型吗购,這些變異類型是由V基因片段的若干核苷酸插入形成的医男。
- Assemble拼接clones
> mixcr assemble -r assembleReport.txt -OassemblingFeatures=VDJRegion -OseparateByC=true -OqualityAggregationType=Average -OclusteringFilter.specificMutationProbability=1E-5 -OmaxBadPointsPercent=0 alignments.vdjca clones.clns
-OseparateByC=true 把clones按照不同的抗體亞型分類
-OcloneClusteringParameters=null 關(guān)閉基于頻率的PCR錯誤校正
根據(jù)數(shù)據(jù)質(zhì)量,可以通過設(shè)置-ObadQualityThreshold參數(shù)來調(diào)節(jié)輸入數(shù)據(jù)的閾值來優(yōu)化clonotypes的提取捻勉。
- Export輸出clones結(jié)果
> mixcr exportClones -c IGH -o -t clones.clns clones.txt
選項-o和-t用于過濾包含out-of-frame和stop codon的clonotypes镀梭,-c指定哪條鏈的數(shù)據(jù)應(yīng)該被提取(e.g. IGH, IGL)踱启。
RNA-Seq數(shù)據(jù)分析
MiXCR可以用于提取RNA-Seq數(shù)據(jù)中TCR和BCR的CDR3組庫报账,提取效率取決于樣本紅T/B細(xì)胞的豐度和測序長度。推薦2x150bp或者2x100bp的雙端測序方法埠偿。不過在雙端2x50bp的RNA-Seq數(shù)據(jù)(比如腫瘤樣本中)透罢,主要clonotypes信息也可以被提取。
單一analyze shotgun命令可以完成分析
> mixcr analyze shotgun --species hs --starting-material rna --only-productive input_R1.fastq input_R2.fastq analysis
生成的結(jié)果文件(analysis.clonotypes.TRA.txt, analysis.clonotypes.IGH.txt等)包含clonotypes的詳細(xì)信息冠蒋。
詳細(xì)流程
- Align 比對reads
> mixcr align -s hs -p rna-seq -OallowPartialAlignments=true data_R1.fastq.gz data_R2.fastq.gz alignments.vdjca
所有mixcr align的參數(shù)都可以在這里使用(比如-s來指定物種):
-OallowPartialAlignments=true選項保留部分比對結(jié)果用于后續(xù)的assemblePartial模塊
- Assemble parial reads拼接部分reads
> mixcr assemblePartial alignments.vdjca alignmentsRescued.vdjca
為了獲得包含CDR3全長序列的拼接reads羽圃,建議使用迭代mixcr的assemblePartial模塊多次迭代拼接結(jié)果。多次迭代需要-p參數(shù)抖剿,根據(jù)我們的經(jīng)驗朽寞,兩次迭代后結(jié)果最優(yōu)
> mixcr assemblePartial alignments.vdjca alignmentsRescued_1.vdjca
> mixcr assemblePartial alignmentsRescued_1.vdjca alignmentsRescued_2.vdjca
- 利用已有V和J基因延長TCR比對結(jié)果,基于germline序列不全覆蓋度不完全的CDR3s
> mixcr extendAlignments alignmentsRescued_2.vdjca alignmentsRescued_2_extended.vdjca
- Assemble拼接clones
> mixcr assemble alignmentsRescued_2_extended.vdjca clones.clns
所有mixcr assemble的參數(shù)都可以在這里使用:
- 對于低質(zhì)量數(shù)據(jù)斩郎,建議降低輸入質(zhì)量閾值(e.g. -ObadQualityThreshold=15)
- 為了克隆豐度與錯誤校正算法相結(jié)合愁憔,增加下面的選項:-OaddReadsCountOnClustering=true
- Exporting導(dǎo)出clones
> mixcr exportClones -c TRA -o -t clones.clns clones.txt
可以指定導(dǎo)出感興趣的免疫受體鏈(-c TRA 或者 -c TRB等),也可以去除包含out-of-frame(選項-o)和stop codon的突變體(選項-t)孽拷。
參數(shù)解讀
模塊名稱 | 模塊功能 |
---|---|
analyze | 對指定輸入文件執(zhí)行MiXCR整套分析流程 |
align | 對輸入測序reads生成V/D/J/C基因比對序列 |
assemble | 拼接clones |
assembleContigs | 拼接全長序列 |
assemblePartial | 拼接部分比對reads 生成更長的序列 |
extend | 用germline序列預(yù)測比對序列或clones |
exportAlignments | 將V/D/J/C比對結(jié)果導(dǎo)出為tab分隔文件 |
exportAlignmentsPretty | 導(dǎo)出比對結(jié)果的詳細(xì)信息 |
exportClones | 將拼接的clones導(dǎo)出為tab分隔文件 |
exportClonesPretty | 導(dǎo)出clones的詳細(xì)信息 |
exportReadsForClones | 從clones&比對結(jié)果(*.clna)中導(dǎo)出特定clone的reads吨掌,如果沒有指定clone,所有對應(yīng)的reads都會被導(dǎo)出 |
exportAlignmentsForClones | 從clones&比對結(jié)果(*.clna)中導(dǎo)出特定clone的比對結(jié)果 |
exportReads | 從vdjca文件導(dǎo)出原始reads |
mergeAlignments | 將若干*.vdjca文件合并為一個比對文件 |
filterAlignments | 過濾比對結(jié)果 |
sortAlignments | 根據(jù)read ID排序vdjca文件中的比對結(jié)果 |
alignmentsDiff | 計算兩個vdjca文件的差異 |
clonesDiff | 計算兩個clns文件的差異 |
slice | 分割clna文件 |
結(jié)果解讀
輸出文件包含內(nèi)容
輸出表頭 | 注釋內(nèi)容 |
---|---|
cloneId | clone識別號碼 |
cloneCount | clone數(shù)量 |
cloneFraction | clone比例 |
targetSequences | 目標(biāo)序列 |
targetQualities | 目標(biāo)質(zhì)量 |
allVHitsWithScore | 所有V基因命中和評分 |
allDHitsWithScore | 所有D基因命中和評分 |
allJHitsWithScore | 所有J基因命中和評分 |
allCHitsWithScore | 所有C基因命中和評分 |
allVAlignments | 所有V基因比對結(jié)果 |
allDAlignments | 所有D基因比對結(jié)果 |
allJAlignments | 所有J基因比對結(jié)果 |
allCAlignments | 所有C基因比對結(jié)果 |
nSeqFR1 | FR1核苷酸序列 |
minQualFR1 | FR1最小質(zhì)量 |
nSeqCDR1 | CDR1核苷酸序列 |
minQualCDR1 | CDR1最小質(zhì)量 |
nSeqFR2 | FR2核苷酸序列 |
minQualFR2 | FR2最小質(zhì)量 |
nSeqCDR2 | CDR2核苷酸序列 |
minQualCDR2 | CDR2最小質(zhì)量 |
nSeqFR3 | FR3核苷酸序列 |
minQualFR3 | FR3最小質(zhì)量 |
nSeqCDR3 | CDR3核苷酸序列 |
minQualCDR3 | CDR3最小質(zhì)量 |
nSeqFR4 | FR4核苷酸序列 |
minQualFR4 | FR4最小質(zhì)量 |
aaSeqFR1 | FR1氨基酸序列 |
aaSeqCDR1 | CDR1氨基酸序列 |
aaSeqFR2 | FR2氨基酸序列 |
aaSeqCDR2 | CDR2氨基酸序列 |
aaSeqFR3 | FR3氨基酸序列 |
aaSeqCDR3 | CDR3氨基酸序列 |
aaSeqFR4 | FR4氨基酸序列 |
refPoints | 參考點 |