免疫組庫分析軟件MiXCR的安裝和使用

安裝

conda安裝

conda install -c milaboratories mixcr

普通安裝

在Mac OS X上使用Homebrew或者在Linux系統(tǒng)上使用linuxbrew安裝

brew install milaboratory/all/mixcr

將已經(jīng)安裝的MiXCR更新到最新版本

brew update
brew upgrade mixcr

手動安裝

  1. release page下載最新版穩(wěn)定編譯的MiXCR
  2. 解開壓縮包
  3. 將解壓縮生成的文件夾添加到環(huán)境變量中
  • 添加mixcr腳本的符號鏈接到bin文件夾
  • 或者在執(zhí)行腳本中指定MiXCR的全路徑來直接使用

快速使用

綜述

典型的MiXCR工作流程主要由三個部分構(gòu)成:

  • align:將測序結(jié)果比對到T細(xì)胞或B細(xì)胞受體的V、D、J铅搓、C基因參考序列上
  • assemble:利用前一步驟獲得的比對結(jié)果拼接clonotypes(為了提取特定的基因區(qū)域信息次企,比如CDR3)
  • export:輸出比對結(jié)果(exportAlignments模塊)或者clones信息(exportClones模塊)昧廷,生成可讀文件

MiXCR的assemble模塊有幾種不同的拼接方法可以選擇:

  • assembleContigs:拼接完整的TCR或者IG受體clonotype序列
  • 對于RNA-Seq or non-targeted DNA data, 工作流程可能包括以下兩部分:
    • assemblePartial:將有重疊區(qū)域的序列片段拼接成相對較長的包含CDR3區(qū)域的contigs
    • extend: 估算測序和比對質(zhì)量較好但長度較短的TCR比對序列的germline序列

為了簡化輸入命令被碗,MiXCR提供了analyze命令模塊奏属,打包了整個分析流程


MiXCR支持一下若干種數(shù)據(jù)類型:fasta伶丐,fastq悼做,fastq.gz,paired-end fastq和fastq.gz哗魂。作為每一步驟的輸出結(jié)果肛走,MiXCR生成包含各種信息的二進(jìn)制壓縮文件(比對生成alignments,拼接生成clones)录别。利用exportAlignmentsexportClones命令模塊朽色,每一個二進(jìn)制文件都可以轉(zhuǎn)化成tab分割的可讀文本文件故硅。

實例

默認(rèn)流程 / multiplex-PCR

利用analyze amplicon命令分析multiplex-PCR擴增的TCR/BCR基因DNA片段

mixcr analyze amplicon --species hs --starting-material dna --5-end v-primers --3-end j-primers --adapters adapters-present --receptor-type IGH input_R1.fastq input_R2.fastq analysis

只有一個參數(shù)修改為非默認(rèn)值(--receptor-type IGH),這個參數(shù)的改變可以讓MiXCR 調(diào)用針對B細(xì)胞優(yōu)化的比對模塊并且只輸出IGH序列纵搁。其實這個參數(shù)是可以缺省的吃衅,缺省狀態(tài)下MiXCR會調(diào)用默認(rèn)的比對模塊并輸出樣本中所有的TCR/BCR序列。
生成的文件(analysis.clonotypes.IGH.txt)是一個tab分隔的表格腾誉,包含CDR3序列拼接的所有clonotypes(克隆豐度徘层,CDR3序列, VDJ基因等)利职。

詳細(xì)流程

利用analyze amplicon模塊與執(zhí)行下面的命令是等價的

> mixcr align -s hs -p kAligner2 input_R1.fastq input_R2.fastq alignments.vdjca
... Building alignments
> mixcr assemble alignments.vdjca clones.clns
... Assembling clones
> mixcr exportClones --chains IGH clones.clns clones.txt
... Exporting clones to tab-delimited file

基于5’RACE擴增實驗的數(shù)據(jù)分析

考慮基于5’RACE(一個read覆蓋CDR3區(qū)域和臨近序列趣效,另一個read覆蓋V基因的5’UTR和下游序列)實驗準(zhǔn)備的IGH基因cDNA文庫雙端測序的數(shù)據(jù)處理流程,全部分析流程可以通過analyze amplicon命令實現(xiàn)

> mixcr analyze amplicon --species hs --starting-material rna --5-end v-primers --3-end j-primers --adapters adapters-present input_R1.fastq input_R2.fastq analysis

結(jié)果文件(analysis.clonotypes.<chains>.txt)包含詳細(xì)的clonotypes信息猪贪。

詳細(xì)流程

利用analyze amplicon模塊將執(zhí)行下面的流程:

  1. Align 把原始序列比對到IGH基因的VDJ基因序列片段上
> mixcr align -s hs -OvParameters.geneFeatureToAlign=VTranscript --report analysis.report input_R1.fastq input_R2.fastq analysis.vdjca

用來比對V基因的非默認(rèn)基因特征(-OvParameters.geneFeatureToAlign=VTranscript)同時利用了兩個reads的信息跷敬,為了讓MiXCR利用CDR3反向read比對V基因的5’UTRS和部分5’端編碼區(qū)域。MiXCR還會生成report文件(通過可選參數(shù)--report指定)热押,其中包含的具體運行統(tǒng)計信息如下

Analysis Date: Mon Aug 25 15:22:39 MSK 2014
Input file(s): input_r1.fastq,input_r2.fastq
Output file: alignments.vdjca
Command line arguments: align --report alignmentReport.log input_r1.fastq input_r2.fastq alignments.vdjca
Total sequencing reads: 323248
Successfully aligned reads: 210360
Successfully aligned, percent: 65.08%
Alignment failed because of absence of V hits: 4.26%
Alignment failed because of absence of J hits: 30.19%
Alignment failed because of low total score: 0.48%

可以利用exportAlignments命令將比對生成的二進(jìn)制結(jié)果(analysis.vdjca)轉(zhuǎn)化為可讀的文本文件西傀。

  1. Assemble 拼接clonotypes
> mixcr assemble --report analysis.report analysis.vdjca -a analysis.clna

這一步驟會校正PCR和測序錯誤并建立clonotypes,默認(rèn)情況下clonotypes會拼接CDR3序列桶癣;可以通過設(shè)置assemble模塊的參數(shù)來制定其他的基因區(qū)域(參考assemble documentation)拥褂,可選的report文件analysis.report包含各種調(diào)試信息

Analysis Date: Mon Aug 25 15:29:51 MSK 2014
Input file(s): alignments.vdjca
Output file: clones.clns
Command line arguments: assemble --report assembleReport.log alignments.vdjca clones.clns
Final clonotype count: 11195
Total reads used in clonotypes: 171029
Reads used, percent of total: 52.89%
Reads used as core, percent of used: 92.04%
Mapped low quality reads, percent of used: 7.96%
Reads clustered in PCR error correction, percent of used: 0.04%
Clonotypes eliminated by PCR error correction: 72
Percent of reads dropped due to the lack of clonal sequence: 2.34%
Percent of reads dropped due to low quality: 3.96%
Percent of reads dropped due to failed mapping: 5.87%
  1. Export 將包含clones列表的二進(jìn)制文件(analysis.clna)導(dǎo)出為可讀的文本文件
> mixcr exportClones --chains TRA analysis.clna analysis.clonotypes.TRA.txt
> mixcr exportClones --chains TRB analysis.clna analysis.clonotypes.TRB.txt
> ...

導(dǎo)出的clones信息如下表所示

Clone count Clone fraction V hits J hits seq. CDR3 AA. seq. CDR3
4369 2.9E-3 IGHV4-39*00(1388) IGHJ6 *00(131) TGTGTGAG… CVRHKPM…
3477 2.5E-3 IGHV4-34*00(1944) IGHJ4 *00(153) TGTGCGAT… CAIWDVGL…

導(dǎo)出的各種選項詳見export文檔,上述的所有步驟都可以根據(jù)特定研究的分析流程進(jìn)行個性化設(shè)置牙寞。

高質(zhì)量全長IG免疫組庫分析

對于基于cDNA全長的IG免疫組庫分析饺鹃,我們一般推薦UMI標(biāo)簽制備文庫并使用非對稱雙端測序350 bp + 100 bp Illumina MiSeq測序方法(詳情參考Nature Protocols paper)。這種方法可以獲得長片段高質(zhì)量測序結(jié)果间雀,而且可以利用MiGEC software有效去除PCR和測序錯誤悔详。獲得的高質(zhì)量數(shù)據(jù)可以進(jìn)一步利用MiXCR處理,以提取全長IGH或IGL組庫惹挟。
全部分析流程可以使用analyze amplicon命令

> mixcr analyze amplicon --species hs --starting-material rna --5-end v-primers --3-end j-primers --adapters adapters-present --receptor-type BCR --region-of-interest VDJRegion --only-productive --align "-OreadsLayout=Collinear" --assemble "-OseparateByC=true" --assemble "-OqualityAggregationType=Average" --assemble "-OclusteringFilter.specificMutationProbability=1E-5" --assemble "-OmaxBadPointsPercent=0" input_R1.fastq input_R2.fastq analysis

這一步驟會生成以下結(jié)果文件(analysis.clonotypes.IGH.txt茄螃,analysis.clonotypes.IGK.txt和analysis.clonotypes.IGL.txt),其中包括詳細(xì)的clonotypes信息匪煌。這里我們要強調(diào)幾個可選參數(shù):

  • --receptor-type BCR 需要MiXCR調(diào)用B細(xì)胞優(yōu)化的比對模塊(等同于對align模塊使用-p kAligner2參數(shù))并且只輸出IG序列责蝠。
  • region-of-interest VDJRegionassemble模塊使用-OassemblingFeatures=VDJRegion參數(shù)
  • --only-productionexport輸出的clonotypes中過濾掉out-of-frame和stop codon
  • --align <option>align過程中設(shè)置其他的參數(shù)
  • --assemble <option>assemble過程中設(shè)置其他參數(shù)

詳細(xì)流程

使用analyze amplicon命令等同于執(zhí)行下面的MiXCR步驟

  1. 合并雙端reads并比對alignment:MiXCR的align模塊可以合并雙端reads并比對到參考的V/D/J和C基因上党巾,我們推薦使用KAligner2處理IG數(shù)據(jù)
> mixcr align -p kaligner2 -s hs -r alignmentReport.txt -OreadsLayout=Collinear -OvParameters.geneFeatureToAlign=VTranscript read_R1.fastq.gz read_R2.fastq.gz alignments.vdjca

選項-s用來指定物種(e.g. homo sapiens - hsa, mus musculus - mmu)萎庭,參數(shù)-OreadsLayout 用來設(shè)定reads方向(Collinear, Opposite, Unknown)。這里需要注意的是齿拂,經(jīng)過MiGEC分析的雙端reads方向是Collinear驳规。
除了KAligner2,也可以使用默認(rèn)的MiXCR比對模塊署海,只是也許會忽略一些亞變異類型吗购,這些變異類型是由V基因片段的若干核苷酸插入形成的医男。

  1. Assemble拼接clones
> mixcr assemble -r assembleReport.txt -OassemblingFeatures=VDJRegion -OseparateByC=true -OqualityAggregationType=Average -OclusteringFilter.specificMutationProbability=1E-5 -OmaxBadPointsPercent=0 alignments.vdjca clones.clns

-OseparateByC=true 把clones按照不同的抗體亞型分類
-OcloneClusteringParameters=null 關(guān)閉基于頻率的PCR錯誤校正
根據(jù)數(shù)據(jù)質(zhì)量,可以通過設(shè)置-ObadQualityThreshold參數(shù)來調(diào)節(jié)輸入數(shù)據(jù)的閾值來優(yōu)化clonotypes的提取捻勉。

  1. Export輸出clones結(jié)果
> mixcr exportClones -c IGH -o -t clones.clns clones.txt

選項-o-t用于過濾包含out-of-frame和stop codon的clonotypes镀梭,-c指定哪條鏈的數(shù)據(jù)應(yīng)該被提取(e.g. IGH, IGL)踱启。

RNA-Seq數(shù)據(jù)分析

MiXCR可以用于提取RNA-Seq數(shù)據(jù)中TCR和BCR的CDR3組庫报账,提取效率取決于樣本紅T/B細(xì)胞的豐度和測序長度。推薦2x150bp或者2x100bp的雙端測序方法埠偿。不過在雙端2x50bp的RNA-Seq數(shù)據(jù)(比如腫瘤樣本中)透罢,主要clonotypes信息也可以被提取
單一analyze shotgun命令可以完成分析

> mixcr analyze shotgun --species hs --starting-material rna --only-productive input_R1.fastq input_R2.fastq analysis

生成的結(jié)果文件(analysis.clonotypes.TRA.txt, analysis.clonotypes.IGH.txt等)包含clonotypes的詳細(xì)信息冠蒋。

詳細(xì)流程

  1. Align 比對reads
> mixcr align -s hs -p rna-seq -OallowPartialAlignments=true data_R1.fastq.gz data_R2.fastq.gz alignments.vdjca

所有mixcr align的參數(shù)都可以在這里使用(比如-s來指定物種):
-OallowPartialAlignments=true選項保留部分比對結(jié)果用于后續(xù)的assemblePartial模塊

  1. Assemble parial reads拼接部分reads
> mixcr assemblePartial alignments.vdjca alignmentsRescued.vdjca

為了獲得包含CDR3全長序列的拼接reads羽圃,建議使用迭代mixcr的assemblePartial模塊多次迭代拼接結(jié)果。多次迭代需要-p參數(shù)抖剿,根據(jù)我們的經(jīng)驗朽寞,兩次迭代后結(jié)果最優(yōu)

> mixcr assemblePartial alignments.vdjca alignmentsRescued_1.vdjca
> mixcr assemblePartial alignmentsRescued_1.vdjca alignmentsRescued_2.vdjca
  1. 利用已有V和J基因延長TCR比對結(jié)果,基于germline序列不全覆蓋度不完全的CDR3s
> mixcr extendAlignments alignmentsRescued_2.vdjca alignmentsRescued_2_extended.vdjca
  1. Assemble拼接clones
> mixcr assemble alignmentsRescued_2_extended.vdjca clones.clns

所有mixcr assemble的參數(shù)都可以在這里使用:

  • 對于低質(zhì)量數(shù)據(jù)斩郎,建議降低輸入質(zhì)量閾值(e.g. -ObadQualityThreshold=15)
  • 為了克隆豐度與錯誤校正算法相結(jié)合愁憔,增加下面的選項:-OaddReadsCountOnClustering=true
  1. Exporting導(dǎo)出clones
> mixcr exportClones -c TRA -o -t clones.clns clones.txt

可以指定導(dǎo)出感興趣的免疫受體鏈(-c TRA 或者 -c TRB等),也可以去除包含out-of-frame(選項-o)和stop codon的突變體(選項-t)孽拷。

參數(shù)解讀

模塊名稱 模塊功能
analyze 對指定輸入文件執(zhí)行MiXCR整套分析流程
align 對輸入測序reads生成V/D/J/C基因比對序列
assemble 拼接clones
assembleContigs 拼接全長序列
assemblePartial 拼接部分比對reads 生成更長的序列
extend 用germline序列預(yù)測比對序列或clones
exportAlignments 將V/D/J/C比對結(jié)果導(dǎo)出為tab分隔文件
exportAlignmentsPretty 導(dǎo)出比對結(jié)果的詳細(xì)信息
exportClones 將拼接的clones導(dǎo)出為tab分隔文件
exportClonesPretty 導(dǎo)出clones的詳細(xì)信息
exportReadsForClones 從clones&比對結(jié)果(*.clna)中導(dǎo)出特定clone的reads吨掌,如果沒有指定clone,所有對應(yīng)的reads都會被導(dǎo)出
exportAlignmentsForClones 從clones&比對結(jié)果(*.clna)中導(dǎo)出特定clone的比對結(jié)果
exportReads 從vdjca文件導(dǎo)出原始reads
mergeAlignments 將若干*.vdjca文件合并為一個比對文件
filterAlignments 過濾比對結(jié)果
sortAlignments 根據(jù)read ID排序vdjca文件中的比對結(jié)果
alignmentsDiff 計算兩個vdjca文件的差異
clonesDiff 計算兩個clns文件的差異
slice 分割clna文件

結(jié)果解讀

輸出文件包含內(nèi)容

輸出表頭 注釋內(nèi)容
cloneId clone識別號碼
cloneCount clone數(shù)量
cloneFraction clone比例
targetSequences 目標(biāo)序列
targetQualities 目標(biāo)質(zhì)量
allVHitsWithScore 所有V基因命中和評分
allDHitsWithScore 所有D基因命中和評分
allJHitsWithScore 所有J基因命中和評分
allCHitsWithScore 所有C基因命中和評分
allVAlignments 所有V基因比對結(jié)果
allDAlignments 所有D基因比對結(jié)果
allJAlignments 所有J基因比對結(jié)果
allCAlignments 所有C基因比對結(jié)果
nSeqFR1 FR1核苷酸序列
minQualFR1 FR1最小質(zhì)量
nSeqCDR1 CDR1核苷酸序列
minQualCDR1 CDR1最小質(zhì)量
nSeqFR2 FR2核苷酸序列
minQualFR2 FR2最小質(zhì)量
nSeqCDR2 CDR2核苷酸序列
minQualCDR2 CDR2最小質(zhì)量
nSeqFR3 FR3核苷酸序列
minQualFR3 FR3最小質(zhì)量
nSeqCDR3 CDR3核苷酸序列
minQualCDR3 CDR3最小質(zhì)量
nSeqFR4 FR4核苷酸序列
minQualFR4 FR4最小質(zhì)量
aaSeqFR1 FR1氨基酸序列
aaSeqCDR1 CDR1氨基酸序列
aaSeqFR2 FR2氨基酸序列
aaSeqCDR2 CDR2氨基酸序列
aaSeqFR3 FR3氨基酸序列
aaSeqCDR3 CDR3氨基酸序列
aaSeqFR4 FR4氨基酸序列
refPoints 參考點
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末脓恕,一起剝皮案震驚了整個濱河市膜宋,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌炼幔,老刑警劉巖秋茫,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異乃秀,居然都是意外死亡肛著,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門跺讯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來枢贿,“玉大人,你說我怎么就攤上這事刀脏【旨裕” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長耀态。 經(jīng)常有香客問我轮傍,道長,這世上最難降的妖魔是什么首装? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任创夜,我火速辦了婚禮,結(jié)果婚禮上仙逻,老公的妹妹穿的比我還像新娘挥下。我一直安慰自己,他們只是感情好桨醋,可當(dāng)我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布棚瘟。 她就那樣靜靜地躺著,像睡著了一般喜最。 火紅的嫁衣襯著肌膚如雪偎蘸。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天瞬内,我揣著相機與錄音迷雪,去河邊找鬼。 笑死虫蝶,一個胖子當(dāng)著我的面吹牛章咧,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播能真,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼赁严,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了粉铐?” 一聲冷哼從身側(cè)響起疼约,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蝙泼,沒想到半個月后程剥,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡汤踏,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年织鲸,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片溪胶。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡搂擦,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出载荔,到底是詐尸還是另有隱情盾饮,我是刑警寧澤采桃,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布懒熙,位于F島的核電站丘损,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏工扎。R本人自食惡果不足惜徘钥,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望肢娘。 院中可真熱鬧呈础,春花似錦、人聲如沸橱健。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拘荡。三九已至臼节,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間珊皿,已是汗流浹背网缝。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留蟋定,地道東北人粉臊。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像驶兜,于是被迫代替她去往敵國和親扼仲。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容