我們生活著的世界并非只有我們自己颓帝,而是有很多小于或大于我們的生物不斷與我們交互著米碰,有的讓我們開心,有的使我們傷心躲履。這就關系到一個本質(zhì)的問題:
我是誰见间?
我是一個腦袋,一個軀體工猜,一個想法米诉。。篷帅。史侣?
自我是指:機體胚系基因(germ-line-gene)的編碼產(chǎn)物拴泌,在免疫學上還要加上一條:免疫系統(tǒng)發(fā)育早期遭遇過的物質(zhì)。
免疫學的功能就是識別自我與非我惊橱,并保持自我的穩(wěn)態(tài)的一門學問蚪腐。那么自我的復雜度要遠小于非我,有限的自我如何識別無限的非我呢税朴?我們需要不同的屏障和內(nèi)在的庫存回季,這里的庫有一部分就是我們今天說的免疫組庫。
什么是免疫組庫
或談淋巴細胞抗原受體多樣性的產(chǎn)生正林。
參與適應性免疫的淋巴細胞與參與固有免疫的非淋巴細胞間的一個重要區(qū)別就是泡一,淋巴細胞具有結構多樣的抗原受體儲備。我們關心的是這個庫是如何產(chǎn)生的觅廓。這就不得不看看淋巴細胞的發(fā)育過程了:
其實B細胞和T細胞的結構還是比較相似的鼻忠。在B細胞和T細胞中發(fā)現(xiàn)的受體分別被稱為B細胞受體(B Cell Receptor ,BCR)和T細胞受體(T Cell Receptor杈绸,TCR)帖蔓。抗原的檢測過程因白細胞(淋巴細胞(lymphocyte)是白細胞的一種瞳脓,是體積最小的白細胞)類型的不同而不同塑娇,如B細胞或T細胞。B細胞受體與自由存在的可溶性抗原結合篡殷,而T細胞受體僅在主要組織相容性復合體(MHC)上識別抗原钝吮。這是B細胞受體和T細胞受體的關鍵區(qū)別。
當我們把BCR/TCR的結構放大之后是這樣的:
以B細胞抗原受體(BCR)為例板辽,它包含了兩條重鏈(H)和兩條輕鏈(L)奇瘦。重鏈包含了一個可變區(qū)(VH)和3個恒定區(qū)(CH1/CH2/CH3),輕鏈則包含了一個可變區(qū)(VL)和一個恒定區(qū)(CL)劲弦。而免疫球蛋白有IgA耳标、IgG、IgM邑跪、IgD次坡、IgE五種,各自可以搭配κ或λ兩種輕鏈画畅。免疫學的書上說砸琅,IG的恒定區(qū)決定了它的免疫原性,即重鏈的恒定區(qū)決定了它是5種球蛋白中的哪一種轴踱,輕鏈的恒定區(qū)則決定了搭配重鏈的是兩種輕鏈中的哪一種症脂;而IG的可變區(qū)則決定了它的特異性(克隆性),即決定了它和什么樣的抗原結合。
在可變區(qū)里面诱篷,還有變化相對小的4個骨架區(qū)(FR1/FR2/FR3/FR4)壶唤,變化相對大的3個互補決定區(qū)(CDR1/CDR2/CDR3),其中變化最大的是CDR3區(qū)棕所。
互補決定區(qū)是VL與VH均有3個HVR闸盔,它們共同組成Ig的抗原結合部位(antigen-binding site)。該部位因在空間結構上可與抗原決定簇形成精密的互補琳省,故超變區(qū)又稱互補性決定區(qū)(complementarity determining region迎吵,CDR)。整個抗體分子可分為恒定區(qū)和可變區(qū)兩部分针贬。在可變區(qū)內(nèi)有一小部分氨基酸殘基變化特別強烈钓觉,這些氨基酸的殘基組成和排列順序更易發(fā)生變異區(qū)域稱高變區(qū)。在L鏈坚踩、H鏈的V區(qū)中有三個高變區(qū)(hypervariable regions,HVR)瓤狐,該部位因在空間結構上可與抗原決定簇形成精密的互補瞬铸,故高變區(qū)又稱互補性決定區(qū)。互補決定區(qū)||百科
淋巴細胞抗原受體多樣性的產(chǎn)生歸根到底還是胚系基因的重組和重排础锐。人體TCR和BCR胚系基因的組成:
胚系基因的特點和基因轉(zhuǎn)錄:
- 四種人體受體鏈編碼基因分屬不同染色體上五個不同的基因座位嗓节,比如編碼免疫球蛋白IG三種鏈(IgH,Igκ皆警,Igλ)的基因拦宣,并不在同一條染色體上,編碼重鏈的基因位于14號染色體長臂信姓,編碼輕鏈κ的基因位于2號染色體短臂鸵隧,編碼輕鏈λ的基因位于22號染色體長臂。
- 除了C區(qū)意推,多數(shù)VDJ區(qū)由多個片段組成豆瘫。
- 在DNA水平,不同基因區(qū)段會相互組合菊值。
- VDJ基因片段重組構成淋巴細胞受體結構的多樣性外驱。
那么這種組合能產(chǎn)生怎樣規(guī)模的多樣性呢?
重排過程選擇的片段是隨機的腻窒, 隨機重排的結果可以產(chǎn)生種免疫球蛋白分子昵宇。其次, 淋巴細胞在成熟后還會發(fā)生體細胞突變, 又極大的增加了抗體的多樣性. 綜合來看, H鏈和L鏈可能的組合數(shù)預計可達以上。小鼠每天生成的淋巴細胞為個儿子,可見動物一生中還不可能使全部可能產(chǎn)生的基因組合得到表達瓦哎。
基因重排發(fā)生在B細胞成熟前,體細胞高頻突變發(fā)生在B細胞成熟后。B細胞從干細胞發(fā)育成成熟的B細胞之前杭煎,要經(jīng)歷重鏈的VDJ基因重排和輕鏈的VJ基因重排恩够;成熟的B細胞,遷移到外周淋巴器官之后羡铲,在外界抗原的刺激下蜂桶,可能發(fā)生體細胞高頻突變(SHM)。
也許你會問(盡管很可能不會)也切,為什么B細胞發(fā)育成熟前會產(chǎn)生這種基因重排而產(chǎn)生結構異相的各種受體呢扑媚?這是因為只有發(fā)育中的淋巴細胞可選擇表達重組激活基因(recombinase activating gene,RAG)雷恃。
人重組激活基因是免疫球蛋白(immunoglobulin疆股,Ig)和T淋巴細胞受體(T lymphocyte receptor,TCR)基因片段重排所必需倒槐,RAG1基因突變使其編碼的重組酶活性完全或部分喪失旬痹,V(D)J重組失衡,T淋巴細胞和B淋巴細胞的發(fā)育在早期被阻斷讨越,導致原發(fā)性免疫缺陷擦讲小(primary immunodeficiency, PID),為常染色體隱性遺傳。
截此把跨,我們知道了免疫組庫的來源以及基本組成人弓。
那么,
為什么要做單細胞免疫組庫
當然是為了進一步探究人體免疫機制着逐,挖掘免疫組庫與疾病的關系崔赌,促進人類健康了。免疫細胞是如何產(chǎn)生作用的呢耸别?
鑒于抗原受體的多樣性健芭,不在單細胞水平上的研究只能得到模糊的宏觀視角。其實單細胞水平的研究太雨,開始的很早吟榴,只是通量很低。
- 揭示克隆性囊扳、多樣性吩翻、抗原特異性和細胞環(huán)境
- 組裝并注釋全長V(D)J基因序列
- 從單個T細胞識別α和β鏈序列
- 將來自單個B細胞的重鏈和輕鏈免疫球蛋白(Ig)序列以全同型分辨率配對
- 同時測定同一細胞中TCR、B細胞Ig锥咸、細胞表面蛋白表達及5’基因表達
- 配對TCRα和β鏈與TCR-pMHC特異性序列
- 同時測定細胞表面蛋白和基因表達
主要應用:
免疫組庫可以捕捉腫瘤發(fā)生時免疫微環(huán)境的變化狭瞎,尋找免疫治療的靶點,從而輔助免疫治療更好的抗擊腫瘤搏予。
器官或者骨髓移植時熊锭,經(jīng)常會誘發(fā)宿主排斥反應的發(fā)生,從而發(fā)生慢性移植抗宿主病。
自身免疫免疫性疾病是由于機體對自身抗原發(fā)生免疫反應而導致自身組織損害所引起的疾病碗殷。
免疫組庫在感染性疾病精绎、抗體開發(fā)、用藥及疫苗評估等多個方面均有應用價值锌妻。例如通過免疫組庫研究代乃,可以檢測感染類疾病過程中的免疫動態(tài)變化;在抗體開發(fā)方面仿粹,可以獲得特征性的BCR(Ig)序列搁吓,縮短抗體開發(fā)的流程;也可以針對某種疾病用藥后的外周血樣本進行評估吭历,確認藥物是否激發(fā)免疫反應及其功效堕仔。
單細胞免疫組庫如何做
一般的免疫組庫測序(Immune Repertoire sequencing(IR-SEQ))以多重PCR或5’RACE技術目的擴增決定B細胞受體(BCR)或T細胞受體(TCR)多樣性的互補決定區(qū)(CDR區(qū)),再結合高通量測序技術晌区,全面評估免疫系統(tǒng)的多樣性摩骨,深入挖掘免疫組庫與疾病的關系。
用淋巴細胞分離液分離外周血T/B淋巴細胞朗若,提取DNA(或RNA)仿吞,采用多重PCR/5'RACE對CDR3進行捕獲(5'RACE還可以測CDR1、CDR2)捡偏,通過 Hiseq2000(Hiseq2500、Miseq)平臺進行高通量測序峡迷。
DNA水平選擇多重PCR方法银伟,側(cè)重研究基因重組信息;RNA 水平可選擇多重PCR或5'RACE方法绘搞,側(cè)重于研究基因的表達狀態(tài)彤避。
但是這種方法并不能獲得每個細胞BCR和TCR的具體狀態(tài)。2015年夯辖,10× Genomics發(fā)布了基于微流控和油滴包裹技術的Chromium單細胞系統(tǒng)平臺琉预,可實現(xiàn)高通量的單細胞轉(zhuǎn)錄組和單細胞V(D)J測序。不但可以將TCR/BCR雙鏈完美匹配蒿褂,而且可以細化到單細胞水平圆米,同時獲得表達譜信息。
我們這里主要介紹這款儀器:
10× Genomic單細胞免疫組庫測序是建立在GemCode技術上的微流體平臺啄栓,將帶有條形碼和引物的凝膠珠與單個細胞包裹在油滴中娄帖;接下來在每個油滴內(nèi),凝膠珠溶解昙楚,細胞裂解釋放mRNA近速,通過逆轉(zhuǎn)錄產(chǎn)生用于測序的帶條形碼的cDNA。液體油層破壞后,cDNA一分為二削葱,后續(xù)同時進行基因表達和免疫組庫文庫構建奖亚;其中TCR或者BCR的V(D)J序列通過設計在TCR或者BCR、lg的C區(qū)域的巢式PCR引物進行富集析砸。然后使用Illumina測序平臺對文庫進行測序檢測昔字,即可一次性獲得大量單細胞的基因表達和免疫組庫數(shù)據(jù),實現(xiàn)在單細胞水平同時對基因表達和免疫組庫進行研究干厚。
熟悉10X單細胞轉(zhuǎn)錄組的朋友對這一套流程絕對不會陌生:捕獲 李滴,建庫測序,拆庫定量蛮瞄,數(shù)據(jù)分析:
區(qū)別在于在單細胞水平上識別并擴增VDJ區(qū)域的基因所坯。
10× Genomics提供了完整的實驗流程和數(shù)據(jù)分析方案。實驗方面更多的是經(jīng)驗的積累挂捅,這里我們還是關心一下拿到reads之后的生物信息學分析吧芹助。其實10X單細胞的生信入門的門檻是很低的,大部分工作都被它的cellranger做完了闲先。干這一行的状土,以至于有的生信工程師都沒見過fastq序列長什么樣,拿到序列直接朝cellranger里面一丟就可以得到幾乎全套的結果了伺糠。這也反反映出作為下游的生信工程師應該注意修煉的數(shù)據(jù)挖掘的功底蒙谓。
因為只是配參數(shù)和投任務的不叫工程師:
$ cd /home/jdoe/runs
$ cellranger vdj --id=sample345 \
--reference=/opt/refdata-cellranger-vdj-GRCh38-alts-ensembl-3.1.0 \
--fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \
--sample=mysample \
--localcores=8 \
--localmem=64
我們肯定想知道cellranger vdj執(zhí)行的一般過程以及關鍵節(jié)點:
其實我們完全是有必要cd到cellranger路徑下讀一讀源碼的,不就是python代碼嗎训桶?可惜似乎永遠有80%的生信工程師處于入門階段累驮,自己的python還沒整明白呢。于是很長一段時間舵揭,我們都在納悶這些結果是怎么產(chǎn)生的:
Outputs:
- Run summary HTML: /home/jdoe/runs/sample345/outs/web_summary.html
- Run summary CSV: /home/jdoe/runs/sample345/outs/metrics_summary.csv
- All-contig FASTA: /home/jdoe/runs/sample345/outs/all_contig.fasta
- All-contig FASTA index: /home/jdoe/runs/sample345/outs/all_contig.fasta.fai
- All-contig FASTQ: /home/jdoe/runs/sample345/outs/all_contig.fastq
- Read-contig alignments: /home/jdoe/runs/sample345/outs/all_contig.bam
- Read-contig alignment index: /home/jdoe/runs/sample345/outs/all_contig.bam.bai
- All contig annotations (JSON): /home/jdoe/runs/sample345/outs/all_contig_annotations.json
- All contig annotations (BED): /home/jdoe/runs/sample345/outs/all_contig_annotations.bed
- All contig annotations (CSV): /home/jdoe/runs/sample345/outs/all_contig_annotations.csv
- Filtered contig sequences FASTA: /home/jdoe/runs/sample345/outs/filtered_contig.fasta
- Filtered contig sequences FASTQ: /home/jdoe/runs/sample345/outs/filtered_contig.fastq
- Filtered contigs (CSV): /home/jdoe/runs/sample345/outs/filtered_contig_annotations.csv
- Clonotype consensus FASTA: /home/jdoe/runs/sample345/outs/consensus.fasta
- Clonotype consensus FASTA index: /home/jdoe/runs/sample345/outs/consensus.fasta.fai
- Clonotype consensus FASTQ: /home/jdoe/runs/sample345/outs/consensus.fastq
- Concatenated reference sequences: /home/jdoe/runs/sample345/outs/concat_ref.fasta
- Concatenated reference index: /home/jdoe/runs/sample345/outs/concat_ref.fasta.fai
- Contig-consensus alignments: /home/jdoe/runs/sample345/outs/consensus.bam
- Contig-consensus alignment index: /home/jdoe/runs/sample345/outs/consensus.bam.bai
- Contig-reference alignments: /home/jdoe/runs/sample345/outs/concat_ref.bam
- Contig-reference alignment index: /home/jdoe/runs/sample345/outs/concat_ref.bam.bai
- Clonotype consensus annotations (JSON): /home/jdoe/runs/sample345/outs/consensus_annotations.json
- Clonotype consensus annotations (CSV): /home/jdoe/runs/sample345/outs/consensus_annotations.csv
- Clonotype info: /home/jdoe/runs/sample345/outs/clonotypes.csv
- Barcodes that are declared to be targeted cells: /home/jdoe/runs/sample345/out/cell_barcodes.json
- Loupe V(D)J Browser file: /home/jdoe/runs/sample345/outs/vloupe.vloupe
Pipestance completed successfully!
首先我們可以看到的就是web_summary.html谤专,這里面包含了我們樣本的基本信息,也就是后期數(shù)據(jù)挖掘的前提午绳。下面是TCR的結果置侍,能看出TCRα chain or “TRA,” and TCRβ chain or “TRB”的cell占比:
然后是BCR的結果,可以看出IgH拦焚,Igκ蜡坊,Igλ的注釋結果:
算法概述
上圖顯示了10x V(D)Jread-pairs aligned到一個組裝的contig,說明了read的結構赎败。每個V(D)J鏈捕獲1到幾個umi算色。一輪以C-region5 '端為靶點的富集PCR反應,接著是酶的裂解反應螟够,結果產(chǎn)生了來自同一轉(zhuǎn)錄本的分子池(pool of molecules )灾梦。分子攜帶相同的10x條形碼和UMI序列峡钓,但插入長度不同,導致R2起始點不同若河。R2起始點的多樣性使每個轉(zhuǎn)錄本的目標部分得到完全覆蓋能岩,一般約為650bp。
組裝過程將單個條形碼的reads作為輸入萧福,并將這些reads“粘接”(glues)在一起拉鹃,產(chǎn)生一組contig作為輸出,這些contig代表對當前轉(zhuǎn)錄序列的最佳估計鲫忍。此外膏燕,每一群中的每個基地都被賦予了一個質(zhì)量值。我們還跟蹤的UMIs的數(shù)量和reads支持的contig悟民。
由于數(shù)據(jù)中存在多種形式的“噪聲”坝辫,使得生成contig的問題十分復雜。這些原因包括背景(細胞外)mRNA射亏、細胞雙重態(tài)近忙、細胞內(nèi)轉(zhuǎn)錄錯誤、cDNA反轉(zhuǎn)錄錯誤智润、測序過程中的隨機錯誤及舍、測序過程中的指標跳變等。
組裝過程在某些地方使用參考序列窟绷,如下所述锯玛,除非管道在denovo模式下運行。參見注釋算法兼蜈,其中部分內(nèi)容在組裝算法中使用更振。
組裝算法的步驟如下:
Step | Operation |
---|---|
Read subsampling | Reduce the reads for a given barcode to at most 80,000, because more reads don't help. |
Read trimming | Trim off read bases after enrichment primers. |
Graph formation | Build a De Bruijn graph using k = 20 |
Reference-free graph simplification | Simplify the graph by removing 'noise' edges. |
Reference-assisted graph simplification | Same, but this time use the reference. |
UMI filtering | Filter out UMIs that are likely to be artifacts. |
Contig construction | Make contigs by looking for the best path through the graph for each UMI. |
Competitive deletion of contigs | Remove contigs that are much weaker than other contigs and which are likely to be artifacts. |
Contig confidence | Define the high confidence contigs, which are likely to represent bona fide transcripts from a single cell associated to a barcode. |
Contig quality scores | Assign a quality score to each base on each contig. |
可以看出使用的方法是De Bruijn graph結構來組裝,當年學的宏基因組組裝:從what 到how派上用場了饭尝。
Targeted Cell Calling Algorithm
在10x系統(tǒng)中,液滴(GEMs)的數(shù)量很多献宫,其中一些液滴含有一個細胞钥平,另一些液滴含有一個靶細胞(T或B)。
目標細胞的檢測依賴于其V(D)J轉(zhuǎn)錄本的鑒定和計數(shù)姊途。一些T和B細胞對這些轉(zhuǎn)錄本的表達水平很低涉瘾,因此可能無法檢測到。相反捷兰,細胞外足夠高水平的mRNA可能導致一些條形碼被錯誤地識別為目標細胞立叛。因此,目標細胞調(diào)用算法的目標是近似包含目標細胞的一組條形碼贡茅。
該算法作為匯編算法的一部分執(zhí)行秘蛇。要被識別為目標細胞其做,條形碼必須滿足以下三個要求:
- 必須有一個多樣的contig,如果只有一個這樣的contig赁还,必須有一個以上的UMI支持它的連接區(qū)域妖泄。(在denovo的情況下,我們只要求有一群艘策。)雖然其他類型的細胞也能在TCR和BCR位點上轉(zhuǎn)錄蹈胡,但只有T和B細胞能產(chǎn)生包含V和C片段的完全重新排列的轉(zhuǎn)錄本。因此朋蔫,有一個生產(chǎn)的contig是很好的證據(jù)罚渐,從一個目標細胞轉(zhuǎn)錄存在于GEMs.然而,也有可能轉(zhuǎn)錄本是背景的——存在于細胞之間的液體中驯妄,而不是在一個完整的細胞中荷并。對于這種情況,需要多個UMI可以提供一些x信息支持富玷。
必須至少有三個過濾的umi璧坟,每個umi至少有兩個read pairs(參見組裝算法)。這降低了僅僅基于背景轉(zhuǎn)錄本來調(diào)用目標細胞的可能性赎懦。
計算所有條形碼上每個UMI的讀對數(shù)的N50值雀鹃。如果對于給定的條形碼,經(jīng)過過濾的UMIs的最大讀對計數(shù)小于N50的3%励两,則不要將條形碼稱為cell黎茎。這提供了一些保護措施,防止Illumina流式細胞儀上的索引跳變和其他形式的交叉文庫污染引起的轉(zhuǎn)錄本当悔。
除了以上列出的三個要求外傅瞻,Cell Ranger 3.1還引入了一個新的過濾器來處理由漿細胞和含有大量RNA的B細胞引入的噪聲(如Cell Ranger 3.1發(fā)布說明中記錄的那樣)。1)對與高頻率或大型克隆共享一條鏈的低頻率克隆收緊is_cell過濾器盲憎,2)縮小高頻率克隆嗅骄,以消除樣品處理(例如,并非由于真正的生物克隆擴展)造成的mRNA泄漏帶來的噪音饼疙。
Annotation Algorithm
V(D)J contig注釋的目的是定義V溺森、D、J片段對一個contig的比對窑眯,識別CDR3序列屏积,從這些數(shù)據(jù)判斷一個contig是否具有生產(chǎn)性,這意味著它可能對應于一個功能T或B細胞受體磅甩。
對于給定的數(shù)據(jù)集炊林,管道首先確定數(shù)據(jù)是TCR還是BCR,然后相應地將所有的contigs對齊到TCR或BCR引用序列卷要。在罕見的(混合的)情況下渣聚,contig都是對齊的独榴。在12-mer的完美匹配上seeded對齊,然后進行啟發(fā)式擴展;我們還從C段比對中反向搜索J段比對中不存在12-mer完全匹配的情況饵逐,因為這些情況偶爾會出現(xiàn)在體細胞超突變中括眠。
重要的是要理解在比對中V(D)J參考序列的選擇可以是任意的,這取決于參考序列彼此之間的相似程度倍权。對于既短又突變較多的D段掷豺,通常不可能找到可靠的比對,而且可能沒有顯示比對薄声。
如果滿足下列條件当船,該條件被稱為“有生產(chǎn)力productive ”:
- 完整的長度要求。重疊部分與V基因的起始部分匹配默辨。該基因繼續(xù)延伸德频,最終與J基因的末端相匹配。
- 起始要求缩幸。V的起始部分匹配contig上的起始密碼子壹置。注意,在10x提供的人類和小鼠參考序列中表谊,每個V段都以一個起始密碼子開始钞护。
- 連續(xù)性。在V開始和J結束之間沒有終止密碼子爆办。
- 位置难咕。J停止減去V開始等于1模3。這就是說V和J段上的密碼子在坐標系中距辆。
- CDR3上要求余佃。有一個帶注釋的CDR3序列(見下面)。
+結構要求跨算。設VJ為V段和J段長度之和爆土。讓len表示J停止減去V開始,在contig上測量诸蚕,那么VJ - len在-25和+25之間步势,除了IGH,它必須在-55和+25之間挫望。這個條件是為了防止不可能與功能蛋白相對應的異常結構變化。
對于每一個contig狂窑,我們利用CDR3s的側(cè)翼序列是保守的這一事實來搜索CDR3序列媳板。我們將來自V和J參考片段的motifs與人類和小鼠進行比較,如下圖所示泉哈。這里一個字母代表一種特定的氨基酸蛉幸,一個點代表任何氨基酸破讨。
left flank CDR3 right flank
LQPEDSAVYY C... LTFG.GTRVTV
VEASQTGTYF LIWG.GSKLSI
ATSGQASLYL
我們要求CDR3序列長度在5到27個氨基酸之間,以C開頭奕纫,不包含終止密碼子提陶。候選CDR3的側(cè)翼序列與上面的基序匹配,每匹配一個列中的一個條目的位置得分+1匹层。
LTY....
前三個氨基酸得分2分隙笆。(L匹配第一列中的一個條目,因此為得分貢獻1升筏。T匹配第二列中的一個條目撑柔,因此為得分貢獻1。Y和第三列不匹配您访,所以對分數(shù)沒有影響铅忿。)
要將候選CDR3聲明為CDR3序列,它必須得到至少10分灵汪。此外檀训,左翼必須至少貢獻3名,右翼必須至少貢獻4名享言。
接下來峻凫,我們找到了在疊架上V段末端的隱含停止位置。這是V段在疊架上的起始位置担锤,加上V段的長度蔚晨。然后,我們要求CDR3序列在停止之前最多啟動10個堿基肛循,在V.停止之后最多啟動20個堿基(這一段的條件不適用于denovo的情況)铭腕。
如果有多個CDR3序列,我們選擇得分最高的那個多糠。如果有平局累舷,我們將選擇在疊上較晚開始的那一個。如果仍然有一個平局夹孔,我們選擇較長的CDR3被盈。
如果通過精確匹配共享相同的CDR3核苷酸序列,則將細胞條形碼分組為克隆型搭伤。請注意只怎,對于B細胞,CDR3內(nèi)的體細胞突變將破壞實際上與之相關的克隆型怜俐。在CDR3外發(fā)生體細胞突變的細胞將被認為具有克隆型身堡。
對于每個克隆型和每個CDR3,所有細胞中的contigs組裝在一起拍鲤,產(chǎn)生克隆型一致序列贴谎。
因為這個序列是用多個細胞構建的汞扎,所以它的準確性比用單個細胞構建的序列還要高。
名詞解釋
- CDR3 (Complementarity-Determining Region 3)
三個決定互補的區(qū)域是T或B細胞受體氨基酸序列的部分擅这,它們被預測與抗原結合澈魄。編碼CDR3的核苷酸區(qū)域跨越了V(D)J連接,使得它比其他cdr更加多樣化仲翎。這是一種識別獨特鏈的有用方法痹扇。
- Cell Barcode (10x Barcode)
這是一個已知的核苷酸序列,它是單個寶石液滴的唯一標識符谭确。每個條形碼通常包含對單個cell的reads帘营。
- Clonotype
通過精確的核苷酸匹配,收集共享一組CDR3生產(chǎn)序列的細胞逐哈。
- Consensus
對于一個單一的克隆型和鏈芬迄,在所有的細胞與該克隆型之間建立的共識為該鏈。這個共識是通過從克隆型細胞中重組相應的contigs而建立的昂秃。
- Contig
Contiguous sequence of bases produced by assembly.
- Full-length
A contig is full-length if it matches the initial part of a V gene, continues on, and ultimately matches the terminal part of a J gene.
- Productive
See here.
- Gem Group
當將不同組的gem庫合并到一個分析中時禀梳,我們在每個讀取的條形碼上附加一個小整數(shù)in silico,以識別讀取的來自哪個庫肠骆。這可以防止條形碼沖突算途,否則會在虛擬雙重態(tài)的形式中造成混亂。
- N50
The N50 of a sorted list of numbers is the midway point by weight. Example:
There are implementation differences for exactly how this is computed but they matter little when the list is long. Unlike the mean and median, the N50 discounts the contribution of many small numbers. That is why people use it!
- N-statistic
n -統(tǒng)計量,如N50或N99,是基因組學中常用的中心性度量毁腿,因為它們對大量低價值元素的污染具有一定的健壯性。特別是NXX的值是最小的元素子集包括最少,最大的成員,這樣的值的總和子集至少是XX %的總額的值數(shù)據(jù)集廓脆。N-statistic表明一個更大的一個大的值可以占總數(shù)的比例大的個人價值,對于一個給定的數(shù)據(jù)集和YY大于XX, NYY wi的值。
- UMI (Unique Molecular Identifier)
Each first-strand cDNA synthesis from a transcript molecule incorporates a random 10 bp nucleotide sequence next to the cell barcode called the UMI. The UMI sequence in each read allows the pipeline to determine which reads came from the same transcript molecule. In other words, the cell barcode distinguishes between cells, and the UMI distinguishes between molecules (for example, RNA fragments) within a cell.
淺談BCR及TCR基因的克隆重排
10× Genomics單細胞測序在免疫組庫研究中的應用
BCR
Difference Between B Cell Receptor and T Cell Receptor
免疫細胞基因重組與免疫組測序
single-cell-vdj
免疫組庫高通量分析工具:IGoR——更精確剖析免疫組庫