【文獻】免疫組庫的高通量測序

High-throughput sequencing of the T-cell receptor repertoire: pitfalls and opportunities

Abstract

T細胞特異性是由T細胞受體決定的僚祷,T細胞受體是一種異二聚體蛋白担敌,由一組由不精確的體細胞基因重組產(chǎn)生的極為多樣化的基因編碼啼器。大規(guī)模并行高通量測序允許數(shù)百萬不同的T細胞受體基因從一個單一的血液或組織樣本的特點考抄。然而蹲盘,免疫系統(tǒng)的異常異質(zhì)性對隨后的數(shù)據(jù)分析提出了重大挑戰(zhàn)颜矿。我們概述了處理免疫組庫(repertoire)數(shù)據(jù)的主要步驟述寡,考慮到原始序列文件的低級處理和高級算法,尋求提取生物或病理信息顶滩。最新一代的生物信息學工具允許數(shù)以百萬計的DNA序列被準確和快速地分配到各自的可變V和J基因片段矛市,并重建一個幾乎沒有錯誤的表示非模板添加和刪除發(fā)生。高級處理可以測量不同樣本中全基因組的多樣性诲祸,量化V和J的使用情況浊吏,并識別私有和公共t細胞受體。最后救氯,我們討論了將t細胞受體序列與功能找田,特別是與抗原識別聯(lián)系起來的主要挑戰(zhàn)。目前正在開發(fā)復雜的機器學習算法着憨,可以將單個t細胞受體的反常退化和交叉反應(yīng)性與整個t細胞免疫反應(yīng)的特異性結(jié)合起來墩衙。計算分析將為解開t細胞受體的潛能提供鑰匙,從而深入了解適應(yīng)性免疫系統(tǒng)的基礎(chǔ)生物學甲抖,并為疾病提供強有力的生物標志物漆改。

Introduction

下頜脊椎動物的適應(yīng)性免疫系統(tǒng)利用不精確的體細胞DNA重組,在B細胞(BCR)和t細胞(TCR)上產(chǎn)生豐富多樣的抗原特異性受體陣列准谚。關(guān)于可變抗原受體多樣性產(chǎn)生的機制已經(jīng)進行了非常詳細的研究(如文獻[1,2]挫剑,圖1中的圖解)。簡而言之柱衔,編碼每個鏈的位點由多個基因片段(' minigenes ')組成樊破,其中包括V、D和J基因唆铐。在淋巴細胞發(fā)育過程中基因組DNA的重組導致每一種可用基因片段的物理連接哲戚,并切除中間的DNA。由多個V艾岂、J和(在某些鏈中)D基因組成的組合多樣性可以“選擇”顺少,而在連接過程中,片段連接處發(fā)生的非模板核苷酸的添加和刪除極大地增強了這種組合多樣性王浴。這個系統(tǒng)產(chǎn)生了大量多樣的受體序列[4,5]脆炎,而每一個血液或組織的生物樣本通常都有成千上萬或數(shù)百萬個受體。這阻止了使用常規(guī)DNA測序?qū)細胞或t細胞抗原受體的全部序列進行全局分析叼耙。

t細胞重組和產(chǎn)生多樣性腕窥。個體的V和J基因是隨機選擇的(但不是一致的),并在胸腺的t細胞發(fā)育過程中重新組合筛婉。在重組過程中簇爆,堿基對可以在最終結(jié)扎前被移除或添加到連接處(A)。β基因在V和J之間包含了一個額外的D區(qū)域minigene爽撒,產(chǎn)生了兩個連接(未顯示)入蛆。最后,轉(zhuǎn)錄alpha和beta V區(qū)域硕勿,剪接到各自的恒定區(qū)域(B)上并翻譯哨毁,兩種蛋白異質(zhì)二聚形成一個TCR (C)。圖中所示的TCR/MHC/peptide complex來自PDB結(jié)構(gòu)1FYT源武,使用RasMol[3]顯示扼褪。TCR顯示為空格填充想幻,肽/MHC復合物顯示為右邊的stick表示。粉色Vα;黃色Jα;藍色Vβ;綠色Jβ;和紅CDR3上话浇。

t細胞重組和產(chǎn)生多樣性脏毯。個體的V和J基因是隨機選擇的(但不是一致的),并在胸腺的t細胞發(fā)育過程中重新組合幔崖。在重組過程中食店,堿基對可以在最終結(jié)扎前被移除或添加到連接處(A)。β基因在V和J之間包含了一個額外的D區(qū)域minigene赏寇,產(chǎn)生了兩個連接(未顯示)吉嫩。最后,轉(zhuǎn)錄alpha和beta V區(qū)域嗅定,剪接到各自的恒定區(qū)域(B)上并翻譯自娩,兩種蛋白異質(zhì)二聚形成一個TCR (C)。圖中所示的TCR/MHC/peptide complex來自PDB結(jié)構(gòu)1FYT露戒,使用RasMol[3]顯示椒功。TCR顯示為空格填充,肽/MHC復合物顯示為右邊的stick表示智什。粉色Vα;黃色Jα;藍色Vβ;綠色Jβ;和紅CDR3上动漾。

然而,在過去的幾十年中荠锭,高通量DNA測序(HTS)的快速發(fā)展為日益強大和廣泛的BCR和TCR全譜研究開辟了道路旱眯。免疫庫的異常異質(zhì)性不僅對實驗室測序管道,而且對隨后生成的基因組數(shù)據(jù)集的分析提出了重大挑戰(zhàn)证九。在這篇綜述中删豺,我們特別關(guān)注TCR系統(tǒng)的計算和生物信息學分析。我們概述了處理免疫組庫數(shù)據(jù)的主要步驟愧怜,考慮到原始序列文件的低級處理和試圖從數(shù)據(jù)中提取生物或病理信息的高級算法呀页。我們調(diào)查了為這類分析而開發(fā)的一些工具,并指出了保留序列分析的潛力拥坛,以便深入了解適應(yīng)性免疫系統(tǒng)的基礎(chǔ)生物學蓬蝶,并提供強有力的疾病生物標志物

TCR系統(tǒng)可以被看作是一個高維和密切個性化的生物標志物的最終例子,這是未來精準醫(yī)療的標志猜惋⊥璺眨可以預見的是,高通量TCR測序分析的第一個十年集中在基因分配和錯誤糾正等具有挑戰(zhàn)性但技術(shù)性的問題上著摔。隨著這項技術(shù)變得更加成熟和強大缓窜,人們的注意力正轉(zhuǎn)向開發(fā)復雜的計算工具,這些工具是理解這些新穎但往往難以理解的免疫功能指標所必需的。

The processing pipeline: an overview

研究免疫系統(tǒng)的主要階段如圖2所示禾锤。它們大致可分為文庫準備和測序私股、低級處理,包括確定受體序列并將其分配給基因組V时肿、D和J基因庇茫,以及高級處理和分析。

圖2:


免疫系統(tǒng)研究的主要階段螃成。灰框(上):庫準備和排序查坪。綠框(中間):低層次的處理寸宏,包括序列裝配、基因組V偿曙、D和J基因的分配氮凝、CDR3區(qū)域的提取和錯誤糾正。參見本綜述的基因分配望忆、序列和豐度錯誤糾正策略和基準及其挑戰(zhàn)部分罩阵。藍盒(下):高級處理和分析,包括多樣性測量启摄、克隆頻率分布測定稿壁、V和J使用差異分析、TCR序列個體間共享分析(公共與私有)以及序列與抗原特異性之間的關(guān)系歉备。參見章節(jié)《高水平全譜處理:揭示生物學和臨床意義傅是、本綜述的多樣性和抗原特異性的測量方法》。

雖然我們的重點是在硅分析蕾羊,簡要介紹目前使用的主要方法為TCR組庫的準備和測序是有益的喧笔。其他地方對高通量TCR庫的制備進行了詳細的綜述[10-13]。許多測序技術(shù)已被應(yīng)用于研究TCR庫龟再,但與基因組學和轉(zhuǎn)錄組學一樣书闸,Illumina平臺已成為事實上的標準([14],http://www.illumina.com/)利凑。這一地位的實現(xiàn)是由于每個基本測序成本的大幅降低浆劲,以及閱讀長度和質(zhì)量的巨大改善。然而截碴,在測序前有幾個處理生物樣品的管道梳侨。所有管道的目標是盡可能完整地記錄重新排列的alpha和beta TCR基因序列,并確定它們在樣本中的豐度日丹。TCR測序的主要商業(yè)服務(wù)提供商從基因組DNA或信使RNA (mRNA)擴增([5]走哺,http://www.adaptivebiotech.com/immunoseq)。雖然這些方法的大部分細節(jié)都是專有的哲虾,但是這些方法是基于使用多重聚合酶鏈反應(yīng)(PCR)擴增重組TCR基因丙躏,使用一組引物可以捕獲V和J基因[5]的所有可能組合择示。由于V基因和J基因之間存在較大的內(nèi)含子,非重組基因不會擴增晒旅。相比之下栅盲,一些研究小組已經(jīng)開發(fā)了基于RNA/互補DNA (cDNA)的技術(shù)來進行組庫分析。以RNA為起始材料废恋,可以應(yīng)用互補DNA (cDNA)端(RACE)快速擴增技術(shù)[15,16]谈秫,從而減少不同V和J基因引物效率不同可能導致的PCR偏倚量。從DNA入手鱼鼓,在樣品采集的便捷性和儲存的穩(wěn)定性方面有很多優(yōu)勢拟烫。此外,基于dna的策略不受mRNA轉(zhuǎn)錄異質(zhì)性或穩(wěn)定性的影響迄本。相反硕淑,基于rna的技術(shù)的一個主要好處是,它們很容易適應(yīng)引入獨特的分子標識符(UMIs)嘉赎,這可以提供樣本中TCR豐度的精確定量估計置媳。正如下面詳細討論的,PCR固有的異質(zhì)性意味著這對于實現(xiàn)對保留序列的穩(wěn)健量化至關(guān)重要公条。

一旦TCR基因得到豐富拇囊、擴增和測序,原始序列數(shù)據(jù)文件(通常以FASTQ格式輸出)就需要處理赃份,以產(chǎn)生有意義的生物信息寂拆。與基因組或RNA-seq協(xié)議相同,處理的第一階段是將序列匹配到已知的基因組引用抓韩,在本例中纠永,將每個TCR分配到其種系組成基因片段(圖2,低級處理)谒拴。然而,這個過程是細胞更加困難,因為識別位點都是由許多類似V, J,和(在某些情況下)D基因,必須尊敬的準確,也因為這些重組區(qū)域還包含刪除和無模板添加在復合過程中引入(圖1)尝江。幾個基因賦值方法討論了下面的基因分配部分笔链。已經(jīng)投入了相當大的努力來開發(fā)算法岳枷,以糾正由此產(chǎn)生的核苷酸序列的PCR和測序錯誤,并糾正有偏差的PCR擴增徙鱼。這些將在序列和豐度錯誤糾正策略和基準測試及其挑戰(zhàn)部分進行討論苍日。

最后惭聂,一旦一組經(jīng)過修正的指定序列被組裝(一個匯編),就可以探索挖掘這些數(shù)據(jù)集的方法(分類和比較不同的匯編相恃,測量多樣性辜纲,注釋TCR抗原特異性,等等),并提取生物學或病理學意義(圖2耕腾,高級處理)见剩。高水平處理TCR庫的方法將在以下章節(jié)中討論:揭示生物學和臨床意義、多樣性和抗原特異性的測量扫俺。

Gene assignment

在過去的5年中苍苞,已經(jīng)發(fā)布了相當數(shù)量的低層處理軟件程序。通常狼纬,該軟件是與實驗庫準備管道一起開發(fā)的羹呵,主要用于處理這個特定管道產(chǎn)生的數(shù)據(jù)。我們編制了一份清單疗琉,列出了我們所知的所有用于底層處理TCR庫序列數(shù)據(jù)的開源軟件工具(表1)担巩。分別討論了用于分析全局轉(zhuǎn)錄組RNA-seq數(shù)據(jù)中的TCR序列的工具,包括單細胞RNA-seq數(shù)據(jù)没炒。
這里是表格:

國際免疫遺傳學信息系統(tǒng)(IMGT)于1989年首次開發(fā),作為免疫遺傳學相關(guān)數(shù)據(jù)的集中存儲庫犯戏。它仍然是免疫遺傳學中使用最廣泛的參考點送火,特別是用于維護IMGT/GENE-DB數(shù)據(jù)庫,該數(shù)據(jù)庫包含來自多個物種(包括小鼠先匪、大鼠种吸、兔子和人類)的基因組V、D和J的一組注釋良好的基因呀非。這組基因為大多數(shù)TCR基因分配工具提供了參考坚俗。IMGT的一個重要作用是標準化TCR基因片段的命名法,盡管應(yīng)該指出岸裙,即使在今天的文獻中猖败,更古老的命名法也很常見,并且可能在免疫組庫分析中造成相當大的混淆降允。在這里可以找到不同命名法之間的有用比較恩闻。www.imgt.org/IMGTrepertoire/LocusGenes/#J.

除了提供TCR基因的參考序列外,IMGT resource page還提供了多種序列分配工具剧董,包括IMGT/V-QUEST[17,32]和一個高通量版本IMGT/HighV-QUEST[18,33]幢尚。這兩個版本都可以通過Web門戶訪問。IMGT/V-QUEST允許在一個會話中提交多達15萬個序列翅楼,但這通常還不足以處理典型的高溫超導實驗產(chǎn)生的數(shù)千萬或數(shù)億個讀取尉剩。基因分配采用全局成對比對算法來確定最合適的V毅臊、D理茎、J基因,然后采用Smith Waterman局部比對算法來確定V(D)J基因末端的缺失,以及它們之間的插入功蜓。這些算法相對較慢园爷,限制了這些工具在高溫超導分析中的使用。

使用與種線序列對齊相同的原則式撼,專門為TCR高溫超導系統(tǒng)開發(fā)了更快版本的類似全局對齊算法童社。IgBLAST最初是作為一種分析免疫球蛋白序列的工具開發(fā)的,但后來添加了一個用于TCR序列分析[19]的選項扰楼,并使用BLAST算法(一種局部比對方法)在IMGT和NCBI數(shù)據(jù)庫中搜索針對種系序列的查詢序列。類似地,IMonitor[23]也使用BLAST芽腾,另外還有第二個比對步驟,用于在非cdr3序列中找到精確匹配描滔。recovery TCR或RTCR[27]使用Bowtie2[34]作為其默認對齊模塊拘泞,該模塊允許本地對齊或端到端對齊烟瞧。TCR基因分配的另一層復雜性是t細胞mRNA經(jīng)常包含不遵循VDJ重組經(jīng)典規(guī)則的序列砾赔,但可能包括部分重組事件专普、保留的基因間序列或連接的J基因[35]檀夹。這些非正則序列的分析直接由TRIg[28]來處理策橘,它測試與整個TCR軌跡的一致性击胜,而不僅僅是外顯子。

免疫遺傳序列分析(IMSEQ)[36]還通過將輸入對齊到生殖系來表征TCR序列役纹,此外還使用了一個檢查步驟,該步驟查找V和J區(qū)域以及CDR3區(qū)域的側(cè)邊暇唾。該算法首先在短核心序列中尋找匹配項促脉,然后對錯誤得分低于某個閾值的序列擴展對齊。

另一種基因分配策略是使用部分序列或標記來識別特定的V和J區(qū)域策州。解碼器[20]實現(xiàn)了一種改進的Aho-corasick[37]搜索算法來查找匹配的字符串(或單次不匹配的標簽)瘸味,從而實現(xiàn)了更快的基因分配。一旦確定了V和J區(qū)域够挂,與實際序列的比對就確定了基因片段區(qū)域的末端旁仿,從而確定了插入和刪除。除了速度之外孽糖,標記策略對短標記本身之外的V或J區(qū)域中的錯誤并不敏感枯冈。因此,潛在的錯誤僅限于CDR3區(qū)域(見下文)办悟。最新版本的解壓縮器尘奏,連同用于人和鼠標的V序列和J序列的完整列表,以及標識符標記列表病蛉,可以在https://github.com/innate2adaptive/解壓縮器中找到炫加。Vidjil算法[21]使用了一種啟發(fā)式的方法瑰煎,使用種系基因中唯一的子串來分配V和J基因。它使用子字符串指定一個“窗口”俗孝,該窗口以V和J之間的序列為中心酒甸,足夠大,可以同時包含這兩個區(qū)域赋铝。相同的窗口(如果沒有排序錯誤)被聚集和計數(shù)插勤,表示克隆類型及其各自的豐度。進一步對VJ進行細化柬甥,Vidjil輸出最豐富的20個克隆進行進一步分析饮六。另一個名為LymAnalyzer[25]的分析工具實現(xiàn)了一種不同的策略,使用短序列標記進行基因分配苛蒲。通過識別與數(shù)據(jù)庫中的引用序列最密切相關(guān)的短連續(xù)序列集(或標記)卤橄,可以對引用序列進行比對(默認情況下是從IMGT數(shù)據(jù)庫中獲取的,盡管用戶可以指定不同的引用)臂外。該算法允許在無法在第一個標記中找到精確匹配的情況下(從參考V基因的3 '端開始分配窟扑,J基因從5 '端開始分配)移動后續(xù)標記,從而導致不匹配漏健。然后將序列轉(zhuǎn)換為CDR3序列并進行聚類嚎货。相同的序列被組合在一起,并計數(shù)來表示克隆型頻率蔫浆,其中組被分類為“核心”或“最小”序列殖属。使用一種稱為漢明距離的距離度量方法對“最小”組中的每個序列與“核心”序列進行檢查,如果序列滿足特定的閾值(默認值為2)瓦盛,則將它們與最近的“核心”組合并洗显。TCRklass[26]提供了部分序列匹配的另一種變體,它使用k -string匹配從給定的引用集中選擇J或V基因原环,從而為查詢序列提供最佳匹配挠唆。

MiTCR[38]及其繼任者MiXCR[22]將標簽的使用與更經(jīng)典的對齊工具結(jié)合起來。首先嘱吗,確定匹配V和J區(qū)域保守的開始和結(jié)束模式的子序列或種子玄组。然后擴展子序列的對齊并給出分數(shù)≮寺螅考慮到保守殘基的位置俄讹,輸出是得分最高的對齊。包含超過用戶指定的不匹配核苷酸閾值的比對將被丟棄绕德。MiXCR還提供了對特定D區(qū)域的賦值颅悉。然而,D區(qū)域短且彼此相似迁匠,使得精確的賦值變得困難剩瓶,而大多數(shù)TCR的 repertoire 研究僅僅將D區(qū)域包含在CDR3序列中驹溃。

可靠和明確的V和J基因的分配只需要150個堿基對(bp) 5 '的順序到恒定區(qū)域的開始。由于大多數(shù)TCR測序流程產(chǎn)生擴增子延曙,這些擴增子專門針對TCR的這一區(qū)域豌鹤,現(xiàn)在的高通量測序儀的讀取長度(通常為>PE150 測序)意味著在基因分配之前很少需要序列組裝。然而枝缔,也有例外布疙,使用V和J區(qū)域baits[39]從隨機破碎的DNA中富集TCR基因區(qū)域,或者從總RNA-seq數(shù)據(jù)中恢復TCR基因區(qū)域[40-42]愿卸。后者的一個特別重要的例子是單細胞RNA-seq的應(yīng)用灵临,它可以匹配α鏈和β鏈(從而可能恢復抗原特異性),并同時表達t細胞功能狀態(tài)的分析[41,43,44]趴荸。上述研究描述了從RNA-seq數(shù)據(jù)組裝TCRs所需的專門生物信息學工具儒溉。

除了V (D) J比對,TCR組庫分析通常需要對高變的CDR3序列進行鑒定和翻譯,這一鑒定和翻譯也在決定抗原特異性中起著關(guān)鍵作用 (圖2)。從核苷酸翻譯成氨基酸序列本身是非常簡單而直接的過程, 在很多腳本語言中都有現(xiàn)成的包或者函數(shù),例如在Python中使用Biopython[46]或R中Biostrings包 [47]发钝。翻譯后的序列可以確定CDR3區(qū)域的保守氨基酸基序顿涣。IMGT定義CDR3區(qū)域是通過從V基因3 '端保守的第二個半胱氨酸殘基到J基因[48]中保守的FGXG基序中的苯丙氨酸殘基。雖然第二守恒的半胱氨酸殘基通常是V基因上最后一個c端半胱氨酸酝豪,但是有一些基因并不是這樣的,半胱氨酸是可以在隨機重組過程中產(chǎn)生的(盡管很少),因此需要一個更廣泛的背景或參考位置來確定CDR3的真確的起始位置涛碑。Noncanonical C-terminal motifs (e.g. FXXG or XGXG) also exist (非正則c端基序(如FXXG或XGXG)也存在)。在小鼠和人類中孵淘,保守基序分別位于-11和-10位置分別在TRAJ和TRBJ的J基因末端[49]蒲障,這使得從不規(guī)則的J基因或重組過程中的部分基序缺失中識別非典型序列成為可能。一旦CDR3被確認后,生產(chǎn)重組可能導致一個表達細胞鏈的定義通常是指那些包含CDR3上序列,是在坐標系對領(lǐng)袖V基因序列的開始和結(jié)束的恒定區(qū)和不含任何過早停止密碼子瘫证。上面討論的所有包都提供了cdr3的翻譯晌涕,以及生產(chǎn)性和非生產(chǎn)性TCRs的標識。

測序和豐度糾錯方法

Sequence and abundance error-correction strategies

核苷酸序列的錯誤痛悯,即最終數(shù)據(jù)不能真實地反映輸入的分子,是在文庫準備的不同階段產(chǎn)生的重窟。這種錯誤的發(fā)生主要是由于酶(通常是逆轉(zhuǎn)錄酶和DNA聚合酶)無法結(jié)合正確的核苷酸载萌,或者在DNA測序反應(yīng)過程中調(diào)用了錯誤的堿基。這些錯誤是不可避免的:即使現(xiàn)代聚合酶所宣稱的100萬個堿基中有1個錯誤是可信的[50,51]巡扇,一個從1000個輸入分子中擴增出短的300 bp擴增子的20個循環(huán)PCR預計也會包含超過30萬個錯誤堿基扭仁。

這樣子的錯誤在分析高通量測序數(shù)據(jù)時呈現(xiàn)出了一個嚴重的問題。大多數(shù)TRCs只出現(xiàn)一次或兩次在一個樣本中而且可能只在單堿基上有真正的不同厅翔。因此乖坠,錯誤的序列可能被誤認為是真正的序列,并人為地夸大了一個庫(repertoire)的多樣性刀闷。例如熊泵,我們對破傷風類毒素特異性t細胞克隆進行了測序仰迁,并觀察到>150 alpha基因和>200 beta基因變異序列,其中很多在實驗中只出現(xiàn)過一次顽分。

標準的FASTQ輸出為每個核苷酸提供了一個質(zhì)量(Phred)評分徐许,該評分估計堿基被錯誤called的可能性。也許最直接的減少錯誤的策略是過濾reads或刪除低質(zhì)量分數(shù)的base卒蘸,通常使用Q30作為閾值[53,54]雌隅,Q30是指在Phred分數(shù)上,一個base call 不正確的估計概率為千分之一[55]缸沃。這種技術(shù)只會消除在base call過程中產(chǎn)生的錯誤恰起,因為PCR錯誤不太可能受到低質(zhì)量的影響。此外趾牧,由于質(zhì)量評估受文庫準備检盼、測序平臺和DNA序列上下文的影響[56,57],無監(jiān)督質(zhì)量過濾可能會消除特定TCR重排的偏見武氓。

一個相關(guān)的方法是簡單地刪除所有低頻序列梯皿,因為它們是最有可能由于錯誤而產(chǎn)生的。這個閾值可以預先確定县恕,例如每個TCR[58]至少需要5次讀取东羹,或者可以根據(jù)數(shù)據(jù)估計閾值。在他們的論文測序人類TCRβ鏈[53],沃倫等人報道,沒有任何過濾,似乎有成上千的novel Jgene在beta-chain重組時檢測到;通過只保留前96%的reads (D96 cutoff)忠烛,人工序列被刪除属提,這個數(shù)字被減少到預期的13個TRBJ基因。然而美尸,Nguyen等人的[54]報告說冤议,在不同的實驗中,將來自單克隆TCR轉(zhuǎn)基因小鼠的基因repertoires減少到單個TCRs所需的閾值有所不同师坎。設(shè)置這種任意的cutoff恕酸,這種方法的一個主要缺點是,它毫無疑問地從數(shù)據(jù)集中刪除了大量真實但罕見的序列+胯陋。

更復雜的高通量TCR序列數(shù)據(jù)錯誤編輯使用聚類(clustering)來識別相似的序列集蕊温,然后將每個集群中較少見的成員吸收到更常見的成員中。早期的一篇repertoire論文使用最近鄰算法進行聚類遏乔,將其短readTCR數(shù)據(jù)(54 bp)分解為序列簇义矛,序列簇之間的差異高達2 bp(即漢明距離<=2)[5]。聚類/合并步驟可以通過將較低的豐度TCRs合并到某些閾值[25]內(nèi)較高的TCRs中盟萨,或者只有在V(D)J種系序列中存在不匹配時才這樣做凉翻。這保留了初始TCR多樣性[59]的更大比例,但仍然有可能刪除真正的但罕見的TCRs捻激,這促使一些開發(fā)人員省略所有這些步驟制轰,以保留許多不常見的序列[26]前计。一些管道(例如MiTCR/MiXCR)允許用戶更改閾值和集群參數(shù),以支持刪除錯誤或保留多樣性[22]艇挨。在PCR的早期周期中残炮,單靠頻率濾波無法檢測到逆轉(zhuǎn)錄酶或錯誤,因為這些錯誤會隨著原始序列一起放大缩滨。然而势就,基于數(shù)據(jù)生成過程的不同統(tǒng)計模型的幾種日益復雜的糾錯算法已經(jīng)發(fā)表[22,25,27,38],這些算法聲稱對TCR序列幾乎沒有錯誤分析脉漏。

在糾正錯誤方面的一個主要進展來自于UMIs的合并(圖3)苞冯。UMIs是在PCR擴增之前(通常在逆轉(zhuǎn)錄過程中或緊接著)合并的隨機核苷酸的短片段(有時稱為分子條形碼)。PCR后侧巨,UMIs可以用來識別來自同一起始mRNA分子的序列舅锄,因為它們都被標記為相同的UMI,因此可以一起計數(shù)司忱。這些信息可以用于兩個不同但相關(guān)的處理目標皇忿。第一種方法是從相同的初始模板分子中通過PCR擴增得到的重復序列。這對于在混合體系中獲得關(guān)于TCR豐度的準確信息至關(guān)重要坦仍。第二步是識別和糾正PCR或測序protocol本身引入的序列錯誤鳍烁。


Figure 3. Error correction using UMIs. (A) Schematic of the error-correction process. Each TCR is associated with a UMI, which acts as a molecular barcode. TCRs are clustered based on UMI. Identical TCRs within a cluster (i.e. with the same molecular barcode) are collapsed to a count of 1. Minority variants within a cluster are similarly merged with the majority variant. The number of clusters (i.e. same TCR, different UMI) gives the corrected abundance count for that TCR. Optionally, barcodes within a specified molecular distance of each other (usually 1 or 2 Hamming units) can be clustered together. (B) The effects of error correction on sequence abundance data for a set of TCR alpha and beta sequences obtained from a sample of unfractionated peripheral blood. The number of TCRs with each abundance observed is plotted against the abundance itself (labeled TCR abundance), e.g. the leftmost point represents the number of TCRs that occur only once in the sample, the next point the number that occurs twice, etc. The figure shows the distribution obtained before (left) and after (right) error correction using UMIs.

(A)UMI的糾錯原理圖,
(B)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末繁扎,一起剝皮案震驚了整個濱河市幔荒,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌梳玫,老刑警劉巖爹梁,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異提澎,居然都是意外死亡姚垃,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門盼忌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來积糯,“玉大人,你說我怎么就攤上這事碴犬。” “怎么了梆暮?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵服协,是天一觀的道長。 經(jīng)常有香客問我啦粹,道長偿荷,這世上最難降的妖魔是什么窘游? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮跳纳,結(jié)果婚禮上忍饰,老公的妹妹穿的比我還像新娘。我一直安慰自己寺庄,他們只是感情好艾蓝,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著斗塘,像睡著了一般赢织。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上馍盟,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天于置,我揣著相機與錄音,去河邊找鬼贞岭。 笑死八毯,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的瞄桨。 我是一名探鬼主播话速,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼讲婚!你這毒婦竟也來了尿孔?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤筹麸,失蹤者是張志新(化名)和其女友劉穎活合,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體物赶,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡白指,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了酵紫。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片告嘲。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖奖地,靈堂內(nèi)的尸體忽然破棺而出橄唬,到底是詐尸還是另有隱情,我是刑警寧澤参歹,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布仰楚,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏僧界。R本人自食惡果不足惜侨嘀,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望捂襟。 院中可真熱鬧咬腕,春花似錦、人聲如沸葬荷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽闯狱。三九已至煞赢,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間哄孤,已是汗流浹背照筑。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留瘦陈,地道東北人凝危。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像晨逝,于是被迫代替她去往敵國和親蛾默。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容