High-throughput sequencing of the T-cell receptor repertoire: pitfalls and opportunities
Abstract
T細胞特異性是由T細胞受體決定的僚祷,T細胞受體是一種異二聚體蛋白担敌,由一組由不精確的體細胞基因重組產(chǎn)生的極為多樣化的基因編碼啼器。大規(guī)模并行高通量測序允許數(shù)百萬不同的T細胞受體基因從一個單一的血液或組織樣本的特點考抄。然而蹲盘,免疫系統(tǒng)的異常異質(zhì)性對隨后的數(shù)據(jù)分析提出了重大挑戰(zhàn)颜矿。我們概述了處理免疫組庫(repertoire)數(shù)據(jù)的主要步驟述寡,考慮到原始序列文件的低級處理和高級算法,尋求提取生物或病理信息顶滩。最新一代的生物信息學工具允許數(shù)以百萬計的DNA序列被準確和快速地分配到各自的可變V和J基因片段矛市,并重建一個幾乎沒有錯誤的表示非模板添加和刪除發(fā)生。高級處理可以測量不同樣本中全基因組的多樣性诲祸,量化V和J的使用情況浊吏,并識別私有和公共t細胞受體。最后救氯,我們討論了將t細胞受體序列與功能找田,特別是與抗原識別聯(lián)系起來的主要挑戰(zhàn)。目前正在開發(fā)復雜的機器學習算法着憨,可以將單個t細胞受體的反常退化和交叉反應(yīng)性與整個t細胞免疫反應(yīng)的特異性結(jié)合起來墩衙。計算分析將為解開t細胞受體的潛能提供鑰匙,從而深入了解適應(yīng)性免疫系統(tǒng)的基礎(chǔ)生物學甲抖,并為疾病提供強有力的生物標志物漆改。
Introduction
下頜脊椎動物的適應(yīng)性免疫系統(tǒng)利用不精確的體細胞DNA重組,在B細胞(BCR)和t細胞(TCR)上產(chǎn)生豐富多樣的抗原特異性受體陣列准谚。關(guān)于可變抗原受體多樣性產(chǎn)生的機制已經(jīng)進行了非常詳細的研究(如文獻[1,2]挫剑,圖1中的圖解)。簡而言之柱衔,編碼每個鏈的位點由多個基因片段(' minigenes ')組成樊破,其中包括V、D和J基因唆铐。在淋巴細胞發(fā)育過程中基因組DNA的重組導致每一種可用基因片段的物理連接哲戚,并切除中間的DNA。由多個V艾岂、J和(在某些鏈中)D基因組成的組合多樣性可以“選擇”顺少,而在連接過程中,片段連接處發(fā)生的非模板核苷酸的添加和刪除極大地增強了這種組合多樣性王浴。這個系統(tǒng)產(chǎn)生了大量多樣的受體序列[4,5]脆炎,而每一個血液或組織的生物樣本通常都有成千上萬或數(shù)百萬個受體。這阻止了使用常規(guī)DNA測序?qū)細胞或t細胞抗原受體的全部序列進行全局分析叼耙。
t細胞重組和產(chǎn)生多樣性脏毯。個體的V和J基因是隨機選擇的(但不是一致的),并在胸腺的t細胞發(fā)育過程中重新組合幔崖。在重組過程中食店,堿基對可以在最終結(jié)扎前被移除或添加到連接處(A)。β基因在V和J之間包含了一個額外的D區(qū)域minigene赏寇,產(chǎn)生了兩個連接(未顯示)吉嫩。最后,轉(zhuǎn)錄alpha和beta V區(qū)域嗅定,剪接到各自的恒定區(qū)域(B)上并翻譯自娩,兩種蛋白異質(zhì)二聚形成一個TCR (C)。圖中所示的TCR/MHC/peptide complex來自PDB結(jié)構(gòu)1FYT露戒,使用RasMol[3]顯示椒功。TCR顯示為空格填充,肽/MHC復合物顯示為右邊的stick表示智什。粉色Vα;黃色Jα;藍色Vβ;綠色Jβ;和紅CDR3上动漾。
然而,在過去的幾十年中荠锭,高通量DNA測序(HTS)的快速發(fā)展為日益強大和廣泛的BCR和TCR全譜研究開辟了道路旱眯。免疫庫的異常異質(zhì)性不僅對實驗室測序管道,而且對隨后生成的基因組數(shù)據(jù)集的分析提出了重大挑戰(zhàn)证九。在這篇綜述中删豺,我們特別關(guān)注TCR系統(tǒng)的計算和生物信息學分析。我們概述了處理免疫組庫數(shù)據(jù)的主要步驟愧怜,考慮到原始序列文件的低級處理和試圖從數(shù)據(jù)中提取生物或病理信息的高級算法呀页。我們調(diào)查了為這類分析而開發(fā)的一些工具,并指出了保留序列分析的潛力拥坛,以便深入了解適應(yīng)性免疫系統(tǒng)的基礎(chǔ)生物學蓬蝶,并提供強有力的疾病生物標志物
TCR系統(tǒng)可以被看作是一個高維和密切個性化的生物標志物的最終例子,這是未來精準醫(yī)療的標志猜惋⊥璺眨可以預見的是,高通量TCR測序分析的第一個十年集中在基因分配和錯誤糾正等具有挑戰(zhàn)性但技術(shù)性的問題上著摔。隨著這項技術(shù)變得更加成熟和強大缓窜,人們的注意力正轉(zhuǎn)向開發(fā)復雜的計算工具,這些工具是理解這些新穎但往往難以理解的免疫功能指標所必需的。
The processing pipeline: an overview
研究免疫系統(tǒng)的主要階段如圖2所示禾锤。它們大致可分為文庫準備和測序私股、低級處理,包括確定受體序列并將其分配給基因組V时肿、D和J基因庇茫,以及高級處理和分析。
圖2:
雖然我們的重點是在硅分析蕾羊,簡要介紹目前使用的主要方法為TCR組庫的準備和測序是有益的喧笔。其他地方對高通量TCR庫的制備進行了詳細的綜述[10-13]。許多測序技術(shù)已被應(yīng)用于研究TCR庫龟再,但與基因組學和轉(zhuǎn)錄組學一樣书闸,Illumina平臺已成為事實上的標準([14],http://www.illumina.com/)利凑。這一地位的實現(xiàn)是由于每個基本測序成本的大幅降低浆劲,以及閱讀長度和質(zhì)量的巨大改善。然而截碴,在測序前有幾個處理生物樣品的管道梳侨。所有管道的目標是盡可能完整地記錄重新排列的alpha和beta TCR基因序列,并確定它們在樣本中的豐度日丹。TCR測序的主要商業(yè)服務(wù)提供商從基因組DNA或信使RNA (mRNA)擴增([5]走哺,http://www.adaptivebiotech.com/immunoseq)。雖然這些方法的大部分細節(jié)都是專有的哲虾,但是這些方法是基于使用多重聚合酶鏈反應(yīng)(PCR)擴增重組TCR基因丙躏,使用一組引物可以捕獲V和J基因[5]的所有可能組合择示。由于V基因和J基因之間存在較大的內(nèi)含子,非重組基因不會擴增晒旅。相比之下栅盲,一些研究小組已經(jīng)開發(fā)了基于RNA/互補DNA (cDNA)的技術(shù)來進行組庫分析。以RNA為起始材料废恋,可以應(yīng)用互補DNA (cDNA)端(RACE)快速擴增技術(shù)[15,16]谈秫,從而減少不同V和J基因引物效率不同可能導致的PCR偏倚量。從DNA入手鱼鼓,在樣品采集的便捷性和儲存的穩(wěn)定性方面有很多優(yōu)勢拟烫。此外,基于dna的策略不受mRNA轉(zhuǎn)錄異質(zhì)性或穩(wěn)定性的影響迄本。相反硕淑,基于rna的技術(shù)的一個主要好處是,它們很容易適應(yīng)引入獨特的分子標識符(UMIs)嘉赎,這可以提供樣本中TCR豐度的精確定量估計置媳。正如下面詳細討論的,PCR固有的異質(zhì)性意味著這對于實現(xiàn)對保留序列的穩(wěn)健量化至關(guān)重要公条。
一旦TCR基因得到豐富拇囊、擴增和測序,原始序列數(shù)據(jù)文件(通常以FASTQ格式輸出)就需要處理赃份,以產(chǎn)生有意義的生物信息寂拆。與基因組或RNA-seq協(xié)議相同,處理的第一階段是將序列匹配到已知的基因組引用抓韩,在本例中纠永,將每個TCR分配到其種系組成基因片段(圖2,低級處理)谒拴。然而,這個過程是細胞更加困難,因為識別位點都是由許多類似V, J,和(在某些情況下)D基因,必須尊敬的準確,也因為這些重組區(qū)域還包含刪除和無模板添加在復合過程中引入(圖1)尝江。幾個基因賦值方法討論了下面的基因分配部分笔链。已經(jīng)投入了相當大的努力來開發(fā)算法岳枷,以糾正由此產(chǎn)生的核苷酸序列的PCR和測序錯誤,并糾正有偏差的PCR擴增徙鱼。這些將在序列和豐度錯誤糾正策略和基準測試及其挑戰(zhàn)部分進行討論苍日。
最后惭聂,一旦一組經(jīng)過修正的指定序列被組裝(一個匯編),就可以探索挖掘這些數(shù)據(jù)集的方法(分類和比較不同的匯編相恃,測量多樣性辜纲,注釋TCR抗原特異性,等等),并提取生物學或病理學意義(圖2耕腾,高級處理)见剩。高水平處理TCR庫的方法將在以下章節(jié)中討論:揭示生物學和臨床意義、多樣性和抗原特異性的測量扫俺。
Gene assignment
在過去的5年中苍苞,已經(jīng)發(fā)布了相當數(shù)量的低層處理軟件程序。通常狼纬,該軟件是與實驗庫準備管道一起開發(fā)的羹呵,主要用于處理這個特定管道產(chǎn)生的數(shù)據(jù)。我們編制了一份清單疗琉,列出了我們所知的所有用于底層處理TCR庫序列數(shù)據(jù)的開源軟件工具(表1)担巩。分別討論了用于分析全局轉(zhuǎn)錄組RNA-seq數(shù)據(jù)中的TCR序列的工具,包括單細胞RNA-seq數(shù)據(jù)没炒。
這里是表格:
國際免疫遺傳學信息系統(tǒng)(IMGT)于1989年首次開發(fā),作為免疫遺傳學相關(guān)數(shù)據(jù)的集中存儲庫犯戏。它仍然是免疫遺傳學中使用最廣泛的參考點送火,特別是用于維護IMGT/GENE-DB數(shù)據(jù)庫,該數(shù)據(jù)庫包含來自多個物種(包括小鼠先匪、大鼠种吸、兔子和人類)的基因組V、D和J的一組注釋良好的基因呀非。這組基因為大多數(shù)TCR基因分配工具提供了參考坚俗。IMGT的一個重要作用是標準化TCR基因片段的命名法,盡管應(yīng)該指出岸裙,即使在今天的文獻中猖败,更古老的命名法也很常見,并且可能在免疫組庫分析中造成相當大的混淆降允。在這里可以找到不同命名法之間的有用比較恩闻。www.imgt.org/IMGTrepertoire/LocusGenes/#J.
除了提供TCR基因的參考序列外,IMGT resource page還提供了多種序列分配工具剧董,包括IMGT/V-QUEST[17,32]和一個高通量版本IMGT/HighV-QUEST[18,33]幢尚。這兩個版本都可以通過Web門戶訪問。IMGT/V-QUEST允許在一個會話中提交多達15萬個序列翅楼,但這通常還不足以處理典型的高溫超導實驗產(chǎn)生的數(shù)千萬或數(shù)億個讀取尉剩。基因分配采用全局成對比對算法來確定最合適的V毅臊、D理茎、J基因,然后采用Smith Waterman局部比對算法來確定V(D)J基因末端的缺失,以及它們之間的插入功蜓。這些算法相對較慢园爷,限制了這些工具在高溫超導分析中的使用。
使用與種線序列對齊相同的原則式撼,專門為TCR高溫超導系統(tǒng)開發(fā)了更快版本的類似全局對齊算法童社。IgBLAST最初是作為一種分析免疫球蛋白序列的工具開發(fā)的,但后來添加了一個用于TCR序列分析[19]的選項扰楼,并使用BLAST算法(一種局部比對方法)在IMGT和NCBI數(shù)據(jù)庫中搜索針對種系序列的查詢序列。類似地,IMonitor[23]也使用BLAST芽腾,另外還有第二個比對步驟,用于在非cdr3序列中找到精確匹配描滔。recovery TCR或RTCR[27]使用Bowtie2[34]作為其默認對齊模塊拘泞,該模塊允許本地對齊或端到端對齊烟瞧。TCR基因分配的另一層復雜性是t細胞mRNA經(jīng)常包含不遵循VDJ重組經(jīng)典規(guī)則的序列砾赔,但可能包括部分重組事件专普、保留的基因間序列或連接的J基因[35]檀夹。這些非正則序列的分析直接由TRIg[28]來處理策橘,它測試與整個TCR軌跡的一致性击胜,而不僅僅是外顯子。
免疫遺傳序列分析(IMSEQ)[36]還通過將輸入對齊到生殖系來表征TCR序列役纹,此外還使用了一個檢查步驟,該步驟查找V和J區(qū)域以及CDR3區(qū)域的側(cè)邊暇唾。該算法首先在短核心序列中尋找匹配項促脉,然后對錯誤得分低于某個閾值的序列擴展對齊。
另一種基因分配策略是使用部分序列或標記來識別特定的V和J區(qū)域策州。解碼器[20]實現(xiàn)了一種改進的Aho-corasick[37]搜索算法來查找匹配的字符串(或單次不匹配的標簽)瘸味,從而實現(xiàn)了更快的基因分配。一旦確定了V和J區(qū)域够挂,與實際序列的比對就確定了基因片段區(qū)域的末端旁仿,從而確定了插入和刪除。除了速度之外孽糖,標記策略對短標記本身之外的V或J區(qū)域中的錯誤并不敏感枯冈。因此,潛在的錯誤僅限于CDR3區(qū)域(見下文)办悟。最新版本的解壓縮器尘奏,連同用于人和鼠標的V序列和J序列的完整列表,以及標識符標記列表病蛉,可以在https://github.com/innate2adaptive/解壓縮器中找到炫加。Vidjil算法[21]使用了一種啟發(fā)式的方法瑰煎,使用種系基因中唯一的子串來分配V和J基因。它使用子字符串指定一個“窗口”俗孝,該窗口以V和J之間的序列為中心酒甸,足夠大,可以同時包含這兩個區(qū)域赋铝。相同的窗口(如果沒有排序錯誤)被聚集和計數(shù)插勤,表示克隆類型及其各自的豐度。進一步對VJ進行細化柬甥,Vidjil輸出最豐富的20個克隆進行進一步分析饮六。另一個名為LymAnalyzer[25]的分析工具實現(xiàn)了一種不同的策略,使用短序列標記進行基因分配苛蒲。通過識別與數(shù)據(jù)庫中的引用序列最密切相關(guān)的短連續(xù)序列集(或標記)卤橄,可以對引用序列進行比對(默認情況下是從IMGT數(shù)據(jù)庫中獲取的,盡管用戶可以指定不同的引用)臂外。該算法允許在無法在第一個標記中找到精確匹配的情況下(從參考V基因的3 '端開始分配窟扑,J基因從5 '端開始分配)移動后續(xù)標記,從而導致不匹配漏健。然后將序列轉(zhuǎn)換為CDR3序列并進行聚類嚎货。相同的序列被組合在一起,并計數(shù)來表示克隆型頻率蔫浆,其中組被分類為“核心”或“最小”序列殖属。使用一種稱為漢明距離的距離度量方法對“最小”組中的每個序列與“核心”序列進行檢查,如果序列滿足特定的閾值(默認值為2)瓦盛,則將它們與最近的“核心”組合并洗显。TCRklass[26]提供了部分序列匹配的另一種變體,它使用k -string匹配從給定的引用集中選擇J或V基因原环,從而為查詢序列提供最佳匹配挠唆。
MiTCR[38]及其繼任者MiXCR[22]將標簽的使用與更經(jīng)典的對齊工具結(jié)合起來。首先嘱吗,確定匹配V和J區(qū)域保守的開始和結(jié)束模式的子序列或種子玄组。然后擴展子序列的對齊并給出分數(shù)≮寺螅考慮到保守殘基的位置俄讹,輸出是得分最高的對齊。包含超過用戶指定的不匹配核苷酸閾值的比對將被丟棄绕德。MiXCR還提供了對特定D區(qū)域的賦值颅悉。然而,D區(qū)域短且彼此相似迁匠,使得精確的賦值變得困難剩瓶,而大多數(shù)TCR的 repertoire 研究僅僅將D區(qū)域包含在CDR3序列中驹溃。
可靠和明確的V和J基因的分配只需要150個堿基對(bp) 5 '的順序到恒定區(qū)域的開始。由于大多數(shù)TCR測序流程產(chǎn)生擴增子延曙,這些擴增子專門針對TCR的這一區(qū)域豌鹤,現(xiàn)在的高通量測序儀的讀取長度(通常為>PE150 測序)意味著在基因分配之前很少需要序列組裝。然而枝缔,也有例外布疙,使用V和J區(qū)域baits[39]從隨機破碎的DNA中富集TCR基因區(qū)域,或者從總RNA-seq數(shù)據(jù)中恢復TCR基因區(qū)域[40-42]愿卸。后者的一個特別重要的例子是單細胞RNA-seq的應(yīng)用灵临,它可以匹配α鏈和β鏈(從而可能恢復抗原特異性),并同時表達t細胞功能狀態(tài)的分析[41,43,44]趴荸。上述研究描述了從RNA-seq數(shù)據(jù)組裝TCRs所需的專門生物信息學工具儒溉。
除了V (D) J比對,TCR組庫分析通常需要對高變的CDR3序列進行鑒定和翻譯,這一鑒定和翻譯也在決定抗原特異性中起著關(guān)鍵作用 (圖2)。從核苷酸翻譯成氨基酸序列本身是非常簡單而直接的過程, 在很多腳本語言中都有現(xiàn)成的包或者函數(shù),例如在Python中使用Biopython[46]或R中Biostrings包 [47]发钝。翻譯后的序列可以確定CDR3區(qū)域的保守氨基酸基序顿涣。IMGT定義CDR3區(qū)域是通過從V基因3 '端保守的第二個半胱氨酸殘基到J基因[48]中保守的FGXG基序中的苯丙氨酸殘基。雖然第二守恒的半胱氨酸殘基通常是V基因上最后一個c端半胱氨酸酝豪,但是有一些基因并不是這樣的,半胱氨酸是可以在隨機重組過程中產(chǎn)生的(盡管很少),因此需要一個更廣泛的背景或參考位置來確定CDR3的真確的起始位置涛碑。Noncanonical C-terminal motifs (e.g. FXXG or XGXG) also exist (非正則c端基序(如FXXG或XGXG)也存在)。在小鼠和人類中孵淘,保守基序分別位于-11和-10位置分別在TRAJ和TRBJ的J基因末端[49]蒲障,這使得從不規(guī)則的J基因或重組過程中的部分基序缺失中識別非典型序列成為可能。一旦CDR3被確認后,生產(chǎn)重組可能導致一個表達細胞鏈的定義通常是指那些包含CDR3上序列,是在坐標系對領(lǐng)袖V基因序列的開始和結(jié)束的恒定區(qū)和不含任何過早停止密碼子瘫证。上面討論的所有包都提供了cdr3的翻譯晌涕,以及生產(chǎn)性和非生產(chǎn)性TCRs的標識。
測序和豐度糾錯方法
Sequence and abundance error-correction strategies
核苷酸序列的錯誤痛悯,即最終數(shù)據(jù)不能真實地反映輸入的分子,是在文庫準備的不同階段產(chǎn)生的重窟。這種錯誤的發(fā)生主要是由于酶(通常是逆轉(zhuǎn)錄酶和DNA聚合酶)無法結(jié)合正確的核苷酸载萌,或者在DNA測序反應(yīng)過程中調(diào)用了錯誤的堿基。這些錯誤是不可避免的:即使現(xiàn)代聚合酶所宣稱的100萬個堿基中有1個錯誤是可信的[50,51]巡扇,一個從1000個輸入分子中擴增出短的300 bp擴增子的20個循環(huán)PCR預計也會包含超過30萬個錯誤堿基扭仁。
這樣子的錯誤在分析高通量測序數(shù)據(jù)時呈現(xiàn)出了一個嚴重的問題。大多數(shù)TRCs只出現(xiàn)一次或兩次在一個樣本中而且可能只在單堿基上有真正的不同厅翔。因此乖坠,錯誤的序列可能被誤認為是真正的序列,并人為地夸大了一個庫(repertoire)的多樣性刀闷。例如熊泵,我們對破傷風類毒素特異性t細胞克隆進行了測序仰迁,并觀察到>150 alpha基因和>200 beta基因變異序列,其中很多在實驗中只出現(xiàn)過一次顽分。
標準的FASTQ輸出為每個核苷酸提供了一個質(zhì)量(Phred)評分徐许,該評分估計堿基被錯誤called的可能性。也許最直接的減少錯誤的策略是過濾reads或刪除低質(zhì)量分數(shù)的base卒蘸,通常使用Q30作為閾值[53,54]雌隅,Q30是指在Phred分數(shù)上,一個base call 不正確的估計概率為千分之一[55]缸沃。這種技術(shù)只會消除在base call過程中產(chǎn)生的錯誤恰起,因為PCR錯誤不太可能受到低質(zhì)量的影響。此外趾牧,由于質(zhì)量評估受文庫準備检盼、測序平臺和DNA序列上下文的影響[56,57],無監(jiān)督質(zhì)量過濾可能會消除特定TCR重排的偏見武氓。
一個相關(guān)的方法是簡單地刪除所有低頻序列梯皿,因為它們是最有可能由于錯誤而產(chǎn)生的。這個閾值可以預先確定县恕,例如每個TCR[58]至少需要5次讀取东羹,或者可以根據(jù)數(shù)據(jù)估計閾值。在他們的論文測序人類TCRβ鏈[53],沃倫等人報道,沒有任何過濾,似乎有成上千的novel Jgene在beta-chain重組時檢測到;通過只保留前96%的reads (D96 cutoff)忠烛,人工序列被刪除属提,這個數(shù)字被減少到預期的13個TRBJ基因。然而美尸,Nguyen等人的[54]報告說冤议,在不同的實驗中,將來自單克隆TCR轉(zhuǎn)基因小鼠的基因repertoires減少到單個TCRs所需的閾值有所不同师坎。設(shè)置這種任意的cutoff恕酸,這種方法的一個主要缺點是,它毫無疑問地從數(shù)據(jù)集中刪除了大量真實但罕見的序列+胯陋。
更復雜的高通量TCR序列數(shù)據(jù)錯誤編輯使用聚類(clustering)來識別相似的序列集蕊温,然后將每個集群中較少見的成員吸收到更常見的成員中。早期的一篇repertoire論文使用最近鄰算法進行聚類遏乔,將其短readTCR數(shù)據(jù)(54 bp)分解為序列簇义矛,序列簇之間的差異高達2 bp(即漢明距離<=2)[5]。聚類/合并步驟可以通過將較低的豐度TCRs合并到某些閾值[25]內(nèi)較高的TCRs中盟萨,或者只有在V(D)J種系序列中存在不匹配時才這樣做凉翻。這保留了初始TCR多樣性[59]的更大比例,但仍然有可能刪除真正的但罕見的TCRs捻激,這促使一些開發(fā)人員省略所有這些步驟制轰,以保留許多不常見的序列[26]前计。一些管道(例如MiTCR/MiXCR)允許用戶更改閾值和集群參數(shù),以支持刪除錯誤或保留多樣性[22]艇挨。在PCR的早期周期中残炮,單靠頻率濾波無法檢測到逆轉(zhuǎn)錄酶或錯誤,因為這些錯誤會隨著原始序列一起放大缩滨。然而势就,基于數(shù)據(jù)生成過程的不同統(tǒng)計模型的幾種日益復雜的糾錯算法已經(jīng)發(fā)表[22,25,27,38],這些算法聲稱對TCR序列幾乎沒有錯誤分析脉漏。
在糾正錯誤方面的一個主要進展來自于UMIs的合并(圖3)苞冯。UMIs是在PCR擴增之前(通常在逆轉(zhuǎn)錄過程中或緊接著)合并的隨機核苷酸的短片段(有時稱為分子條形碼)。PCR后侧巨,UMIs可以用來識別來自同一起始mRNA分子的序列舅锄,因為它們都被標記為相同的UMI,因此可以一起計數(shù)司忱。這些信息可以用于兩個不同但相關(guān)的處理目標皇忿。第一種方法是從相同的初始模板分子中通過PCR擴增得到的重復序列。這對于在混合體系中獲得關(guān)于TCR豐度的準確信息至關(guān)重要坦仍。第二步是識別和糾正PCR或測序protocol本身引入的序列錯誤鳍烁。
(A)UMI的糾錯原理圖,
(B)