單細(xì)胞研究聯(lián)合T細(xì)胞受體分析2022年【最新進(jìn)展】

這篇文章是單細(xì)胞轉(zhuǎn)錄組（scRNAseq）和TCRseq聯(lián)合分析的一個(gè)綜述姚淆，介紹了目前關(guān)于這兩種數(shù)據(jù)聯(lián)合分析的最新進(jìn)展(2022年)冰木。

image.png

1. 介紹

1.1 T細(xì)胞受體的作用

T細(xì)胞是適應(yīng)性免疫系統(tǒng)的核心角色曲伊，在免疫相關(guān)疾病的控制中發(fā)揮著至關(guān)重要的作用鸣驱，除此之外未舟，T細(xì)胞還是免疫接種和免疫治療反應(yīng)不可或缺的媒介盗棵。通過產(chǎn)生高度多樣化的T細(xì)胞庫，適應(yīng)性免疫系統(tǒng)就具備了一個(gè)強(qiáng)大的工具包尚辑，以防御致病微生物和癌癥辑鲤。T細(xì)胞庫的這種多樣性是通過V(D)J重組而產(chǎn)生大量不同的T細(xì)胞受體(TCR)復(fù)合物實(shí)現(xiàn)的。TCR是表達(dá)在細(xì)胞表面杠茬，能夠識別來自外源或自身抗原的小的多肽（表位）月褥，并由抗原呈遞細(xì)胞上的主要組織相容性復(fù)合體(MHC)分子呈遞弛随。當(dāng)TCR與其同源肽-mhc (pMHC)復(fù)合物結(jié)合時(shí)，T細(xì)胞介導(dǎo)的免疫反應(yīng)被觸發(fā)宁赤。

大多數(shù)T細(xì)胞受體是由一個(gè)α鏈和一個(gè)β鏈組成舀透，多樣性是由α鏈上的V，J基因和β鏈上的D基因產(chǎn)生决左。這是一級多樣性愕够，也稱為組合多樣性（combinatorial diversity）。重組過程中佛猛，非模板化的核苷酸在片段的連接處被添加和刪除惑芭，大大增加了TCR庫的潛在多樣性。這就是所謂的連接多樣性（junctional diversity）继找。最后遂跟，通過α和β鏈的近似無約束配對建立了一個(gè)額外的多樣性水平∮ざ桑總共的TCR庫的多樣性理論上達(dá)到了10的15次方到10的61次方幻锁，而實(shí)際上人體中的TCR多樣性受到了T細(xì)胞總數(shù)的限制，也能達(dá)到3x10的11次方

1.2 TCR測序

TCR測序已經(jīng)成為了理解復(fù)雜TCR庫動態(tài)的重要工具边臼。一個(gè)clonotype通常是由V基因越败，CDR3氨基酸序列和J基因組合而成。一般來說硼瓣，在一個(gè)bulk庫樣本中unique的clone數(shù)量在 103到 106之間究飞，這取決于clonality，采樣條件和測序深度堂鲤。然而亿傅，盡管TCR測序已經(jīng)變得不可或缺，但傳統(tǒng)的bulk方法只能提供一層信息瘟栖，因?yàn)樗鼈儍H僅捕捉了TCR的特征葵擎。考慮到T細(xì)胞表現(xiàn)出廣泛的免疫表型半哟，能有各種功能酬滤，從分泌(抗)炎癥細(xì)胞因子到釋放細(xì)胞毒性效應(yīng)分子誘導(dǎo)細(xì)胞死亡，受體特征不能完全捕捉它們起源的T細(xì)胞的功能寓涨。傳統(tǒng)上盯串，免疫學(xué)就依賴于靶向技術(shù)，如流式細(xì)胞儀戒良，來描述這些獨(dú)特的免疫細(xì)胞表型体捏。流式細(xì)胞儀分選細(xì)胞是根據(jù)細(xì)胞表面表達(dá)特定的marker 蛋白來分選的。用熒光標(biāo)記抗體來標(biāo)記這些目標(biāo)。然而几缭，可用熒光團(tuán)的數(shù)量受到發(fā)射光譜重疊的限制河泳，限制了可測量參數(shù)的數(shù)量。盡管有些技術(shù)能達(dá)到50個(gè)年栓，比如（CyTOF）拆挥，但還是在用戶使用特定數(shù)量的預(yù)定義marker上受限。相反某抓，RNA測序可以以一種無偏倚的方式捕獲細(xì)胞亞群的表型纸兔，因?yàn)樗痪窒抻谟邢薜暮陀嗅槍π缘膍arker選擇。然而搪缨，在轉(zhuǎn)錄水平上的基因表達(dá)不足以區(qū)分特定的細(xì)胞亞群食拜，而蛋白質(zhì)標(biāo)記可能更具有描述性鸵熟。例如副编，不同CD45異構(gòu)體的表達(dá)，使我們能夠區(qū)分原始T細(xì)胞和記憶T細(xì)胞流强，不能在轉(zhuǎn)錄水平上識別痹届。此外，大量RNA測序通常會產(chǎn)生來自樣本中所有細(xì)胞的基因表達(dá)譜的復(fù)合組合打月，這不能充分反映細(xì)胞多樣性队腐。因此，bulk RNA測序通常需要預(yù)先用熒光標(biāo)記抗體對目標(biāo)蛋白標(biāo)記物進(jìn)行細(xì)胞分選奏篙，以純化樣本中的細(xì)胞類型柴淘。

這就用到了單細(xì)胞RNAseq測序。與這些傳統(tǒng)技術(shù)相比，一個(gè)更有前途的替代方案是單細(xì)胞RNA測序，它利用了組合多個(gè)信息層的能力好乐，例如單細(xì)胞內(nèi)的基因表達(dá)和TCR序列的配對測序抢韭。這種多模態(tài)的特征并不局限于轉(zhuǎn)錄水平。例如浪蹂，抗體的添加與特異性寡核苷酸條形碼(Feature Barcoding)連接，使表面蛋白的表征成為可能，類似于流式細(xì)胞術(shù)夕吻。然而，盡管單細(xì)胞測序前景光明繁仁，但它在幾個(gè)方面仍然具有挑戰(zhàn)性涉馅。與傳統(tǒng)的(Bulk)技術(shù)相比，單細(xì)胞測序仍然是昂貴和勞動密集型的黄虱。因此控漠，樣本通量通常較低。然而，隨著單細(xì)胞測序領(lǐng)域的迅速發(fā)展盐捷，最近的發(fā)展已經(jīng)允許單獨(dú)的樣品多路復(fù)用偶翅，包括允許在樣品之間進(jìn)行區(qū)分的寡核苷酸標(biāo)記抗體(Cell hash)，降低成本并允許更大的樣品大小碉渡。單細(xì)胞平臺能夠測序的細(xì)胞數(shù)量也比Bulk方法低幾個(gè)數(shù)量級聚谁。例如，大多數(shù)單細(xì)胞測序技術(shù)只允許評估多達(dá)10的4次方個(gè)細(xì)胞滞诺，而bulk測序技術(shù)通承蔚迹可以自信地評估大于10的5次方個(gè)細(xì)胞。然而习霹，隨著技術(shù)的進(jìn)步朵耕，單細(xì)胞測序的這一數(shù)字正在上升。

有很多平臺可以在單細(xì)胞水平上對T細(xì)胞進(jìn)行表征淋叶，每個(gè)平臺的區(qū)別在于：在細(xì)胞的制備和實(shí)驗(yàn)用的材料阎曹，如何富集用于測序等方面都有所不同。這些因素對測序的通量煞檩、深度处嫌、成本，甚至從多形態(tài)生成數(shù)據(jù)的能力都有重大影響斟湃。由于之前的綜述已經(jīng)廣泛地比較了多種單細(xì)胞測序方法熏迹，我們將不再進(jìn)一步討論各自的方法。相反凝赛，在這篇綜述中注暗，我們將重點(diǎn)關(guān)注配對的T細(xì)胞基因表達(dá)譜及其TCR序列的數(shù)據(jù)分析。除了前面描述的優(yōu)點(diǎn)外墓猎，單細(xì)胞TCR測序還具有方便配對α和β鏈的優(yōu)點(diǎn)捆昏。這是很難實(shí)現(xiàn)的傳統(tǒng)bulk方法，因?yàn)樵赽ulk實(shí)驗(yàn)中TCR分子的來源未知陶衅。此外屡立，整體技術(shù)的技術(shù)限制，以及D基因額外重組帶來的較大的異質(zhì)性（heterogeneity）搀军，導(dǎo)致了我們對TCR β鏈的興趣較為優(yōu)先膨俐。因此，我們對TCR識別的大部分理解都是基于β鏈的單獨(dú)測序罩句。然而焚刺，已有研究表明，α鏈也在不同程度上部分介導(dǎo)肽- mhc復(fù)合體(pMHC)的識別门烂。此外乳愉，單細(xì)胞測序提供的多模態(tài)功能還允許包括T細(xì)胞靶向肽- mhc葡聚糖兄淫，使抗原特異性T細(xì)胞、其TCR序列和功能表型的識別成為可能蔓姚。這些信息不僅對闡明免疫介導(dǎo)疾病的免疫病理至關(guān)重要捕虽，而且可以用來確定潛在的免疫治療靶點(diǎn)或幫助指導(dǎo)臨床試驗(yàn)中的免疫監(jiān)測。

單細(xì)胞RNA和TCR測序的結(jié)合比傳統(tǒng)(bulk)技術(shù)提供了多種好處坡脐。在本文中泄私，我們將概述其中的幾個(gè)好處。此外备闲，我們的目標(biāo)是將研究bulk TCR測序數(shù)據(jù)或bulk RNA-seq數(shù)據(jù)的實(shí)驗(yàn)或計(jì)算免疫學(xué)家引入常見的高分辨率和無偏多模態(tài)單細(xì)胞工作流程晌端，從而能夠產(chǎn)生新的生物學(xué)相關(guān)見解。由于TCR轉(zhuǎn)錄本靶向富集和TCR轉(zhuǎn)錄組單細(xì)胞測序的新興應(yīng)用恬砂，大量不同的工具被開發(fā)用于該數(shù)據(jù)的下游分析咧纠，試圖整合基因表達(dá)和克隆型信息。本綜述的最終目的是概述目前最先進(jìn)的方法和軟件工具泻骤，用于整合和下游分析單細(xì)胞TCR和單細(xì)胞基因表達(dá)數(shù)據(jù)漆羔。雖然這篇綜述將主要關(guān)注T細(xì)胞及其受體的分析，但許多討論的方法和技術(shù)也適用于B細(xì)胞瞪讼。
為了向讀者全面介紹配對單細(xì)胞RNA和TCR測序的好處钧椰，我們將首先概述未配對單細(xì)胞RNA測序和TCR庫分析的傳統(tǒng)工作流程粹断。接下來符欠，我們將討論集成這兩層信息的優(yōu)點(diǎn)，以及支持這種集成的可用工具瓶埋。最后希柿，我們確定了當(dāng)前TCR庫分析領(lǐng)域面臨的挑戰(zhàn)，并就如何彌補(bǔ)該領(lǐng)域的研究空白提供了新的視角养筒。

2. 單細(xì)胞RNAseq的一般流程

2.1 單細(xì)胞RNAseq的效力計(jì)算（power calculation）

效力計(jì)算是實(shí)驗(yàn)設(shè)計(jì)的重要組成部分曾撤。雖然bulk測序的效力計(jì)算方法可以應(yīng)用于單細(xì)胞水平，但這些方法往往沒有考慮到單細(xì)胞的特定特征晕粪，如數(shù)據(jù)稀疏性挤悉。有幾個(gè)因素決定了單細(xì)胞測序?qū)嶒?yàn)的統(tǒng)計(jì)能力，包括測序深度(# of reads per cell)巫湘、每個(gè)樣本的細(xì)胞數(shù)量和樣本數(shù)量装悲。這些因素通常受到預(yù)算限制、所選測序平臺的技術(shù)限制和樣品可用性的影響尚氛。雖然建議的測序深度信息通常由試劑制造商提供(例如10x Genomics)诀诊，但決定足夠的樣本大小和每個(gè)樣本所需的細(xì)胞數(shù)量是更有挑戰(zhàn)性的。此外阅嘶，根據(jù)研究問題属瓣，可能需要其他先驗(yàn)知識來計(jì)算效力载迄。例如，當(dāng)試圖在樣本中確定一個(gè)罕見的細(xì)胞群時(shí)抡蛙，可能需要預(yù)先了解該樣本類型中細(xì)胞的比例护昧，以確定需要對多少細(xì)胞進(jìn)行測序才能獲得足夠的效力。由于研究問題需要不同的先驗(yàn)知識粗截，目前已經(jīng)開發(fā)出了幾種不同目的的單細(xì)胞效力分析工具捏卓，如scPower、SCEED或SCOPIT慈格。SCEED主要研究細(xì)胞類型鑒定的效力計(jì)算怠晴，而scPower則可用于差異基因表達(dá)檢測和表達(dá)性狀定量位點(diǎn)分析的效力計(jì)算。最后浴捆，SCOPIT使用一種多項(xiàng)分布來計(jì)算所需的細(xì)胞數(shù)蒜田，其基礎(chǔ)是每個(gè)亞群必須測序到的最小細(xì)胞數(shù)、每個(gè)cluster對該細(xì)胞數(shù)進(jìn)行抽樣的期望概率以及最罕見的亞群的頻率选泻。該模型可以用作一個(gè)直觀的web界面冲粤，也可以用作一個(gè)R包。

2.2 單細(xì)胞RNAseq測序數(shù)據(jù)的預(yù)處理

由單細(xì)胞平臺產(chǎn)生的測序數(shù)據(jù)页眯，類似于bulk測序梯捕，在進(jìn)行下游分析之前需要進(jìn)行一些處理。主要的預(yù)處理步驟如表1所示窝撵。雖然我們將在本節(jié)簡要討論其中的一些問題傀顾，但讀者可以參考補(bǔ)充文本獲得更詳細(xì)的解釋，包括支持預(yù)處理(單細(xì)胞)RNA-seq數(shù)據(jù)的流行軟件工具碌奉。Luecken和Theis[39]在一篇精彩的評論中進(jìn)一步解釋了其中的一些步驟短曾。此外，最近的一個(gè)基準(zhǔn)測試表明赐劣，在預(yù)處理工具之間的選擇相對不重要嫉拐，在下游處理之后觀察到微小的差異。盡管如此魁兼，對于使用10x Genomics平臺的V(D)J分析婉徘，CellRanger是推薦的，因?yàn)樗瑫r(shí)處理基因表達(dá)和配對TCR數(shù)據(jù)咐汞。

2.3 scRNAseq的下游分析

下游分析包括聚類和細(xì)胞注釋盖呼，差異細(xì)胞類型組成分析，差異基因表達(dá)和功能富集碉考，軌跡分析塌计。還包括，基因調(diào)控網(wǎng)絡(luò)的識別或細(xì)胞-細(xì)胞通信的推斷等（本文沒有列出）侯谁。

2.3.1 聚類和注釋

像t-SNE锌仅，UMAP這一類非線性降維技術(shù)能夠?qū)⒓?xì)胞按照基因表達(dá)的相似性聚在一起章钾。由這些算法創(chuàng)建的低維嵌入可以用于根據(jù)相似性分?jǐn)?shù)或距離度量來識別不同的細(xì)胞群。為了實(shí)現(xiàn)這一點(diǎn)热芹，經(jīng)典的機(jī)器學(xué)習(xí)聚類技術(shù)或基于圖的算法(community detection)可以分別應(yīng)用于距離矩陣(例如k-means聚類)或graph-based贱傀。Louvain社區(qū)檢測算法是目前最流行的graph-based的方法，具有很好的計(jì)算性能伊脓。對Louvain算法的一些改進(jìn)已經(jīng)提出府寒，有助于提高模塊化、速度和可伸縮性报腔。這些改進(jìn)包括smart local move株搔、fast local move和random neighbor move算法。最近纯蛾，Leiden算法通過整合這些早期的改進(jìn)纤房，作為Louvain社區(qū)檢測算法的擴(kuò)展而被引入。

有了cluster之后就可以對cluster進(jìn)行注釋了翻诉，一般有手動注釋和自動注釋炮姨，手動注釋需要基于一定專業(yè)能力，比如知道m(xù)arker基因碰煌。自動注釋舒岸，比如像SingleR這一類，自動注釋這一塊還具有很大的挑戰(zhàn)芦圾，免疫細(xì)胞是出了名的異質(zhì)性蛾派。一點(diǎn)點(diǎn)的表達(dá)量不同就能引起不同的細(xì)胞注釋。所以這里還需要改進(jìn)堕扶。然而碍脏，還是自動注釋和手動注釋雙管齊下才更有效梭依。

2.3.2 差異細(xì)胞類型組成分析

差異細(xì)胞類型組成分析包括特定細(xì)胞類型的比例稍算，各條件下的細(xì)胞總數(shù)，已知一些致病生物體或疾病會影響某些細(xì)胞類型的豐度役拴。例如糊探，CD4+ T細(xì)胞缺失是艾滋病毒感染的一個(gè)標(biāo)志。因此河闰，在沒有先驗(yàn)知識的情況下科平，細(xì)胞類型組成分析可以作為確定特定疾病中受影響細(xì)胞類型的粗略方法。然而姜性，樣品的組成嚴(yán)重依賴于制備方案瞪慧，這可能會混淆成分分析。例如部念，在文庫制備過程中弃酌，某些細(xì)胞可能更容易受到壓力和損傷氨菇，可能導(dǎo)致比例失衡，因?yàn)檫@些細(xì)胞可能會在樣品中殆盡妓湘。

有一個(gè)例子查蓉，研究人員用成分分析來研究免疫系統(tǒng)對SARS-CoV-2感染的反應(yīng)。根據(jù)觀察到COVID-19患者經(jīng)歷由炎癥單核細(xì)胞和病原性T細(xì)胞誘導(dǎo)的細(xì)胞因子風(fēng)暴榜贴，使用成分分析表明豌研，在重癥患者中增殖T細(xì)胞和CD14+單核細(xì)胞明顯富集。

2.3.3 差異基因表達(dá)和功能富集

盡管差異基因表達(dá)分析和功能富集長期以來一直被用于bulk基因表達(dá)譜分析唬党，單細(xì)胞環(huán)境提供了幾個(gè)優(yōu)勢鹃共。與bulk基因表達(dá)譜相比，單細(xì)胞數(shù)據(jù)由每個(gè)單個(gè)細(xì)胞的基因表達(dá)譜組成驶拱，具有更大的分辨率及汉。此外，對于每個(gè)特定的細(xì)胞cluster屯烦，可以計(jì)算出表達(dá)某種基因的細(xì)胞比例坷随。在單細(xì)胞差異基因表達(dá)測試的背景下，使用傳統(tǒng)的bulk方法和專門為單細(xì)胞數(shù)據(jù)開發(fā)的方法驻龟。常用的方法包括非參數(shù)Wilcoxon檢驗(yàn)温眉、偽體積法DESeq2和edgeR以及單細(xì)胞法MAST等。在最近的一篇論文中翁狐，Bassez等人引入了在擴(kuò)展T細(xì)胞和非擴(kuò)展T細(xì)胞上應(yīng)用差異表達(dá)測試的概念类溢，以說明擴(kuò)展T細(xì)胞在抗pd1治療前是具有腫瘤反應(yīng)性的，表現(xiàn)出較高的激活露懒、效應(yīng)物和免疫檢查點(diǎn)標(biāo)志物的表達(dá)闯冷。在另一個(gè)例子中，Zhang等人應(yīng)用差異基因表達(dá)分析來識別結(jié)直腸腫瘤樣本中不同T細(xì)胞類型的轉(zhuǎn)錄譜的差異懈词。

差異基因表達(dá)分析的結(jié)果通常是得到一堆差異表達(dá)基因蛇耀，這些基因需要額外的生物學(xué)知識去解釋。所以通常情況下就需要通路分析坎弯。在這里纺涤，注釋基因根據(jù)生物特征被分組到特定的集合中，計(jì)算算法檢驗(yàn)任何集合是否在差異基因列表中富集(過/欠表達(dá)分析)或在排序的對數(shù)倍變化列表中富集(基因集富集分析)(圖1E)抠忘。這些方法依賴于注釋基因集的數(shù)據(jù)庫進(jìn)行測試撩炊，如分子標(biāo)記數(shù)據(jù)庫(MSigDB)、Reactome或Gene Ontology(GO)崎脉。

2.3.4. Trajectory analysis

scRNA-seq提供了細(xì)胞在特定時(shí)間點(diǎn)的靜態(tài)快照拧咳。然而，其中一些細(xì)胞會參與一個(gè)動態(tài)過程囚灼，如細(xì)胞分化骆膝、細(xì)胞周期或生物功能的逐漸變化砾淌。因此，僅用細(xì)胞類型標(biāo)簽標(biāo)注的cluster不能完全捕獲cluster的異質(zhì)性谭网，因?yàn)樗鼈兛赡馨刂囟▌討B(tài)過程軌跡的不同階段的混合細(xì)胞汪厨。通過軌跡分析，細(xì)胞根據(jù)轉(zhuǎn)錄相似性沿著路徑或軌跡排列(圖1D)愉择。

推斷出的偽時(shí)間變量表示沿著這條軌跡的進(jìn)程劫乱，從指定為root細(xì)胞的特定細(xì)胞類型開始。因此锥涕，軌跡分析能夠解釋不同的動態(tài)過程衷戈，并識別負(fù)責(zé)沿著軌跡分支的基因表達(dá)譜。沿著軌跡的差異基因表達(dá)也是可能的层坠。允許軌跡分析的流行方法包括Monocle和Slingshot殖妇。軌跡分析可以結(jié)合RNA velocity來量化細(xì)胞在不同狀態(tài)之間轉(zhuǎn)換的速度。在T細(xì)胞中破花，結(jié)合RNA velocity和細(xì)胞軌跡可能有助于解開T細(xì)胞反應(yīng)的動力學(xué)谦趣，并揭示克隆型之間的表型轉(zhuǎn)變。方法的選擇通常取決于數(shù)據(jù)集和軌跡拓?fù)浣Y(jié)構(gòu)座每，建議感興趣的讀者遵循Saelens等人提出的方法選擇指南前鹅。一項(xiàng)針對超級百歲老人的非常獨(dú)特的單細(xì)胞轉(zhuǎn)錄組分析研究使用軌跡分析證明，與健康捐贈者的T細(xì)胞相比峭梳，這些超級百歲老人的T細(xì)胞更具有終末分化(terminally differentiated)舰绘。

3. TCRseq 分析流程

TCR repertoire是克隆型的集合，構(gòu)成了個(gè)體的T細(xì)胞全部葱椭。TCR repertoire可以通過靶向富集策略或RNA-seq reads的計(jì)算重建來得到捂寿。與基因表達(dá)譜類似，TCR測序數(shù)據(jù)在下游分析之前也需要一些處理孵运。簡而言之秦陋，首先將原始測序reads與V、D和J基因序列的參考集比對掐松，然后將相同的序列組合成單個(gè)克隆型踱侣。隨后剔除質(zhì)量較差的reads，修正PCR和測序錯誤大磺，得到定量克隆型信息。有大量的工具可以用于處理bulk實(shí)驗(yàn)中的TCR測序reads探膊，其中MiXCR仍然是最受歡迎的選擇杠愧。這些方法之間的區(qū)別，他們的優(yōu)點(diǎn)和缺點(diǎn)已被廣泛討論逞壁。

近年來流济，TCR repertoire數(shù)據(jù)的后處理以揭示生物學(xué)相關(guān)的洞見受到了越來越多的關(guān)注锐锣。這些分析大致可以分為三個(gè)主要部分:repertoire多樣性分析、特異性分析和克隆組成分析绳瘟。已經(jīng)開發(fā)了各種方法來分析技術(shù)審查匯編的每一個(gè)方面雕憔，表2總結(jié)了這些方面。另外糖声，圖2提供了本節(jié)討論的不同技術(shù)的概述斤彼。對于表2中列出的每一種方法，在本文的補(bǔ)充材料中都可以找到詳細(xì)的描述蘸泻。研究人員已經(jīng)開發(fā)了幾個(gè)軟件工具琉苇，涵蓋了表2中討論的大部分功能。這樣就可以計(jì)算保留庫的統(tǒng)計(jì)數(shù)據(jù)悦施，如多樣性(圖2A)并扇、克隆組成或基因使用(圖2C)。一些工具為比較不同的基因庫提供了額外的功能抡诞，例如通過克隆重疊的量化(圖2C)穷蛹。最后，還有一些更具體的工具可以用于TCR repertoire數(shù)據(jù)的高級分析昼汗，如網(wǎng)絡(luò)分析(圖2H)俩莽、克隆型聚類、富集分析或表位特異性預(yù)測(圖2G)乔遮。

3.1 基本分析(Basic repertoire analysis)

有大量的軟件工具可以用來對TCR repertoire進(jìn)行探索性分析扮超。imcantation Portal1承載了一系列不同的Python和R軟件包，利用一個(gè)生態(tài)系統(tǒng)來對TCR-seq數(shù)據(jù)進(jìn)行端到端的分析蹋肮，從繪制原始測序read到高級分析(例如克隆型的聚類)出刷。此外，imcantation框架被認(rèn)證為符合適應(yīng)性免疫受體庫(AIRR)軟件工具的標(biāo)準(zhǔn)2指南坯辩。另一個(gè)軟件包馁龟，immunarch，提供了一套廣泛的TCR數(shù)據(jù)分析工具漆魔，包括克隆型豐度的定量坷檩、保留庫多樣性、保留庫重疊改抡、基因使用估計(jì)矢炼、克隆型跟蹤、CDR3譜型阿纤、k-mer分布的計(jì)算和克隆型注釋句灌，數(shù)據(jù)庫信息來自VDJdb、McPAS-TCR和TBAdb (PIRD)。最后胰锌，另一個(gè)流行的包是VDJtools骗绕。這個(gè)命令行工具提供了類似于imcantation和immunarch的功能。VDJtools集成了一個(gè)TCR鄰域富集測試(TCRNET)资昧，可以用來在單個(gè)repertoire中識別富集克隆型酬土，與背景分布相比。

3.2 概率生成(Generation probability)

免疫信息學(xué)領(lǐng)域最關(guān)鍵的進(jìn)展之一是V(D)J重組過程的概率模型的發(fā)展格带。眾所周知撤缴，這是一個(gè)隨機(jī)過程，有利于生成特定的TCR序列構(gòu)象践惑。這些模型提供了將生成概率(Pgen)分配給任何特定的TCR序列的機(jī)會腹泌。該 Pgen是通過建模選擇V、J或D基因(在TRB的情況下)的概率尔觉，以及這些基因片段連接處潛在的核苷酸插入和缺失來計(jì)算的凉袱。該值表明特定的TCR序列是罕見的還是常見的。例如侦铜，由于插入的數(shù)量較多专甩，較長的TCR序列往往具有較低的 Pgen(即它們更罕見)。此外钉稍，V(D)J重排的概率模型允許生成模擬健康個(gè)體TCR的大型合成庫涤躲。基于這一概念贡未，Pogorelyy等人開發(fā)了一種類似于TCRNET的方法ALICE种樱，可以使用合成的repertoire作為背景分布，從單個(gè)repertoire快照中識別豐富的克隆俊卤。

3.3 受體特異性(Receptor specificity)

了解哪些tcr針對哪些表位是TCR分析中最重要的挑戰(zhàn)嫩挤。這使得鑒定負(fù)責(zé)中和病原體的T細(xì)胞成為可能。因此消恍，這一知識有助于我們理解為什么某些人可能容易感染或癌癥岂昭，而另一些人能夠產(chǎn)生有效的免疫反應(yīng)。在自身免疫性疾病的背景下狠怨，識別靶向自身抗原的tcr可以利用潛在的治療靶點(diǎn)约啊。正如所指出的，immunoarch和VDJtools使用實(shí)驗(yàn)驗(yàn)證的TCR表位相互作用或關(guān)聯(lián)數(shù)據(jù)庫(如VDJdb佣赖、McPAS-TCR和IEDB)恰矩，提供了表位特異性注釋克隆型的功能。TCRex等其他工具基于表位特異性機(jī)器學(xué)習(xí)模型茵汰，預(yù)測任何TCR對有限數(shù)量的表位的特異性枢里。對于這種應(yīng)用，TCR序列通常被轉(zhuǎn)換成數(shù)字編碼蹂午。流行的編碼類型包括使用物理化學(xué)性質(zhì)或one-hot-encoding.栏豺。最近的DeepTCR為生成TCR序列的數(shù)值表示提供了一個(gè)深度學(xué)習(xí)框架，可用于下游機(jī)器學(xué)習(xí)應(yīng)用豆胸，如預(yù)測TCR表位特異性奥洼。immuneML平臺還提供使用各種編碼訓(xùn)練和評估受體級別機(jī)器學(xué)習(xí)分類器的功能。ImmuneML提供了K-Nearest neighbors (KNN)晚胡、logistic回歸灵奖、隨機(jī)森林、TCRDist分類器等模型估盘。

4.【聯(lián)合分析】生成配對的基因表達(dá)數(shù)據(jù)和TCR數(shù)據(jù)

4.1 VDJ位點(diǎn)的靶向富集

結(jié)合單細(xì)胞轉(zhuǎn)錄組學(xué)和適應(yīng)性免疫分析數(shù)據(jù)通常通過靶向富集V(D)J區(qū)與基因表達(dá)分析相結(jié)合獲得瓷患。擴(kuò)增TCR基因座可采用三種主要策略。第一種涉及多重PCR擴(kuò)增遣妥，使用一組針對所有V和J基因片段的引物擅编。或者箫踩，V(D)J序列可以通過標(biāo)記tcr特異性寡核苷酸來純化爱态。這些誘餌將退火到目標(biāo)區(qū)域，因此境钟，一旦樣本被碎片化锦担，就很容易捕獲。最后慨削，最流行的cDNA樣本V(D)J擴(kuò)增方法是5 RACE策略洞渔。為了有效地對富集的V(D)J序列和其他基因表達(dá)譜進(jìn)行配對，可以區(qū)分兩種主要的方法缚态。使用微流體裝置的基于液滴的方法是最受歡迎的策略之一磁椒。以液滴為基礎(chǔ)的單個(gè)細(xì)胞分離和條形碼方法的商業(yè)例子有10x Genomics提供的Chromium設(shè)備，Bio- rad提供的ddSEQ設(shè)備猿规，Dolomite Bio提供的Nadia設(shè)備衷快，Illumina提供的inDrop設(shè)備。也有一些方法可以應(yīng)用流式細(xì)胞儀在96孔或384孔板上進(jìn)行細(xì)胞分選來分離單個(gè)細(xì)胞姨俩。然而蘸拔，這種方法限制了每口井每次作業(yè)只能分析一個(gè)細(xì)胞。該方法的一個(gè)商業(yè)實(shí)例是Fluidigm公司的C1單細(xì)胞自動準(zhǔn)備系統(tǒng)环葵。本文綜述了配對測序文庫制備方法和測序策略调窍。然而，一般來說张遭，這些測序方案的不同之處在于擴(kuò)增的方法邓萨。

4.2 TCR測序的計(jì)算重組

除了有針對性的富集，還可以使用計(jì)算方法從scRNA-seq數(shù)據(jù)重建TCRs。與有針對性的方法相比缔恳，計(jì)算重建方法提供了較低的TCR序列覆蓋率宝剖，但允許重新分析現(xiàn)有的scRNA-seq數(shù)據(jù)集，可能提供額外的見解歉甚。此外万细，傳統(tǒng)的免疫分析試劑盒通常只包含α/β擴(kuò)增引物，導(dǎo)致γδ tcr回收率極低纸泄。然而赖钞，從基因表達(dá)譜重建γδ TCRs是可能的，只要數(shù)據(jù)是從5'端擴(kuò)增聘裁。有廣泛的工具設(shè)計(jì)用于從scRNA-seq數(shù)據(jù)中恢復(fù)TCR序列雪营，如表3所示。要獲得表3中列出的每個(gè)工具的更詳細(xì)的描述衡便，我們可以參考本文的補(bǔ)充材料献起。

TCR重建工具通常使用基于參考和從頭組裝的組合，能夠從轉(zhuǎn)錄組數(shù)據(jù)中重建相當(dāng)一部分V(D)J序列砰诵。雖然與靶向擴(kuò)增方法相比沒有競爭力征唬，但最近的TCR重建工具的發(fā)展表明，從scRNA-seq剖面中可以顯著恢復(fù)TCR序列茁彭。例如总寒，TRUST4軟件能夠從scRNA-seq數(shù)據(jù)中恢復(fù)大約70%的所有V(D)J序列。MiXCR的作者表明理肺，從淋巴結(jié)轉(zhuǎn)移樣本中恢復(fù)了約3000個(gè)TRB摄闸，從脾臟分離的CD4 T細(xì)胞中恢復(fù)了約1700-3000個(gè)TRB，從中樞神經(jīng)系統(tǒng)組織中恢復(fù)了約400-1000個(gè)TRB妹萨。然而年枕，從scRNA-seq數(shù)據(jù)中恢復(fù)TCR的有效性高度依賴于TCR位點(diǎn)的測序深度和表達(dá)水平，而這在不同細(xì)胞之間可能存在很大差異乎完。因此熏兄，這可能會在分析TCR多樣性和克隆性時(shí)引入大量的偏差∈饕蹋總之摩桶，如果實(shí)驗(yàn)的目的是鑒定表3中擴(kuò)展克隆或優(yōu)勢克隆，那么從scRNA-seq樣本重建TCRs可能是可取的帽揪。

5.什么時(shí)候該選擇Single cell 而不是Bulk RNAseq：single cell T Cell的特征

無論伴隨基因表達(dá)譜的TCR數(shù)據(jù)是通過專門富集V(D)J區(qū)域生成的硝清，還是從scRNA-seq數(shù)據(jù)重構(gòu)而來，擁有這兩層信息可以提供比傳統(tǒng)批量技術(shù)更多的優(yōu)勢转晰。表4簡要比較了批量測序法和單細(xì)胞測序法的主要特點(diǎn)芦拿。

表4士飒。TCR和基因表達(dá)譜的整體和單細(xì)胞方法的優(yōu)缺點(diǎn)。1:這里的保留曲目覆蓋率是指能夠識別的唯一TCR序列的總數(shù)蔗崎。根據(jù)實(shí)驗(yàn)的規(guī)模酵幕，單細(xì)胞方法可以達(dá)到與批量方法相似的覆蓋范圍，但這將大大增加實(shí)驗(yàn)的成本蚁趁。2:使用批量方法可以研究各種模式(如TCR譜裙盾、基因表達(dá)譜实胸、抗原特異性等)他嫡，但不能整合。3:一般來說庐完，批量方法更適合大樣本钢属，主要是由于較低的成本，效率和協(xié)議的持續(xù)時(shí)間门躯。

5.1 單細(xì)胞測序能夠整合免疫受體特征和功能

雖然TCRs的bulk測序可以清晰的呈現(xiàn)抗原反應(yīng)的廣度淆党，但它不能提供其來源T細(xì)胞的功能特征的信息。這些信息由scRNA-seq提供讶凉，可能有助于闡明與病理相關(guān)的T細(xì)胞亞群的作用機(jī)制染乌。

當(dāng)與聚類和集群注釋小節(jié)中描述的細(xì)胞類型注釋并行執(zhí)行時(shí)，這種分析尤其有趣懂讯。這可能揭示特定細(xì)胞群的某些偏差荷憋，如不同表型亞群的過度膨脹。然而褐望，這些分析并不局限于重疊克隆，也可能包括之前描述的對不同T細(xì)胞亞群的tcr特異性分析的應(yīng)用。

圖：TCR與基因表達(dá)譜研究的整合方法度硝。A.克隆型信息卷扮，如克隆擴(kuò)展，可以映射到基于基因表達(dá)的UMAP上谨读。B.TCR特異性指標(biāo)局装，如多樣性，可以在不同細(xì)胞類型的水平上進(jìn)行評估劳殖。C.評估TCR集群內(nèi)克隆型的基因表達(dá)譜铐尚。D.細(xì)胞類型信息可以投射到TCR類型相似網(wǎng)絡(luò)上，以識別細(xì)胞類型趨同或發(fā)散的克隆型簇闷尿。

反之塑径，從基因表達(dá)譜獲得的信息可以映射到TCR相似網(wǎng)絡(luò)上(圖3D)，這是現(xiàn)有工具在較小程度上探索的東西填具。這種類型的分析可能揭示出屬于相同或相關(guān)細(xì)胞亞群的高度相似的克隆簇(因此可能針對相同的表位)统舀，揭示了T細(xì)胞集在表型和克隆型水平上的擴(kuò)展匆骗。

5.2 Power of multimodality: antigen-specificity profiling

新的modality已經(jīng)被開發(fā)用于單細(xì)胞測序，使研究人員明確確定T細(xì)胞的抗原特異性誉简。在這些方法中碉就，scTCR-seq和scRNA-seq與表位負(fù)載的MHC多聚體相結(jié)合，表位特異性T細(xì)胞將與之相互作用闷串。例如瓮钥，如Zhang等人所描述的TetTCR-seq，使用pMHC四聚體來描述T細(xì)胞的抗原特異性烹吵。這就引出了第三層信息碉熄，也是非常重要的一層信息，它使T細(xì)胞功能的完整表征成為可能肋拔，提供了關(guān)于其細(xì)胞表型锈津、受體序列和其能夠識別的肽- mhc復(fù)合體的信息。例如凉蜂，在癌癥研究中琼梆，腫瘤特異性T細(xì)胞可以被識別，并隨后用于過繼T細(xì)胞治療窿吩，通過使用裝載有感興趣的腫瘤表位的mhc -多定時(shí)器捕獲它們茎杂。此外，單細(xì)胞方法允許配對α和β鏈纫雁。通過包括TRA和TRB的信息煌往，這提供了額外的解決方案。相比之下先较，bulk方法通常只提供單鏈信息携冤。

6. 在單細(xì)胞水平分析T細(xì)胞的軟件包

隨著在單細(xì)胞水平上研究T細(xì)胞的分析技術(shù)的出現(xiàn)，有必要開發(fā)工具來分析伴隨這項(xiàng)技術(shù)革命而來的越來越多的數(shù)據(jù)闲勺。有大量的工具可以單獨(dú)分析轉(zhuǎn)錄組學(xué)或TCR數(shù)據(jù)曾棕，但很少有人關(guān)注這兩層信息的組合。最近菜循，研究人員對開發(fā)這種旨在整合分析TCR和基因表達(dá)譜的工具表現(xiàn)出越來越大的興趣翘地。在這一章中，我們將討論用于分析scTCR-seq數(shù)據(jù)的計(jì)算工具的現(xiàn)狀癌幕。我們包括了所有盡我們所知的在2021年10月1日之前有相關(guān)同行評議出版物或預(yù)印文章的工具衙耕。這些工具建立在快速發(fā)展的TCR repertoire分析領(lǐng)域的基礎(chǔ)上，為基于系統(tǒng)的T細(xì)胞免疫分析提供了一個(gè)巨大的飛躍勺远，從而為T細(xì)胞生物學(xué)提供了更深入的機(jī)制理解橙喘。table 5 概述了本文中討論的包所提供的不同功能。

表5.分析單細(xì)胞TCR的工具星號表示多個(gè)度量的可用性胶逢。一個(gè)星號()對應(yīng)一個(gè)度量標(biāo)準(zhǔn)(例如厅瞎，僅用于衡量多樣性的香農(nóng)指數(shù))饰潜，而雙星號(*)則反映多重多樣性或克隆性度量標(biāo)準(zhǔn)的可用性。高級可視化可能包括圖形表示和簸、UMAP彭雾、circos等。Clustering列僅用于基于受體的聚類锁保。樣本的聚類包含在Repertoire重疊欄中薯酝。與GE列整合另外指示了每個(gè)工具相互作用的單細(xì)胞RNA-seq分析環(huán)境。圖中的縮寫：GE(gene expression),AIRR(adaptive immune receptor repertoire); B(BCR); T(TCR); Se(Seurat); Sc(Scanpy); N(native).

6.1 CoNGA

這是一個(gè)可以無偏確定基因表達(dá)和TCR庫之間相關(guān)性的工具爽柒，CoNGA基于TCR序列相似性(由TCRdist測度定義)和基于基因表達(dá)數(shù)據(jù)構(gòu)建相似圖（similarity graph）吴菠。CoNGA是一個(gè)python包，是建立在scanpy包之上霉赡，因此它也是用AnnData對象存儲整合后的基因表達(dá)和TCR序列數(shù)據(jù)橄务。TCR之間的距離是用TCRdist計(jì)算的。

CoNGA還提供了一個(gè)graph-vs-graph和graph-vs-feature的分析穴亏，graph-vs-graph分析涉及將基因表達(dá)與TCR序列相似圖關(guān)聯(lián)起來，方法是通過識別在兩個(gè)圖中相鄰基因顯著重疊的克隆型重挑。對于每個(gè)克隆型嗓化，CoNGA評估TCR和基因表達(dá)圖中直接連接到該克隆型的所有組件(鄰接圖)。為每個(gè)克隆型分配一個(gè)score谬哀，反映觀察到兩個(gè)圖之間的這種程度的重疊大于或等于預(yù)期的偶然重疊的概率刺覆。為了限制假陽性的數(shù)量，這個(gè)score乘以克隆型的總數(shù)史煎。

graph-vs-feature的分析中谦屑，從兩個(gè)屬性的數(shù)字特征映射到互補(bǔ)屬性的相似圖，從而旨在識別score分布中有偏差的graph neighborhoods篇梭。通過將CoNGA應(yīng)用于一組公開的T細(xì)胞數(shù)據(jù)集氢橙，作者鑒定了一組HOBIT+表達(dá)的T細(xì)胞，這些T細(xì)胞富含疏水殘基的長cdr3恬偷。此外悍手，他們觀察到TRBV30基因片段的使用與保守的EPHB6基因的表達(dá)有很強(qiáng)的相關(guān)性。

6.2 mvTCR

用來自TCR的功能信息補(bǔ)充基因表達(dá)譜袍患，可以更詳細(xì)地了解不同T細(xì)胞亞群的行為坦康。通常，這些數(shù)據(jù)是相互并行處理和分析的诡延，因此阻礙了新的T細(xì)胞表型的識別滞欠。An等人開發(fā)了一種多視圖變分自編碼器，稱為mvTCR肆良，可在單個(gè)細(xì)胞水平上聯(lián)合嵌入基因表達(dá)和TCR序列數(shù)據(jù)筛璧。

通過整合兩種模式赤兴，有可能捕獲在表型和功能水平上相關(guān)的T細(xì)胞群。mvTCR采用兩種混合模型將轉(zhuǎn)錄組和TCR嵌入整合到一個(gè)聯(lián)合潛在分布中隧哮。作者表明桶良，與單獨(dú)的基因表達(dá)或TCR嵌入相比，聯(lián)合嵌入提高了UMAP中表位特異性cluster的分離沮翔。

因此陨帆，mvTCR生成的多模態(tài)單細(xì)胞數(shù)據(jù)嵌入可以通過集成額外的表型信息層來改進(jìn)現(xiàn)有的預(yù)測TCR表位特異性的模型。另外采蚀，表位特異性cluster的亞群可能揭示某些T細(xì)胞亞群的表位特異性擴(kuò)增疲牵。

6.3 Platypus

Platypus是一個(gè)基于R的軟件，專門用于分析單細(xì)胞免疫數(shù)據(jù)榆鼠。針對通過10x Genomics平臺生成的數(shù)據(jù)進(jìn)行了優(yōu)化纲爸，但它也兼容其他基于條形碼的scRNA-seq方法，如RAGE-seq或SplitSeq妆够。Platypus利用Seurat平臺整合轉(zhuǎn)錄組譜和V(D)J測序數(shù)據(jù)识啦。默認(rèn)情況下，使用默認(rèn)的Seurat參數(shù)對基因表達(dá)數(shù)據(jù)進(jìn)行scaling和歸一化神妹，盡管該軟件也支持其他的歸一化方法颓哮，如SCTransform或Harmony。Platypus提供了一種從Cell Ranger輸出中提取V(D)J序列的方法鸵荠，它包含了一系列用于預(yù)處理和計(jì)算基本repertoire統(tǒng)計(jì)的函數(shù)冕茅。后者包括計(jì)算每個(gè)克隆的isotype數(shù)(BCRs)、CDR3長度分布和構(gòu)建序列標(biāo)識蛹找。

Platypus包的一個(gè)有趣特性是它能夠自動化Seurat工作流姨伤。該基因表達(dá)分析的結(jié)果可以隨后與克隆型信息集成使用自定義函數(shù)。這允許用戶將克隆型信息投影到通過聚類基因表達(dá)譜生成的UMAP圖上庸疾。例如乍楚，visualize_clones_gene表達(dá)可用于突出顯示基因表達(dá)集群內(nèi)的擴(kuò)展克隆。最后彼硫，Platypus通過構(gòu)建序列相似網(wǎng)絡(luò)提供了一個(gè)評估repertoire拓?fù)涞奶匦浴?/p>

6.4 Scirpy

Scirpy是一個(gè)構(gòu)建在Scanpy工具包之上的Python庫炊豪，用于在Python中分析scRNA-seq數(shù)據(jù)。數(shù)據(jù)可以直接從各種來源導(dǎo)入拧篮，包括Cell Ranger, TraCeR和標(biāo)準(zhǔn)化的AIRR格式词渤。與Scanpy和CoNGA類似，Scirpy利用了AnnData格式串绩，該格式是一個(gè)矩陣缺虐，它存儲了觀察和變量的一些注釋信息。AnnData還可以記錄一些其他非結(jié)構(gòu)化注釋礁凡。此外高氮，Scirpy遵循了Scanpy的API慧妄。為了整合V(D)J和基因表達(dá)譜，Scirpy提供了將AIRR和基因表達(dá)數(shù)據(jù)合并為單個(gè)AnnData對象的功能剪芍。Scirpy提供了用于預(yù)處理和分析TCR和基因表達(dá)數(shù)據(jù)的工具塞淹。預(yù)處理過程允許每個(gè)T細(xì)胞最多有兩條α和β鏈，將任何含有兩條以上α和β鏈的細(xì)胞標(biāo)記為潛在的doublets 罪裹，并在此過程中丟棄它們饱普。分析工具包括計(jì)算某一組樣本的克隆型豐度、克隆擴(kuò)張状共、多樣性套耕、不平衡以及庫重疊。然而峡继，唯一可用的多樣性度量是Shannon entropy冯袍。其次，該包使用igraph或networkx提供具有高序列相似性的克隆型集群的圖形可視化碾牌。該軟件包還提供基于成對對齊的相似性聚類康愤，但也提供其他距離度量。

6.5 scRepertoire

scRepertoire是一個(gè)R包小染，用于分析Cell Ranger生成的過濾后的contigs翘瓮。該軟件包與Seurat和singleCelexperiment (SCE)相互作用，允許整合基因表達(dá)數(shù)據(jù)裤翩。為T細(xì)胞contigs的可視化提供了多種功能，包括豐度调榄、長度踊赠、基因使用和克隆型共享圖。scRepertoire還提供了更先進(jìn)的分析類型每庆，如克隆內(nèi)穩(wěn)態(tài)(不同擴(kuò)展水平的可視化)或克隆比例(克隆大小的比例)筐带。其他分析包括基于氨基酸編輯距離(兩個(gè)序列之間不匹配的氨基酸數(shù)量)計(jì)算保留庫重疊、樣本多樣性和克隆型聚類缤灵。

前面描述的功能也可以計(jì)算基因表達(dá)簇（gene expression clusters）伦籍。與Seurat的整合也可以在UMAP圖上投影克隆型信息。其他高級可視化包括alluvial plots顯示不同類別共享的克隆類型腮出。最后帖鸦，共享克隆型基因使用模式跨細(xì)胞類型cluster可以分析使用chord diagram。

6.6 Tessa

Tessa是一種為TCR序列生成數(shù)字嵌入(numerical embedding)并將其與T細(xì)胞的基因表達(dá)譜集成的工具胚嘲。TCR的數(shù)值編碼基于CDR3β區(qū)域氨基酸的Atchley因子作儿。Tessa使用一個(gè)堆疊的自動編碼器來減少數(shù)值向量的大小，同時(shí)保持其固有的結(jié)構(gòu)特征馋劈。在基因表達(dá)矩陣中攻锰，只保留表達(dá)變異最高的前10%基因晾嘶。然后，Tessa使用有參貝葉斯模型來確定TCR對匹配克隆的基因表達(dá)譜的影響娶吞。此外垒迂，tessa使用加權(quán)TCR嵌入將克隆聚類成代表其抗原特異性的組。該算法在TCR和基因表達(dá)矩陣相關(guān)和抗原特異性分組這兩個(gè)過程之間交替進(jìn)行妒蛇，更新嵌入的權(quán)重机断，直到模型收斂。利用tessa, Zhang和同事首先表明共享相似TCR的克隆型更有可能共享相似的基因表達(dá)譜材部，這是由TCR和轉(zhuǎn)錄組譜之間的嵌入相關(guān)性確定的毫缆。此外，與不同癌癥類型的腫瘤樣本相比乐导，來自健康捐贈者的PBMCs的相關(guān)性更強(qiáng)苦丁。這可能表明TCR對腫瘤樣本中基因表達(dá)譜的影響比例較小，這可能是腫瘤微環(huán)境中高細(xì)胞和趨化因子分泌的結(jié)果物臂，在轉(zhuǎn)錄上影響了T細(xì)胞旺拉。

6.7 VDJView

VDJView集成了各種R包分析scRNA (Scater, Seurat, SC3, Monocle & MAST)和V(D)J測序數(shù)據(jù)(immunarch)成一個(gè)易于使用的R Shiny web應(yīng)用程序。作為輸入棵磷，該軟件允許3'端和5'端-生成scRNA-seq數(shù)據(jù)(10x和SmartSeq2)蛾狗。此外，利用VDJPuzzle軟件仪媒，可以從輸入的scRNA-seq數(shù)據(jù)中直接重建TCR序列沉桌。該工具提供了各種功能來分析克隆型豐度，CDR3長度分布算吩，V(D)J基因使用和克隆型共享留凭。對于基因表達(dá)水平的分析，該工具包括常用的降維技術(shù)偎巢，如PCA, t-SNE和UMAP蔼夜。此外，細(xì)胞聚類(監(jiān)督和非監(jiān)督)提供了基于基因表達(dá)值压昼。最后求冷，該軟件提供了擬時(shí)間分析，以確定單細(xì)胞狀態(tài)軌跡基于Monocle包窍霞。

7.挑戰(zhàn)

repertoire分析技術(shù)的應(yīng)用對repertoire的大小和構(gòu)成有很大的影響匠题。此外，細(xì)胞群(cell population)也可能影響識別克隆型的潛在數(shù)量官撼，因?yàn)槟承┘?xì)胞類型可能比其他細(xì)胞類型更罕見梧躺。因此，研究人員必須仔細(xì)評估單細(xì)胞方法與bulk方法的選擇，這取決于要回答的研究問題掠哥。深度取樣方法可以捕獲大量的細(xì)胞(如白細(xì)胞分離)巩踏，在單個(gè)樣本中發(fā)現(xiàn)多達(dá)2^107種獨(dú)特的克隆型。從實(shí)用的角度來看续搀，只有使用bulk測序方法才能分析這種數(shù)量的細(xì)胞塞琼。對于單細(xì)胞實(shí)驗(yàn)，唯一確定的克隆型的數(shù)量通常較低禁舷。因此彪杉，當(dāng)本研究的目標(biāo)是表征全血樣本的全部repertoire時(shí)，bulk測序方法可能更合適牵咙。然而派近，當(dāng)對特定(亞)群的功能特征和表型感興趣時(shí)，可以選擇單細(xì)胞技術(shù)洁桌。這可能包括被分析克隆類型的數(shù)量不太相關(guān)的情況渴丸。例如，當(dāng)研究某些表位特異性T細(xì)胞和它們引起的免疫反應(yīng)時(shí)另凌。

8.展望

單細(xì)胞技術(shù)為鑒定特異性αβTCR及其來源細(xì)胞的功能譜提供了新的機(jī)會谱轨。通過使用這些技術(shù)獲得的信息同時(shí)提供基因表達(dá)譜、TCR序列信息和可選的其他方式(如肽特異性吠谢、表觀遺傳修飾土童、染色質(zhì)可及性等)。雖然已經(jīng)建立了大量的技術(shù)來單獨(dú)分析這些信息工坊，單細(xì)胞技術(shù)的使用提供了一種在單個(gè)細(xì)胞水平上集成這些信息的新方法献汗。這給數(shù)據(jù)分析帶來了巨大的挑戰(zhàn)。

在這篇綜述中王污，我們討論了幾個(gè)優(yōu)秀的軟件模塊雀瓢，它們提供了針對成對單細(xì)胞基因表達(dá)和TCR數(shù)據(jù)的整合分析工具。盡管這些軟件包為探索和分析基因表達(dá)和TCR譜提供了一個(gè)全面的工具包玉掸，但仍存在一些問題。scTCRseq允許鏈配對醒叁，提供α鏈和β鏈的信息司浪。雖然這被認(rèn)為是一個(gè)主要的優(yōu)勢，但即使在單細(xì)胞測序的情況下把沼，α鏈和β鏈的配對仍有一個(gè)未解決的問題啊易。有時(shí)，單個(gè)細(xì)胞可能表達(dá)多種多產(chǎn)的α和或β鏈饮睬。在這種情況下租谈，不可能知道哪個(gè)αβ對是有功能的。

人們早就知道翻譯后沉默機(jī)制的存在，導(dǎo)致等位基因排斥割去。盡管如此窟却，AIRR研究人員應(yīng)該解決的一個(gè)問題是:是什么決定了tcr中的功能鏈配對? 此外，盡管罕見呻逆，但始終有可能只對一個(gè)TRA和一個(gè)TRB進(jìn)行測序夸赫，而細(xì)胞實(shí)際上可能表達(dá)多個(gè)TRA和或TRB。此外咖城，確定的TRA和TRB甚至可能不匹配茬腿，因?yàn)樗鼈兛赡苤慌鋵ζ渌创_定的鏈。因此宜雀，這就提出了一個(gè)問題:在單細(xì)胞實(shí)驗(yàn)中確定的αβ對是否真的是功能性重排?

另一個(gè)考慮因素是切平，單細(xì)胞實(shí)驗(yàn)中獲得的基因表達(dá)和TCR數(shù)據(jù)通常使用來自scRNA-seq和TCR-seq分析領(lǐng)域的既定方法單獨(dú)處理和分析。整合常常局限于將克隆型特征投影到基于基因表達(dá)的UMAP上辐董。因此悴品，我們提倡開發(fā)新的方法，將來自兩個(gè)來源的信息集成到一個(gè)對等的度量中郎哭。一些方法已經(jīng)采用了這一理念他匪，包括CoNGA、mvTCR和tessa夸研。像這樣的綜合方法可能揭示不同的亞群T細(xì)胞顯示相似的基因表達(dá)和TCR序列特征邦蜜。這樣的觀察結(jié)果可以用免疫原肽引起的某些T細(xì)胞亞群的擴(kuò)增來解釋。類似地亥至，UMAP通常應(yīng)用于基因表達(dá)矩陣悼沈，以投射基于一組高度可變基因的不同細(xì)胞亞群。

很少有人關(guān)注將UMAP應(yīng)用于基因表達(dá)和TCR特征的結(jié)合姐扮。這種方法可能揭示不同的表位特異性細(xì)胞集群絮供，不能從基因表達(dá)或TCR譜特征單獨(dú)識別。An等人提出了這一想法茶敏，他們開發(fā)了一種變分自動編碼器mvTCR壤靶，用于生成基因表達(dá)和TCR序列信息的聯(lián)合嵌入，從而改善了UMAP中表位特異性簇的分離惊搏。
scTCR-seq的另一個(gè)主要挑戰(zhàn)是可視化方法改進(jìn)的開發(fā)贮乳。目前，可視化scRNAseq數(shù)據(jù)最常用的方法是UMAP恬惯。UMAP可以用附加的信息層進(jìn)行注釋向拆，例如克隆擴(kuò)展等。對于TCR序列酪耳，相似度網(wǎng)絡(luò)表示是最常用的可視化方法之一浓恳。雖然這種呈現(xiàn)方式提供了repertoire架構(gòu)的總體概況，并強(qiáng)調(diào)了克隆擴(kuò)展，但當(dāng)節(jié)點(diǎn)數(shù)量非常大時(shí)颈将，網(wǎng)絡(luò)表示就變得不可行的了梢夯，就像AIRR-seq數(shù)據(jù)經(jīng)常出現(xiàn)的情況一樣。迫切需要提取TCR網(wǎng)絡(luò)的相關(guān)子集(例如吆鹤，具有低生成概率的擴(kuò)展克隆型集群)厨疙，從而實(shí)現(xiàn)可視化。

此外疑务，基因表達(dá)空間的特征可以映射到克隆型相似網(wǎng)絡(luò)沾凄。這樣的網(wǎng)絡(luò)表征能夠識別具有相似表達(dá)譜的克隆型簇，潛在地表明一個(gè)細(xì)胞亞型的共同起源或優(yōu)先分化知允。相反撒蟀，觀察到具有不同轉(zhuǎn)錄組特征的克隆型簇可能表明細(xì)胞類型之間的表型可塑性。這些可視化策略將特征從一種形態(tài)(TCR或基因表達(dá))映射到另一種形態(tài)温鸽，但并沒有真正地將兩層融合在一起保屯。因此，需要改進(jìn)可視化技術(shù)涤垫，通過整合它們來捕捉基因表達(dá)和TCR特征姑尺。

隨著新的實(shí)驗(yàn)和計(jì)算方法的出現(xiàn)來確定T細(xì)胞的特異性，scTCR-seq結(jié)合scRNA-seq分析將是一個(gè)必不可少的工具蝠猬，以充分表征T細(xì)胞的完整分子譜切蟋。基于表位特異性模型榆芦，有幾種方法可以準(zhǔn)確預(yù)測任何TCR與已知表位的結(jié)合柄粹。這些通常被稱為已見抗原表位(seen epitopes)。這些模型的一個(gè)主要缺點(diǎn)是匆绣，它們需要單個(gè)表位的足夠數(shù)據(jù)驻右，以便準(zhǔn)確預(yù)測哪些TCRs與之結(jié)合。

此外崎淳，這些模型通常只使用β鏈信息進(jìn)行訓(xùn)練堪夭，從而忽略了多樣性較低的α鏈的潛在貢獻(xiàn)。預(yù)測一個(gè)TCR與一個(gè)看不見的表位(unseen epitope)的結(jié)合是一個(gè)相當(dāng)困難的問題拣凹。盡管如此茵瘾，多項(xiàng)研究已經(jīng)證明了使用深度神經(jīng)網(wǎng)絡(luò)解決這個(gè)問題的可能性。一個(gè)普遍的結(jié)論是咐鹤，對與已知抗原表位相似的抗原表位的預(yù)測要優(yōu)于截然不同的抗原表位。目前的限制之一是已知的高質(zhì)量tcr表位對數(shù)量少圣絮。然而祈惶，由于TCR抗原篩選的高通量方法的引入，將有更多的數(shù)據(jù)可用，這將允許構(gòu)建更準(zhǔn)確的模型來預(yù)測任何TCR序列的特異性捧请。最后凡涩，我們鼓勵使用標(biāo)準(zhǔn)化的pipeline來處理和分析scTCR-seq數(shù)據(jù)，這將提高scTCR-seq研究的透明度和可比性疹蛉。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末活箕，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子可款，更是在濱河造成了極大的恐慌育韩，老刑警劉巖，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件闺鲸，死亡現(xiàn)場離奇詭異筋讨，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)摸恍，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門悉罕，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人立镶，你說我怎么就攤上這事壁袄。” “怎么了媚媒？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵嗜逻，是天一觀的道長。經(jīng)常有香客問我欣范，道長变泄，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任恼琼，我火速辦了婚禮妨蛹，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘晴竞。我一直安慰自己蛙卤，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布噩死。她就那樣靜靜地躺著颤难，像睡著了一般。火紅的嫁衣襯著肌膚如雪已维。梳的紋絲不亂的頭發(fā)上行嗤，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天，我揣著相機(jī)與錄音垛耳，去河邊找鬼栅屏。笑死飘千，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的栈雳。我是一名探鬼主播护奈，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼哥纫！你這毒婦竟也來了霉旗？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤蛀骇，失蹤者是張志新（化名）和其女友劉穎厌秒，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體松靡，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡简僧，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了雕欺。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片岛马。...
茶點(diǎn)故事閱讀 37,989評論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖屠列，靈堂內(nèi)的尸體忽然破棺而出啦逆，到底是詐尸還是另有隱情，我是刑警寧澤笛洛，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布夏志，位于F島的核電站，受9級特大地震影響苛让，放射性物質(zhì)發(fā)生泄漏沟蔑。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一狱杰、第九天我趴在偏房一處隱蔽的房頂上張望瘦材。院中可真熱鬧，春花似錦仿畸、人聲如沸食棕。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案错沽，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽簿晓。三九已至，卻和暖如春千埃，著一層夾襖步出監(jiān)牢的瞬間憔儿，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工放可，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留皿曲，地道東北人唱逢。一個(gè)月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像屋休，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子备韧，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評論 2贊 345