這篇文章是單細(xì)胞轉(zhuǎn)錄組(scRNAseq)和TCRseq聯(lián)合分析的一個(gè)綜述姚淆,介紹了目前關(guān)于這兩種數(shù)據(jù)聯(lián)合分析的最新進(jìn)展(2022年)冰木。
1. 介紹
1.1 T細(xì)胞受體的作用
T細(xì)胞是適應(yīng)性免疫系統(tǒng)的核心角色曲伊,在免疫相關(guān)疾病的控制中發(fā)揮著至關(guān)重要的作用鸣驱,除此之外未舟,T細(xì)胞還是免疫接種和免疫治療反應(yīng)不可或缺的媒介盗棵。通過產(chǎn)生高度多樣化的T細(xì)胞庫,適應(yīng)性免疫系統(tǒng)就具備了一個(gè)強(qiáng)大的工具包尚辑,以防御致病微生物和癌癥辑鲤。T細(xì)胞庫的這種多樣性是通過V(D)J重組而產(chǎn)生大量不同的T細(xì)胞受體(TCR)復(fù)合物實(shí)現(xiàn)的。TCR是表達(dá)在細(xì)胞表面杠茬,能夠識別來自外源或自身抗原的小的多肽(表位)月褥,并由抗原呈遞細(xì)胞上的主要組織相容性復(fù)合體(MHC)分子呈遞弛随。當(dāng)TCR與其同源肽-mhc (pMHC)復(fù)合物結(jié)合時(shí),T細(xì)胞介導(dǎo)的免疫反應(yīng)被觸發(fā)宁赤。
大多數(shù)T細(xì)胞受體是由一個(gè)α鏈和一個(gè)β鏈組成舀透,多樣性是由α鏈上的V,J基因和β鏈上的D基因產(chǎn)生决左。這是一級多樣性愕够,也稱為組合多樣性(combinatorial diversity)。重組過程中佛猛,非模板化的核苷酸在片段的連接處被添加和刪除惑芭,大大增加了TCR庫的潛在多樣性。這就是所謂的連接多樣性(junctional diversity)继找。最后遂跟,通過α和β鏈的近似無約束配對建立了一個(gè)額外的多樣性水平∮ざ桑總共的TCR庫的多樣性理論上達(dá)到了10的15次方到10的61次方幻锁,而實(shí)際上人體中的TCR多樣性受到了T細(xì)胞總數(shù)的限制,也能達(dá)到3x10的11次方
1.2 TCR測序
TCR測序已經(jīng)成為了理解復(fù)雜TCR庫動態(tài)的重要工具边臼。一個(gè)clonotype通常是由V基因越败,CDR3氨基酸序列和J基因組合而成。一般來說硼瓣,在一個(gè)bulk庫樣本中unique的clone數(shù)量在 103到 106之間究飞,這取決于clonality,采樣條件和測序深度堂鲤。然而亿傅,盡管TCR測序已經(jīng)變得不可或缺,但傳統(tǒng)的bulk方法只能提供一層信息瘟栖,因?yàn)樗鼈儍H僅捕捉了TCR的特征葵擎。考慮到T細(xì)胞表現(xiàn)出廣泛的免疫表型半哟,能有各種功能酬滤,從分泌(抗)炎癥細(xì)胞因子到釋放細(xì)胞毒性效應(yīng)分子誘導(dǎo)細(xì)胞死亡,受體特征不能完全捕捉它們起源的T細(xì)胞的功能寓涨。傳統(tǒng)上盯串,免疫學(xué)就依賴于靶向技術(shù),如流式細(xì)胞儀戒良,來描述這些獨(dú)特的免疫細(xì)胞表型体捏。流式細(xì)胞儀分選細(xì)胞是根據(jù)細(xì)胞表面表達(dá)特定的marker 蛋白來分選的。用熒光標(biāo)記抗體來標(biāo)記這些目標(biāo)。然而几缭,可用熒光團(tuán)的數(shù)量受到發(fā)射光譜重疊的限制河泳,限制了可測量參數(shù)的數(shù)量。盡管有些技術(shù)能達(dá)到50個(gè)年栓,比如(CyTOF)拆挥,但還是在用戶使用特定數(shù)量的預(yù)定義marker上受限。相反某抓,RNA測序可以以一種無偏倚的方式捕獲細(xì)胞亞群的表型纸兔,因?yàn)樗痪窒抻谟邢薜暮陀嗅槍π缘膍arker選擇。然而搪缨,在轉(zhuǎn)錄水平上的基因表達(dá)不足以區(qū)分特定的細(xì)胞亞群食拜,而蛋白質(zhì)標(biāo)記可能更具有描述性鸵熟。例如副编,不同CD45異構(gòu)體的表達(dá),使我們能夠區(qū)分原始T細(xì)胞和記憶T細(xì)胞流强,不能在轉(zhuǎn)錄水平上識別痹届。此外,大量RNA測序通常會產(chǎn)生來自樣本中所有細(xì)胞的基因表達(dá)譜的復(fù)合組合打月,這不能充分反映細(xì)胞多樣性队腐。因此,bulk RNA測序通常需要預(yù)先用熒光標(biāo)記抗體對目標(biāo)蛋白標(biāo)記物進(jìn)行細(xì)胞分選奏篙,以純化樣本中的細(xì)胞類型柴淘。
這就用到了單細(xì)胞RNAseq測序。與這些傳統(tǒng)技術(shù)相比,一個(gè)更有前途的替代方案是單細(xì)胞RNA測序,它利用了組合多個(gè)信息層的能力好乐,例如單細(xì)胞內(nèi)的基因表達(dá)和TCR序列的配對測序抢韭。這種多模態(tài)的特征并不局限于轉(zhuǎn)錄水平。例如浪蹂,抗體的添加與特異性寡核苷酸條形碼(Feature Barcoding)連接,使表面蛋白的表征成為可能,類似于流式細(xì)胞術(shù)夕吻。然而,盡管單細(xì)胞測序前景光明繁仁,但它在幾個(gè)方面仍然具有挑戰(zhàn)性涉馅。與傳統(tǒng)的(Bulk)技術(shù)相比,單細(xì)胞測序仍然是昂貴和勞動密集型的黄虱。因此控漠,樣本通量通常較低。然而,隨著單細(xì)胞測序領(lǐng)域的迅速發(fā)展盐捷,最近的發(fā)展已經(jīng)允許單獨(dú)的樣品多路復(fù)用偶翅,包括允許在樣品之間進(jìn)行區(qū)分的寡核苷酸標(biāo)記抗體(Cell hash),降低成本并允許更大的樣品大小碉渡。單細(xì)胞平臺能夠測序的細(xì)胞數(shù)量也比Bulk方法低幾個(gè)數(shù)量級聚谁。例如,大多數(shù)單細(xì)胞測序技術(shù)只允許評估多達(dá)10的4次方個(gè)細(xì)胞滞诺,而bulk測序技術(shù)通承蔚迹可以自信地評估大于10的5次方個(gè)細(xì)胞。然而习霹,隨著技術(shù)的進(jìn)步朵耕,單細(xì)胞測序的這一數(shù)字正在上升。
有很多平臺可以在單細(xì)胞水平上對T細(xì)胞進(jìn)行表征淋叶,每個(gè)平臺的區(qū)別在于:在細(xì)胞的制備和實(shí)驗(yàn)用的材料阎曹,如何富集用于測序等方面都有所不同。這些因素對測序的通量煞檩、深度处嫌、成本,甚至從多形態(tài)生成數(shù)據(jù)的能力都有重大影響斟湃。由于之前的綜述已經(jīng)廣泛地比較了多種單細(xì)胞測序方法熏迹,我們將不再進(jìn)一步討論各自的方法。相反凝赛,在這篇綜述中注暗,我們將重點(diǎn)關(guān)注配對的T細(xì)胞基因表達(dá)譜及其TCR序列的數(shù)據(jù)分析。除了前面描述的優(yōu)點(diǎn)外墓猎,單細(xì)胞TCR測序還具有方便配對α和β鏈的優(yōu)點(diǎn)捆昏。這是很難實(shí)現(xiàn)的傳統(tǒng)bulk方法,因?yàn)樵赽ulk實(shí)驗(yàn)中TCR分子的來源未知陶衅。此外屡立,整體技術(shù)的技術(shù)限制,以及D基因額外重組帶來的較大的異質(zhì)性(heterogeneity)搀军,導(dǎo)致了我們對TCR β鏈的興趣較為優(yōu)先膨俐。因此,我們對TCR識別的大部分理解都是基于β鏈的單獨(dú)測序罩句。然而焚刺,已有研究表明,α鏈也在不同程度上部分介導(dǎo)肽- mhc復(fù)合體(pMHC)的識別门烂。此外乳愉,單細(xì)胞測序提供的多模態(tài)功能還允許包括T細(xì)胞靶向肽- mhc葡聚糖兄淫,使抗原特異性T細(xì)胞、其TCR序列和功能表型的識別成為可能蔓姚。這些信息不僅對闡明免疫介導(dǎo)疾病的免疫病理至關(guān)重要捕虽,而且可以用來確定潛在的免疫治療靶點(diǎn)或幫助指導(dǎo)臨床試驗(yàn)中的免疫監(jiān)測。
單細(xì)胞RNA和TCR測序的結(jié)合比傳統(tǒng)(bulk)技術(shù)提供了多種好處坡脐。在本文中泄私,我們將概述其中的幾個(gè)好處。此外备闲,我們的目標(biāo)是將研究bulk TCR測序數(shù)據(jù)或bulk RNA-seq數(shù)據(jù)的實(shí)驗(yàn)或計(jì)算免疫學(xué)家引入常見的高分辨率和無偏多模態(tài)單細(xì)胞工作流程晌端,從而能夠產(chǎn)生新的生物學(xué)相關(guān)見解。由于TCR轉(zhuǎn)錄本靶向富集和TCR轉(zhuǎn)錄組單細(xì)胞測序的新興應(yīng)用恬砂,大量不同的工具被開發(fā)用于該數(shù)據(jù)的下游分析咧纠,試圖整合基因表達(dá)和克隆型信息。本綜述的最終目的是概述目前最先進(jìn)的方法和軟件工具泻骤,用于整合和下游分析單細(xì)胞TCR和單細(xì)胞基因表達(dá)數(shù)據(jù)漆羔。雖然這篇綜述將主要關(guān)注T細(xì)胞及其受體的分析,但許多討論的方法和技術(shù)也適用于B細(xì)胞瞪讼。
為了向讀者全面介紹配對單細(xì)胞RNA和TCR測序的好處钧椰,我們將首先概述未配對單細(xì)胞RNA測序和TCR庫分析的傳統(tǒng)工作流程粹断。接下來符欠,我們將討論集成這兩層信息的優(yōu)點(diǎn),以及支持這種集成的可用工具瓶埋。最后希柿,我們確定了當(dāng)前TCR庫分析領(lǐng)域面臨的挑戰(zhàn),并就如何彌補(bǔ)該領(lǐng)域的研究空白提供了新的視角养筒。
2. 單細(xì)胞RNAseq的一般流程
2.1 單細(xì)胞RNAseq的效力計(jì)算(power calculation)
效力計(jì)算是實(shí)驗(yàn)設(shè)計(jì)的重要組成部分曾撤。雖然bulk測序的效力計(jì)算方法可以應(yīng)用于單細(xì)胞水平,但這些方法往往沒有考慮到單細(xì)胞的特定特征晕粪,如數(shù)據(jù)稀疏性挤悉。有幾個(gè)因素決定了單細(xì)胞測序?qū)嶒?yàn)的統(tǒng)計(jì)能力,包括測序深度(# of reads per cell)巫湘、每個(gè)樣本的細(xì)胞數(shù)量和樣本數(shù)量装悲。這些因素通常受到預(yù)算限制、所選測序平臺的技術(shù)限制和樣品可用性的影響尚氛。雖然建議的測序深度信息通常由試劑制造商提供(例如10x Genomics)诀诊,但決定足夠的樣本大小和每個(gè)樣本所需的細(xì)胞數(shù)量是更有挑戰(zhàn)性的。此外阅嘶,根據(jù)研究問題属瓣,可能需要其他先驗(yàn)知識來計(jì)算效力载迄。例如,當(dāng)試圖在樣本中確定一個(gè)罕見的細(xì)胞群時(shí)抡蛙,可能需要預(yù)先了解該樣本類型中細(xì)胞的比例护昧,以確定需要對多少細(xì)胞進(jìn)行測序才能獲得足夠的效力。由于研究問題需要不同的先驗(yàn)知識粗截,目前已經(jīng)開發(fā)出了幾種不同目的的單細(xì)胞效力分析工具捏卓,如scPower、SCEED或SCOPIT慈格。SCEED主要研究細(xì)胞類型鑒定的效力計(jì)算怠晴,而scPower則可用于差異基因表達(dá)檢測和表達(dá)性狀定量位點(diǎn)分析的效力計(jì)算。最后浴捆,SCOPIT使用一種多項(xiàng)分布來計(jì)算所需的細(xì)胞數(shù)蒜田,其基礎(chǔ)是每個(gè)亞群必須測序到的最小細(xì)胞數(shù)、每個(gè)cluster對該細(xì)胞數(shù)進(jìn)行抽樣的期望概率以及最罕見的亞群的頻率选泻。該模型可以用作一個(gè)直觀的web界面冲粤,也可以用作一個(gè)R包。
2.2 單細(xì)胞RNAseq測序數(shù)據(jù)的預(yù)處理
由單細(xì)胞平臺產(chǎn)生的測序數(shù)據(jù)页眯,類似于bulk測序梯捕,在進(jìn)行下游分析之前需要進(jìn)行一些處理。主要的預(yù)處理步驟如表1所示窝撵。雖然我們將在本節(jié)簡要討論其中的一些問題傀顾,但讀者可以參考補(bǔ)充文本獲得更詳細(xì)的解釋,包括支持預(yù)處理(單細(xì)胞)RNA-seq數(shù)據(jù)的流行軟件工具碌奉。Luecken和Theis[39]在一篇精彩的評論中進(jìn)一步解釋了其中的一些步驟短曾。此外,最近的一個(gè)基準(zhǔn)測試表明赐劣,在預(yù)處理工具之間的選擇相對不重要嫉拐,在下游處理之后觀察到微小的差異。盡管如此魁兼,對于使用10x Genomics平臺的V(D)J分析婉徘,CellRanger是推薦的,因?yàn)樗瑫r(shí)處理基因表達(dá)和配對TCR數(shù)據(jù)咐汞。
2.3 scRNAseq的下游分析
下游分析包括聚類和細(xì)胞注釋盖呼,差異細(xì)胞類型組成分析,差異基因表達(dá)和功能富集碉考,軌跡分析塌计。還包括,基因調(diào)控網(wǎng)絡(luò)的識別或細(xì)胞-細(xì)胞通信的推斷等(本文沒有列出)侯谁。
2.3.1 聚類和注釋
像t-SNE锌仅,UMAP這一類非線性降維技術(shù)能夠?qū)⒓?xì)胞按照基因表達(dá)的相似性聚在一起章钾。由這些算法創(chuàng)建的低維嵌入可以用于根據(jù)相似性分?jǐn)?shù)或距離度量來識別不同的細(xì)胞群。為了實(shí)現(xiàn)這一點(diǎn)热芹,經(jīng)典的機(jī)器學(xué)習(xí)聚類技術(shù)或基于圖的算法(community detection)可以分別應(yīng)用于距離矩陣(例如k-means聚類)或graph-based贱傀。Louvain社區(qū)檢測算法是目前最流行的graph-based的方法,具有很好的計(jì)算性能伊脓。對Louvain算法的一些改進(jìn)已經(jīng)提出府寒,有助于提高模塊化、速度和可伸縮性报腔。這些改進(jìn)包括smart local move株搔、fast local move和random neighbor move算法。最近纯蛾,Leiden算法通過整合這些早期的改進(jìn)纤房,作為Louvain社區(qū)檢測算法的擴(kuò)展而被引入。
有了cluster之后就可以對cluster進(jìn)行注釋了翻诉,一般有手動注釋和自動注釋炮姨,手動注釋需要基于一定專業(yè)能力,比如知道m(xù)arker基因碰煌。自動注釋舒岸,比如像SingleR這一類,自動注釋這一塊還具有很大的挑戰(zhàn)芦圾,免疫細(xì)胞是出了名的異質(zhì)性蛾派。一點(diǎn)點(diǎn)的表達(dá)量不同就能引起不同的細(xì)胞注釋。所以這里還需要改進(jìn)堕扶。然而碍脏,還是自動注釋和手動注釋雙管齊下才更有效梭依。
2.3.2 差異細(xì)胞類型組成分析
差異細(xì)胞類型組成分析包括特定細(xì)胞類型的比例稍算,各條件下的細(xì)胞總數(shù),已知一些致病生物體或疾病會影響某些細(xì)胞類型的豐度役拴。例如糊探,CD4+ T細(xì)胞缺失是艾滋病毒感染的一個(gè)標(biāo)志。因此河闰,在沒有先驗(yàn)知識的情況下科平,細(xì)胞類型組成分析可以作為確定特定疾病中受影響細(xì)胞類型的粗略方法。然而姜性,樣品的組成嚴(yán)重依賴于制備方案瞪慧,這可能會混淆成分分析。例如部念,在文庫制備過程中弃酌,某些細(xì)胞可能更容易受到壓力和損傷氨菇,可能導(dǎo)致比例失衡,因?yàn)檫@些細(xì)胞可能會在樣品中殆盡妓湘。
有一個(gè)例子查蓉,研究人員用成分分析來研究免疫系統(tǒng)對SARS-CoV-2感染的反應(yīng)。根據(jù)觀察到COVID-19患者經(jīng)歷由炎癥單核細(xì)胞和病原性T細(xì)胞誘導(dǎo)的細(xì)胞因子風(fēng)暴榜贴,使用成分分析表明豌研,在重癥患者中增殖T細(xì)胞和CD14+單核細(xì)胞明顯富集。
2.3.3 差異基因表達(dá)和功能富集
盡管差異基因表達(dá)分析和功能富集長期以來一直被用于bulk基因表達(dá)譜分析唬党,單細(xì)胞環(huán)境提供了幾個(gè)優(yōu)勢鹃共。與bulk基因表達(dá)譜相比,單細(xì)胞數(shù)據(jù)由每個(gè)單個(gè)細(xì)胞的基因表達(dá)譜組成驶拱,具有更大的分辨率及汉。此外,對于每個(gè)特定的細(xì)胞cluster屯烦,可以計(jì)算出表達(dá)某種基因的細(xì)胞比例坷随。在單細(xì)胞差異基因表達(dá)測試的背景下,使用傳統(tǒng)的bulk方法和專門為單細(xì)胞數(shù)據(jù)開發(fā)的方法驻龟。常用的方法包括非參數(shù)Wilcoxon檢驗(yàn)温眉、偽體積法DESeq2和edgeR以及單細(xì)胞法MAST等。在最近的一篇論文中翁狐,Bassez等人引入了在擴(kuò)展T細(xì)胞和非擴(kuò)展T細(xì)胞上應(yīng)用差異表達(dá)測試的概念类溢,以說明擴(kuò)展T細(xì)胞在抗pd1治療前是具有腫瘤反應(yīng)性的,表現(xiàn)出較高的激活露懒、效應(yīng)物和免疫檢查點(diǎn)標(biāo)志物的表達(dá)闯冷。在另一個(gè)例子中,Zhang等人應(yīng)用差異基因表達(dá)分析來識別結(jié)直腸腫瘤樣本中不同T細(xì)胞類型的轉(zhuǎn)錄譜的差異懈词。
差異基因表達(dá)分析的結(jié)果通常是得到一堆差異表達(dá)基因蛇耀,這些基因需要額外的生物學(xué)知識去解釋。所以通常情況下就需要通路分析坎弯。在這里纺涤,注釋基因根據(jù)生物特征被分組到特定的集合中,計(jì)算算法檢驗(yàn)任何集合是否在差異基因列表中富集(過/欠表達(dá)分析)或在排序的對數(shù)倍變化列表中富集(基因集富集分析)(圖1E)抠忘。這些方法依賴于注釋基因集的數(shù)據(jù)庫進(jìn)行測試撩炊,如分子標(biāo)記數(shù)據(jù)庫(MSigDB)、Reactome或Gene Ontology(GO)崎脉。
2.3.4. Trajectory analysis
scRNA-seq提供了細(xì)胞在特定時(shí)間點(diǎn)的靜態(tài)快照拧咳。然而,其中一些細(xì)胞會參與一個(gè)動態(tài)過程囚灼,如細(xì)胞分化骆膝、細(xì)胞周期或生物功能的逐漸變化砾淌。因此,僅用細(xì)胞類型標(biāo)簽標(biāo)注的cluster不能完全捕獲cluster的異質(zhì)性谭网,因?yàn)樗鼈兛赡馨刂囟▌討B(tài)過程軌跡的不同階段的混合細(xì)胞汪厨。通過軌跡分析,細(xì)胞根據(jù)轉(zhuǎn)錄相似性沿著路徑或軌跡排列(圖1D)愉择。
推斷出的偽時(shí)間變量表示沿著這條軌跡的進(jìn)程劫乱,從指定為root細(xì)胞的特定細(xì)胞類型開始。因此锥涕,軌跡分析能夠解釋不同的動態(tài)過程衷戈,并識別負(fù)責(zé)沿著軌跡分支的基因表達(dá)譜。沿著軌跡的差異基因表達(dá)也是可能的层坠。允許軌跡分析的流行方法包括Monocle和Slingshot殖妇。軌跡分析可以結(jié)合RNA velocity來量化細(xì)胞在不同狀態(tài)之間轉(zhuǎn)換的速度。在T細(xì)胞中破花,結(jié)合RNA velocity和細(xì)胞軌跡可能有助于解開T細(xì)胞反應(yīng)的動力學(xué)谦趣,并揭示克隆型之間的表型轉(zhuǎn)變。方法的選擇通常取決于數(shù)據(jù)集和軌跡拓?fù)浣Y(jié)構(gòu)座每,建議感興趣的讀者遵循Saelens等人提出的方法選擇指南前鹅。一項(xiàng)針對超級百歲老人的非常獨(dú)特的單細(xì)胞轉(zhuǎn)錄組分析研究使用軌跡分析證明,與健康捐贈者的T細(xì)胞相比峭梳,這些超級百歲老人的T細(xì)胞更具有終末分化(terminally differentiated)舰绘。
3. TCRseq 分析流程
TCR repertoire是克隆型的集合,構(gòu)成了個(gè)體的T細(xì)胞全部葱椭。TCR repertoire可以通過靶向富集策略或RNA-seq reads的計(jì)算重建來得到捂寿。與基因表達(dá)譜類似,TCR測序數(shù)據(jù)在下游分析之前也需要一些處理孵运。簡而言之秦陋,首先將原始測序reads與V、D和J基因序列的參考集比對掐松,然后將相同的序列組合成單個(gè)克隆型踱侣。隨后剔除質(zhì)量較差的reads,修正PCR和測序錯誤大磺,得到定量克隆型信息。有大量的工具可以用于處理bulk實(shí)驗(yàn)中的TCR測序reads探膊,其中MiXCR仍然是最受歡迎的選擇杠愧。這些方法之間的區(qū)別,他們的優(yōu)點(diǎn)和缺點(diǎn)已被廣泛討論逞壁。
近年來流济,TCR repertoire數(shù)據(jù)的后處理以揭示生物學(xué)相關(guān)的洞見受到了越來越多的關(guān)注锐锣。這些分析大致可以分為三個(gè)主要部分:repertoire多樣性分析、特異性分析和克隆組成分析绳瘟。已經(jīng)開發(fā)了各種方法來分析技術(shù)審查匯編的每一個(gè)方面雕憔,表2總結(jié)了這些方面。另外糖声,圖2提供了本節(jié)討論的不同技術(shù)的概述斤彼。對于表2中列出的每一種方法,在本文的補(bǔ)充材料中都可以找到詳細(xì)的描述蘸泻。研究人員已經(jīng)開發(fā)了幾個(gè)軟件工具琉苇,涵蓋了表2中討論的大部分功能。這樣就可以計(jì)算保留庫的統(tǒng)計(jì)數(shù)據(jù)悦施,如多樣性(圖2A)并扇、克隆組成或基因使用(圖2C)。一些工具為比較不同的基因庫提供了額外的功能抡诞,例如通過克隆重疊的量化(圖2C)穷蛹。最后,還有一些更具體的工具可以用于TCR repertoire數(shù)據(jù)的高級分析昼汗,如網(wǎng)絡(luò)分析(圖2H)俩莽、克隆型聚類、富集分析或表位特異性預(yù)測(圖2G)乔遮。
3.1 基本分析(Basic repertoire analysis)
有大量的軟件工具可以用來對TCR repertoire進(jìn)行探索性分析扮超。imcantation Portal1承載了一系列不同的Python和R軟件包,利用一個(gè)生態(tài)系統(tǒng)來對TCR-seq數(shù)據(jù)進(jìn)行端到端的分析蹋肮,從繪制原始測序read到高級分析(例如克隆型的聚類)出刷。此外,imcantation框架被認(rèn)證為符合適應(yīng)性免疫受體庫(AIRR)軟件工具的標(biāo)準(zhǔn)2指南坯辩。另一個(gè)軟件包馁龟,immunarch,提供了一套廣泛的TCR數(shù)據(jù)分析工具漆魔,包括克隆型豐度的定量坷檩、保留庫多樣性、保留庫重疊改抡、基因使用估計(jì)矢炼、克隆型跟蹤、CDR3譜型阿纤、k-mer分布的計(jì)算和克隆型注釋句灌,數(shù)據(jù)庫信息來自VDJdb、McPAS-TCR和TBAdb (PIRD)。最后胰锌,另一個(gè)流行的包是VDJtools骗绕。這個(gè)命令行工具提供了類似于imcantation和immunarch的功能。VDJtools集成了一個(gè)TCR鄰域富集測試(TCRNET)资昧,可以用來在單個(gè)repertoire中識別富集克隆型酬土,與背景分布相比。
3.2 概率生成(Generation probability)
免疫信息學(xué)領(lǐng)域最關(guān)鍵的進(jìn)展之一是V(D)J重組過程的概率模型的發(fā)展格带。眾所周知撤缴,這是一個(gè)隨機(jī)過程,有利于生成特定的TCR序列構(gòu)象践惑。這些模型提供了將生成概率(Pgen)分配給任何特定的TCR序列的機(jī)會腹泌。該 Pgen是通過建模選擇V、J或D基因(在TRB的情況下)的概率尔觉,以及這些基因片段連接處潛在的核苷酸插入和缺失來計(jì)算的凉袱。該值表明特定的TCR序列是罕見的還是常見的。例如侦铜,由于插入的數(shù)量較多专甩,較長的TCR序列往往具有較低的 Pgen(即它們更罕見)。此外钉稍,V(D)J重排的概率模型允許生成模擬健康個(gè)體TCR的大型合成庫涤躲。基于這一概念贡未,Pogorelyy等人開發(fā)了一種類似于TCRNET的方法ALICE种樱,可以使用合成的repertoire作為背景分布,從單個(gè)repertoire快照中識別豐富的克隆俊卤。
3.3 受體特異性(Receptor specificity)
了解哪些tcr針對哪些表位是TCR分析中最重要的挑戰(zhàn)嫩挤。這使得鑒定負(fù)責(zé)中和病原體的T細(xì)胞成為可能。因此消恍,這一知識有助于我們理解為什么某些人可能容易感染或癌癥岂昭,而另一些人能夠產(chǎn)生有效的免疫反應(yīng)。在自身免疫性疾病的背景下狠怨,識別靶向自身抗原的tcr可以利用潛在的治療靶點(diǎn)约啊。正如所指出的,immunoarch和VDJtools使用實(shí)驗(yàn)驗(yàn)證的TCR表位相互作用或關(guān)聯(lián)數(shù)據(jù)庫(如VDJdb佣赖、McPAS-TCR和IEDB)恰矩,提供了表位特異性注釋克隆型的功能。TCRex等其他工具基于表位特異性機(jī)器學(xué)習(xí)模型茵汰,預(yù)測任何TCR對有限數(shù)量的表位的特異性枢里。對于這種應(yīng)用,TCR序列通常被轉(zhuǎn)換成數(shù)字編碼蹂午。流行的編碼類型包括使用物理化學(xué)性質(zhì)或one-hot-encoding.栏豺。最近的DeepTCR為生成TCR序列的數(shù)值表示提供了一個(gè)深度學(xué)習(xí)框架,可用于下游機(jī)器學(xué)習(xí)應(yīng)用豆胸,如預(yù)測TCR表位特異性奥洼。immuneML平臺還提供使用各種編碼訓(xùn)練和評估受體級別機(jī)器學(xué)習(xí)分類器的功能。ImmuneML提供了K-Nearest neighbors (KNN)晚胡、logistic回歸灵奖、隨機(jī)森林、TCRDist分類器等模型估盘。
4.【聯(lián)合分析】生成配對的基因表達(dá)數(shù)據(jù)和TCR數(shù)據(jù)
4.1 VDJ位點(diǎn)的靶向富集
結(jié)合單細(xì)胞轉(zhuǎn)錄組學(xué)和適應(yīng)性免疫分析數(shù)據(jù)通常通過靶向富集V(D)J區(qū)與基因表達(dá)分析相結(jié)合獲得瓷患。擴(kuò)增TCR基因座可采用三種主要策略。第一種涉及多重PCR擴(kuò)增遣妥,使用一組針對所有V和J基因片段的引物擅编。或者箫踩,V(D)J序列可以通過標(biāo)記tcr特異性寡核苷酸來純化爱态。這些誘餌將退火到目標(biāo)區(qū)域,因此境钟,一旦樣本被碎片化锦担,就很容易捕獲。最后慨削,最流行的cDNA樣本V(D)J擴(kuò)增方法是5 RACE策略洞渔。為了有效地對富集的V(D)J序列和其他基因表達(dá)譜進(jìn)行配對,可以區(qū)分兩種主要的方法缚态。使用微流體裝置的基于液滴的方法是最受歡迎的策略之一磁椒。以液滴為基礎(chǔ)的單個(gè)細(xì)胞分離和條形碼方法的商業(yè)例子有10x Genomics提供的Chromium設(shè)備,Bio- rad提供的ddSEQ設(shè)備猿规,Dolomite Bio提供的Nadia設(shè)備衷快,Illumina提供的inDrop設(shè)備。也有一些方法可以應(yīng)用流式細(xì)胞儀在96孔或384孔板上進(jìn)行細(xì)胞分選來分離單個(gè)細(xì)胞姨俩。然而蘸拔,這種方法限制了每口井每次作業(yè)只能分析一個(gè)細(xì)胞。該方法的一個(gè)商業(yè)實(shí)例是Fluidigm公司的C1單細(xì)胞自動準(zhǔn)備系統(tǒng)环葵。本文綜述了配對測序文庫制備方法和測序策略调窍。然而,一般來說张遭,這些測序方案的不同之處在于擴(kuò)增的方法邓萨。
4.2 TCR測序的計(jì)算重組
除了有針對性的富集,還可以使用計(jì)算方法從scRNA-seq數(shù)據(jù)重建TCRs。與有針對性的方法相比缔恳,計(jì)算重建方法提供了較低的TCR序列覆蓋率宝剖,但允許重新分析現(xiàn)有的scRNA-seq數(shù)據(jù)集,可能提供額外的見解歉甚。此外万细,傳統(tǒng)的免疫分析試劑盒通常只包含α/β擴(kuò)增引物,導(dǎo)致γδ tcr回收率極低纸泄。然而赖钞,從基因表達(dá)譜重建γδ TCRs是可能的,只要數(shù)據(jù)是從5'端擴(kuò)增聘裁。有廣泛的工具設(shè)計(jì)用于從scRNA-seq數(shù)據(jù)中恢復(fù)TCR序列雪营,如表3所示。要獲得表3中列出的每個(gè)工具的更詳細(xì)的描述衡便,我們可以參考本文的補(bǔ)充材料献起。
TCR重建工具通常使用基于參考和從頭組裝的組合,能夠從轉(zhuǎn)錄組數(shù)據(jù)中重建相當(dāng)一部分V(D)J序列砰诵。雖然與靶向擴(kuò)增方法相比沒有競爭力征唬,但最近的TCR重建工具的發(fā)展表明,從scRNA-seq剖面中可以顯著恢復(fù)TCR序列茁彭。例如总寒,TRUST4軟件能夠從scRNA-seq數(shù)據(jù)中恢復(fù)大約70%的所有V(D)J序列。MiXCR的作者表明理肺,從淋巴結(jié)轉(zhuǎn)移樣本中恢復(fù)了約3000個(gè)TRB摄闸,從脾臟分離的CD4 T細(xì)胞中恢復(fù)了約1700-3000個(gè)TRB,從中樞神經(jīng)系統(tǒng)組織中恢復(fù)了約400-1000個(gè)TRB妹萨。然而年枕,從scRNA-seq數(shù)據(jù)中恢復(fù)TCR的有效性高度依賴于TCR位點(diǎn)的測序深度和表達(dá)水平,而這在不同細(xì)胞之間可能存在很大差異乎完。因此熏兄,這可能會在分析TCR多樣性和克隆性時(shí)引入大量的偏差∈饕蹋總之摩桶,如果實(shí)驗(yàn)的目的是鑒定表3中擴(kuò)展克隆或優(yōu)勢克隆,那么從scRNA-seq樣本重建TCRs可能是可取的帽揪。
5.什么時(shí)候該選擇Single cell 而不是Bulk RNAseq:single cell T Cell的特征
無論伴隨基因表達(dá)譜的TCR數(shù)據(jù)是通過專門富集V(D)J區(qū)域生成的硝清,還是從scRNA-seq數(shù)據(jù)重構(gòu)而來,擁有這兩層信息可以提供比傳統(tǒng)批量技術(shù)更多的優(yōu)勢转晰。表4簡要比較了批量測序法和單細(xì)胞測序法的主要特點(diǎn)芦拿。
表4士飒。TCR和基因表達(dá)譜的整體和單細(xì)胞方法的優(yōu)缺點(diǎn)。1:這里的保留曲目覆蓋率是指能夠識別的唯一TCR序列的總數(shù)蔗崎。根據(jù)實(shí)驗(yàn)的規(guī)模酵幕,單細(xì)胞方法可以達(dá)到與批量方法相似的覆蓋范圍,但這將大大增加實(shí)驗(yàn)的成本蚁趁。2:使用批量方法可以研究各種模式(如TCR譜裙盾、基因表達(dá)譜实胸、抗原特異性等)他嫡,但不能整合。3:一般來說庐完,批量方法更適合大樣本钢属,主要是由于較低的成本,效率和協(xié)議的持續(xù)時(shí)間门躯。
5.1 單細(xì)胞測序能夠整合免疫受體特征和功能
雖然TCRs的bulk測序可以清晰的呈現(xiàn)抗原反應(yīng)的廣度淆党,但它不能提供其來源T細(xì)胞的功能特征的信息。這些信息由scRNA-seq提供讶凉,可能有助于闡明與病理相關(guān)的T細(xì)胞亞群的作用機(jī)制染乌。
當(dāng)與聚類和集群注釋小節(jié)中描述的細(xì)胞類型注釋并行執(zhí)行時(shí),這種分析尤其有趣懂讯。這可能揭示特定細(xì)胞群的某些偏差荷憋,如不同表型亞群的過度膨脹。然而褐望,這些分析并不局限于重疊克隆,也可能包括之前描述的對不同T細(xì)胞亞群的tcr特異性分析的應(yīng)用。
圖:TCR與基因表達(dá)譜研究的整合方法度硝。A.克隆型信息卷扮,如克隆擴(kuò)展,可以映射到基于基因表達(dá)的UMAP上谨读。B.TCR特異性指標(biāo)局装,如多樣性,可以在不同細(xì)胞類型的水平上進(jìn)行評估劳殖。C.評估TCR集群內(nèi)克隆型的基因表達(dá)譜铐尚。D.細(xì)胞類型信息可以投射到TCR類型相似網(wǎng)絡(luò)上,以識別細(xì)胞類型趨同或發(fā)散的克隆型簇闷尿。
反之塑径,從基因表達(dá)譜獲得的信息可以映射到TCR相似網(wǎng)絡(luò)上(圖3D),這是現(xiàn)有工具在較小程度上探索的東西填具。這種類型的分析可能揭示出屬于相同或相關(guān)細(xì)胞亞群的高度相似的克隆簇(因此可能針對相同的表位)统舀,揭示了T細(xì)胞集在表型和克隆型水平上的擴(kuò)展匆骗。
5.2 Power of multimodality: antigen-specificity profiling
新的modality已經(jīng)被開發(fā)用于單細(xì)胞測序,使研究人員明確確定T細(xì)胞的抗原特異性誉简。在這些方法中碉就,scTCR-seq和scRNA-seq與表位負(fù)載的MHC多聚體相結(jié)合,表位特異性T細(xì)胞將與之相互作用闷串。例如瓮钥,如Zhang等人所描述的TetTCR-seq,使用pMHC四聚體來描述T細(xì)胞的抗原特異性烹吵。這就引出了第三層信息碉熄,也是非常重要的一層信息,它使T細(xì)胞功能的完整表征成為可能肋拔,提供了關(guān)于其細(xì)胞表型锈津、受體序列和其能夠識別的肽- mhc復(fù)合體的信息。例如凉蜂,在癌癥研究中琼梆,腫瘤特異性T細(xì)胞可以被識別,并隨后用于過繼T細(xì)胞治療窿吩,通過使用裝載有感興趣的腫瘤表位的mhc -多定時(shí)器捕獲它們茎杂。此外,單細(xì)胞方法允許配對α和β鏈纫雁。通過包括TRA和TRB的信息煌往,這提供了額外的解決方案。相比之下先较,bulk方法通常只提供單鏈信息携冤。
6. 在單細(xì)胞水平分析T細(xì)胞的軟件包
隨著在單細(xì)胞水平上研究T細(xì)胞的分析技術(shù)的出現(xiàn),有必要開發(fā)工具來分析伴隨這項(xiàng)技術(shù)革命而來的越來越多的數(shù)據(jù)闲勺。有大量的工具可以單獨(dú)分析轉(zhuǎn)錄組學(xué)或TCR數(shù)據(jù)曾棕,但很少有人關(guān)注這兩層信息的組合。最近菜循,研究人員對開發(fā)這種旨在整合分析TCR和基因表達(dá)譜的工具表現(xiàn)出越來越大的興趣翘地。在這一章中,我們將討論用于分析scTCR-seq數(shù)據(jù)的計(jì)算工具的現(xiàn)狀癌幕。我們包括了所有盡我們所知的在2021年10月1日之前有相關(guān)同行評議出版物或預(yù)印文章的工具衙耕。這些工具建立在快速發(fā)展的TCR repertoire分析領(lǐng)域的基礎(chǔ)上,為基于系統(tǒng)的T細(xì)胞免疫分析提供了一個(gè)巨大的飛躍勺远,從而為T細(xì)胞生物學(xué)提供了更深入的機(jī)制理解橙喘。table 5 概述了本文中討論的包所提供的不同功能。
表5.分析單細(xì)胞TCR的工具星號表示多個(gè)度量的可用性胶逢。一個(gè)星號()對應(yīng)一個(gè)度量標(biāo)準(zhǔn)(例如厅瞎,僅用于衡量多樣性的香農(nóng)指數(shù))饰潜,而雙星號(*)則反映多重多樣性或克隆性度量標(biāo)準(zhǔn)的可用性。高級可視化可能包括圖形表示和簸、UMAP彭雾、circos等。Clustering列僅用于基于受體的聚類锁保。樣本的聚類包含在Repertoire重疊欄中薯酝。與GE列整合另外指示了每個(gè)工具相互作用的單細(xì)胞RNA-seq分析環(huán)境。圖中的縮寫:GE(gene expression),AIRR(adaptive immune receptor repertoire); B(BCR); T(TCR); Se(Seurat); Sc(Scanpy); N(native).
6.1 CoNGA
這是一個(gè)可以無偏確定基因表達(dá)和TCR庫之間相關(guān)性的工具爽柒,CoNGA基于TCR序列相似性(由TCRdist測度定義)和基于基因表達(dá)數(shù)據(jù)構(gòu)建相似圖(similarity graph)吴菠。CoNGA是一個(gè)python包,是建立在scanpy包之上霉赡,因此它也是用AnnData對象存儲整合后的基因表達(dá)和TCR序列數(shù)據(jù)橄务。TCR之間的距離是用TCRdist計(jì)算的。
CoNGA還提供了一個(gè)graph-vs-graph和graph-vs-feature的分析穴亏,graph-vs-graph分析涉及將基因表達(dá)與TCR序列相似圖關(guān)聯(lián)起來,方法是通過識別在兩個(gè)圖中相鄰基因顯著重疊的克隆型重挑。對于每個(gè)克隆型嗓化,CoNGA評估TCR和基因表達(dá)圖中直接連接到該克隆型的所有組件(鄰接圖)。為每個(gè)克隆型分配一個(gè)score谬哀,反映觀察到兩個(gè)圖之間的這種程度的重疊大于或等于預(yù)期的偶然重疊的概率刺覆。為了限制假陽性的數(shù)量,這個(gè)score乘以克隆型的總數(shù)史煎。
graph-vs-feature的分析中谦屑,從兩個(gè)屬性的數(shù)字特征映射到互補(bǔ)屬性的相似圖,從而旨在識別score分布中有偏差的graph neighborhoods篇梭。通過將CoNGA應(yīng)用于一組公開的T細(xì)胞數(shù)據(jù)集氢橙,作者鑒定了一組HOBIT+表達(dá)的T細(xì)胞,這些T細(xì)胞富含疏水殘基的長cdr3恬偷。此外悍手,他們觀察到TRBV30基因片段的使用與保守的EPHB6基因的表達(dá)有很強(qiáng)的相關(guān)性。
6.2 mvTCR
用來自TCR的功能信息補(bǔ)充基因表達(dá)譜袍患,可以更詳細(xì)地了解不同T細(xì)胞亞群的行為坦康。通常,這些數(shù)據(jù)是相互并行處理和分析的诡延,因此阻礙了新的T細(xì)胞表型的識別滞欠。An等人開發(fā)了一種多視圖變分自編碼器,稱為mvTCR肆良,可在單個(gè)細(xì)胞水平上聯(lián)合嵌入基因表達(dá)和TCR序列數(shù)據(jù)筛璧。
通過整合兩種模式赤兴,有可能捕獲在表型和功能水平上相關(guān)的T細(xì)胞群。mvTCR采用兩種混合模型將轉(zhuǎn)錄組和TCR嵌入整合到一個(gè)聯(lián)合潛在分布中隧哮。作者表明桶良,與單獨(dú)的基因表達(dá)或TCR嵌入相比,聯(lián)合嵌入提高了UMAP中表位特異性cluster的分離沮翔。
因此陨帆,mvTCR生成的多模態(tài)單細(xì)胞數(shù)據(jù)嵌入可以通過集成額外的表型信息層來改進(jìn)現(xiàn)有的預(yù)測TCR表位特異性的模型。另外采蚀,表位特異性cluster的亞群可能揭示某些T細(xì)胞亞群的表位特異性擴(kuò)增疲牵。
6.3 Platypus
Platypus是一個(gè)基于R的軟件,專門用于分析單細(xì)胞免疫數(shù)據(jù)榆鼠。針對通過10x Genomics平臺生成的數(shù)據(jù)進(jìn)行了優(yōu)化纲爸,但它也兼容其他基于條形碼的scRNA-seq方法,如RAGE-seq或SplitSeq妆够。Platypus利用Seurat平臺整合轉(zhuǎn)錄組譜和V(D)J測序數(shù)據(jù)识啦。默認(rèn)情況下,使用默認(rèn)的Seurat參數(shù)對基因表達(dá)數(shù)據(jù)進(jìn)行scaling和歸一化神妹,盡管該軟件也支持其他的歸一化方法颓哮,如SCTransform或Harmony。Platypus提供了一種從Cell Ranger輸出中提取V(D)J序列的方法鸵荠,它包含了一系列用于預(yù)處理和計(jì)算基本repertoire統(tǒng)計(jì)的函數(shù)冕茅。后者包括計(jì)算每個(gè)克隆的isotype數(shù)(BCRs)、CDR3長度分布和構(gòu)建序列標(biāo)識蛹找。
Platypus包的一個(gè)有趣特性是它能夠自動化Seurat工作流姨伤。該基因表達(dá)分析的結(jié)果可以隨后與克隆型信息集成使用自定義函數(shù)。這允許用戶將克隆型信息投影到通過聚類基因表達(dá)譜生成的UMAP圖上庸疾。例如乍楚,visualize_clones_gene表達(dá)可用于突出顯示基因表達(dá)集群內(nèi)的擴(kuò)展克隆。最后彼硫,Platypus通過構(gòu)建序列相似網(wǎng)絡(luò)提供了一個(gè)評估repertoire拓?fù)涞奶匦浴?/p>
6.4 Scirpy
Scirpy是一個(gè)構(gòu)建在Scanpy工具包之上的Python庫炊豪,用于在Python中分析scRNA-seq數(shù)據(jù)。數(shù)據(jù)可以直接從各種來源導(dǎo)入拧篮,包括Cell Ranger, TraCeR和標(biāo)準(zhǔn)化的AIRR格式词渤。與Scanpy和CoNGA類似,Scirpy利用了AnnData格式串绩,該格式是一個(gè)矩陣缺虐,它存儲了觀察和變量的一些注釋信息。AnnData還可以記錄一些其他非結(jié)構(gòu)化注釋礁凡。此外高氮,Scirpy遵循了Scanpy的API慧妄。為了整合V(D)J和基因表達(dá)譜,Scirpy提供了將AIRR和基因表達(dá)數(shù)據(jù)合并為單個(gè)AnnData對象的功能剪芍。Scirpy提供了用于預(yù)處理和分析TCR和基因表達(dá)數(shù)據(jù)的工具塞淹。預(yù)處理過程允許每個(gè)T細(xì)胞最多有兩條α和β鏈,將任何含有兩條以上α和β鏈的細(xì)胞標(biāo)記為潛在的doublets 罪裹,并在此過程中丟棄它們饱普。分析工具包括計(jì)算某一組樣本的克隆型豐度、克隆擴(kuò)張状共、多樣性套耕、不平衡以及庫重疊。然而峡继,唯一可用的多樣性度量是Shannon entropy冯袍。其次,該包使用igraph或networkx提供具有高序列相似性的克隆型集群的圖形可視化碾牌。該軟件包還提供基于成對對齊的相似性聚類康愤,但也提供其他距離度量。
6.5 scRepertoire
scRepertoire是一個(gè)R包小染,用于分析Cell Ranger生成的過濾后的contigs翘瓮。該軟件包與Seurat和singleCelexperiment (SCE)相互作用,允許整合基因表達(dá)數(shù)據(jù)裤翩。為T細(xì)胞contigs的可視化提供了多種功能,包括豐度调榄、長度踊赠、基因使用和克隆型共享圖。scRepertoire還提供了更先進(jìn)的分析類型每庆,如克隆內(nèi)穩(wěn)態(tài)(不同擴(kuò)展水平的可視化)或克隆比例(克隆大小的比例)筐带。其他分析包括基于氨基酸編輯距離(兩個(gè)序列之間不匹配的氨基酸數(shù)量)計(jì)算保留庫重疊、樣本多樣性和克隆型聚類缤灵。
前面描述的功能也可以計(jì)算基因表達(dá)簇(gene expression clusters)伦籍。與Seurat的整合也可以在UMAP圖上投影克隆型信息。其他高級可視化包括alluvial plots顯示不同類別共享的克隆類型腮出。最后帖鸦,共享克隆型基因使用模式跨細(xì)胞類型cluster可以分析使用chord diagram。
6.6 Tessa
Tessa是一種為TCR序列生成數(shù)字嵌入(numerical embedding)并將其與T細(xì)胞的基因表達(dá)譜集成的工具胚嘲。TCR的數(shù)值編碼基于CDR3β區(qū)域氨基酸的Atchley因子作儿。Tessa使用一個(gè)堆疊的自動編碼器來減少數(shù)值向量的大小,同時(shí)保持其固有的結(jié)構(gòu)特征馋劈。在基因表達(dá)矩陣中攻锰,只保留表達(dá)變異最高的前10%基因晾嘶。然后,Tessa使用有參貝葉斯模型來確定TCR對匹配克隆的基因表達(dá)譜的影響娶吞。此外垒迂,tessa使用加權(quán)TCR嵌入將克隆聚類成代表其抗原特異性的組。該算法在TCR和基因表達(dá)矩陣相關(guān)和抗原特異性分組這兩個(gè)過程之間交替進(jìn)行妒蛇,更新嵌入的權(quán)重机断,直到模型收斂。利用tessa, Zhang和同事首先表明共享相似TCR的克隆型更有可能共享相似的基因表達(dá)譜材部,這是由TCR和轉(zhuǎn)錄組譜之間的嵌入相關(guān)性確定的毫缆。此外,與不同癌癥類型的腫瘤樣本相比乐导,來自健康捐贈者的PBMCs的相關(guān)性更強(qiáng)苦丁。這可能表明TCR對腫瘤樣本中基因表達(dá)譜的影響比例較小,這可能是腫瘤微環(huán)境中高細(xì)胞和趨化因子分泌的結(jié)果物臂,在轉(zhuǎn)錄上影響了T細(xì)胞旺拉。
6.7 VDJView
VDJView集成了各種R包分析scRNA (Scater, Seurat, SC3, Monocle & MAST)和V(D)J測序數(shù)據(jù)(immunarch)成一個(gè)易于使用的R Shiny web應(yīng)用程序。作為輸入棵磷,該軟件允許3'端和5'端-生成scRNA-seq數(shù)據(jù)(10x和SmartSeq2)蛾狗。此外,利用VDJPuzzle軟件仪媒,可以從輸入的scRNA-seq數(shù)據(jù)中直接重建TCR序列沉桌。該工具提供了各種功能來分析克隆型豐度,CDR3長度分布算吩,V(D)J基因使用和克隆型共享留凭。對于基因表達(dá)水平的分析,該工具包括常用的降維技術(shù)偎巢,如PCA, t-SNE和UMAP蔼夜。此外,細(xì)胞聚類(監(jiān)督和非監(jiān)督)提供了基于基因表達(dá)值压昼。最后求冷,該軟件提供了擬時(shí)間分析,以確定單細(xì)胞狀態(tài)軌跡基于Monocle包窍霞。
7.挑戰(zhàn)
repertoire分析技術(shù)的應(yīng)用對repertoire的大小和構(gòu)成有很大的影響匠题。此外,細(xì)胞群(cell population)也可能影響識別克隆型的潛在數(shù)量官撼,因?yàn)槟承┘?xì)胞類型可能比其他細(xì)胞類型更罕見梧躺。因此,研究人員必須仔細(xì)評估單細(xì)胞方法與bulk方法的選擇,這取決于要回答的研究問題掠哥。深度取樣方法可以捕獲大量的細(xì)胞(如白細(xì)胞分離)巩踏,在單個(gè)樣本中發(fā)現(xiàn)多達(dá)2^107種獨(dú)特的克隆型。從實(shí)用的角度來看续搀,只有使用bulk測序方法才能分析這種數(shù)量的細(xì)胞塞琼。對于單細(xì)胞實(shí)驗(yàn),唯一確定的克隆型的數(shù)量通常較低禁舷。因此彪杉,當(dāng)本研究的目標(biāo)是表征全血樣本的全部repertoire時(shí),bulk測序方法可能更合適牵咙。然而派近,當(dāng)對特定(亞)群的功能特征和表型感興趣時(shí),可以選擇單細(xì)胞技術(shù)洁桌。這可能包括被分析克隆類型的數(shù)量不太相關(guān)的情況渴丸。例如,當(dāng)研究某些表位特異性T細(xì)胞和它們引起的免疫反應(yīng)時(shí)另凌。
8.展望
單細(xì)胞技術(shù)為鑒定特異性αβTCR及其來源細(xì)胞的功能譜提供了新的機(jī)會谱轨。通過使用這些技術(shù)獲得的信息同時(shí)提供基因表達(dá)譜、TCR序列信息和可選的其他方式(如肽特異性吠谢、表觀遺傳修飾土童、染色質(zhì)可及性等)。雖然已經(jīng)建立了大量的技術(shù)來單獨(dú)分析這些信息工坊,單細(xì)胞技術(shù)的使用提供了一種在單個(gè)細(xì)胞水平上集成這些信息的新方法献汗。這給數(shù)據(jù)分析帶來了巨大的挑戰(zhàn)。
在這篇綜述中王污,我們討論了幾個(gè)優(yōu)秀的軟件模塊雀瓢,它們提供了針對成對單細(xì)胞基因表達(dá)和TCR數(shù)據(jù)的整合分析工具。盡管這些軟件包為探索和分析基因表達(dá)和TCR譜提供了一個(gè)全面的工具包玉掸,但仍存在一些問題。scTCRseq允許鏈配對醒叁,提供α鏈和β鏈的信息司浪。雖然這被認(rèn)為是一個(gè)主要的優(yōu)勢,但即使在單細(xì)胞測序的情況下把沼,α鏈和β鏈的配對仍有一個(gè)未解決的問題啊易。有時(shí),單個(gè)細(xì)胞可能表達(dá)多種多產(chǎn)的α和或β鏈饮睬。在這種情況下租谈,不可能知道哪個(gè)αβ對是有功能的。
人們早就知道翻譯后沉默機(jī)制的存在,導(dǎo)致等位基因排斥割去。盡管如此窟却,AIRR研究人員應(yīng)該解決的一個(gè)問題是:是什么決定了tcr中的功能鏈配對? 此外,盡管罕見呻逆,但始終有可能只對一個(gè)TRA和一個(gè)TRB進(jìn)行測序夸赫,而細(xì)胞實(shí)際上可能表達(dá)多個(gè)TRA和或TRB。此外咖城,確定的TRA和TRB甚至可能不匹配茬腿,因?yàn)樗鼈兛赡苤慌鋵ζ渌创_定的鏈。因此宜雀,這就提出了一個(gè)問題:在單細(xì)胞實(shí)驗(yàn)中確定的αβ對是否真的是功能性重排?
另一個(gè)考慮因素是切平,單細(xì)胞實(shí)驗(yàn)中獲得的基因表達(dá)和TCR數(shù)據(jù)通常使用來自scRNA-seq和TCR-seq分析領(lǐng)域的既定方法單獨(dú)處理和分析。整合常常局限于將克隆型特征投影到基于基因表達(dá)的UMAP上辐董。因此悴品,我們提倡開發(fā)新的方法,將來自兩個(gè)來源的信息集成到一個(gè)對等的度量中郎哭。一些方法已經(jīng)采用了這一理念他匪,包括CoNGA、mvTCR和tessa夸研。像這樣的綜合方法可能揭示不同的亞群T細(xì)胞顯示相似的基因表達(dá)和TCR序列特征邦蜜。這樣的觀察結(jié)果可以用免疫原肽引起的某些T細(xì)胞亞群的擴(kuò)增來解釋。類似地亥至,UMAP通常應(yīng)用于基因表達(dá)矩陣悼沈,以投射基于一組高度可變基因的不同細(xì)胞亞群。
很少有人關(guān)注將UMAP應(yīng)用于基因表達(dá)和TCR特征的結(jié)合姐扮。這種方法可能揭示不同的表位特異性細(xì)胞集群絮供,不能從基因表達(dá)或TCR譜特征單獨(dú)識別。An等人提出了這一想法茶敏,他們開發(fā)了一種變分自動編碼器mvTCR壤靶,用于生成基因表達(dá)和TCR序列信息的聯(lián)合嵌入,從而改善了UMAP中表位特異性簇的分離惊搏。
scTCR-seq的另一個(gè)主要挑戰(zhàn)是可視化方法改進(jìn)的開發(fā)贮乳。目前,可視化scRNAseq數(shù)據(jù)最常用的方法是UMAP恬惯。UMAP可以用附加的信息層進(jìn)行注釋向拆,例如克隆擴(kuò)展等。對于TCR序列酪耳,相似度網(wǎng)絡(luò)表示是最常用的可視化方法之一浓恳。雖然這種呈現(xiàn)方式提供了repertoire架構(gòu)的總體概況,并強(qiáng)調(diào)了克隆擴(kuò)展,但當(dāng)節(jié)點(diǎn)數(shù)量非常大時(shí)颈将,網(wǎng)絡(luò)表示就變得不可行的了梢夯,就像AIRR-seq數(shù)據(jù)經(jīng)常出現(xiàn)的情況一樣。迫切需要提取TCR網(wǎng)絡(luò)的相關(guān)子集(例如吆鹤,具有低生成概率的擴(kuò)展克隆型集群)厨疙,從而實(shí)現(xiàn)可視化。
此外疑务,基因表達(dá)空間的特征可以映射到克隆型相似網(wǎng)絡(luò)沾凄。這樣的網(wǎng)絡(luò)表征能夠識別具有相似表達(dá)譜的克隆型簇,潛在地表明一個(gè)細(xì)胞亞型的共同起源或優(yōu)先分化知允。相反撒蟀,觀察到具有不同轉(zhuǎn)錄組特征的克隆型簇可能表明細(xì)胞類型之間的表型可塑性。這些可視化策略將特征從一種形態(tài)(TCR或基因表達(dá))映射到另一種形態(tài)温鸽,但并沒有真正地將兩層融合在一起保屯。因此,需要改進(jìn)可視化技術(shù)涤垫,通過整合它們來捕捉基因表達(dá)和TCR特征姑尺。
隨著新的實(shí)驗(yàn)和計(jì)算方法的出現(xiàn)來確定T細(xì)胞的特異性,scTCR-seq結(jié)合scRNA-seq分析將是一個(gè)必不可少的工具蝠猬,以充分表征T細(xì)胞的完整分子譜切蟋。基于表位特異性模型榆芦,有幾種方法可以準(zhǔn)確預(yù)測任何TCR與已知表位的結(jié)合柄粹。這些通常被稱為已見抗原表位(seen epitopes)。這些模型的一個(gè)主要缺點(diǎn)是匆绣,它們需要單個(gè)表位的足夠數(shù)據(jù)驻右,以便準(zhǔn)確預(yù)測哪些TCRs與之結(jié)合。
此外崎淳,這些模型通常只使用β鏈信息進(jìn)行訓(xùn)練堪夭,從而忽略了多樣性較低的α鏈的潛在貢獻(xiàn)。預(yù)測一個(gè)TCR與一個(gè)看不見的表位(unseen epitope)的結(jié)合是一個(gè)相當(dāng)困難的問題拣凹。盡管如此茵瘾,多項(xiàng)研究已經(jīng)證明了使用深度神經(jīng)網(wǎng)絡(luò)解決這個(gè)問題的可能性。一個(gè)普遍的結(jié)論是咐鹤,對與已知抗原表位相似的抗原表位的預(yù)測要優(yōu)于截然不同的抗原表位。目前的限制之一是已知的高質(zhì)量tcr表位對數(shù)量少圣絮。然而祈惶,由于TCR抗原篩選的高通量方法的引入,將有更多的數(shù)據(jù)可用,這將允許構(gòu)建更準(zhǔn)確的模型來預(yù)測任何TCR序列的特異性捧请。最后凡涩,我們鼓勵使用標(biāo)準(zhǔn)化的pipeline來處理和分析scTCR-seq數(shù)據(jù),這將提高scTCR-seq研究的透明度和可比性疹蛉。