hello,大家好,又是周五土浸,一周的收官之戰(zhàn)阅嘶,今天我們需要復(fù)習(xí)一下CoNGA,實(shí)在是太重要了员舵,我們今天也要詳細(xì)復(fù)習(xí)一下,關(guān)于10X單細(xì)胞和10XVDJ的聯(lián)合分析的分享文章藕畔,我都列在這里马僻,供大家參考和借鑒
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)TCR數(shù)據(jù)分析之TCRdist(1)
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)TCR數(shù)據(jù)分析之TCRdist(2)
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)TCR數(shù)據(jù)分析之TCRdist(3)
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)TCR數(shù)據(jù)分析之TCRdist3(4)
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)TCR數(shù)據(jù)分析之TCRdist3(5)
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)TCR轉(zhuǎn)錄組聯(lián)合數(shù)據(jù)分析之TCRdist3(6)neighbor graph analysis(CoNGA)
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)TCR轉(zhuǎn)錄組聯(lián)合數(shù)據(jù)分析之TCRdist3(7)neighbor graph analysis(CoNGA)
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)TCR轉(zhuǎn)錄組聯(lián)合數(shù)據(jù)分析之(8)neighbor graph analysis(CoNGA)
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)BCR(TCR)數(shù)據(jù)分析之(9)changeo
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)BCR(TCR)數(shù)據(jù)分析之(10)changeo
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)BCR(TCR)數(shù)據(jù)分析之(11)dandelion
10X單細(xì)胞 & 10XVDJ 聯(lián)合分析之PlatypusDB
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)轉(zhuǎn)錄組 + VDJ聯(lián)合分析(12)之scirpy
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)轉(zhuǎn)錄組 + VDJ聯(lián)合分析(13)之基礎(chǔ)術(shù)語(yǔ)
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)轉(zhuǎn)錄組 & VDJ 聯(lián)合分析(14)之CoNGA
10X單細(xì)胞和10XVDJ的聯(lián)合分析實(shí)在是太重要了,文章在Integrating T cell receptor sequences and transcriptional profiles by clonotype neighbor graph analysis (CoNGA),IF54分注服,太重要了韭邓,重要是的事情不止要說(shuō)三遍,我們今天要詳細(xì)回顧于一下溶弟。
Abstract
??由 T 細(xì)胞受體 (TCR) 序列定義的 T 細(xì)胞克隆型和表型(表型就指表達(dá)譜)之間的聯(lián)系女淑,反映在基因表達(dá) (GEX) 譜、表面蛋白表達(dá)和肽:主要組織相容性復(fù)合體結(jié)合中辜御,可以揭示功能關(guān)系beyond the features shared by clonally related cells鸭你。 在這里,作者提出了克隆型鄰居圖分析 (CoNGA)擒权,這是一種圖論方法袱巨,通過(guò)對(duì) GEX 和 TCR 相似圖的統(tǒng)計(jì)分析來(lái)識(shí)別 GEX profile和 TCR 序列之間的相關(guān)性。 使用 CoNGA碳抄,發(fā)現(xiàn)了 TCR 序列和 GEX 譜之間的關(guān)聯(lián)愉老,其中包括以前未描述的人類循環(huán) CD8+ T 細(xì)胞的“天然淋巴細(xì)胞”群和一組胸腺細(xì)胞分化的 TCR 序列決定因素。 這些例子表明纳鼎,CoNGA 可能有助于闡明大型俺夕、異質(zhì)裳凸、單細(xì)胞數(shù)據(jù)集中的 TCR 序列和 T 細(xì)胞表型之間的復(fù)雜關(guān)系贱鄙。
Intoduction
??先前配對(duì) GEX 和 TCR 序列的研究集中在 TCR 序列作為識(shí)別克隆相關(guān)細(xì)胞的獨(dú)特“Barcode”上劝贸。這種方法產(chǎn)生了對(duì)癌癥、傳染病和體內(nèi)平衡背景下不同 T 細(xì)胞亞群的發(fā)展和相互關(guān)聯(lián)的見(jiàn)解逗宁。這項(xiàng)研究表明映九,源自共同克隆祖先的 T 細(xì)胞克隆傾向于表達(dá)相似的轉(zhuǎn)錄譜。然而瞎颗,大型單細(xì)胞測(cè)序數(shù)據(jù)集的可用性提供了豐富的數(shù)據(jù)pool來(lái)揭示 TCR 序列相似性和細(xì)胞表型之間的關(guān)系件甥。研究人員已經(jīng)繪制了先前確定的 T 細(xì)胞亞群的 TCR 序列特性,但尚未研究指出可以通過(guò)關(guān)聯(lián) GEX 和 TCR 序列來(lái)識(shí)別先前未知的群體或亞群的系統(tǒng)方法哼拔。還缺乏用于識(shí)別 TCR 序列和 GEX 之間相關(guān)性的方法引有,這些相關(guān)性不會(huì)擴(kuò)展到全局相似性或與定義的細(xì)胞群相關(guān)(例如,特定 TCR 序列特性與可能跨越多個(gè)細(xì)胞子集的表達(dá)基因之間的相關(guān)性)倦逐。
??在單細(xì)胞分析發(fā)展的同時(shí)譬正,量化 TCR repertoire特征和識(shí)別其中模式的方法已經(jīng)成熟,有助于擴(kuò)展對(duì) T 細(xì)胞生物學(xué)的理解檬姥。之前曾我,作者介紹了 TCRdist(關(guān)于TCRdist,大家可以查閱我上面列舉的文章)健民,這是一種評(píng)估 TCR 間相似性的方法抒巢,能夠根據(jù)共享序列特征識(shí)別密切相關(guān)的克隆型”蹋基于這項(xiàng)工作和其他工作蛉谜,很明顯,靶向相同病原體衍生表位的 T 細(xì)胞使用具有一致崇堵、可定義氨基酸基序的 TCR悦陋。除了這些傳統(tǒng)的 T 細(xì)胞反應(yīng)外,某些非常規(guī) T 細(xì)胞群筑辨,例如粘膜相關(guān)不變 T (MAIT) 細(xì)胞和不變自然殺傷 T (iNKT) 細(xì)胞俺驶,以保守的 TCR 序列特征和 GEX 譜為特征。已經(jīng)描述了幾個(gè)不同的 T 細(xì)胞亞群棍辕,它們具有適合其富集的標(biāo)記暮现,但由 TCR 和 GEX 連接的其他亞群很可能仍未被發(fā)現(xiàn)。假設(shè)楚昭,通過(guò)確定由共享序列特征定義的“TCR 鄰域”和 GEX 之間的相關(guān)性栖袋,可以超越簡(jiǎn)單地測(cè)量單個(gè)克隆家族內(nèi)的 GEX 變異,并可能確定 T 細(xì)胞抗原特異性和表型之間的關(guān)聯(lián)抚太。 (TCR和表型的關(guān)聯(lián)分析塘幅,非常重要)
??為此昔案,作者開(kāi)發(fā)了一種用于克隆型鄰居圖分析的圖論方法,稱為 CoNGA电媳,它通過(guò)分析在一組 T 細(xì)胞克隆型上定義的相似性圖來(lái)識(shí)別 GEX 譜和 TCR 序列特征之間的相關(guān)性踏揣。 CoNGA 在公開(kāi)可用的 T 細(xì)胞數(shù)據(jù)集上的應(yīng)用確定了 GEX:TCR 相關(guān)性的多個(gè)例子,包括 MAIT匾乓、iNKT 和表位特異性 T 細(xì)胞群捞稿;胸腺發(fā)育過(guò)程中 T 細(xì)胞命運(yùn)的 TCR 序列決定因素;以前未描述的 ZNF683+IKZF2+(也稱為 HOBIT+HELIOS+)CD8+T 細(xì)胞群拼缝,具有長(zhǎng)且偏向的 CDR3 區(qū)域娱局; EPHB6 基因表達(dá)與特定人類 TCR V 基因片段 TRBV30 的使用之間存在顯著相關(guān)性。將 CoNGA 應(yīng)用于包括肽主要組織相容性復(fù)合體 (pMHC) 結(jié)合譜的四個(gè)數(shù)據(jù)集咧七,這些數(shù)據(jù)來(lái)源于細(xì)胞表面結(jié)合衰齐、DNA Barcode pMHC 多聚體的測(cè)序,揭示了 pMHC 結(jié)合與 TCR 序列和 GEX 之間的強(qiáng)相關(guān)性继阻。隨著多模式耻涛、單細(xì)胞數(shù)據(jù)集的規(guī)模和復(fù)雜性不斷增長(zhǎng)苍息,諸如 CoNGA 之類的系統(tǒng)方法將在解卷積方面發(fā)揮關(guān)鍵作用产阱。
Results
CoNGA graph-versus-graph analysis
??在graph-versus-graph相關(guān)性分析(下圖)
- 注:CoNGA identifies correlation between T cell GEX and TCR sequence by constructing a GEX similarity graph and a TCR sequence similarity graph and looking for statistically significant overlap between them. Overlap is assessed on a per-clonotype basis by counting the number of edges that originate at each clonotype and are shared between the two graphs or, equivalently, by measuring the overlap between each clonotype’s GEX graph neighbors and its TCR graph neighbors and assigning a score that reflects the likelihood of seeing equal or greater overlap by chance (the CoNGA score). Clonotypes with CoNGA scores below a threshold are grouped based on shared GEX and TCR cluster assignments into CoNGA clusters. Clonotypes within each CoNGA cluster carry their initial GEX and TCR cluster identities, which are combined together and used as a group ID for the CoNGA cluster.
??CoNGA 識(shí)別 GEX 相似性圖和 TCR 序列相似性圖之間的統(tǒng)計(jì)顯著重疊糖权。 CoNGA 相似性圖是在克隆型水平而不是單個(gè)細(xì)胞水平上定義的栈雳,因?yàn)橥豢寺⌒蛢?nèi)的細(xì)胞(推斷為來(lái)自共同克隆祖先的細(xì)胞)將共享相同的 TCR 序列并傾向于具有相似的 GEX 譜裁着。
??目標(biāo)是識(shí)別在 GEX 空間中的鄰居與其在 TCR 序列空間中的鄰居顯著重疊的 T 細(xì)胞克隆型伦吠。在這里赫段,使用圖鄰域的數(shù)學(xué)概念對(duì) GEX 或 TCR 空間中克隆型鄰居的概念進(jìn)行建模舵抹,該概念定義為在相應(yīng)相似性圖中直接連接到該克隆型vertex的一組vertex背蟆。簡(jiǎn)而言之鉴分,CoNGA 依次考慮每個(gè)克隆型,通過(guò) TCR 相似性edges和 GEX 相似性edges計(jì)算有多少其他克隆型與其連接带膀,并分配顯著性分?jǐn)?shù)(CoNGA 分?jǐn)?shù))志珍。 CoNGA 分?jǐn)?shù)是偶然觀察到相等或更大重疊的概率,乘以克隆型總數(shù)以限制多重比較的錯(cuò)誤發(fā)現(xiàn)率垛叨。 CoNGA 分?jǐn)?shù)范圍從 0 到克隆型的數(shù)量伦糯;接近 0 的分?jǐn)?shù)是顯著的,around 1 的分?jǐn)?shù)是臨界值嗽元,預(yù)計(jì)高于 1 的分?jǐn)?shù)是偶然發(fā)生的敛纲。 CoNGA 分?jǐn)?shù)低于顯著性閾值(以下稱為“CoNGA hit”)的 T 細(xì)胞克隆型被分組為由共享 GEX 和 TCR 簇分配定義的“CoNGA cluster”。分析足夠大小的 CoNGA cluster以識(shí)別共享特征剂癌,包括差異表達(dá)基因 (DEG) 和 TCR 序列motif淤翔。
??將 CoNGA 應(yīng)用于具有單細(xì)胞 GEX profile和配對(duì) TCRαβ 測(cè)序的公開(kāi)可用 T 細(xì)胞數(shù)據(jù)集的集合,以無(wú)偏見(jiàn)地搜索由 TCR 序列和 GEX profile之間的協(xié)變定義的 T 細(xì)胞群佩谷。下圖說(shuō)明了應(yīng)用于從外周血中分選的人類 CD8+ T 細(xì)胞數(shù)據(jù)集的 CoNGA 圖對(duì)比圖分析工作流程旁壮。
- 注:Application of CoNGA on a dataset of human CD8+ T cells (10x_200k_donor2a). 2D UMAP projections of clonotypes in the dataset based on GEX similarity (b, left three panels) and TCR similarity (b, right three panels), colored from left to right by (I) GEX cluster assignment; (II) CoNGA score; (III) joint GEX:TCR cluster assignment for clonotypes with significant CoNGA scores, using a bi-colored disk whose left half indicates GEX cluster and whose right half indicates TCR cluster; (IV) TCR cluster; (V) CoNGA score; and (VI) GEX:TCR cluster assignments for CoNGA hits, as in III. In c, GEX and TCR sequence features of CoNGA hits in clusters with five or more hits are summarized by a series of logo-style visualizations, from left to right: cluster dendrogram based on graph connections; DEG and TCR sequence logos showing V and J gene usage and CDR3 sequences; and biased TCR sequence scores, with red indicating elevated scores and blue indicating decreased scores. DEG and TCR sequence logos are scaled by the adjusted P value of the associations, with full logo height requiring a top adjusted P value below 10?6. DEGs with fold-changes less than 2 are shown in gray.
??首先监嗜,統(tǒng)一流形近似和投影 (UMAP) 算法應(yīng)用于每個(gè)數(shù)據(jù)集的 GEX 和 TCR 距離矩陣,以生成 GEX 和 TCR landscapes的二維 (2D) 投影抡谐。 接下來(lái)裁奇,將基于圖的聚類算法應(yīng)用于 GEX 矩陣以將數(shù)據(jù)集劃分為具有相似轉(zhuǎn)錄譜的克隆型cluster,并應(yīng)用于 TCR 距離矩陣以生成具有相似 TCR 序列的克隆型cluster童叠。 為了可視化 GEX 和 TCR UMAP 空間中得分最高的克隆型的相對(duì)位置框喳,these projections are also colored by CoNGA score课幕。最后厦坛,CoNGA hit 的 GEX 和 TCR 集群分配顯示在使用雙色圓盤的 2D 投影中,其左右半部分分別對(duì)應(yīng)于 GEX 和 TCR cluster分配乍惊。這些cluster分配為識(shí)別 CoNGA hit提供了有用的handles杜秸,因?yàn)樗鼈儼嘘P(guān) GEX 和 TCR 的信息,使我們能夠在不同的 2D landscapes之間進(jìn)行映射润绎。例如撬碟,在上圖b中,GEX landscapes的頂部是一組 CoNGA hit莉撇,它們都屬于 GEX cluster 4(disk左半部分的淺棕色)和 TCR cluster 5(右半部分的紫色)disk)或等效的 (GEX:TCR) 集群對(duì) (4:5)呢蛤;基于一致的 GEX:TCR disk著色,可以看到這些對(duì)應(yīng)于 TCR landscapes中的克隆型組棍郎,也位于圖的頂部附近其障,并且它們可能是 TRAV1(來(lái)自上圖 b 中的 TCR cluster標(biāo)識(shí)符)。每個(gè) (GEX:TCR) 集群對(duì)包含最少數(shù)量的 CoNGA hit(此處為 5 個(gè))的特征在于一行 CDR3 序列 logo-style可視化涂佃,這些可視化標(biāo)識(shí)了這些 CoNGA hit的區(qū)別特征励翼。
??在該人類 CD8 T 細(xì)胞數(shù)據(jù)集中鑒定了 4 個(gè)≥5 克隆型的 CoNGA cluster(上圖c)。兩個(gè)最大的 (GEX:TCR) clusters - (4:11) 和 (4:5) - 顯示了 MAIT 細(xì)胞的不變 TCR 鏈和獨(dú)特的 GEX profiles辜荠。 Cluster (2:12) 的特征是強(qiáng) TCRβ 序列基序和細(xì)胞毒性/激活標(biāo)記物的高表達(dá)汽抚,包括 GNLY 和 CCL5。 該cluster的 TCR 序列基序與對(duì)免疫顯性 A02:01 限制性流感 M158 表位 (GILGFVFTL) 的反應(yīng)一致伯病。 進(jìn)一步證實(shí)了這一點(diǎn)造烁,該cluster的頂部 DEG(‘A02_GILG9’)實(shí)際上是實(shí)驗(yàn)中包含的 DNA barcode A02:01-M158 多聚體的讀取計(jì)數(shù)。 將 CoNGA 應(yīng)用于另外三個(gè)人和小鼠外周血單核細(xì)胞 (PBMC) 數(shù)據(jù)集午笛,確定了 MAIT 和 iNKT 細(xì)胞簇以及 CD8+ T 細(xì)胞cluster惭蟋,這些細(xì)胞cluster具有初始表型和 TCR 序列特征,這些特征似乎使胸腺發(fā)育偏向于 CD8 區(qū)室compartment(下圖).
CoNGA defines a HOBIT+HELIOS+ T cell population
??接下來(lái)將 CoNGA 應(yīng)用于外周血 CD8+ T 細(xì)胞的四個(gè)大型數(shù)據(jù)集季研,這些數(shù)據(jù)集經(jīng)過(guò)分類以與 50 個(gè) DNA barcode pMHC 多聚體中的至少一個(gè)陽(yáng)性結(jié)合敞葛。 下面描述的 TCR:pMHC 結(jié)合分析確定了panel中許多 pMHC 多聚體的強(qiáng)表位特異性反應(yīng)。 然而与涡,對(duì)于幾個(gè)多聚體惹谐,觀察到顯著水平的非特異性結(jié)合,for example, to MAIT cells
??因此持偏,這些數(shù)據(jù)集還包括各種 T 細(xì)胞,其特異性超出了 pMHC 多聚體panel氨肌。 CoNGA 在這些數(shù)據(jù)集中檢測(cè)到大量顯著的 GEX:TCR 相關(guān)性鸿秆,使用更嚴(yán)格的 0.1% 的數(shù)據(jù)集大小閾值識(shí)別出 62 個(gè)包含≥5 個(gè)克隆型的 CoNGA cluster和 42 個(gè)cluster。下圖概述了 10x_200k_donor1 數(shù)據(jù)集中最大的 CoNGA clusters怎囚。進(jìn)一步檢查允許將下圖中描繪的 CoNGA cluster分為三組:(1)流感 M158 響應(yīng)克隆型卿叽; (2) MAIT 細(xì)胞; (3) 具有共享 GEX 譜(GEX cluster 2)恳守、不同 TCR 基因使用和相當(dāng)長(zhǎng)的 CDR3 區(qū)域的克隆型群體考婴。 GEX cluster 2 中的這些 CoNGA cluster顯示轉(zhuǎn)錄因子 ZNF683(也稱為 HOBIT)和 IKZF2(也稱為 HELIOS)以及其他幾種 NK 細(xì)胞相關(guān)受體,包括 KLRC2催烘、KLRC3沥阱、幾種 KIR 基因(用于例如,KIR2DL3) 和 NCR3(天然細(xì)胞毒性觸發(fā)受體 3)伊群。
- 注:CoNGA identifies unconventional HOBIT+ CD8 T cells in blood. a, CoNGA analysis of 10x_200k_donor1. Only CoNGA clusters containing at least 40 hits are shown. b, 2D GEX projection of the 10x_200k_donor1 dataset colored by ‘is_hobit’ (an indicator variable for the HOBIT+ CoNGA population), iMHC score, CD45RA, CD45RO, CD8α surface protein, CCR7, ZNF683, IKZF2, KLRC2, KLRC3, KIR2DL3 and NCR3 expression, all averaged over GEX graph neighborhoods (with neighborhood size equal to 0.1% of the dataset). The is_hobit variable is 1 for all CoNGA hits in GEX cluster 2 and 0 otherwise
??值得注意的是考杉,它們的幾個(gè) DEG 與 HLA 相互作用基因組中的那些相匹配,表明這些 CoNGA cluster中包含的克隆型是通過(guò)非特異性 pMHC 結(jié)合富集的舰始。 對(duì)區(qū)分 10x_200k_donor1 中 HOBIT+ 群體的特征的分析表明崇棠,基于表面蛋白標(biāo)記,它們可能是 CD8+CD45RA+CD45ROdim/-丸卷,CCR7 表達(dá)陰性枕稀,KLRC2 和幾個(gè) KIR2 基因陽(yáng)性。 使用流式細(xì)胞術(shù)及老,能夠確認(rèn)在人類 PBMC 樣本(CD8 T 細(xì)胞的 0.1-8.5%抽莱,n = 12 個(gè)供體)中存在表達(dá) KIR2 和 KLRC2 不同組合的 CD8+CD45RA+CD45RO-CCR7-T 細(xì)胞,并發(fā)現(xiàn) KLRC2+KIR2Dmix 和 KLRC2-KIR2D+ 子集的 HELIOS+ 細(xì)胞頻率高于 KLRC2-KIR2D-CD8 T 細(xì)胞骄恶。
??在這些表達(dá) HOBIT 的克隆型的 CDR3 loops中發(fā)現(xiàn)了顯著的序列偏差食铐。與數(shù)據(jù)集的其余部分相比,它們明顯更長(zhǎng)(P < 10-300)僧鲁;更多的正電荷(P < 10-40)虐呻;芳香族、疏水性和龐大的殘基含量更高寞秃,尤其是色氨酸(P < 10-60)斟叼;和更高的半胱氨酸(> 100 倍富含 CDR3β,P < 10-50)春寿。這些序列特征與 MHC 基因敲除小鼠 TCR 庫(kù)的實(shí)驗(yàn)研究中 MHC 非依賴性 TCR 序列與 MHC 限制性 TCR 序列的比較中發(fā)現(xiàn)的特征極為相似朗涩。在比較模擬和觀察到的來(lái)自預(yù)選擇和后選擇庫(kù)的 TCR 序列以及 CD8αα+ 上皮內(nèi)淋巴細(xì)胞及其胸腺前體的比較中也發(fā)現(xiàn)了類似的趨勢(shì)“蟾模基于這些趨勢(shì)谢床,假設(shè)這個(gè) CoNGA 鑒定的群體代表了一個(gè)非規(guī)范的兄一、自身特異性或 MHC 獨(dú)立的 T 細(xì)胞群體。作者開(kāi)發(fā)了一個(gè)數(shù)字評(píng)分识腿,即 iMHC 評(píng)分(用于“獨(dú)立于 pMHC”)出革,它捕獲了這種假定的 MHC 獨(dú)立 T 細(xì)胞庫(kù)的定義 CDR3 序列特征。
CoNGA identifies GEX:TCR correlation in thymic T cells.
??接下來(lái)將 CoNGA 應(yīng)用于最近發(fā)表的人類胸腺 T 細(xì)胞的單細(xì)胞圖譜渡讼。 該數(shù)據(jù)集結(jié)合了來(lái)自胚胎和胎兒階段的胸腺組織以及來(lái)自兒童和成人的出生后胸腺骂束,總共有 9,400 多個(gè)具有配對(duì) TCRα 和 TCRβ 序列的克隆型。 CoNGA 在該數(shù)據(jù)集中發(fā)現(xiàn)了大量重要hit成箫,主要在雙陽(yáng)性 (DP)展箱、CD8 單陽(yáng)性 (SP)、CD4 SP伟众、Treg 和 CD8αα+ 胸腺群體中析藕。 在 TCR 序列空間中召廷,看到 TRAV41 cluster(該 TRAV 基因富含 DP 細(xì)胞)凳厢、TRAV1 和 TRAV12 cluster(富含 CD8 細(xì)胞)和 TRAV14 cluster(富含 CD8αα 細(xì)胞)中的concentration of hits(下圖)
??CoNGA 鑒定的 CD8+ cluster還顯示出高 CD8 sequence scores and high scores,用于衡量納入克隆型 TCRα 鏈的 TRAV 和 TRAJ 基因片段之間的基因組距離的測(cè)量值(‘a(chǎn)lphadist’)竞慢。 DP CoNGA cluster顯示出較低的 alphadist 分?jǐn)?shù)先紫,在基因座的 3' 末端偏愛(ài) TRAV41 和其他 TRAV 基因,較長(zhǎng)的 CDR3 loops(CDR3 長(zhǎng)度已顯示在胸腺選擇期間減少)以及“邊緣”和“邊緣”的較高分?jǐn)?shù)紊亂的氨基酸特性(以及較低的“強(qiáng)度”得分)筹煮,這可能表明 CDR3 區(qū)域極性更大遮精、體積更小、相互作用更弱败潦,對(duì) pMHC 的總體親和力較低本冲。與 Park 等人 的發(fā)現(xiàn)一致,兩個(gè) CD8αα cluster都顯示出較低的 alphadist 分?jǐn)?shù)劫扒;然而檬洞,CoNGA 進(jìn)一步將高 iMHC 分?jǐn)?shù)和更長(zhǎng)的 CDR3 環(huán)確定為這些cluster的 TCR 特征。有趣的是沟饥,CD8αα(II) cluster同時(shí)表達(dá) ZNF683 和 IKZF2添怔,連同與上述血液中 HOBIT+ T 細(xì)胞相似的 TCR 特征,表明這兩個(gè)種群之間可能存在的precursor-product關(guān)系值得進(jìn)一步investigation贤旷。
CoNGA graph-versus-feature analysis.(這個(gè)分析更為細(xì)致)
??在 CoNGA graph-versus-feature分析(下圖)中广料,基于一個(gè)細(xì)胞屬性、GEX 或 TCR 序列計(jì)算的數(shù)值特征被映射到由另一個(gè)屬性定義的相似性圖上幼驶,以及每個(gè)屬性的特征分?jǐn)?shù)分布將圖中的鄰域與其背景分布進(jìn)行比較艾杏,以識(shí)別具有偏斜分?jǐn)?shù)的鄰域(圖鄰域由單個(gè)中心頂點(diǎn)及其所有直接連接的鄰居組成)。
- 注:In graph-versus-feature analysis, a numerical feature defined by one property (here, GEX) is mapped onto a similarity graph defined by the other property (TCR sequence), and graph neighborhoods with skewed score distributions are identified using statistical tests that compare the scores for each neighborhood (including the center clonotype) with the scores of the remaining clonotypes (left). For example, the gene KLRB1 (CD161) shows a non-uniform distribution over the TCR sequence landscape—discrete regions of higher expression (red) against a background of lower expression (blue)—suggesting that a group of homologous clonotypes belongs to a T cell subtype characterized by KLRB1 expression. This is quantified for a single clonotype (green outline) and its TCR sequence neighbors (black outlines) in the violin plot (right), which shows the KLRB1 expression level for the clonotype and its neighbors on the right and for the remainder of the dataset on the left (boxes show quartiles with whiskers extending to 1.5× the interquartile range). The one-sided MWW P value for this expression difference is 1.5 × 10?46 (n = 2,427 clonotypes)
??作為 GEX 特征盅藻,考慮單個(gè)基因的表達(dá)水平购桑,對(duì)于 TCR 序列特征汹族,使用一組 CDR3 氨基酸屬性值以及一些額外的基于序列的分?jǐn)?shù)。 首先使用graph-versus-feature分析其兴,通過(guò)尋找具有較高 iMHC 分?jǐn)?shù)的 GEX 圖鄰域來(lái)識(shí)別 HOBIT+HELIOS+ 非常規(guī) T 細(xì)胞subsets的其他成員顶瞒。 盡管每個(gè)克隆型的 iMHC 評(píng)分變化很大(下圖)
-
注:2D GEX projection of the 10x_200k_donor1 dataset colored by iMHC score
??通過(guò)計(jì)算 GEX 圖鄰域的平均值,可以識(shí)別具有增強(qiáng)分?jǐn)?shù)的 GEX 空間子區(qū)域元旬,其重要性可以使用標(biāo)準(zhǔn)統(tǒng)計(jì)測(cè)試進(jìn)行評(píng)估
- 注:c, Same projection as b, but each clonotype is colored by the average iMHC score in its GEX graph neighborhood. d, The same projection as in b and c but colored by P values for iMHC enrichment in each clonotype’s graph neighborhood (the set of iMHC scores in each clonotype’s neighborhood are compared to the remainder of the iMHC scores using an unpaired, one-sided MWW test).
??四個(gè) 10x_200k 供體中的三個(gè)顯示具有顯著增強(qiáng)的 iMHC 評(píng)分的克隆型群體榴徐,其 DEG 彼此之間以及與原始 HOBIT+ CoNGA cluster的關(guān)鍵標(biāo)記基因(ZNF683、CD7匀归、CD99 和 DUSP1/2)相關(guān)性良好坑资。
??接下來(lái),反向應(yīng)用graph-versus-feature分析來(lái)識(shí)別在特定 TCR 圖鄰域中差異表達(dá)的基因穆端。 值得注意的特征包括 MAIT 相關(guān)基因袱贮,例如 KLRB1和 SLC4A10; 與 HOBIT+ 群體相關(guān)的基因体啰,例如 ZNF683 和 KLRC3)攒巍; 和基因在流感 M158 反應(yīng)中上調(diào),包括 ITGB1 和 KLRC1
- 注:Graph-versus-feature correlation analysis highlights TCR:GEX covariation in Flu-specific T cells. Correlation between a score derived from the TCR sequence (left panel), here defined by the surface counts for the multimerized A*02:M158 pMHC, and two scores derived from the GEX profile (right panels, ITGB1 and KLRC1), is illustrated by mapping the scores onto the 2D TCR landscape for the 10x_200k_donor2 dataset (after z-score normalization and averaging over graph neighborhoods). nbr, neighbor
??還觀察到 CD8A 和 CD8B 水平升高的 TCR 鄰域(neighborhoods)荒勇,它們似乎與早期graph-versus-graph相關(guān)分析中確定的群體重疊柒莉,并表明存在偏向 CD8+ compartment的 TCR 序列特征。 這種 TCR 序列偏差先前已在大量repertoires的分析中報(bào)告過(guò)沽翔。
??CoNGA graph-versus-feature分析確定的重復(fù)特征是基因 EPHB6 的表達(dá)與人類中 TRBV30 基因片段的使用之間的正相關(guān)(下圖)兢孝。
-
注:2D projections based on TCR sequence of a human dataset colored by TCR neighborhood-averaged TRBV30 (left) and EPHB6 (right) expression.
??并且,類似地仅偎,小鼠中的 Ephb6 和 Trbv31
??TRBV30 片段在 TRBV 基因中是獨(dú)一無(wú)二的跨蟹,它單獨(dú)位于 TRB 基因座末端的 TRBJ 和 TRBC 基因的下游。 EPHB6 位于 7 號(hào)染色體上的 TRBV30 附近橘沥,TRB 基因座下游約 40 kb窗轩,提供了有關(guān)該協(xié)變機(jī)制的潛在線索。
- 注:Locus view of human TRBV30 and EPHB6.
??在十個(gè)單獨(dú)的數(shù)據(jù)集上對(duì) TCR 基因片段使用和 DEG 之間的協(xié)變進(jìn)行集中搜索威恼,證實(shí)了在小鼠中包含 TRBV30 基因片段或 TRBV31的克隆型中更高的 EPHB6 表達(dá)品姓。流式細(xì)胞術(shù)分析證實(shí),這些趨勢(shì)擴(kuò)展到 EPHB6 蛋白的細(xì)胞表面水平箫措。 鑒于 EPHB6 已被證明在 T 細(xì)胞活化中起作用腹备,TRBV30+ 克隆型可能由于其升高的 EPHB6 表面表達(dá)而具有獨(dú)特的功能特性。
TCR and GEX similarity among epitope-specific clonotypes.
??使用與 DNA barcode結(jié)合的 pMHC 多聚體作為細(xì)胞標(biāo)記試劑斤蔓,可以與其他單細(xì)胞分析并行地對(duì) pMHC 結(jié)合進(jìn)行高通量詢問(wèn)植酥。 應(yīng)用 CoNGA 來(lái)研究 GEX 譜、TCR 序列和 pMHC 之間的相關(guān)性:在為 pMHC 多聚體結(jié)合(10x_200k_donor1-4)分類的人類 T 細(xì)胞的大型數(shù)據(jù)集中,TCR 相互作用友驮。 為此漂羊,使用 pMHC 結(jié)合信息,嚴(yán)格過(guò)濾并濃縮到克隆型級(jí)別卸留,來(lái)定義鄰居圖結(jié)構(gòu)走越,其中邊連接與相同 pMHC 結(jié)合的克隆型。 然后應(yīng)用 CoNGAgraph-versus-graph分析來(lái)尋找該 pMHC 結(jié)合圖與上面定義的 GEX 和 TCR 相似圖之間的統(tǒng)計(jì)顯著重疊耻瑟。 在每個(gè) pMHC 的基礎(chǔ)上測(cè)量了圖重疊旨指,作為 pMHC 陽(yáng)性克隆型內(nèi) GEX(或 TCR)相似性圖edges的富集.(下圖)
- 注:CoNGA identifies convergence of TCR sequence and GEX profile within pMHC-positive clonotype subsets. a,b, Each marker represents a population of pMHC-positive clonotypes in one of the four 10x_200k donors. Markers are labelled with the two-digit HLA allele and the first three amino acids of the peptide for the given pMHC ; colors indicate the source donor, and symbols are sized based on the number of pMHC+ clonotypes found as indicated in the legend. Markers are positioned based on the rate of intra-subset GEX (a) or TCR (b) graph edges relative to random expectation (x axis; >1 indicates enrichment, whereas <1 indicates depletion) and corresponding two-sided P value (y axis).
??從這個(gè)分析中,可以看到喳整,正如預(yù)期的那樣谆构,幾乎所有 pMHC 陽(yáng)性克隆型subsets都顯示出大于預(yù)期的 TCR 序列相似性。 有趣的是框都,還看到所有 pMHC 陽(yáng)性群體顯示出大于預(yù)期的 GEX 相似性搬素,對(duì)于大多數(shù)具有足夠數(shù)量分析克隆型的 pMHC,具有非常顯著的 P 值和大的倍數(shù)富集魏保。 這些結(jié)果表明熬尺,對(duì)于相同 pMHC 呈陽(yáng)性的克隆型具有比偶然預(yù)期更相似的 GEX 譜。
??接下來(lái)進(jìn)行了全面的差異表達(dá)分析囱淋,以確定每個(gè) pMHC 陽(yáng)性子集中的上調(diào)基因(下圖)
- 注:Heat map of scaled DEGs and surface protein features across different pMHC-positive populations.
??檢查上圖中的表達(dá)模式揭示了幾個(gè)趨勢(shì):naive MART1 反應(yīng)在右側(cè)聚集在一起猪杭,顯示出較高水平的 CD45RA 和較低水平的 PD-1 和 CD45RO; 流感 M158 (A02_GIL_MP) 反應(yīng)基于特定標(biāo)記(包括 GNLY妥衣、ITGB1 和 IFITM2)的共享表達(dá)聚集在一起; EBV 特異性反應(yīng)顯示可能是基于抗原是“早期”還是“潛伏”基因的分區(qū)戒傻,與“早期”基因反應(yīng)相比税手,潛伏基因反應(yīng)顯示更高的 GZMK、JUNB 和 CD45RO 和更低的 CD45RA需纳。 應(yīng)用基因集變異分析以更好地表征 pMHC 表型顯示芦倒,與naive T 細(xì)胞相關(guān)的基因富集了一些表位(例如,B*08 陰性供體 1 中的 MART1 和 B08_RAK)不翩,而其他表位(例如兵扬,BMLF1 和供體中的 BZLF1 2) 具有明確的激活/記憶特征.
Discussion
??在這項(xiàng)研究中,引入并應(yīng)用了一種分析工具 CoNGA口蝠,證明該工具能夠揭示由大型單細(xì)胞數(shù)據(jù)集中的共享 TCR 序列和 GEX 特征定義的 T 細(xì)胞群器钟。 將 CoNGA 的graph-versus-graph分析應(yīng)用于各種數(shù)據(jù)集,確定了表位特異性 T 細(xì)胞的不同 GEX 譜妙蔗; 幼稚 CD8+ 和 CD4+ T 細(xì)胞群的repertoire選擇中的偏差傲霸; 具有偏向 TCR 庫(kù)的多個(gè)胸腺 T 細(xì)胞群; 在胸腺和外周血中檢測(cè)到一個(gè)推定的 MHC 獨(dú)立的、表達(dá) HOBIT/HELIOS 的 CD8+ T 細(xì)胞亞群昙啄,具有獨(dú)特的 CDR3 序列特征穆役。 應(yīng)用于由單細(xì)胞 pMHC 結(jié)合數(shù)據(jù)定義的圖表的 CoNGA 分析確定了對(duì)不同 pMHC 具有特異性的 T 細(xì)胞群顯示出獨(dú)特的 GEX 譜。
??此外梳凛,雖然識(shí)別與 GEX 空間中聚集的細(xì)胞相關(guān)的標(biāo)記基因是單細(xì)胞分析的常規(guī)部分耿币,但目前還沒(méi)有可用的方法來(lái)系統(tǒng)地識(shí)別與定義 GEX cluster的 TCR cluster或 TCR 序列偏差相關(guān)的基因。 CoNGA 通過(guò)其graph-versus-feature分析解決了這一差距韧拒,其中 TCR 衍生的屬性掰读,如 CDR3 氨基酸組成或 V 基因使用,被映射到 GEX landscape上叭莫,以檢測(cè)具有偏差特征分布的鄰域蹈集;類似地分析 GEX 衍生的特性,例如單個(gè)基因的表達(dá)水平雇初,以檢測(cè) TCR landscape的偏差區(qū)域拢肆。應(yīng)用該分析揭示了 HOBIT+ 群體的長(zhǎng) CDR3 富含疏水性殘基,并且在 EPHB6 基因的表達(dá)與 TRBV30 基因片段的使用之間存在先前未表征的且高度顯著的相關(guān)性靖诗。這種分析模式不僅限于 TCR 特征郭怪,還可以利用已鏈接、量化和集成到數(shù)據(jù)集中的任何其他標(biāo)記特征(例如刊橘,pMHC 和細(xì)胞表面標(biāo)記)鄙才。
??重要的下一步將是通過(guò)將 CoNGA 應(yīng)用于其他具有 GEX 和 TCR(可能還有 pMHC 結(jié)合)信息的數(shù)據(jù)集來(lái)驗(yàn)證這些發(fā)現(xiàn),因?yàn)樗鼈兛捎谩?它還與實(shí)驗(yàn)表征由 CoNGA 鑒定的 T 細(xì)胞群有關(guān)促绵,這應(yīng)該可以使用流式細(xì)胞術(shù)和由 CoNGA 聚類突出顯示的標(biāo)記基因攒庵。 此外,將 CoNGA 識(shí)別的 TCR 序列與大量 TCR 序列數(shù)據(jù)集進(jìn)行匹配可能會(huì)為其功能提供額外的線索败晴,同時(shí)也可以揭示匹配的repertoire sequences浓冒。
??文章的分析有幾個(gè)局限性,可以在未來(lái)的工作中加以解決尖坤。 首先稳懒,在克隆型水平而不是單個(gè)細(xì)胞水平上操作的結(jié)果是屬于擴(kuò)增克隆型的細(xì)胞之間的變異變得模糊。 同樣重要的是要記住慢味,CoNGA 的結(jié)果將嚴(yán)重依賴于用于定義克隆型相似性的距離度量以及為檢測(cè) GEX:TCR 相關(guān)性而選擇的框架场梆。 根據(jù)驗(yàn),成功應(yīng)用 CoNGA 需要相對(duì)大量的獨(dú)特克隆型(至少數(shù)百個(gè))纯路,這取決于克隆擴(kuò)增的程度或油,可能需要大量單個(gè)細(xì)胞。 最后感昼,在這里報(bào)告的生物學(xué)觀察的一般性應(yīng)該與檢查的少數(shù)捐贈(zèng)者進(jìn)行權(quán)衡装哆。 未來(lái)有必要對(duì)更大的隊(duì)列進(jìn)行研究,以明確評(píng)估作者的一些觀察結(jié)果(隊(duì)列分析這是未來(lái)的分析趨勢(shì))。
??據(jù)研究蜕琴,以前沒(méi)有任何算法能夠系統(tǒng)地檢測(cè) GEX:TCR 相關(guān)性萍桌。 在未來(lái)的工作中,有許多可能的 CoNGA 擴(kuò)展需要探索凌简。 CoNGA 與克隆型圖的來(lái)源無(wú)關(guān)上炎,因此,可以應(yīng)用于由新的相似性度量(例如雏搂,基于表面蛋白表達(dá))藕施、新的 T 細(xì)胞聚類方法、表觀遺傳而非基因表達(dá)譜或新的免疫學(xué)定義的圖和臨床表型凸郑。 CoNGA 還可以通過(guò)合并類似于 TCRdist 的 B 細(xì)胞受體序列相似性評(píng)分應(yīng)用于 B 細(xì)胞克隆型裳食。 探索使用在計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)社區(qū)中開(kāi)發(fā)的更復(fù)雜的圖相關(guān)算法作為在此處應(yīng)用的鄰域重疊和鄰域分?jǐn)?shù)豐富的替代方法也可能是值得的。
??文章的分析有幾個(gè)更廣泛的生物學(xué)意義芙沥,值得進(jìn)一步考慮诲祸。 首先,在不同表位特異性 T 細(xì)胞群中觀察到的 GEX 譜的多樣性證明了記憶 T 細(xì)胞表型的廣泛連續(xù)性而昨,而不是少數(shù)離散子集救氯。 事實(shí)上,記憶表型的定義似乎是由引發(fā)病原體決定的歌憨。 這種多樣性還表明着憨,通過(guò)將 TCR 序列與 GEX 譜信息相結(jié)合,可以改進(jìn)對(duì) T 細(xì)胞目標(biāo) pMHC 表位的預(yù)測(cè)务嫡。 由 CoNGA 鑒定的推定的 MHC 獨(dú)立和幼稚 T 細(xì)胞群暗示 TCR 序列對(duì) T 細(xì)胞命運(yùn)的發(fā)育影響超出了不變和半不變 TCR 的充分表征的作用甲抖。 作者樂(lè)觀地認(rèn)為,結(jié)合高通量單細(xì)胞實(shí)驗(yàn)的分析方法將在未來(lái)幾年繼續(xù)闡明適應(yīng)性免疫學(xué)的各個(gè)方面植袍。
Methods
CoNGA algorithm
??CoNGA 的開(kāi)發(fā)目的是在不了解這些相關(guān)性的確切性質(zhì)的情況下惧眠,確定不同 T 細(xì)胞群中 GEX profiles和 TCR 序列之間的相關(guān)性。作者設(shè)想了兩大類相關(guān)性:一種基于相似性于个,其中 GEX profiles相似的細(xì)胞在 TCR 序列方面也相似,另一種基于特征暮顺,其中 GEX 和 TCR 序列的特定方面相關(guān)兩個(gè)屬性的全局相似性厅篓。 CoNGA graph-versus-graph相關(guān)性被開(kāi)發(fā)用于檢測(cè)第一類相關(guān)性,使用圖鄰域的數(shù)學(xué)概念來(lái)形式化直觀的全局相似性概念捶码。相比之下羽氮,在沒(méi)有相關(guān)特征的先驗(yàn)知識(shí)的情況下,從頭發(fā)現(xiàn)基于特征的相關(guān)性更具挑戰(zhàn)性惫恼,因?yàn)樗枰杜e和測(cè)試所有可能的特征對(duì)档押。 CoNGA graph-versus-feature分析代表了一種折衷方法,假設(shè),至少在相關(guān)性的一側(cè)令宿,存在一定程度的全局相似性(這是“圖”側(cè))叼耙;然后,枚舉由其他屬性定義的可能特征粒没,并測(cè)試具有偏置特征分布的圖鄰域筛婉。 CoNGA 相似性圖是在克隆型水平而非單個(gè)細(xì)胞水平上定義的。在 TCR 相似性圖中癞松,根據(jù) TCRdist 測(cè)量評(píng)估的 TCR 相似性爽撒,每個(gè)克隆型通過(guò)邊連接到其 k 最近鄰 (KNN) 克隆型,該測(cè)量對(duì) TCRα 和 TCRβ 鏈的 pMHC 接觸 CDR 環(huán)中的序列相似性進(jìn)行評(píng)分(這里 k 是一個(gè)可調(diào)參數(shù)响蓉,指定為克隆型總數(shù)的一部分)硕勿。在 GEX 相似性圖中,每個(gè)克隆型都基于 GEX profiles中的相似性通過(guò)邊連接到其 KNN 克隆型枫甲。擴(kuò)展的克隆型由與克隆家族其余部分的平均 GEX 距離最小的單個(gè)代表性細(xì)胞的 GEX 譜表示源武。
TCR analysis.
??由 10x Genomics cellranger vdj 生成的 filters_contig_annotations.csv 輸出文件中的 VDJ 序列數(shù)據(jù)首先使用 conga.tcrdist.make_10x_clones_file 函數(shù)解析為成對(duì)的克隆型。在這里言秸,默認(rèn)情況下软能,10x cellranger 克隆型定義被過(guò)濾以去除虛假鏈共享和合并分裂克隆型(例如,由于第二個(gè) TCRα 轉(zhuǎn)錄本的部分恢復(fù))举畸。接下來(lái)查排,為了量化和評(píng)估數(shù)據(jù)集中 TCR 序列之間的相似性,計(jì)算來(lái)自這個(gè)cleaned克隆型表的每個(gè)唯一配對(duì) TCR 之間的成對(duì) TCRdist 距離矩陣抄沮。然后使用在 scikit-learn 的 KernelPCA 類中實(shí)現(xiàn)的內(nèi)核主成分分析 (kPCA) 從這個(gè)距離矩陣中提取前 50 個(gè)變異分量跋核。盡管原始 TCRdist 值可以直接用于降維和聚類(作為pipeline中的一個(gè)選項(xiàng)提供),但默認(rèn)情況下使用內(nèi)核主成分 (PC) 作為更節(jié)省內(nèi)存的替代方案叛买,因?yàn)樗鼈兛梢灾苯雍喜⒌綐?biāo)準(zhǔn)單細(xì)胞工作流程代替從 GEX 計(jì)數(shù)矩陣中提取的 PC砂代。對(duì)于 2D landscape投影的生成,CoNGA 使用 UMAP 算法進(jìn)行降維率挣,如在 scanpy.tl.umap 中實(shí)現(xiàn)的刻伊。使用基于 Louvain 圖的聚類算法 (scanpy.tl.louvain) 識(shí)別具有相似 TCR 序列的克隆型cluster。 UMAP 投影和聚類都依賴于使用 scanpy.pp.neighbors 例程進(jìn)行的最近鄰計(jì)算椒功,其中包含 10 個(gè)鄰居和 50 個(gè) PC(從距離矩陣計(jì)算出的 50 個(gè)內(nèi)核 PC)捶箱。為了在 CoNGA 可視化中注釋 Louvain clusters,如果每個(gè)clusters中最常見(jiàn)的 V 段出現(xiàn)在至少 50% 的集群 TCR 中动漾,則識(shí)別并附加到集群名稱丁屎,如果出現(xiàn)在至少 75% 的 TCR 中,則大寫(簇最初以連續(xù)整數(shù)命名旱眯,從 0 開(kāi)始晨川,最大的cluster)证九。
TCR sequence features
??對(duì)于每個(gè)克隆型,CoNGA 計(jì)算一組基于 TCR 序列的分?jǐn)?shù)共虑,用于graph-versus-feature分析和注釋圖對(duì)圖cluster愧怜。 首先,一組 28 個(gè)不同的氨基酸特性在 α 和 β 鏈 CDR3 環(huán)(不包括每個(gè) CDR3 的前四個(gè)和最后四個(gè)殘基看蚜,其中完整的 CDR3 序列定義為從保守的半胱氨酸叫搁,并以 J 區(qū)中 GXG 基序之前的苯丙氨酸結(jié)尾并包括在內(nèi))。 這些分?jǐn)?shù)包括由 VDJtools 軟件包的作者從原始來(lái)源匯編的一組分?jǐn)?shù)以及五個(gè) Atchley 因素供炎。 計(jì)算了七個(gè)額外的基于序列的分?jǐn)?shù):“alphadist”渴逻,當(dāng)完整的基因片段集按基因組位置排序時(shí),它測(cè)量 TRAV 和 TRAJ 基因之間的序數(shù)距離音诫; ‘imhc’惨奕,iMHC 分?jǐn)?shù);'cd8'竭钝,一個(gè)簡(jiǎn)單的 CD8 對(duì) CD4 偏好評(píng)分梨撞,根據(jù)流式排序的 CD8+ 和 CD4+ TCR 序列庫(kù)之間的頻率差異,從 TCR V 和 J 基因使用香罐、CDR3 長(zhǎng)度和 CDR3 氨基酸組成計(jì)算得出卧波; ‘cdr3len’,CDR3總長(zhǎng)度庇茫; 'mait'港粱,它使用 TRAV1-2 和 TRAJ33/TRAJ20/TRAJ12 段(TRAV1
和 TRAJ33 在小鼠中)和 CDR3α 長(zhǎng)度為 12 和 0 到所有其他 TCR; “inkt”旦签,它為具有 TRAV10/TRAJ18/TRBV25 基因組合和 CDR3α 長(zhǎng)度為 14查坪、15 或16(TRAV11/TRAJ18 和長(zhǎng)度為 15 的小鼠)的 TCR 分配 1 分;和‘nndists_tcr’宁炫,它通過(guò)計(jì)算與最近的 1% 克隆型的平均 TCR 距離來(lái)測(cè)量評(píng)分克隆型附近的 TCR 序列密度偿曙。 iMHC 分?jǐn)?shù)是 TCR 序列特征的加權(quán)線性組合。通過(guò)使用 L1 正則化邏輯回歸來(lái)擬合參數(shù)羔巢,以將數(shù)據(jù)集 10x_200k_donor1的 GEX 集群 2 中 HOBIT+ CoNGA hit(CoNGA 分?jǐn)?shù) <0.2)的 TCR 序列與其他 GEX 集群中克隆型的 TCR 序列區(qū)分開(kāi)來(lái)望忆。這里選擇僅從其他 GEX cluster中提取背景克隆型,以避免在文章的陰性集中包含真正的 HOBIT+ TCR 序列竿秆。
GEX analysis.
??讀取計(jì)數(shù)矩陣形式的 GEX 數(shù)據(jù)根據(jù)在 scanpy 中實(shí)施的標(biāo)準(zhǔn)工作流程進(jìn)行處理炭臭,以消除計(jì)數(shù)低和線粒體含量高的細(xì)胞和基因。識(shí)別可變基因袍辞,并使用 PCA 將高維 GEX 數(shù)據(jù)投影到每個(gè)細(xì)胞的較小components(默認(rèn)為 40 個(gè)components)。這些 GEX PC 用于通過(guò)將 PC 空間中具有最小平均歐幾里德距離的細(xì)胞與克隆型中的其他細(xì)胞相結(jié)合來(lái)為每個(gè)克隆型選擇一個(gè)具有代表性的細(xì)胞常摧〗劣酰或者威创,可以平均每個(gè)克隆型中所有細(xì)胞的 PC 向量以生成單個(gè)偽細(xì)胞 GEX profiles(可使用 –average_clone_gex 命令行選項(xiàng)訪問(wèn))。一旦數(shù)據(jù)集被縮減為每個(gè)克隆型的單個(gè)細(xì)胞谎懦,UMAP 和 Louvain 聚類工具將應(yīng)用于 PCA 矩陣以生成 GEX landscape和一組 GEX 克隆型cluster肚豺。克隆型分組中的 DEG(例如界拦,簇中的一組 CoNGA hits)使用 sc.tl.rank_genes_groups 例程和“wilcoxon”方法進(jìn)行識(shí)別吸申。
??大型胸腺圖譜 T 細(xì)胞數(shù)據(jù)集結(jié)合了一組異質(zhì)的供體和樣本; 合并這些數(shù)據(jù)以生成集成投影和clusters需要原始作者執(zhí)行迭代批量校正方案享甸。 由于如何從公開(kāi)可用的數(shù)據(jù)中恢復(fù)處理過(guò)的 GEX 組件并不是很明顯截碴,并且作為對(duì) CoNGA 對(duì)替代鄰居圖的魯棒性的測(cè)試,我們選擇使用提供的三維 UMAP 坐標(biāo)代替 CoNGA GEX 的 GEX PC 下面描述鄰居計(jì)算蛉威。 我們還直接從原始出版物中借用了 GEX 集群日丹,而不是重新reclustering數(shù)據(jù)集。
Graph-versus-graph correlation analysis.
??在 CoNGA graph-versus-graph相關(guān)分析中蚯嫌,比較由 GEX 和 TCR 序列定義的相似圖哲虾,以識(shí)別兩個(gè)圖中相鄰集顯著重疊的vertices(克隆型)。分配給克隆型的 CoNGA 分?jǐn)?shù)等于偶然看到其 GEX 和 TCR 鄰域之間相等或更大重疊的概率择示,乘以克隆型總數(shù)以校正多重測(cè)試束凑。在 scipy.stats 模塊中實(shí)現(xiàn)的超幾何分布用于估計(jì)這種單邊概率;這種概率分布模擬了從一組可互換的項(xiàng)目中獨(dú)立和隨機(jī)選擇兩個(gè)指定大小的子集時(shí)觀察到的重疊栅盲。 CoNGA 中可以使用兩種類型的相似圖:KNN 圖汪诉,其中每個(gè)克隆型都連接到 GEX 或 TCR 空間中的 KNN,以及聚類圖剪菱,其中每個(gè)克隆型連接到相同(GEX 或 TCR 空間)中的所有克隆型) cluster摩瞎。用于構(gòu)建 KNN 圖的鄰居數(shù) k 被指定為克隆型總數(shù)的一部分;對(duì)于此處報(bào)告的計(jì)算孝常,使用了 0.01 和 0.1 的鄰居分?jǐn)?shù)旗们。分配給克隆型的 CoNGA 分?jǐn)?shù)是所有圖形比較的最低分?jǐn)?shù),此處報(bào)告的計(jì)算中有六種組合(GEX_KNN 與 TCR_KNN构灸、GEX_KNN 與 TCR_cluster 和 GEX_cluster 與 TCR_KNN上渴,對(duì)于 0.01 和 0.1 KNN 鄰居分?jǐn)?shù)) .因?yàn)檫@些鄰居圖是相關(guān)的(例如,0.01 KNN 圖中的鄰域包含在 0.1 KNN 圖中的鄰域中)喜颁,估計(jì)與使用多個(gè)圖相關(guān)的多重測(cè)試負(fù)擔(dān)并不完全簡(jiǎn)單稠氮。相反,轉(zhuǎn)向改組實(shí)驗(yàn)來(lái)估計(jì)與我們使用 CoNGA 分?jǐn)?shù)和cluster大小閾值選擇 CoNGA cluster的過(guò)程相關(guān)的錯(cuò)誤發(fā)現(xiàn)率半开。隨機(jī)排列了相對(duì)于九個(gè)數(shù)據(jù)集的每個(gè)數(shù)據(jù)集的 GEX 信息的 TCR 序列分配隔披,并運(yùn)行了 CoNGA graph-versus-graph分析,計(jì)算了得分閾值為 1.0 的 CoNGA hit數(shù)和大小超過(guò)的 CoNGA cluster數(shù)我們的默認(rèn)閾值(5 或 0.001 × num_clonotypes寂拆,以較大者為準(zhǔn))奢米。對(duì)于每個(gè)數(shù)據(jù)集抓韩,此過(guò)程重復(fù)五次,產(chǎn)生 45 個(gè)混洗結(jié)果鬓长,觀察到總共三個(gè) CoNGA 集群谒拴,每次混洗運(yùn)行的背景率為 3/45 = 0.067。
??為了評(píng)估 CoNGA graph-versus-graph分析的敏感性涉波,進(jìn)行了子采樣實(shí)驗(yàn)英上,其中改變了屬于已知“真陽(yáng)性”群體(人類數(shù)據(jù)集中的 MAIT 細(xì)胞和小鼠中的 iNKT 細(xì)胞)的克隆型的頻率 數(shù)據(jù)集)并記錄報(bào)告為 CoNGA hit的分?jǐn)?shù)作為子采樣頻率的函數(shù)。 該分析表明啤覆,回收率更依賴于二次采樣真陽(yáng)性克隆型的絕對(duì)數(shù)量苍日,而不是數(shù)據(jù)集中的分?jǐn)?shù):作為二次采樣計(jì)數(shù)的函數(shù)繪制的恢復(fù)曲線之間的對(duì)齊比作為二次采樣分?jǐn)?shù)的函數(shù)更好 . 看到相對(duì)較高的恢復(fù)率下降到約 20 個(gè)真陽(yáng)性克隆型的種群規(guī)模
??出于注釋目的,所有 CoNGA cluster中的 TCRβ 序列和 10x_200k 數(shù)據(jù)集中 pMHC 陽(yáng)性庫(kù)中的 TCRβ 序列與一組批量 TCRβ 庫(kù)相匹配城侧。 首先使用氨基酸水平的精確匹配為每條 TCRβ 鏈分配一個(gè)“公開(kāi)”分?jǐn)?shù)易遣,該分?jǐn)?shù)等于在相對(duì)較深(約 200,000 個(gè)中值克隆型)庫(kù)的大型(n = 666)數(shù)據(jù)集中包含該鏈的庫(kù)的分?jǐn)?shù)。 使用 Murugan 等人提出的模型計(jì)算每個(gè)鏈的生成概率 (Pgen)嫌佑。 為了量化 CoNGA cluster或 pMHC 陽(yáng)性子集中的 TCR 序列集與庫(kù)中的序列集之間的重疊豆茫,作者開(kāi)發(fā)了 Morisita-Horn (MH) 重疊測(cè)量的修改版本,它解釋了序列相似性(而不是 精確標(biāo)識(shí))使用高斯核:
??在計(jì)算中屋摇,忽略了克隆型大锌辍(即每個(gè)克隆型中的細(xì)胞數(shù)),但這些可以作為指數(shù)項(xiàng)的乘法前置因子包含在上述匹配分?jǐn)?shù)中炮温,用庫(kù)中克隆型大小的總和替換 里火脉。為了匹配配對(duì)repertoires,我們對(duì)高斯標(biāo)準(zhǔn)偏差項(xiàng) σ 使用了更大的值 96柒啤。 n = 666 repertoires數(shù)據(jù)集的 MH 重疊用于計(jì)算每個(gè) CoNGA 集群的年齡相關(guān)性倦挂,等于其 MH 重疊分?jǐn)?shù)與樣本供體年齡之間的線性相關(guān)系數(shù)。來(lái)自流動(dòng)排序的 CD4+ 和 CD8+ 樣本(n = 84)的 TCRβ 庫(kù)的第二個(gè)數(shù)據(jù)集用于計(jì)算 CD4/CD8 庫(kù)偏差分?jǐn)?shù)等于 t 統(tǒng)計(jì)量担巩,用于比較 CD4 庫(kù)的 MH 分?jǐn)?shù)與 MH CD8 repertoires的分?jǐn)?shù)方援。這些樣本的一個(gè)子集(n = 34)被另外分類為記憶(CD45RA-CD45RO+)和初始(CD45RA+CD62L+)子集;這些被用來(lái)計(jì)算一個(gè)類似的記憶/樸素的repertoires bias score涛癌。
Graph-versus-feature correlation analysis.
??在 CoNGA graph-versus-feature相關(guān)性分析中犯戏,基于一個(gè)屬性(GEX 或 TCR)定義的數(shù)值特征被映射到由另一個(gè)屬性定義的相似性圖上,并識(shí)別具有偏向分?jǐn)?shù)分布的圖鄰域拳话。作為 GEX 屬性先匪,考慮了所有單個(gè)基因的表達(dá)水平以及一個(gè)特征(‘nndists_gex’),該特征通過(guò)計(jì)算 GEX 空間中與最近的 1% 克隆型的平均距離來(lái)捕獲附近克隆型的密度。由于該分析涉及大量差異表達(dá)計(jì)算(大致是克隆型數(shù)量乘以不同相似圖的數(shù)量乘以特征數(shù)量),使用兩步程序臭脓,將預(yù)過(guò)濾器與隨后的 t 檢驗(yàn)相結(jié)合通過(guò)更耗時(shí)的 Mann-Whitney-Wilcoxon (MWW) 計(jì)算每個(gè)克隆型和圖的前 100 個(gè)hit扮叨,通過(guò)比目標(biāo)閾值高十倍的 t 檢驗(yàn)顯著性閾值姜钳。分配給檢測(cè)到的關(guān)聯(lián)的最終顯著性分?jǐn)?shù)等于原始 MWW P 值乘以克隆型數(shù)量和特征數(shù)量的乘積坦冠,以校正多重測(cè)試。
好書不厭百回讀哥桥,好的文章也是如此,關(guān)于代碼激涤,前面的文章目錄已經(jīng)有了拟糕,這里再寫一下,希望大家好好研讀倦踢,運(yùn)用到自己的數(shù)據(jù)里送滞。
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)TCR轉(zhuǎn)錄組聯(lián)合數(shù)據(jù)分析之(8)neighbor graph analysis(CoNGA)
10X單細(xì)胞(10X空間轉(zhuǎn)錄組)轉(zhuǎn)錄組 & VDJ 聯(lián)合分析(14)之CoNGA
生活很好,有你更好