作者:椰子糖
審稿:童蒙
編輯:amethyst
隨著單細(xì)胞測(cè)序技術(shù)的發(fā)展盖腕,多種組學(xué)的單細(xì)胞數(shù)據(jù)也越來越多,要如何更好的使用多組學(xué)的數(shù)據(jù)去解析樣本的細(xì)胞組成和特征情況呢掷倔?今年4月份發(fā)表在Cell雜志上單細(xì)胞多模態(tài)數(shù)據(jù)的整合分析這篇文章中介紹了WNN(Weighted-nearest neighbor,加權(quán)最近鄰)的算法善榛,seurat團(tuán)隊(duì)使用不同的數(shù)據(jù)集對(duì)算法模型的構(gòu)建、驗(yàn)證及應(yīng)用進(jìn)行了深入淺出的說明凑术。在對(duì)文章進(jìn)行說明前,首先來了解一下10XGenomics推出的一份樣本獲得兩種組學(xué)的產(chǎn)品10XATAC_GEM雙組學(xué)的原理所意。
10XATAC_GEM雙組學(xué)
單細(xì)胞轉(zhuǎn)錄組的優(yōu)勢(shì)在于可以發(fā)現(xiàn)新的細(xì)胞類群淮逊,但難以發(fā)現(xiàn)分子相似,功能不同的類群扶踊,例如T細(xì)胞中泄鹏,RNA量少,RNA酶多秧耗,就難以區(qū)分亞類群备籽,而此時(shí)多組學(xué)就有了更多的優(yōu)勢(shì)。10X單細(xì)胞雙組學(xué)的原理如下圖所示:
獲取細(xì)胞核后分井,先利用轉(zhuǎn)座酶試劑對(duì)其進(jìn)行轉(zhuǎn)座反應(yīng)车猬,對(duì)染色質(zhì)開放區(qū)的DNA進(jìn)行打斷和片段化,單細(xì)胞分選尺锚,油包水液滴(GEM)中并被回收珠闰,隨后細(xì)胞核開始裂解并釋放出DNA片段及mRNA,在GEM液滴中完成逆轉(zhuǎn)錄反應(yīng)瘫辩,同時(shí)為DNA片段及cDNA標(biāo)記上該液滴中Gelbead所帶有的特定Barcode標(biāo)簽序列伏嗜。最終構(gòu)建出如下圖所示的兩種不同的文庫包括單細(xì)胞核轉(zhuǎn)錄組文庫和ATAC的文庫:
這兩種文庫與單獨(dú)的轉(zhuǎn)錄組和ATAC文庫無異,僅在ATAC的index序列中增加了8bp的spacer序列伐厌。
那么問題來了如何整合這兩個(gè)組學(xué)的數(shù)據(jù)呢承绸?seurat團(tuán)隊(duì)給我們提供了一個(gè)有效的算法和思路。
文章概覽
多模態(tài)分析(multimodal analysis)就是同時(shí)測(cè)量單細(xì)胞的多模態(tài)數(shù)據(jù)挣轨,它代表了單細(xì)胞基因組學(xué)的一個(gè)發(fā)展方向军熏,同時(shí)也需要基于多種數(shù)據(jù)類型的新的計(jì)算方法來描述細(xì)胞狀態(tài)。文章介紹了“加權(quán)最近鄰(weighted-nearest neighbor刃唐,WNN)”分析:使用一個(gè)無監(jiān)督的框架來學(xué)習(xí)每個(gè)細(xì)胞中每種數(shù)據(jù)類型的相對(duì)效用羞迷,使多種模式的整合分析成為可能界轩。將文章的算法應(yīng)用于包含幾十萬個(gè)人類白細(xì)胞的CITE-seq數(shù)據(jù)集以及228個(gè)抗體的panel上画饥,以構(gòu)建一個(gè)循環(huán)免疫系統(tǒng)的多模態(tài)參考圖譜衔瓮。文章表明整合分析大大提高了描述細(xì)胞狀態(tài)的能力,并驗(yàn)證了新的淋巴亞群的存在抖甘。此外热鞍,文章還演示了如何利用這一參考快速繪制新數(shù)據(jù)集,并解釋免疫接種和COVID-19的免疫反應(yīng)衔彻。
文章概覽如下:
背景介紹
對(duì)人類免疫系統(tǒng)中豐富多樣的細(xì)胞類型進(jìn)行分類鑒定薇宠,對(duì)單細(xì)胞基因組學(xué)來說是一個(gè)有力的證明,但也展現(xiàn)出了他的局限性艰额。雖然單細(xì)胞轉(zhuǎn)錄組 (scRNA-seq)能夠發(fā)現(xiàn)異質(zhì)組織中的新細(xì)胞類型和狀態(tài)澄港,但單靠轉(zhuǎn)錄組學(xué)常常無法分離分子上相似但功能上不同的免疫細(xì)胞類型。盡管T細(xì)胞具有功能多樣性柄沮,但不同的T細(xì)胞群回梧,如效應(yīng)細(xì)胞、調(diào)節(jié)細(xì)胞祖搓、細(xì)胞內(nèi)固定細(xì)胞和黏膜相關(guān)不變T細(xì)胞(MAIT)狱意,即使使用最敏感和最尖端的技術(shù),通常也不能僅用scRNA-seq有效地分離它們拯欧。
多模態(tài)單細(xì)胞技術(shù)详囤,在同一細(xì)胞中同時(shí)描述多種數(shù)據(jù)類型,代表了細(xì)胞狀態(tài)發(fā)現(xiàn)和鑒定的新前沿镐作。例如藏姐,最近引入了CITE-seq,它利用寡核苷酸偶聯(lián)抗體该贾,通過測(cè)序抗體衍生標(biāo)簽(antibody-derived tags 包各,ADTs),同時(shí)量化單細(xì)胞內(nèi)RNA和表面蛋白的豐度靶庙。此外问畅,隨著技術(shù)進(jìn)步,現(xiàn)在可以在染色質(zhì)可及性(ATAC)六荒、DNA甲基化护姆、核小體占位(nucleosome occupancy )或空間定位的同時(shí)對(duì)轉(zhuǎn)錄組進(jìn)行分析。這些方法都提供了一個(gè)令人興奮的解決方案掏击,以克服scRNA-seq固有的局限性卵皂,并探索多種細(xì)胞模式如何影響細(xì)胞狀態(tài)和功能。
在這里砚亭,文章引入了“加權(quán)最近鄰”(weighted-nearest neighbor灯变,WNN)方法殴玛,這是一個(gè)分析框架,用于集成細(xì)胞內(nèi)測(cè)量的多種數(shù)據(jù)類型添祸,并獲得細(xì)胞狀態(tài)的聯(lián)合定義滚粟。該方法是基于非監(jiān)督策略來學(xué)習(xí)細(xì)胞特定模態(tài)的“權(quán)重”,它反映每個(gè)模態(tài)的信息內(nèi)容刃泌,并確定其在下游分析中的相對(duì)重要性凡壤。我們證明,WNN分析大大提高了我們定義多種生物數(shù)據(jù)類型中的細(xì)胞狀態(tài)的能力耙替。我們利用這種方法亚侠,基于包含211,000人外周血單核細(xì)胞(PBMC)的CITE-seq數(shù)據(jù)集生成多模式“圖譜”,具有可擴(kuò)展228個(gè)抗體的大細(xì)胞表面蛋白標(biāo)記panel俗扇。利用這個(gè)數(shù)據(jù)集來識(shí)別和驗(yàn)證人類淋巴細(xì)胞中的異質(zhì)細(xì)胞狀態(tài)硝烂,并探索人類免疫系統(tǒng)對(duì)疫苗接種和SARS-CoV-2感染的反應(yīng)。WNN在開源R工具包Seurat的更新版本中實(shí)現(xiàn)铜幽,代表了對(duì)單細(xì)胞數(shù)據(jù)進(jìn)行綜合多模態(tài)分析的廣泛適用的策略滞谢。
結(jié)果
01構(gòu)建-量化每個(gè)細(xì)胞中每個(gè)模式的相對(duì)效用
文章使用臍帶血單核細(xì)胞的CITE-seq數(shù)據(jù)和10個(gè)免疫標(biāo)記共檢測(cè)8617個(gè)細(xì)胞來進(jìn)行算法的構(gòu)建。要整合分析這兩種狀態(tài)的數(shù)據(jù)啥酱,要求分析方法滿足以下條件:第一爹凹,robust,適應(yīng)不同模態(tài)的數(shù)據(jù)镶殷;第二禾酱,能夠進(jìn)行多模態(tài)下游分析;第三绘趋,多模態(tài)比單模態(tài)下颤陶,性能能強(qiáng)∠菡冢基于這個(gè)數(shù)據(jù)和要求構(gòu)建了WNN的算法滓走。如下圖所示,在分析轉(zhuǎn)錄組時(shí)帽馋,CD8+和CD4+ T細(xì)胞部分混合在一起搅方,但在蛋白數(shù)據(jù)中清晰分離。相比之下绽族,傳統(tǒng)的樹突狀細(xì)胞(cDCs)姨涡,以及罕見的紅系祖細(xì)胞和小鼠類3T3對(duì)照,在分析RNA時(shí)形成不同的簇吧慢,但根據(jù)表面蛋白豐度顯示存在與其他類型的細(xì)胞混合涛漂。對(duì)每個(gè)細(xì)胞,首先計(jì)算每個(gè)模態(tài)k=20個(gè)最近鄰的集合,接下來分別對(duì)蛋白近鄰的分子和RNA近鄰的分子表達(dá)量求平均值匈仗,并將平均值與原始值進(jìn)行比較瓢剿。結(jié)果顯示基于蛋白knn的預(yù)測(cè)比基于RNA knn的預(yù)測(cè)更準(zhǔn)確。然后利用預(yù)測(cè)的相對(duì)準(zhǔn)確性來計(jì)算RNA和蛋白質(zhì)的權(quán)重悠轩,從而衡量每個(gè)細(xì)胞中的相對(duì)信息间狂。
WNN工作流中,關(guān)鍵的步驟如下:1.獲得各模態(tài)預(yù)測(cè)和跨模態(tài)預(yù)測(cè)哗蜈;2.基于細(xì)胞特定帶寬核(cell-specific bandwidth kernel)將這些預(yù)測(cè)轉(zhuǎn)化為預(yù)測(cè)親和力前标;3.使用softmax變換計(jì)算模態(tài)權(quán)重坠韩。RNA和蛋白質(zhì)模態(tài)權(quán)重是非負(fù)的距潘,對(duì)每個(gè)細(xì)胞都是唯一的,總和為1只搁。
最后一步整合并創(chuàng)建一個(gè)加權(quán)最近鄰圖(WNN圖)音比,基于標(biāo)準(zhǔn)化后的RNA和蛋白質(zhì)的加權(quán)平均值,計(jì)算一組新的knn的細(xì)胞氢惋。計(jì)算公式如下圖:
02 驗(yàn)證(WNN分析是一種穩(wěn)定且靈活的多模態(tài)分析方法)
驗(yàn)證數(shù)據(jù)集1:CITE-seq和25中抗體洞翩,共檢測(cè)30672個(gè)細(xì)胞
該數(shù)據(jù)集的結(jié)果表明WNN的整合大大提高了對(duì)細(xì)胞狀態(tài)的注釋,相較于單一模態(tài)更加精細(xì)化焰望,更加完善骚亿,例如T細(xì)胞組,在scRNA分析中基本被掩蓋熊赖,但是卻有較高的蛋白模態(tài)的權(quán)重来屠。驗(yàn)證WNN的穩(wěn)定性時(shí),高斯噪音比重增加時(shí)會(huì)降低蛋白模態(tài)在數(shù)據(jù)分析中的比重震鹉。
驗(yàn)證數(shù)據(jù)集2:10xGenomic PBMC細(xì)胞的ATAC和轉(zhuǎn)錄組數(shù)據(jù)俱笛,共檢測(cè)11351個(gè)細(xì)胞
該數(shù)據(jù)集結(jié)果表明,模態(tài)組合展現(xiàn)了更優(yōu)秀的免疫亞群的分類传趾,其中ATAC-seq數(shù)據(jù)更能分離初始CD8 +及CD4 + T細(xì)胞狀態(tài)由于可靠的檢測(cè)細(xì)胞特定類型開放的染色質(zhì)區(qū)域迎膜。該算法能夠更敏感和強(qiáng)勁捕獲異質(zhì)性,可靈活地應(yīng)用于多種數(shù)據(jù)類型浆兰,進(jìn)行綜合多模態(tài)分析磕仅。
驗(yàn)證數(shù)據(jù)集3:ASAP-seq HumanPBMC細(xì)胞的ATAC數(shù)據(jù)和227個(gè)蛋白,共檢測(cè)4725個(gè)細(xì)胞
驗(yàn)證數(shù)據(jù)集4:SHARE-seq 小鼠的皮膚細(xì)胞的ATAC數(shù)據(jù)和轉(zhuǎn)錄組數(shù)據(jù)簸呈,共檢測(cè)34774個(gè)細(xì)胞
以上兩個(gè)數(shù)據(jù)集同樣證明了WNN優(yōu)秀的整合分析的能力榕订,更加的精細(xì)化。
03 應(yīng)用
文章應(yīng)用這個(gè)分析方法研究了多個(gè)主題方向蝶棋,其中之一就是人類外周血單核細(xì)胞的多模態(tài)圖譜卸亮。利用CITE-seq技術(shù)以及優(yōu)化的抗體panel和整合的WNN分析策略,生成人類PBMC的多模態(tài)圖譜玩裙。從8名參與艾滋病毒疫苗試驗(yàn)的志愿者中獲得了PBMC樣本兼贸,年齡跨度20-49歲(中位年齡36.5歲)段直。每個(gè)受試者在三個(gè)時(shí)間點(diǎn)采集PBMCs:注射HIV疫苗前(第0天)、第3天和第7天溶诞。整個(gè)數(shù)據(jù)集由24個(gè)樣本組成鸯檬,并使用“Cell hash”來最小化技術(shù)批次效應(yīng)。對(duì)于每個(gè)樣本螺垢,我們使用10X Chromium 3 '(使用228 TotalSeq A抗體)對(duì)細(xì)胞進(jìn)行分析喧务,總共代表了161,764個(gè)細(xì)胞(平均8,003個(gè)RNA分子/細(xì)胞,5,251個(gè)ADT/細(xì)胞)枉圃。并且還使用ECCITE-seq對(duì)所有樣本中共49,147個(gè)細(xì)胞進(jìn)行了分析功茴,該技術(shù)可使用10X 5 '技術(shù)對(duì)表面蛋白進(jìn)行。雖然后一組實(shí)驗(yàn)包含了54種抗體孽亲,其中包括實(shí)驗(yàn)室偶聯(lián)抗體和TotalSeq-C試劑坎穿,反映了在實(shí)驗(yàn)時(shí)商業(yè)偶聯(lián)的可用性,但我們也能夠?qū)@些細(xì)胞進(jìn)行免疫庫圖譜分析返劲。經(jīng)過NovaSeq測(cè)序玲昧、嚴(yán)格的質(zhì)量控制和雙重過濾(補(bǔ)充方法),我們最終的數(shù)據(jù)集包含210,911個(gè)細(xì)胞篮绿,并允許我們分析靜息(未接種)和激活(接種后)免疫系統(tǒng)的細(xì)胞異質(zhì)性孵延。
該WNN分析中鑒定了57個(gè)類群,包括所有主要和次要的免疫細(xì)胞類型亲配,并揭示了細(xì)胞的多樣性尘应,特別是在淋巴細(xì)胞中。除了罕見的細(xì)胞類型外弃榨,每一類群的細(xì)胞都來自全部24個(gè)樣本菩收。我們的聚類可以分為幾個(gè)大類別,包括CD4 + T細(xì)胞(12類)鲸睛,CD8 + T細(xì)胞(12類)娜饵,非傳統(tǒng)的T細(xì)胞(7類),NK細(xì)胞(6類)官辈,B細(xì)胞箱舞,漿細(xì)胞和plasmablasts(8類),樹突細(xì)胞和單核細(xì)胞(8類)拳亿,和罕見的集群造血祖細(xì)胞晴股、血小板、紅細(xì)胞和循環(huán)先天淋巴細(xì)胞(ILC)肺魁。為了更好的解釋聚類結(jié)果电湘,文章為將細(xì)胞進(jìn)行三個(gè)粒度越來越大的注釋(級(jí)別1,8個(gè)類別;第2級(jí)寂呛,30個(gè)類別怎诫;3級(jí),57個(gè)類別)贷痪。雖然在T細(xì)胞亞群有較大程度的異質(zhì)性幻妓,我們的分析明確確定異構(gòu)子集的髓細(xì)胞與最近的高分辨率scRNA-seq完全整合分析排序的數(shù)量,包括極其罕見的人群(0.02%)定義的樹突狀細(xì)胞表達(dá) AXL 和SIGLEC6劫拢。
總結(jié)
總之肉津,WNN算法的分析有助于揭示細(xì)胞的亞種群差異。雖然我們目前對(duì)WNN分析的實(shí)現(xiàn)側(cè)重于對(duì)兩種模式的分析舱沧,但隨著這些技術(shù)的成熟妹沙,該框架可以很容易地?cái)U(kuò)展到處理任意數(shù)量的多模態(tài)數(shù)據(jù)。因此狗唉,其為綜合多模態(tài)分析提供了一種途徑初烘,可以超越細(xì)胞的局部和轉(zhuǎn)錄聚焦的觀點(diǎn)涡真,并對(duì)細(xì)胞行為分俯、身份和功能進(jìn)行統(tǒng)一定義。
參考文獻(xiàn)
[1] Hao Y , Hao S , Andersen-Nissen E , et al. Integrated analysis of multimodal single-cell data[J]. 2021.
[2] https://www.10xgenomics.com/
[3] https://atlas.fredhutch.org/nygc/multimodal-pbmc/