Nat Biotech | 遷移學(xué)習(xí)將單細(xì)胞數(shù)據(jù)映射到參考圖集
原創(chuàng)?huacishu?圖靈基因?今天
收錄于話題#前沿生物大數(shù)據(jù)分析
撰文:huacishu
IF=54.904
推薦度:?????
亮點:
1、研究人員介紹了一種深度學(xué)習(xí)策略,用于稱為single-cell architectural surgery (scArches)的參考映射查詢數(shù)據(jù)集。
2宪潮、scArches使用轉(zhuǎn)移學(xué)習(xí)和參數(shù)優(yōu)化來實現(xiàn)高效、分散、迭代的查詢數(shù)據(jù)集構(gòu)建桶至,而無需共享原始數(shù)據(jù)。
德國慕尼黑赫爾姆霍茨中心Fabian Theis教授團(tuán)隊在國際知名期刊Nat Biotechnol在線發(fā)表題為“Mapping single-cell data to reference atlases by transfer learning”的研究論文∝倚瘢現(xiàn)在常規(guī)生成的大型單細(xì)胞圖譜一般作為小規(guī)模研究分析的參考镣屹。然而,由于數(shù)據(jù)集之間的批量效應(yīng)价涝、計算資源的有限可用性以及對原始數(shù)據(jù)的共享限制女蜈,使參考數(shù)據(jù)學(xué)習(xí)變得復(fù)雜。本研究將介紹一種深度學(xué)習(xí)策略色瘩,用在名為single-cell architectural surgery(scArches)的參考上映射查詢數(shù)據(jù)集伪窖。scArches使用轉(zhuǎn)移學(xué)習(xí)和參數(shù)優(yōu)化來實現(xiàn)高效、分散居兆、迭代的參考文獻(xiàn)構(gòu)建覆山,而無需共享原始數(shù)據(jù)。研究表明泥栖,使用來自小鼠大腦簇宽、胰腺、免疫和整個生物體圖集的示例吧享,保留了生物狀態(tài)信息魏割,同時消除了批量效應(yīng)。scArches推廣到多模態(tài)參考映射钢颂,允許缺失模態(tài)的插補钞它。最后,scArches保留了2019年冠狀病毒病(COVID-19)疾病變異须揣,從而能夠發(fā)現(xiàn)疾病特異性細(xì)胞狀態(tài)盐股。scArches將通過迭代構(gòu)建、更新耻卡、共享和高效使用參考圖集來促進(jìn)協(xié)作項目疯汁。
為了促進(jìn)模型共享,作者調(diào)整了現(xiàn)有的參考構(gòu)建方法卵酪,將它們作為“基礎(chǔ)模型”納入到scArches中幌蚊。scArches中構(gòu)建的參考模型可以通過Zenodo方法的內(nèi)置應(yīng)用程序編程接口上傳到模型庫。為了使用戶能夠在自定義參考圖集上映射新的數(shù)據(jù)集溃卡,作者建議共享模型權(quán)重溢豆,用戶可以從模型存儲庫下載模型權(quán)重,并使用新的查詢數(shù)據(jù)進(jìn)行微調(diào)瘸羡。這種微調(diào)通過為每個查詢數(shù)據(jù)集添加一組稱為“適配器”的可訓(xùn)練權(quán)重來擴展模型漩仙。在經(jīng)典的條件神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)對應(yīng)于一個輸入神經(jīng)元犹赖。由于經(jīng)過培訓(xùn)的網(wǎng)絡(luò)具有嚴(yán)格的體系結(jié)構(gòu)队他,因此不允許在給定網(wǎng)絡(luò)中添加新的研究。為了克服這一點峻村,實施了架構(gòu)手術(shù)方法麸折,將新的研究標(biāo)簽作為新的輸入節(jié)點(方法)納入其中。重要的是粘昨,適配器是可共享的炼列,允許用戶通過下載參考圖集檀夹、為該參考選擇一組可用適配器并最終通過訓(xùn)練查詢適配器合并用戶自己的數(shù)據(jù)來進(jìn)一步定制共享參考模型(圖1a和1b)蚌成。查詢模型的可訓(xùn)練參數(shù)僅限于查詢研究標(biāo)簽的一小部分權(quán)重截珍。根據(jù)該子集的大小,該限制作為歸納偏差發(fā)揮作用捌浩,以防止模型調(diào)整其參數(shù)以適應(yīng)查詢研究放刨。因此,查詢數(shù)據(jù)將更新參考圖集尸饺。為了說明這種方法的可行性进统,應(yīng)用帶有trVAE、scVI和scANVI的scArches浪听,將兩項研究連續(xù)整合到一個包含三項研究的胰腺參考圖譜中(圖1c)螟碎。我們首先在scArches框架內(nèi)訓(xùn)練不同的現(xiàn)有參考模型,以整合訓(xùn)練數(shù)據(jù)并構(gòu)建參考圖譜(圖1d迹栓,e)掉分。構(gòu)建參考圖譜后,使用第一個查詢數(shù)據(jù)(SMART-seq2(SS2))微調(diào)參考模型,并使用本研究(圖1d酥郭,e)和第二個查詢數(shù)據(jù)(CelSeq2华坦,圖1d,e)迭代更新參考圖譜不从。每次更新后惜姐,模型都會覆蓋查詢和引用中存在的所有共享單元類型的數(shù)據(jù),同時在查詢數(shù)據(jù)集中生成一個單獨的單元集群(圖1d椿息,e)歹袁。為了進(jìn)一步評估該方法的穩(wěn)健性,作者在參考數(shù)據(jù)中保留了兩種單元格類型寝优,同時在查詢數(shù)據(jù)集中保留了這兩種類型条舔。作者構(gòu)建的模型穩(wěn)健地集成了查詢數(shù)據(jù),同時將看不見的單元類型放入不同的集群中乏矾。使用模擬數(shù)據(jù)進(jìn)行的附加測試表明孟抗,scArches還能夠通過多次查詢研究同時更新參考圖集。
除了按照上述建議僅微調(diào)連接新添加研究的權(quán)重外钻心,作者還考慮了(1)編碼器和解碼器中的訓(xùn)練輸入層夸浅,同時凍結(jié)其余權(quán)重;(2)微調(diào)模型中的所有權(quán)重扔役。使用來自兩個小鼠大腦研究的250000個細(xì)胞為每個基礎(chǔ)模型訓(xùn)練了一個參考模型。將scArches-trVAE應(yīng)用于大腦圖譜警医,參數(shù)最少的模型在整合不同批次的同時保持不同細(xì)胞類型之間的差異亿胸,與其他方法進(jìn)行競爭(圖2a-d)≡せ剩總的來說侈玄,與其他方法相比,評估不同基礎(chǔ)模型的集成精度證明了使用適配器合并新查詢數(shù)據(jù)集的最佳時間和集成性能權(quán)衡(圖2e)吟温。
要使用scArches序仙,需要參考圖集模型。scArches執(zhí)行的參考映射的質(zhì)量取決于為基礎(chǔ)模型選擇的參數(shù)化和體系結(jié)構(gòu)以及參考數(shù)據(jù)的質(zhì)量和數(shù)量鲁豪。為了確定scArches參考映射對所用參考模型的敏感性潘悼,作者調(diào)查了成功實現(xiàn)參考映射需要多少參考數(shù)據(jù)。因此爬橡,利用了由骨髓和外周血單個核細(xì)胞(PBMC)組成的人類免疫細(xì)胞數(shù)據(jù)集治唤。通過在參考文獻(xiàn)構(gòu)建中增加更多的研究,同時使用其他研究作為查詢數(shù)據(jù)糙申,構(gòu)建了質(zhì)量不斷提高的參考模型宾添。為了進(jìn)一步優(yōu)化該模型,為每項研究納入了一種獨特的細(xì)胞類型,同時將其從其他研究中刪除缕陕。結(jié)果發(fā)現(xiàn)粱锐,scArches scANVI的參考映射精度顯著提高,直到至少50%(約10000個細(xì)胞)的數(shù)據(jù)被用作參考(圖3a-c)扛邑。具體而言怜浅,觀察到巨核細(xì)胞祖細(xì)胞、人類多能干細(xì)胞鹿榜、CD10+B細(xì)胞僅以較高的參考比率聚集(圖3b海雪,c)。這一觀察結(jié)果適用于其他基礎(chǔ)模型(圖3d)舱殿。在大腦和胰腺數(shù)據(jù)集上重復(fù)了類似的實驗奥裸。總的來說沪袭,雖然性能取決于模型和數(shù)據(jù)湾宙,但當(dāng)至少50%的數(shù)據(jù)用于參考訓(xùn)練時,都觀察到了穩(wěn)健的性能(圖3d)冈绊。參考映射旨在生成一個集成的數(shù)據(jù)集侠鳄,而無需共享原始數(shù)據(jù)和有限的計算資源。因此死宣,必須根據(jù)從頭數(shù)據(jù)集成的標(biāo)準(zhǔn)進(jìn)行評估伟恶,而這些標(biāo)準(zhǔn)不存在這些限制。為了評估這一點毅该,使用包含大約三分之二批次的參考模型進(jìn)行了scArches參考映射博秫,并將其與現(xiàn)有的全集成自動編碼器方法和其他現(xiàn)有方法進(jìn)行了比較。scArches參考映射模型的總分與從頭集成性能的總分相似(圖3e)眶掌。
查詢數(shù)據(jù)由來自24個組織的90120個細(xì)胞組成挡育,其中包括從參考數(shù)據(jù)中排除的先前未發(fā)現(xiàn)的組織氣管。scArches-trVAE跨時間點和測序技術(shù)準(zhǔn)確集成查詢和參考數(shù)據(jù)朴爬,并創(chuàng)建一個獨特的氣管細(xì)胞群(n=9330)(圖4a即寒,b)。然后召噩,研究了從參考數(shù)據(jù)集中轉(zhuǎn)移單元格類型標(biāo)簽的過程母赵。此外,分類管道為每個單元提供了不確定性分?jǐn)?shù)具滴,同時將不確定性超過50%的單元報告為未知單元(圖4c)市咽。此外,大多數(shù)錯誤分類的細(xì)胞和來自看不見組織的細(xì)胞都獲得了很高的不確定性分?jǐn)?shù)(圖4d)抵蚊∈┮铮總的來說溯革,跨組織的分類結(jié)果表明,大多數(shù)組織的預(yù)測精度都很高(圖4e和4f)谷醉,同時突出顯示了不可映射到參考的細(xì)胞致稀。因此,scArches可以成功地將大型和復(fù)雜的查詢數(shù)據(jù)集合并到參考圖集中俱尼。接下來抖单,將查詢scRNA序列數(shù)據(jù)集成到參考圖譜中(圖4g),并使用多模態(tài)參考圖譜為查詢數(shù)據(jù)集插補缺失的蛋白質(zhì)數(shù)據(jù)遇八。利用估算的蛋白質(zhì)豐度矛绘,可以區(qū)分觀察到的主要群體,如T細(xì)胞(CD3+刃永、CD4+和CD8+)货矮、B細(xì)胞(CD19+)和單核細(xì)胞(CD14+)(圖4h)。
在疾病研究中斯够,參考數(shù)據(jù)的情境化是必不可少的囚玫。一個成功的數(shù)據(jù)整合應(yīng)該滿足三個標(biāo)準(zhǔn):(1)保持健康細(xì)胞狀態(tài)的生物變異;(2)整合健康參照和疾病查詢之間的匹配細(xì)胞類型读规;(3)保存不同的疾病變異抓督。為了展示如何利用疤痕進(jìn)行疾病情境化,scArches成功整合了來自不同數(shù)據(jù)集的肺泡巨噬細(xì)胞束亏,并保留了它們之間的生物變異性铃在,盡管一些環(huán)境RNA信號仍然存在。例如碍遍,來自單個個體的激活TRAM(FABP4+IL1B+CXCL5+)在TRAM內(nèi)形成一個獨特的亞群(圖5a-d)涌穆。然后,評估2019冠狀病毒疾病查詢數(shù)據(jù)投影到參考模型雀久。Liao及其同事的數(shù)據(jù)集包含以下細(xì)胞類型:氣道上皮細(xì)胞、漿細(xì)胞和B細(xì)胞趁舀、CD4+和CD8+T細(xì)胞赖捌、NK細(xì)胞、中性粒細(xì)胞矮烹、肥大細(xì)胞越庇、樹突狀細(xì)胞、單核細(xì)胞和肺泡巨噬細(xì)胞(圖5b奉狈、c)卤唉。在巨噬細(xì)胞群中,兩個不同的群體主導(dǎo)了包埋結(jié)構(gòu)(圖5c仁期,d):TRAM(FABP4+C1Q+CCL2)?)和炎性MoAMs(FABP4)?C1Q+CCL2+桑驱。事實上竭恬,在植入過程中,MOAM更接近單核細(xì)胞而不是TRAM熬的,反映了它們的本體關(guān)系痊硕。然后評估了CD8+T細(xì)胞。而參考骨髓和血細(xì)胞主要含有CD8+T細(xì)胞,?肺和支氣管肺泡灌洗液中含有細(xì)胞毒性記憶CD8+T細(xì)胞(GZMA+GZMH+)押框;圖5e)岔绸。此外,COV2019冠狀病毒疾病患者的CD8+T細(xì)胞的細(xì)胞毒表達(dá)是由干擾素應(yīng)答基因ISG15橡伞、MX1和其他基因決定的盒揉。這與最近的一份研究一致,即干擾素反應(yīng)是區(qū)分嚴(yán)重急性呼吸綜合征冠狀病毒2型肺炎與其他病毒性和非病毒性肺炎的特征(圖5e)兑徘。
本研究介紹了一種易于實現(xiàn)的轉(zhuǎn)移學(xué)習(xí)方法刚盈,通過微調(diào)參數(shù)為新研究添加輸入節(jié)點和權(quán)重(適配器)構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。這種模型可以擴展任何基于條件神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)集成方法道媚,以實現(xiàn)分散的參考更新扁掸,并提供參考數(shù)據(jù)學(xué)習(xí)的框架∽钣颍總之谴分,作者希望scArches能夠加速使用這些圖譜來分析查詢數(shù)據(jù)集。
教授介紹
Fabian Theis教授分別于2002年和2003年獲得物理學(xué)和計算機科學(xué)博士學(xué)位镀脂。在雷根斯堡牺蹄、東京從事博士后研究。隨后薄翅,他加入了德國環(huán)境健康研究中心Helmholtz Zentrum Munchen沙兰,在那里他擔(dān)任了生物信息學(xué)和系統(tǒng)生物學(xué)研究所的組長六年。2009年翘魄,他成為慕尼黑理工大學(xué)應(yīng)用數(shù)學(xué)系主任的副教授鼎天。自2013年以來,他一直是慕尼黑理工大學(xué)的生物數(shù)學(xué)教授暑竟,擔(dān)任生物系統(tǒng)數(shù)學(xué)建模主席斋射,并擔(dān)任Helmholtz Zentrum Munchen計算生物學(xué)研究所所長。Fabian Theis教授在計算生物學(xué)領(lǐng)域進(jìn)行研究但荤。他的工作重點是將機器學(xué)習(xí)方法應(yīng)用于生物學(xué)問題罗岖,特別是作為基于單細(xì)胞分析的細(xì)胞異質(zhì)性建模手段,以及將“組學(xué)”數(shù)據(jù)整合到系統(tǒng)醫(yī)學(xué)方法中腹躁。
參考文獻(xiàn)
Lotfollahi, M., Naghipourfar, M., Luecken, M.D. et al. Mapping single-celldata to reference atlases by transfer learning. Nat Biotechnol (2021).https://doi.org/10.1038/s41587-021-01001-7