Nat Biomed Eng | 醫(yī)療領(lǐng)域機(jī)器學(xué)習(xí)模型部署機(jī)會(huì)與挑戰(zhàn)
原創(chuàng)?mumu?圖靈基因?2022-07-21 07:05?發(fā)表于江蘇
收錄于合集#前沿生物大數(shù)據(jù)分析
撰文:mumu
IF=?29.234
推薦度:?????
亮點(diǎn):
作者介紹了醫(yī)療保健領(lǐng)域中,深度生成模型佩脊、聯(lián)合學(xué)習(xí)模型蹈胡、自然語言處理在數(shù)據(jù)收集呜袁、組織韩肝、保護(hù)陪每、移動(dòng)和審查方面的應(yīng)用和挑戰(zhàn)逻澳。
2022年7月4日,目前斯坦福心血管研究所在讀的Angela Zhang博士在《Nature Biomedical Engineering》上發(fā)表了一篇名為“Shifting machine learning for healthcare from development to deployment and from models to data”的綜述蒜魄。在過去的十年中扔亥,機(jī)器學(xué)習(xí)(ML)在醫(yī)療保健中的應(yīng)用推動(dòng)了醫(yī)生任務(wù)的自動(dòng)化,以及臨床能力和獲得護(hù)理機(jī)會(huì)的增強(qiáng)谈为。這一進(jìn)展強(qiáng)調(diào)旅挤,從模型開發(fā)到模型部署,數(shù)據(jù)發(fā)揮著核心作用伞鲫。在這篇綜述中粘茄,作者提供了一個(gè)以數(shù)據(jù)為中心的觀點(diǎn),介紹了醫(yī)療保健ML的創(chuàng)新和挑戰(zhàn)秕脓。討論了深度生成模型和聯(lián)邦學(xué)習(xí)作為增加數(shù)據(jù)集以提高模型性能的策略柒瓣,以及使用Transformers模型來處理更大的數(shù)據(jù)集、增強(qiáng)臨床文本的建模吠架。針對(duì)ML部署中以數(shù)據(jù)為重點(diǎn)的問題嘹朗,強(qiáng)調(diào)需要高效地向ML模型提供數(shù)據(jù),以及時(shí)進(jìn)行臨床預(yù)測(cè)诵肛,并考慮可能會(huì)不利于模型性能的數(shù)據(jù)遷移。
在過去的十年中默穴,用于醫(yī)療保健的ML取得了快速的進(jìn)展怔檩。已經(jīng)為許多醫(yī)療需求奠定了初步基礎(chǔ),這些需求承諾改善患者護(hù)理蓄诽、減少醫(yī)療工作量薛训、簡(jiǎn)化醫(yī)療流程。隨著ML系統(tǒng)開始在臨床環(huán)境中部署仑氛,ML在醫(yī)療保健中的決定性挑戰(zhàn)已經(jīng)從模型開發(fā)轉(zhuǎn)移到模型部署乙埃。在縮小兩者之間的差距的過程中闸英,出現(xiàn)了另一個(gè)趨勢(shì):數(shù)據(jù)的重要性。由于數(shù)據(jù)可獲得性介袜、患者隱私和機(jī)構(gòu)數(shù)據(jù)框架的異質(zhì)性的臨床限制甫何,很難獲得豐富的數(shù)據(jù)集。同樣遇伞,隨著ML醫(yī)療系統(tǒng)的部署辙喂,實(shí)施中最大的挑戰(zhàn)來自數(shù)據(jù)問題:如何高效地將數(shù)據(jù)交付到模型,以促進(jìn)工作流集成并做出及時(shí)的臨床預(yù)測(cè)鸠珠?此外巍耗,一旦實(shí)施,面對(duì)醫(yī)生和患者行為自然變化的必然性渐排,如何保持模型的健壯性炬太?事實(shí)上,從模型開發(fā)到部署的轉(zhuǎn)變也標(biāo)志著焦點(diǎn)的轉(zhuǎn)移:從模型到數(shù)據(jù)驯耻。這篇綜述采用以數(shù)據(jù)為中心的方法來回顧ML在醫(yī)療保健方面的最新創(chuàng)新亲族。首先討論以深度生成模型和聯(lián)邦學(xué)習(xí)為策略,創(chuàng)建更大和增強(qiáng)的數(shù)據(jù)集吓歇;隨后討論了近期用于處理較大數(shù)據(jù)集的轉(zhuǎn)換器模型遣蚀;最后,重點(diǎn)介紹了部署面臨的挑戰(zhàn)甜滨,主要關(guān)注如何處理可用原始數(shù)據(jù)并將其交付給模型拇涤,以及數(shù)據(jù)遷移如何影響已部署模型的性能。
圖1中介紹了過去十年深度學(xué)習(xí)領(lǐng)域最令人興奮的創(chuàng)新之一:生成對(duì)抗網(wǎng)絡(luò)(GANs)测柠。它們提供了創(chuàng)建大量合成但現(xiàn)實(shí)的數(shù)據(jù)的能力炼鞠。在醫(yī)療保健領(lǐng)域,GANs已被用于擴(kuò)充數(shù)據(jù)集轰胁,提高模型性能并將患者數(shù)據(jù)匿名化谒主,緩解隱私受限和不平衡數(shù)據(jù)集的問題,并執(zhí)行圖像通道到圖像通道的轉(zhuǎn)換和圖像重建赃阀。值得一提的是霎肯,GANs的一個(gè)新興應(yīng)用是使用它們系統(tǒng)地探索臨床場(chǎng)景和疾病表現(xiàn)的整個(gè)領(lǐng)域。事實(shí)上榛斯,GANs可用于生成合成數(shù)據(jù)观游,以對(duì)抗域移動(dòng)的模型惡化。此外驮俗,GANs可用于創(chuàng)建模擬各種臨床情景和疾病表現(xiàn)的數(shù)據(jù)懂缕,從危險(xiǎn)和罕見的臨床情景(如不正確的手術(shù)技術(shù)),到模擬腦瘤表現(xiàn)譜王凑,再到探索神經(jīng)退行性疾病的疾病進(jìn)展搪柑。然而聋丝,GANs可能會(huì)受到訓(xùn)練不穩(wěn)定以及圖像多樣性和質(zhì)量較低的影響。這些限制可能會(huì)阻礙GANs在臨床實(shí)踐中的部署工碾。此外弱睦,在使用基于合成數(shù)據(jù)培訓(xùn)的ML醫(yī)療模型時(shí),可能存在監(jiān)管障礙倚喂。由于目前無法有力地評(píng)估和控制GANs及其生成的合成數(shù)據(jù)的質(zhì)量每篷,這一點(diǎn)更加復(fù)雜。盡管如此端圈,在與醫(yī)療保健無關(guān)的領(lǐng)域焦读,GANs已經(jīng)被用來對(duì)已部署的模型進(jìn)行切實(shí)的改進(jìn)。這些成功可能會(huì)為GANs在醫(yī)療保健中的實(shí)際應(yīng)用奠定基礎(chǔ)舱权。
在一般使用多機(jī)構(gòu)數(shù)據(jù)集時(shí)矗晃,模型培訓(xùn)通常集中執(zhí)行,也就是說孤立在各個(gè)機(jī)構(gòu)中的數(shù)據(jù)需要聚合到單個(gè)服務(wù)器中宴倍。然而张症,在這種“集中訓(xùn)練”中使用的數(shù)據(jù)只是可用于模型開發(fā)的海量臨床數(shù)據(jù)的很小一部分。并且公開共享和交換患者數(shù)據(jù)受到許多法律鸵贬、倫理和行政限制俗他。事實(shí)上,在許多司法管轄區(qū)阔逼,患者數(shù)據(jù)必須保持本地化兆衅。為了解決這一問題,當(dāng)分散的數(shù)據(jù)可在中央服務(wù)器的協(xié)調(diào)下協(xié)作使用時(shí)嗜浮,出現(xiàn)了聯(lián)合學(xué)習(xí)訓(xùn)練ML模型的范例羡亩。集中式培訓(xùn)要將來自不同位置的數(shù)據(jù)移動(dòng)到單個(gè)服務(wù)器來培訓(xùn)模型,而聯(lián)合學(xué)習(xí)與集中式培訓(xùn)不同危融,可允許數(shù)據(jù)位置不變畏铆。無論何時(shí)數(shù)據(jù)都不會(huì)離開特定地點(diǎn)或機(jī)構(gòu),只有與機(jī)構(gòu)關(guān)聯(lián)的個(gè)人才能直接訪問其數(shù)據(jù)吉殃。圖2中是醫(yī)療保健領(lǐng)域跨豎井聯(lián)合學(xué)習(xí)的過程和特點(diǎn)辞居。當(dāng)每個(gè)機(jī)構(gòu)通知中央服務(wù)器它們打算參加當(dāng)前一輪培訓(xùn)時(shí),聯(lián)合學(xué)習(xí)就開始了蛋勺。在通知速侈、批準(zhǔn)和認(rèn)可該機(jī)構(gòu)后,中央服務(wù)器將該模型的當(dāng)前版本發(fā)送到該機(jī)構(gòu)(步驟1)迫卢。然后,該機(jī)構(gòu)使用可獲得的數(shù)據(jù)在本地訓(xùn)練該模型(步驟2)冶共。在完成本地培訓(xùn)后乾蛤,機(jī)構(gòu)將模型發(fā)送回中央服務(wù)器(步驟3)每界。中央服務(wù)器將已經(jīng)由每個(gè)單獨(dú)機(jī)構(gòu)在本地訓(xùn)練的所有模型聚集成單個(gè)更新的模型(步驟4)。在每一輪培訓(xùn)中重復(fù)這一過程家卖,直到模型培訓(xùn)結(jié)束眨层。在任何一輪培訓(xùn)期間,患者數(shù)據(jù)都不會(huì)離開機(jī)構(gòu)(步驟5)上荡。聯(lián)合學(xué)習(xí)的成功實(shí)施需要促進(jìn)培訓(xùn)的特定于醫(yī)療保健的聯(lián)合學(xué)習(xí)框架趴樱,以及用于與中央服務(wù)器通信和對(duì)模型進(jìn)行本地培訓(xùn)的機(jī)構(gòu)基礎(chǔ)設(shè)施。這減輕了人們對(duì)侵犯隱私的擔(dān)憂酪捡,最大限度地降低了與數(shù)據(jù)聚合相關(guān)的成本叁征,并允許訓(xùn)練數(shù)據(jù)集在大小和多樣性方面快速擴(kuò)展。
除了跨豎井聯(lián)合學(xué)習(xí)允許多個(gè)機(jī)構(gòu)協(xié)作培養(yǎng)一個(gè)ML模型逛薇,還有跨設(shè)備聯(lián)合學(xué)習(xí)處理來自個(gè)人的健康數(shù)據(jù)捺疼。在智能設(shè)備產(chǎn)生連續(xù)、被動(dòng)和個(gè)性化的健康數(shù)據(jù)寶庫的基礎(chǔ)上永罚,利用這些數(shù)據(jù)訓(xùn)練ML模型啤呼,并為每個(gè)用戶提供個(gè)性化的健康洞察。不過作者也提到一些聯(lián)合學(xué)習(xí)目前存在的問題呢袱,例如:聯(lián)合學(xué)習(xí)的實(shí)施要求各機(jī)構(gòu)在聯(lián)合學(xué)習(xí)過程的每一步都進(jìn)行高度協(xié)調(diào)官扣;醫(yī)療數(shù)據(jù)在訓(xùn)練前需要進(jìn)行規(guī)范化和標(biāo)準(zhǔn)化,這無疑對(duì)各機(jī)構(gòu)在收集羞福、存儲(chǔ)惕蹄、標(biāo)記和劃分?jǐn)?shù)據(jù)的方式上提出了挑戰(zhàn);還需要每個(gè)單獨(dú)機(jī)構(gòu)對(duì)各自的精簡(jiǎn)和驗(yàn)證過程各自負(fù)責(zé)坯临;模型開發(fā)人員無法在模型開發(fā)期間直接檢查數(shù)據(jù)焊唬。
利用自然語言處理(NLP)實(shí)現(xiàn)文本的自動(dòng)理解一直是ML在醫(yī)療保健中的一個(gè)長期目標(biāo)。作者主要概述了Transformers和NLP的遷移學(xué)習(xí)在醫(yī)療保健中的應(yīng)用看靠。圖3介紹了Transformers模型的過程和特點(diǎn)赶促。隨著NLP中Transformers的成功,它們處理臨床文本的潛力很快得到了評(píng)估挟炬,因此也被用于對(duì)臨床事件的順序性質(zhì)進(jìn)行建模鸥滨。
過去十年,ML在醫(yī)療保健領(lǐng)域的研究主要集中在模型開發(fā)上谤祖,而下一個(gè)十年將從模型開發(fā)轉(zhuǎn)到模型部署婿滓。作者討論了模型部署中的兩個(gè)以數(shù)據(jù)為中心的障礙:如何高效地將原始臨床數(shù)據(jù)提供給模型,以及如何監(jiān)控和糾正會(huì)降低模型性能的自然數(shù)據(jù)遷移粥喜。
在模型開發(fā)過程中凸主,經(jīng)過預(yù)處理的結(jié)構(gòu)化數(shù)據(jù)直接輸入到模型中。但是在部署期間额湘,為了最大限度地減少獲取原始數(shù)據(jù)和交付結(jié)構(gòu)化輸入之間的延遲卿吐,需要一條熟練的數(shù)據(jù)管道旁舰,以便從其來源收集數(shù)據(jù),并攝取嗡官、準(zhǔn)備和轉(zhuǎn)換數(shù)據(jù)(圖4)箭窜。將數(shù)據(jù)傳遞給模型是獲得及時(shí)有效推斷的關(guān)鍵瓶頸。ML模型需要組織衍腥、標(biāo)準(zhǔn)化和標(biāo)準(zhǔn)化的輸入數(shù)據(jù)磺樱,通常采用表格格式。因此婆咸,建立一條組織和存儲(chǔ)異質(zhì)臨床數(shù)據(jù)的管道至關(guān)重要竹捉。數(shù)據(jù)管道涉及從各種數(shù)據(jù)源收集、攝取和轉(zhuǎn)換臨床數(shù)據(jù)擅耽。數(shù)據(jù)可以存放在數(shù)據(jù)湖中活孩、數(shù)據(jù)倉庫中或兩者兼而有之。數(shù)據(jù)湖是中央存儲(chǔ)庫乖仇,用于存儲(chǔ)所有形式的原始數(shù)據(jù)和已處理數(shù)據(jù)憾儒,而不需要任何預(yù)先確定的組織結(jié)構(gòu)。數(shù)據(jù)湖中的數(shù)據(jù)可以以二進(jìn)制數(shù)據(jù)(例如圖像)乃沙、結(jié)構(gòu)化數(shù)據(jù)起趾、半結(jié)構(gòu)化數(shù)據(jù)(例如表格數(shù)據(jù))和非結(jié)構(gòu)化數(shù)據(jù)(例如文檔)的混合形式存在。相比之下警儒,數(shù)據(jù)倉庫使用預(yù)先確定的組織結(jié)構(gòu)存儲(chǔ)經(jīng)過清理训裆、豐富、轉(zhuǎn)換和結(jié)構(gòu)化的數(shù)據(jù)蜀铲。
如何解決數(shù)據(jù)轉(zhuǎn)移的部署边琉?在醫(yī)療保健領(lǐng)域,數(shù)據(jù)轉(zhuǎn)移很常見记劝,主要存在于機(jī)構(gòu)差異(如當(dāng)?shù)嘏R床實(shí)踐或不同的工具和數(shù)據(jù)收集工作流程)变姨、流行病學(xué)轉(zhuǎn)變、時(shí)間轉(zhuǎn)變(例如厌丑,醫(yī)生和患者行為隨時(shí)間的變化)和患者人口統(tǒng)計(jì)差異(如種族定欧、性別和年齡)的軸線上。這種數(shù)據(jù)轉(zhuǎn)移可能會(huì)導(dǎo)致模型性能下降怒竿。所以多機(jī)構(gòu)數(shù)據(jù)集的訓(xùn)練模式可最有效地應(yīng)對(duì)此種模型惡化砍鸠,直接解決訓(xùn)練數(shù)據(jù)中的現(xiàn)有偏見也可減輕其影響。還有一些涉及在模型開發(fā)期間主動(dòng)解決數(shù)據(jù)轉(zhuǎn)移的方案耕驰,或通過在模型部署期間監(jiān)測(cè)數(shù)據(jù)轉(zhuǎn)移來追溯解決這些問題爷辱。不論采用哪種方式,都需要大家拿出對(duì)認(rèn)識(shí)和處理潛在的偏見和數(shù)據(jù)轉(zhuǎn)移的積極主動(dòng)態(tài)度。
最終作者也提出了一些目前ML在醫(yī)療保健領(lǐng)域面臨的挑戰(zhàn)饭弓。例如:應(yīng)用于醫(yī)學(xué)圖像的GANs目前受到圖像分辨率和圖像多樣性的限制巩检,并且在訓(xùn)練和擴(kuò)展方面可能具有挑戰(zhàn)性;聯(lián)合學(xué)習(xí)雖然有望緩解與小型單一機(jī)構(gòu)數(shù)據(jù)集相關(guān)的問題示启,但它需要強(qiáng)大的框架和基礎(chǔ)設(shè)施;在大型公共數(shù)據(jù)集上訓(xùn)練的NLP可以包含種族和族裔偏見领舰。另一個(gè)挑戰(zhàn)是如何處理醫(yī)療保健應(yīng)用程序的ML模型的監(jiān)管評(píng)估夫嗓。盡管存在這些挑戰(zhàn),但其他領(lǐng)域的數(shù)百萬個(gè)人每天都在使用類似的ML技術(shù)冲秽,尤其是在智能手機(jī)舍咖、搜索引擎和自動(dòng)駕駛汽車領(lǐng)域,這些實(shí)例也給我們?cè)卺t(yī)療保健領(lǐng)域部署和監(jiān)管ML帶來了極大的信心锉桑。
作者介紹
Angela Zhang目前是斯坦福大學(xué)醫(yī)學(xué)院斯坦福心血管研究所一名在讀研究生排霉,師從Joseph C. Wu。他們的實(shí)驗(yàn)室專注于新型細(xì)胞和基因療法的轉(zhuǎn)化民轴。主要應(yīng)用工具來研究干細(xì)胞的生物學(xué)攻柠,更好地了解干細(xì)胞的免疫原性和致瘤性,從成體細(xì)胞中提取干細(xì)胞后裸,并確定新的治療靶點(diǎn)瑰钮。近年來,該實(shí)驗(yàn)室在《Science》微驶、《Cell》浪谴、《Nature》等知名雜志及其子刊發(fā)表了多篇刊物。
參考文獻(xiàn)
Zhang, A., Xing, L., Zou, J. et al. Shifting machine learning for healthcare from development to deployment and from models to data. Nat. Biomed. Eng (2022).https://doi.org/10.1038/s41551-022-00898-y