頂刊精讀 | 病例圖像 + 自然語言,有沒有搞頭掉分?

Basic Information

  • 英文標題: A visual-language foundation model for computational pathology
  • 中文標題:一種用于計算病理學的視覺-語言基礎(chǔ)模型
  • 發(fā)表日期:19 March 2024
  • 文章類型:Article
  • 所屬期刊:Nature Medicine
  • 文章作者:Ming Y. Lu | Faisal Mahmood
  • 文章鏈接:https://www.nature.com/articles/s41591-024-02856-4

Abstract

  1. 數(shù)字病理學的加速采用和深度學習的進步使得開發(fā)針對各種疾病和患者群體的不同病理學任務(wù)的強大模型成為可能俭缓。
  2. 然而,由于醫(yī)學領(lǐng)域中標簽稀缺酥郭,模型訓練通常很困難华坦,而且模型的使用受到其訓練的特定任務(wù)和疾病的限制。
  3. 此外不从,組織病理學中的大多數(shù)模型僅利用圖像數(shù)據(jù)惜姐,這與人類如何相互教學和推理組織病理學實體形成鮮明對比。
  4. 我們介紹了用于組織病理學的對比學習(CONCH)椿息,一種使用多種來源的組織病理學圖像歹袁、生物醫(yī)學文本和超過117萬個圖像標題對通過任務(wù)無關(guān)預訓練開發(fā)的視覺語言基礎(chǔ)模型。
  5. 在14個不同的基準測試套件上進行評估寝优,CONCH可以轉(zhuǎn)移到涉及組織病理學圖像和/或文本的各種下游任務(wù)中条舔,在組織學圖像分類、分割乏矾、字幕和文本到圖像和圖像到文本檢索方面實現(xiàn)了最先進的性能孟抗。
  6. CONCH代表了組織病理學中同時進行的視覺語言預訓練系統(tǒng)的一個重大飛躍,有潛力直接促進廣泛的基于機器學習的工作流程妻熊,無需或僅需最少量的額外監(jiān)督微調(diào)夸浅。

Main

  1. 對于許多疾病的診斷,病理學家檢查組織仍然是金標準扔役。
  2. 最近帆喇,計算病理學的興起,利用人工智能(AI)解決病理學中的問題亿胸,在許多任務(wù)中展示了顯著的進步坯钦,包括轉(zhuǎn)移檢測孽亲、癌癥亞型漏健、生存預測宜肉、未知原發(fā)部位預測幽告、圖像搜索和分子改變預測等。
  3. 此外突颊,當前在該領(lǐng)域的進步是在使用大量標記的訓練樣本開發(fā)針對特定任務(wù)的模型的范式下取得的鲁豪,例如淋巴結(jié)轉(zhuǎn)移檢測和前列腺癌分級。
  4. 然而律秃,整張幻燈片圖像(WSIs)的數(shù)據(jù)收集和注釋過程是勞動密集型的爬橡,并且不能擴展到開放集識別問題或罕見疾病,這兩者在病理學實踐中很常見棒动。
  5. 由于有數(shù)千種可能的診斷和許多其他任務(wù)糙申,為病理工作流的每一步訓練單獨的模型是不可行的。
  6. 此外船惨,盡管這些任務(wù)多種多樣柜裸,但它們都是對視覺數(shù)據(jù)的分析或包含其他結(jié)構(gòu)化信息,例如‘組學’和其他多模態(tài)數(shù)據(jù)源粱锐。
  7. 然而疙挺,病理學實踐和病理學發(fā)現(xiàn)的交流廣泛使用自然語言,無論是病理學家為患者和治療臨床醫(yī)生準備的報告卜范,還是詳細介紹新組織病理實體的期刊文章衔统,還是教導居民如何實踐病理學的教科書章節(jié)鹿榜。
  8. 一般機器學習社區(qū)在使用視覺和語言信息的基礎(chǔ)模型方面取得了巨大進步海雪。
  9. 代表性的工具如CLIP30、ALIGN31和CoCa32等33,34,35,36,37,38舱殿,使用大規(guī)模圖像標題對39預訓練視覺語言基礎(chǔ)模型——任務(wù)無關(guān)的預訓練模型奥裸,在下游視覺和視覺語言任務(wù)中表現(xiàn)出強大的性能。
  10. 在更廣泛的生物醫(yī)學成像領(lǐng)域沪袭,視覺語言數(shù)據(jù)已被用于各種任務(wù)湾宙,包括X射線報告生成40,41、零次分類42,43,44,45和檢索45,46,47,48等49,50,51,52,53冈绊。
  11. 然而侠鳄,將視覺和語言數(shù)據(jù)集成到計算病理學中的表示學習研究數(shù)量較少,最近的研究44,54,55,56,57,58展示了使用配對圖像標題數(shù)據(jù)學習有意義的視覺表示和開發(fā)可轉(zhuǎn)移到多個下游任務(wù)的組織病理學基礎(chǔ)模型的潛力死宣,且無需任務(wù)特定的訓練數(shù)據(jù)伟恶。
  12. 然而,這些研究44,54,56由于缺乏該領(lǐng)域的現(xiàn)成圖像標題對而受到組織病理學特定預訓練數(shù)據(jù)規(guī)模的限制毅该,導致相對較差的性能和有限的實用性博秫。
  13. 此外潦牛,這些模型的更廣泛能力仍未被充分探索。
  14. 鑒于任務(wù)的多樣性挡育、獲取罕見疾病或發(fā)現(xiàn)組合的大型數(shù)據(jù)集的困難性以及語言在病理學實踐中的核心性質(zhì)巴碗,有必要開發(fā)(1)高性能的視覺語言基礎(chǔ)模型,該模型利用大規(guī)模預訓練并能在各個任務(wù)中推廣即寒;以及(2)對這些模型的廣泛潛在應(yīng)用進行研究橡淆,以了解其效用和局限性。
  15. 我們介紹CONtrastive學習從字幕中獲取組織病理學(CONCH)母赵,這是一個使用多種來源的組織病理學圖像明垢、生物醫(yī)學文本和超過117萬個圖像字幕對(圖1a-b和擴展數(shù)據(jù)圖1)通過任務(wù)無關(guān)預訓練開發(fā)的視覺語言基礎(chǔ)模型,以解決這些未滿足的需求市咽。
  16. 基于CoCa32痊银,一個最先進的視覺語言基礎(chǔ)預訓練框架,CONCH使用圖像編碼器施绎、文本編碼器和多模態(tài)融合解碼器溯革,并使用對比對齊目標的組合進行訓練,該目標旨在將圖像和文本模態(tài)在模型的表示空間中對齊谷醉,以及一個字幕目標致稀,該目標學習預測圖像的字幕(圖1c)。
  17. 我們研究了CONCH在廣泛任務(wù)中的能力俱尼,包括圖像塊和千兆像素WSI的分類抖单、跨模態(tài)圖像到文本和文本到圖像檢索、圖像分割和圖像字幕遇八,使用總共14個不同的基準矛绘。
  18. 我們證明我們的模型在所有基準中都實現(xiàn)了最先進的性能,相對于其他視覺語言基礎(chǔ)模型(圖1d)刃永,包括PLIP54货矮、BiomedCLIP44和OpenAICLIP30,并且它優(yōu)于同時基準斯够,通常具有很大的優(yōu)勢(圖2-5)囚玫。

Fig. 1: Data curation and model schematic.

Results

Zero-shot classification of diverse tissues and diseases

多種組織和疾病的零樣本分類

  1. 對比對齊的視覺語言預訓練允許模型直接應(yīng)用于下游分類任務(wù),而無需為監(jiān)督學習或微調(diào)提供進一步的標記示例读规。
  2. 這種零樣本遷移能力使得一個預訓練的基礎(chǔ)模型能夠直接應(yīng)用于具有任意數(shù)量類別的不同下游數(shù)據(jù)集抓督,相比之下,目前的范式需要為每個新任務(wù)訓練一個新模型束亏。
  3. 盡管我們預計當前的零樣本分類在大多數(shù)臨床用例中尚不足以達到足夠的準確性铃在,但在某些任務(wù)中,我們發(fā)現(xiàn)CONCH表現(xiàn)出色枪汪,并且它可能成為傳統(tǒng)監(jiān)督學習的強大基線涌穆,尤其是在訓練標簽稀缺的情況下怔昨。
  4. 在給定任務(wù)的情況下,我們首先使用一組預定的文本提示來表示類別或分類名稱集宿稀,每個提示對應(yīng)一個類別趁舀。
  5. 隨后通過將圖像與模型的共享圖像-文本表示空間中最相似的文本提示匹配來對圖像進行分類(圖2a;詳情見方法部分)祝沸。
  6. 實際操作中矮烹,通常可以用多種方式在文本中表達相同的概念(例如罩锐,‘乳腺浸潤性小葉癌(ILC)’和‘乳腺ILC’)奉狈;因此,我們在預測期間為每個類別創(chuàng)建了多個文本提示的集合涩惑,與使用單個文本提示相比仁期,這通常可以提高預測性能(擴展數(shù)據(jù)圖2)竭恬。
  7. 此外跛蛋,盡管先前的研究主要集中在感興趣區(qū)域(ROI)級別的分類任務(wù)上,我們還通過利用MI-Zero在千兆像素WSI上的零樣本能力進行了探索痊硕,MI-Zero將WSI劃分為較小的瓦片赊级,然后將每個瓦片級別的得分聚合為切片級別的預測(圖2b)。

Fig. 2: Zero-shot and supervised classification.

  1. a岔绸,使用對比對齊的圖像和文本編碼器進行零樣本分類的示意圖理逊。為每個類別構(gòu)建一個提示,并根據(jù)在共享嵌入空間中與圖像最接近的提示對圖像進行分類盒揉。
  2. b晋被,WSI的零樣本分類。每個WSI被分成多個瓦片预烙,并按照a中的方式進行處理墨微。瓦片的相似度得分通過top-K池化聚合形成切片級別的相似度得分,最高的相似度得分對應(yīng)于切片級別的預測扁掸。
  3. c,d中,虛線表示任務(wù)的平均值最域。誤差條代表95%置信區(qū)間谴分,中心點對應(yīng)于每個指標的計算值,如下所述镀脂。
  4. c牺蹄,零樣本在下游分型(TCGA BRCA,n?=?150薄翅;TCGA RCC沙兰,n?=?225氓奈;TCGA NSCLC,n?=?150鼎天;DHMC LUAD舀奶,n?=?143;CRC100k斋射,n?=?7,180育勺;WSSS4LUAD,n?=?4,693)和分級(SICAP罗岖,n?=?2,122)任務(wù)中的性能涧至。DHMC LUAD報告了Cohen’s κ,而SICAP報告了加權(quán)Cohen’s κ桑包,所有其他任務(wù)報告了平衡準確率南蓬。其他指標在補充表1-7中報告。
  5. d哑了,對每個模型的嵌入進行監(jiān)督評估蓖康。ROI級別任務(wù)使用線性探測(CRC100k和SICAP),而切片級別任務(wù)使用ABMIL垒手,報告的指標與c中相同(更詳細的結(jié)果見補充表15-19)蒜焊。
  6. e,從左到右:病理學家注釋的IDC科贬、相應(yīng)的熱圖和高倍率下選擇的瓦片泳梆。熱圖根據(jù)切片中每個瓦片與對應(yīng)預測類別標簽的文本提示之間的余弦相似度得分進行著色。我們發(fā)現(xiàn)注釋圖像與高相似度區(qū)域之間具有極好的一致性榜掌,高相似度(高sim.)區(qū)域內(nèi)的瓦片展示了經(jīng)典的IDC形態(tài)學优妙,而低相似度(低sim.)區(qū)域內(nèi)則為基質(zhì)或其他乳腺正常成分。
  1. 我們總共在四個切片級別分類任務(wù)上評估了CONCH:癌癥基因組圖譜(TCGA)BRCA(浸潤性乳腺癌亞型分類)憎账、TCGA NSCLC(非小細胞肺癌亞型分類)套硼、TCGA RCC(腎細胞癌亞型分類)和達特茅斯希區(qū)柯克醫(yī)學中心(DHMC)LUAD(肺腺癌組織學模式分類),以及三個ROI級別任務(wù):CRC100k(結(jié)直腸癌組織分類)胞皱、WSSS4LUAD(LUAD組織分類)和SICAP(Gleason模式分類)邪意。
  2. 我們使用平衡準確率作為TCGA NSCLC、TCGA RCC反砌、TCGA LUAD雾鬼、CRC100k和WSSS4LUAD的主要評估指標,通過對每個類別的準確性得分進行等權(quán)重處理宴树,以解決類別不平衡問題策菜。
  3. 根據(jù)社區(qū)標準,我們分別使用Cohen’s κ和加權(quán)Cohen’s κ作為LUAD模式分類和Gleason模式分類的主要指標,因為這些任務(wù)被認為是主觀性更強的任務(wù)又憨,通常會導致較高的評分者間變異性翠霍。
  4. 我們建議讀者參閱補充表1-14,以獲取模型性能的更詳細報告蠢莺,并參考方法部分以獲取評估數(shù)據(jù)集的詳細描述寒匙。
  5. 在切片級基準測試中,CONCH在所有任務(wù)中均優(yōu)于最先進的視覺語言基礎(chǔ)模型(PLIP浪秘、BiomedCLIP和OpenAICLIP)蒋情,且通常具有較大的優(yōu)勢(圖2c)。
  6. 例如耸携,在NSCLC亞型分類和RCC亞型分類中棵癣,CONCH分別達到了90.7%和90.2%的零樣本準確率,并且相比表現(xiàn)第二好的模型PLIP夺衍,在每個任務(wù)上分別高出12.0%和9.8%狈谊,根據(jù)雙側(cè)配對置換檢驗(方法,“統(tǒng)計分析”)沟沙,P?<?0.01河劝。
  7. 在更具挑戰(zhàn)性的BRCA亞型分類任務(wù)中,CONCH達到了91.3%的零樣本準確率矛紫,而其他模型的表現(xiàn)接近隨機概率赎瞎,準確率范圍為50.7%(PLIP)至55.3%(BiomedCLIP),比CONCH低近35%(P?<?0.01)颊咬。
  8. 最后务甥,在LUAD模式分類任務(wù)中,CONCH的κ得分為0.200喳篇,比表現(xiàn)第二好的模型PLIP高0.12敞临,盡管未達到顯著性(P?=?0.055)。
  9. 在ROI級基準測試中麸澜,我們觀察到了類似的結(jié)果挺尿,CONCH在SICAP上達到了0.690的零樣本加權(quán)κ(比BiomedCLIP高0.140,P?<?0.01)炊邦,在CRC100k上達到了79.1%的零樣本準確率(比PLIP高11.7%编矾,P?<?0.01),并且在WSSS4LUAD上達到了71.9%的零樣本準確率(比PLIP高9.5%铣耘,P?<?0.01)洽沟。
  10. 這些結(jié)果表明,除了在相對容易的任務(wù)上實現(xiàn)更準確的預測外蜗细,CONCH在一些更具挑戰(zhàn)性的任務(wù)上仍能做出有意義的預測,而其他模型在這些任務(wù)上可能尤其困難。
  11. 在使用零樣本轉(zhuǎn)移對WSI進行分類時炉媒,除了計算聚合的幻燈片級預測外踪区,我們還可以創(chuàng)建一個熱圖來可視化幻燈片中每個圖塊與預測類標簽對應(yīng)的文本提示之間的余弦相似度分數(shù)。
  12. 具有高相似度分數(shù)的區(qū)域被模型認為與診斷(例如吊骤,浸潤性導管癌(IDC))高度匹配缎岗,而具有低相似度分數(shù)的區(qū)域與診斷不匹配(圖2e)。
  13. 在乳腺IDC幻燈片的示例中白粉,我們發(fā)現(xiàn)熱圖中突出顯示的區(qū)域與病理學家注釋所劃定的腫瘤區(qū)域非常相似(圖2e传泊,左和中)。
  14. 由于幻燈片級預測分數(shù)是給定類別的前K個圖塊的相似度分數(shù)的簡單平均值鸭巴,因此熱圖通過直接突出顯示模型決策過程中涉及的區(qū)域來實現(xiàn)人類可解釋性眷细,這些區(qū)域可以以高分辨率顯示給人類用戶進行檢查(圖2e,右)鹃祖。
  15. 其他示例在擴展數(shù)據(jù)圖3-5中可視化溪椎。這些發(fā)現(xiàn)表明,我們的模型的零樣本識別能力可以用于WSI的粗粒度組織分割恬口,我們在結(jié)果("零樣本分割")中進行了定量評估校读。

Few-shot classification with task-specific supervised learning

  1. 對比預訓練的視覺語言模型在組織病理學中的零樣本識別能力使得單個基礎(chǔ)模型可以高效、快速地應(yīng)用于廣泛的任務(wù)祖能,而無需經(jīng)過每個新任務(wù)的訓練數(shù)據(jù)收集歉秫、注釋和監(jiān)督模型訓練的繁瑣過程。
  2. 然而养铸,有時仍然需要使用帶標簽的訓練示例來專門針對特定任務(wù)最大化模型的性能雁芙,理想情況下使用盡可能少的標簽。
  3. 在本節(jié)中揭厚,我們研究了在使用預訓練的視覺語言基礎(chǔ)模型的圖像編碼器骨干進行任務(wù)特定監(jiān)督分類時的標簽效率却特。
  4. 對于每個使用監(jiān)督訓練的基準,我們使用了官方訓練集(如果提供)或在保留用于零樣本評估的案例集后從數(shù)據(jù)集中剩余的案例筛圆。
  5. 對于幻燈片級任務(wù)裂明,我們使用基于廣泛使用的注意力多實例學習(ABMIL)算法59的幻燈片級標簽訓練了弱監(jiān)督分類模型。
  6. 對于ROI級任務(wù)太援,我們在每個編碼器的全局(例如闽晦,分類(<CLS>)令牌)表示之上使用了邏輯回歸,這是一種常見的稱為線性探測的做法提岔。
  7. 除了PLIP仙蛉、BiomedCLIP和OpenAICLIP編碼器外,我們還引入了補充基線以進行比較:對于幻燈片級任務(wù)碱蒙,鑒于其流行荠瘪,我們使用了預訓練的ResNet50(參考文獻60)(在第三個殘差塊之后截斷)夯巷,而對于ROI級任務(wù),我們包括了CTransPath62——一種最先進的自監(jiān)督預訓練的組織病理學圖像編碼器(詳見方法)哀墓。
  8. 在幻燈片級任務(wù)(圖2d趁餐,左)中,CONCH在BRCA亞型篮绰、RCC亞型和NSCLC亞型方面分別實現(xiàn)了86.7%后雷、94.2%和93.3%的平衡準確率,分別比常用的ResNet50 ImageNet基線高出10.0%吠各、2.6%和10.7%(P < 0.01臀突,P = 0.223和P = 0.033)。
  9. 總體而言贾漏,CONCH在這三個任務(wù)中平均獲得了91.4%的準確率候学,而PLIP和BiomedCLIP的平均準確率分別為87.3%和89.4%,但除了與PLIP的BRCA亞型比較(P = 0.04)外磕瓷,未檢測到其他統(tǒng)計學意義盒齿。
  10. 在ROI級任務(wù)(圖2d,右)中困食,CONCH的性能幾乎與最先進的CTransPath編碼器相同(在CRC100k上边翁,平衡準確率為93.8%,在SICAP上硕盹,二次加權(quán)κ為0.833符匾,而在SICAP上,二次加權(quán)κ為0.835)瘩例,同時在CRC100k上比PLIP啊胶、BiomedCLIP和OpenAICLIP高出4.0-5.8%,在SICAP上比PLIP垛贤、BiomedCLIP和OpenAICLIP高出0.071-0.128(所有比較的P < 0.01)焰坪。
  11. 這些結(jié)果表明,總體而言聘惦,CONCH提供了一個強大的圖像編碼器某饰,其性能與所有測試的視覺編碼器(包括一個強大的僅視覺的自監(jiān)督基線)相當或更好(詳見補充表15-19中的模型性能詳細報告)。
  12. 接下來善绎,我們研究了不同視覺語言預訓練編碼器在少樣本設(shè)置中的標簽效率黔漂,我們改變了每個類別的訓練標簽數(shù)量(nc),對于 nc = 1禀酱、2炬守、4、8剂跟,直到每個類別 512 個或達到訓練集中的最大可用標簽數(shù)量减途。
  13. 在少樣本設(shè)置中酣藻,對于每個實驗,我們采樣了五組不同的訓練示例观蜗,并通過箱線圖顯示它們的單獨性能臊恋,以說明在使用非常少的訓練示例進行監(jiān)督學習時模型性能的高方差(圖 3 和擴展數(shù)據(jù)圖 6)。
  14. 我們首先觀察到 CONCH 在所有訓練集大小和所有任務(wù)中實現(xiàn)了比其他編碼器更好的性能(從五次運行的中位數(shù)準確率來看),這意味著需要更少的標簽來實現(xiàn)相同的性能传藏。
  15. 例如万皿,在 BRCA 亞型中,使用 CONCH 編碼器和每個類別 8 個訓練標簽的性能優(yōu)于使用 PLIP导盅、BiomedCLIP 或 OpenAICLIP 的 64 個標簽每類,代表訓練集大小的非平凡減少——我們在大多數(shù)測試任務(wù)中也觀察到了這一趨勢。
  16. 此外梧兼,我們注意到 CONCH 的零樣本性能與少樣本監(jiān)督學習相比具有很強的競爭力。
  17. 除了相對容易的任務(wù)智听,如 RCC 亞型和 CRC 組織分類羽杰,CONCH 零樣本在 BRCA 亞型(每類高達 64 個標簽)、NSCLC 亞型(每類高達 128 個標簽)和 Gleason 分級(每類高達 8 個標簽用于 PLIP 和每類 64 個標簽用于 BiomedCLIP)中優(yōu)于基于 PLIP 和 BiomedCLIP 的監(jiān)督學習到推。
  18. 這些發(fā)現(xiàn)表明考赛,一個好的視覺語言基礎(chǔ)模型的零樣本能力不應(yīng)該被輕視,事實上莉测,它可以作為評估使用監(jiān)督學習訓練的特定任務(wù)診斷模型的性能時的一個非常好的基線颜骤。
  19. 另一方面,我們發(fā)現(xiàn)以前的視覺語言基礎(chǔ)模型(即 PLIP 和 BiomedCLIP)的零樣本能力可以通過在 CONCH 視覺編碼器上使用少量標記示例的監(jiān)督學習相對容易地超過捣卤。

Fig. 3: Slide-level few-shot classification experiments.

  1. a–c忍抽,我們研究了不同視覺語言預訓練編碼器在少樣本場景下的標簽效率,其中我們改變了每個類別的訓練標簽數(shù)量(nc)董朝,從nc?=?1,?2,?4,?8,?16……直到達到訓練集中可用標簽的最大數(shù)量鸠项。
  2. 對于每個nc,我們采樣了五個不同的訓練樣本集子姜,并使用切片級標簽對每個訓練集訓練了一個弱監(jiān)督的ABMIL模型(詳見方法部分祟绊,“監(jiān)督和弱監(jiān)督分類實驗”)。
  3. 我們通過箱線圖展示了BRCA亞型分類(a)闲询、RCC亞型分類(b)和NSCLC亞型分類(c)的各自模型性能(每個箱線圖n?=?5)久免,以研究在非常少的訓練樣本情況下進行監(jiān)督學習時模型性能的方差。
  4. 箱線圖中的箱體表示四分位數(shù)值扭弧,須線延伸至1.5倍四分位距內(nèi)的數(shù)據(jù)點阎姥。作為參考,每個模型的零樣本性能在同一圖上以虛線顯示鸽捻。
  5. 就少樣本監(jiān)督學習而言呼巴,CONCH在不同大小的訓練集和所有任務(wù)上都表現(xiàn)出比其他編碼器更好的性能(以五次運行的中位數(shù)準確率衡量)泽腮。
  6. 此外,CONCH的零樣本性能也表現(xiàn)出驚人的競爭力衣赶,在BRCA和NSCLC亞型分類任務(wù)中诊赊,即使每類樣本數(shù)達到64,CONCH的零樣本性能仍超過了PLIP府瞄、BiomedCLIP和OpenAICLIP的少樣本性能碧磅。Sup.表示監(jiān)督學習。

Application to classification of rare diseases

  1. 盡管先前的研究主要集中在評估視覺語言預訓練模型在相對狹窄任務(wù)上的零樣本和少樣本性能遵馆,這些任務(wù)通常對應(yīng)于一小組可能的類別(2-5個類別)鲸郊,但據(jù)我們所知,這些模型在涉及罕見疾病的大規(guī)模货邓、可能是細粒度的疾病分類中的有效性尚未被研究秆撮。
  2. 在此,我們研究了CONCH在識別多達30種腦腫瘤類別中的效用换况,所有這些腫瘤根據(jù)RARECARE項目的定義被歸類為罕見癌癥职辨,即年粗發(fā)病率小于每10萬人6例,這一定義被美國國家癌癥研究所的監(jiān)測戈二、流行病學和最終結(jié)果(SEER)項目所采用舒裤。
  3. 我們使用EBRAINS數(shù)據(jù)集構(gòu)建了一個大規(guī)模的亞型分類基準,并評估了各種模型的零樣本和監(jiān)督學習的有效性挽拂。
  4. 在零樣本分類中惭每,CONCH 在 30 類亞型問題上實現(xiàn)了 37.1% 的平衡準確率(Extended Data Fig. 7 和 Supplementary Table 20),遠遠超過了 3.3% 的隨機機會基線亏栈,以及第二好的視覺語言預訓練零樣本分類器 BiomedCLIP (+17.0%台腥,P < 0.01)。
  5. 然而绒北,這些模型的一般低零樣本性能表明黎侈,當前一代視覺語言基礎(chǔ)模型可能尚不具備直接執(zhí)行"在野外",即開放集識別病理學中多種疾病的能力闷游,并且在涉及多個類別和罕見實體的更具挑戰(zhàn)性的基準測試中峻汉,它們可能會實現(xiàn)有限的性能。
  6. 接下來脐往,我們研究了我們的視覺編碼器的預訓練表示質(zhì)量休吠,用于訓練弱監(jiān)督的ABMIL分類模型。
  7. 與前一節(jié)類似业簿,我們還包括了預訓練視覺編碼器的其他基線瘤礁,包括CTransPath、KimiaNet64和截斷的ResNet50(ImageNet初始化權(quán)重)梅尤。
  8. 我們發(fā)現(xiàn)柜思,雖然CONCH的零次學習性能由于任務(wù)的挑戰(zhàn)性質(zhì)而受到限制岩调,但凍結(jié)的CONCH編碼器的圖像嵌入可以與弱監(jiān)督學習結(jié)合使用,以開發(fā)出性能強大的分類模型赡盘。
  9. 具體來說号枕,CONCH與ABMIL結(jié)合實現(xiàn)了68.2%的平衡準確率(Extended Data Fig. 7a和Supplementary Table 21),超過了視覺僅有的自監(jiān)督學習(SSL)預訓練的CTransPath模型(+6.8%陨享,P < 0.01)葱淳,以及所有其他視覺語言預訓練模型(+10.7%,P < 0.01 for PLIP霉咨,+14.4%蛙紫,P < 0.01 for BiomedCLIP和+17.8%,P < 0.01 for OpenAICLIP)途戒。
  10. 這些結(jié)果表明,強大的預訓練視覺語言模型可以作為標準弱監(jiān)督學習的計算病理工作流的有效圖像編碼器僵驰,即使任務(wù)主要涉及罕見疾病喷斋。
  11. 最后,我們還研究了各種模型的少次學習性能蒜茴,動機是罕見疾病診斷模型的訓練需要高標簽效率星爪,因為數(shù)據(jù)可用性有限。
  12. 我們觀察到CONCH與所有其他測試模型相比具有更好的標簽效率粉私,其他模型通常需要大約四倍的標簽才能達到可比的性能(Extended Data Fig. 7b)顽腾。

Zero-shot cross-modal retrieval

  1. 通過學習視覺和語言嵌入的對齊潛在空間,我們的模型能夠在零射擊設(shè)置中進行跨模態(tài)檢索诺核,即根據(jù)圖像查詢檢索相應(yīng)的文本條目(圖像到文本抄肖,縮寫為'i2t')或反之亦然(文本到圖像,縮寫為't2i')窖杀。
  2. 這個任務(wù)自然適用于圖像搜索應(yīng)用漓摩,在生物醫(yī)學領(lǐng)域,這些應(yīng)用對于諸如確定研究隊列或臨床試驗中包含的病例入客、幫助罕見疾病的表現(xiàn)或形態(tài)學以及收集病例或幫助創(chuàng)建教育資源等應(yīng)用是有用的管毙。
  3. 為了執(zhí)行文本到圖像檢索(圖像到文本方向是類似的),我們使用文本編碼器將文本輸入嵌入到作為查詢的文本中桌硫。
  4. 然后夭咬,我們使用查詢文本嵌入在潛在空間中檢索相似的圖像(圖4b)。

Fig. 4: Zero-shot cross-modal retrieval.

  1. a铆隘,模型在跨模態(tài)檢索中的性能在三個圖像-文本對數(shù)據(jù)集上進行了評估(來源A卓舵,n?=?797;來源B咖驮,n?=?1,755边器;TCGA LUAD训枢,n?=?165)。通過計算查詢圖像與數(shù)據(jù)庫中所有文本樣本在嵌入空間中的相似度忘巧,檢索出前K個最相似的文本恒界。我們報告了K?∈?{1,?5,?10}時的Recall@K以及平均召回率(即對K進行平均)。我們展示了每個檢索任務(wù)的文本到圖像(上排)和圖像到文本(下排)檢索結(jié)果(列)砚嘴。最右列報告了每個指標在所有任務(wù)中的平均值十酣。CONCH在所有檢索任務(wù)上都優(yōu)于其他基準模型。誤差條表示95%置信區(qū)間际长。
  2. b耸采,零樣本圖像到文本檢索的示意圖(文本到圖像的方向類似)。
  3. c工育,使用LUAD相關(guān)查詢從TCGA LUAD中檢索出的前五個圖像示例虾宇,右上角顯示余弦相似度得分。使用更廣泛查詢的其他數(shù)據(jù)集示例顯示在擴展數(shù)據(jù)圖7中如绸≈鲂啵總體而言,我們發(fā)現(xiàn)模型檢索到的圖像與文本提示中描述的內(nèi)容相符怔接。
  1. 我們在三個圖像-標題數(shù)據(jù)集上評估了我們的模型搪泳,分別是來源A和來源B(這兩個數(shù)據(jù)集都是模型預訓練時未使用的來源,涵蓋了廣泛的病理學概念)以及TCGA LUAD(一個更為具體的數(shù)據(jù)集扼脐,由TCGA中LUAD切片提取的瓦片組成岸军,并由我們內(nèi)部團隊進行注釋)。
  2. 根據(jù)之前的研究31,44,54瓦侮,我們使用Recall@K作為跨模態(tài)檢索的指標(詳見方法部分艰赞,以獲取檢索數(shù)據(jù)集的更詳細描述)。
  3. 平均而言脏榆,CONCH 在三個數(shù)據(jù)集上的表現(xiàn)遠遠超過了基線模型猖毫,實現(xiàn)了 44.0% 的文本到圖像檢索平均召回率,并且根據(jù)雙邊配對置換檢驗(圖 4a)须喂,其優(yōu)于下一個最好的模型 BiomedCLIP 17.3%(P < 0.01)吁断。
  4. 對于來源 A 和來源 B,CONCH 分別實現(xiàn)了 68.8% 和 39.0% 的文本到圖像檢索平均召回率坞生,優(yōu)于第二好的模型 BiomedCLIP 31.5% 和 15.1%(兩者均 P < 0.01)仔役。
  5. 對于 TCGA LUAD,CONCH 實現(xiàn)了 24.0% 的文本到圖像平均召回率是己,優(yōu)于下一個最好的模型 BiomedCLIP 5.3%又兵,但無統(tǒng)計學意義(P = 0.22)。
  6. 然而,CONCH 顯著優(yōu)于 PLIP 和 OpenAICLIP(P < 0.01)沛厨。
  7. 所有三個數(shù)據(jù)集的圖像到文本檢索均遵循與文本到圖像檢索相同的趨勢宙地,除了 TCGA LUAD,CONCH 和 BiomedCLIP 之間的差距略心嫫ぁ(1.6%)宅粥。
  8. 我們建議讀者參考補充表 22-27 以獲取更詳細的模型性能報告。
  9. 基于這些結(jié)果电谣,CONCH 能夠比基線模型執(zhí)行更準確的跨模態(tài)檢索秽梅。
  10. 除了使用配對的標題作為查詢外,我們還展示了使用CONCH在TCGA LUAD數(shù)據(jù)集上檢索與LUAD相關(guān)概念的簡單文本提示(例如剿牺,"實體模式LUAD")的結(jié)果示例(圖4c)企垦。
  11. 為了提供更復雜的文本查詢示例,例如"cribriform prostatic adenocarcinoma"晒来,我們使用了一個包含321,261個圖塊的高多樣性數(shù)據(jù)集钞诡,這些圖塊從1,620個預訓練期間保留的病例中抽取,涵蓋了108個OncoTree65代碼(擴展數(shù)據(jù)圖8)潜索。
  12. 然而臭增,由于該數(shù)據(jù)集沒有配對的文本數(shù)據(jù),我們無法量化檢索性能竹习。
  13. 所呈現(xiàn)的示例已被病理學家確認能夠緊密代表文本查詢。

Zero-shot segmentation

  1. 雖然全幻燈片圖像(WSI)可以達到千兆像素的大小列牺,但它們通常是異質(zhì)的整陌,具有多種細胞類型、形態(tài)和組織結(jié)構(gòu)瞎领,每種類型通常占幻燈片的一小部分泌辫。
  2. 因此,在幻燈片級別進行分割是一項困難且有用的任務(wù)九默,旨在根據(jù)感興趣的特征識別WSI的不同區(qū)域震放,并且可以減少下游應(yīng)用所需的圖塊數(shù)量。
  3. 然而驼修,由于子幻燈片級別的標注數(shù)據(jù)收集昂貴且耗時殿遂,因此能夠在零樣本設(shè)置中執(zhí)行幻燈片級別分割的通用模型是有價值的。
  4. 在這項工作中乙各,我們探索了在沒有標記示例的情況下在WSI上執(zhí)行粗粒度組織分割的可能性墨礁,而是直接使用我們模型展示的零樣本檢索和分類能力。
  5. 給定一張全掃描圖像(WSI)耳峦,我們將組織區(qū)域劃分為較小的圖像塊恩静,并將給定的分割任務(wù)視為使用零次分類對每個塊進行分類,并將預測的類別標簽分配給塊中的所有像素蹲坷,對所有塊執(zhí)行此操作(圖5a)驶乾。
  6. 為了最小化相鄰塊邊界處像素的預測值的急劇變化邑飒,我們以75%的重疊度對WSI進行塊劃分,并在重疊區(qū)域平均預測分數(shù)级乐,以實現(xiàn)預測分割圖中更平滑的外觀疙咸。
  7. 我們在SICAP上評估了我們的模型,用于前列腺腫瘤與正常組織的分割唇牧,以及在DigestPath上用于CRC樣本中惡性與良性組織的分割罕扎。
  8. 我們報告了廣泛使用的Dice評分,以及每個任務(wù)的精度和召回率丐重,與真實像素級注釋相比腔召,評分在每個數(shù)據(jù)集的所有圖像上進行了宏觀平均(更多詳細信息請參見方法)。
  9. 我們建議讀者參考補充表28和29以獲取模型性能的更多詳細結(jié)果扮惦。
  10. CONCH 在兩個任務(wù)中都優(yōu)于其他模型(圖 5b臀蛛,c)。
  11. 在 SICAP 中崖蜜,CONCH 獲得了平均 Dice 分數(shù) 0.601(0.549浊仆,P = 0.08 對于 PLIP 和 0.484,P < 0.01 對于 BiomedCLIP)豫领,平均召回率 0.751(0.644抡柿,P < 0.01 對于 PLIP 和 0.557,P < 0.01 對于 BiomedCLIP)和平均精度 0.672(0.605等恐,P = 0.024 對于 PLIP 和 0.536洲劣,P < 0.01 對于 BiomedCLIP)。
  12. 在 DigestPath 中课蔬,CONCH 獲得了平均 Dice 分數(shù) 0.615(0.426囱稽,P < 0.01 對于 PLIP 和 0.446,P < 0.01 對于 BiomedCLIP)二跋,平均召回率 0.709(0.541战惊,P < 0.01 對于 PLIP 和 0.601,P < 0.01 對于 BiomedCLIP)和平均精度 0.663(0.526扎即,P = 0.024 對于 PLIP 和 0.581吞获,P < 0.01 對于 BiomedCLIP)。
  13. 此外铺遂,我們發(fā)現(xiàn)衫哥,盡管該方法是粗粒度和零射擊的,但模型能夠在某些情況下產(chǎn)生相當準確的像素級分割掩碼襟锐,如圖 5d撤逢,e 所示。

Fig. 5: Zero-shot segmentation.

  1. a,示意圖展示了在WSIs(或大型組織切片)上的零樣本分割蚊荣。為了執(zhí)行分割初狰,我們將每個WSI劃分為多個瓦片,并使用零樣本分類來預測每個瓦片的標簽互例。然后將瓦片級預測拼接在一起奢入,形成預測的分割掩碼。
  2. b,c媳叨,CONCH和基準模型在SICAP(n?=?31)(b)和DigestPath(n?=?250)(c)數(shù)據(jù)集上的零樣本分割性能腥光。報告了宏平均Dice分數(shù)、精度和召回率糊秆。誤差條表示95%置信區(qū)間武福。
  3. d,e,CONCH在WSIs上的分割預測示例痘番,分別來自SICAP (d)和DigestPath (e)捉片。左側(cè)面板顯示了真實標簽,右側(cè)面板顯示了預測的分割掩碼汞舱,并放大了示例區(qū)域伍纫。紅色表示腫瘤組織,藍色表示正常組織昂芜。
  4. 總體而言莹规,在這些示例中,CONCH表現(xiàn)出對腫瘤區(qū)域的極高敏感性泌神,但特異性略低访惜,盡管CONCH將部分非腫瘤區(qū)域分割為腫瘤區(qū)域,但這些區(qū)域通常鄰近癌性腺體或包含與癌癥相關(guān)的基質(zhì)腻扇,無論是在SICAP還是DigestPath數(shù)據(jù)集中。

Discussion

  1. 計算病理學中大多數(shù)之前的工具試圖從圖像數(shù)據(jù)和/或結(jié)構(gòu)化的患者數(shù)據(jù)(如基因組學)中提取有意義的模式和判別信號砾嫉,但忽略了病理學的文本方面幼苛。
  2. 然而,這些方法遺漏了圖像描述中大量的信息焕刮,這些信息允許病理學培訓者從少數(shù)示例圖像推廣到現(xiàn)實世界中通常更為多樣化的圖像舶沿。
  3. 雖然最近的幾項研究嘗試利用社交媒體或生物醫(yī)學研究文章中的圖像和標題數(shù)據(jù)來構(gòu)建適用于組織病理學領(lǐng)域的視覺語言基礎(chǔ)模型,但我們發(fā)現(xiàn)配并,在多項任務(wù)中括荡,它們的零樣本和監(jiān)督分類性能仍然有限,限制了它們作為組織病理學通用識別或檢索系統(tǒng)的實際價值溉旋。
  4. 此外畸冲,除了在小型興趣區(qū)域(ROI)上工作之外,這些模型在更復雜的環(huán)境中(例如,罕見疾病的分類或異質(zhì)性千兆像素全幻燈片圖像的腫瘤分割)中的表現(xiàn)仍然未被充分探索邑闲。
  5. 在這項研究中算行,我們展示了通過使用目前最大規(guī)模的病理學特定配對圖像文本數(shù)據(jù)集(超過117萬個示例),用于任務(wù)不可知的預訓練苫耸,我們可以構(gòu)建一個高性能的視覺語言基礎(chǔ)模型州邢,該模型可以在各種臨床相關(guān)的下游任務(wù)中展示其實用性,例如分類褪子、檢索和組織分割量淌。
  6. 我們的模型具備強大的零樣本識別能力,可以在很多特定分類任務(wù)中減輕注釋訓練樣本的負擔嫌褪,我們展示了其零樣本性能通常與傳統(tǒng)的監(jiān)督學習基線相匹配甚至在少樣本設(shè)置下超越了它們呀枢。
  7. 此外,我們的模型大大改進了零樣本圖像到文本和文本到圖像檢索能力渔扎,這將可能使受訓者硫狞、醫(yī)生和研究人員能夠更準確、更靈活地根據(jù)圖像或自然語言查詢檢索相關(guān)的病例或教育示例晃痴,一旦它可以被高效地集成到醫(yī)療保健系統(tǒng)或數(shù)據(jù)庫中残吩。
  8. 配備了多模態(tài)解碼器,我們的視覺語言基礎(chǔ)模型還提供了在下游任務(wù)中進行語言生成(例如圖像字幕倘核;參見方法‘使用微調(diào)的字幕’獲取詳細信息和擴展數(shù)據(jù)圖9和補充表30獲取探索性結(jié)果)和/或基于視覺和文本輸入的多模態(tài)推理的靈活性泣侮。
  9. 然而,除了在特定任務(wù)中取得有希望的結(jié)果外紧唱,我們還發(fā)現(xiàn)并指出當前的視覺語言預訓練模型活尊,包括CONCH,在涉及大量類別和罕見疾病的具有挑戰(zhàn)性的零樣本問題上仍然表現(xiàn)不佳(相對于其監(jiān)督學習對應(yīng)物而言)漏益。
  10. 這些觀察結(jié)果表明蛹锰,我們在構(gòu)建一個能夠真正實現(xiàn)通用零樣本識別或檢索的基礎(chǔ)模型之前可能仍然有很長的路要走。
  11. 我們還進行了消融實驗绰疤,以研究數(shù)據(jù)過濾铜犬、不同的預訓練算法和單模態(tài)預訓練對我們模型性能的影響氛谜。
  12. 最值得注意的是播聪,我們發(fā)現(xiàn)進行單模態(tài)預訓練(尤其是視覺編碼器SSL預訓練)可以在大多數(shù)任務(wù)中提高模型在零樣本分類和檢索中的性能(更多詳細信息請參見擴展數(shù)據(jù)圖10)。
  13. 另一個相對未被充分探索的方面是視覺語言預訓練基礎(chǔ)模型與傳統(tǒng)端到端監(jiān)督學習的兼容性适秩,后者旨在針對特定任務(wù)余爆。對于一些被廣泛研究的單一疾病模型任務(wù)纷宇,例如前列腺腺癌Gleason分級,世界各地的各個團體已經(jīng)付出了巨大的努力來建立大型且多樣化的數(shù)據(jù)集蛾方,這些數(shù)據(jù)集具有詳細的ROI或像素級注釋像捶,適合于端到端監(jiān)督機器學習上陕。
  14. 一個自然的問題是,鑒于大量的注釋數(shù)據(jù)作岖,預訓練一個基礎(chǔ)模型在來自不同組織類型和疾病的圖像和標題上是否仍然會為這些特定任務(wù)帶來切實的好處唆垃?
  15. 我們試圖通過匯集來自多個公開來源的超過200,000個標記的ROI,為前列腺癌Gleason分級任務(wù)提供一些洞察痘儡,然后執(zhí)行我們視覺編碼器的端到端微調(diào)辕万,以及一系列其他預訓練的標準卷積神經(jīng)網(wǎng)絡(luò)(CNN)-based和視覺轉(zhuǎn)換器(ViT)-based模型,包括特定領(lǐng)域的編碼器沉删,如KimiaNet64和CTransPath62渐尿。
  16. 在我們的實驗中,我們發(fā)現(xiàn)矾瑰,即使有成千上萬個標記的ROI與從ImageNet權(quán)重或SSL預訓練的遷移學習相結(jié)合砖茸,一個微調(diào)的CONCH模型仍然可以提供相當大的改進,即使與一個更大的ViT-Large模型相比(補充表31)殴穴。
  17. 雖然最近的一項調(diào)查發(fā)現(xiàn)凉夯,當前的視覺語言預訓練基礎(chǔ)模型在使用特定算法的WSI-to-WSI匹配特定場景中可能表現(xiàn)得比較小的編碼器更差,但我們的實驗結(jié)果表明采幌,無論是在罕見疾病的少樣本分類還是弱監(jiān)督分類劲够,以及端到端的微調(diào)中,CONCH都可以作為組織病理學圖像的最先進的視覺編碼器休傍,并提供一個共享的圖像文本潛在空間征绎,解鎖額外的多模態(tài)能力。
  18. 然而磨取,這些發(fā)現(xiàn)強調(diào)了持續(xù)研究和評估的重要性人柿,以更好地理解基礎(chǔ)模型在計算病理學中的優(yōu)勢和局限性。
  19. 我們的研究的一個關(guān)鍵限制是數(shù)據(jù)預訓練的規(guī)模忙厌,與一般機器學習社區(qū)中用于開發(fā)大規(guī)模視覺語言基礎(chǔ)模型的億級數(shù)據(jù)集相比仍然相形見絀凫岖;因此,通過增加組織病理學圖像標題數(shù)據(jù)集的數(shù)量和質(zhì)量逢净,我們可能會看到零拍識別能力隘截、表示質(zhì)量和魯棒性的進一步潛在改進。
  20. 然而汹胃,鑒于預訓練中使用的數(shù)據(jù)規(guī)模越來越大,預訓練數(shù)據(jù)和下游測試數(shù)據(jù)之間無意中重疊的可能性也越來越高东臀,這也是生物醫(yī)學領(lǐng)域以前視覺語言預訓練方法所共有的限制着饥。
  21. 檢測和刪除重復項和近似重復項通常依賴于啟發(fā)式方法和手動評估,這在生物醫(yī)學領(lǐng)域尚未得到充分探索惰赋,成為未來工作的開放性研究問題宰掉。
  22. 在這項研究中呵哨,我們通過確保沒有公開可用的測試數(shù)據(jù)集直接源自任何訓練源,并且只在源級別保留數(shù)據(jù)轨奄,從而最小化了數(shù)據(jù)重疊的可能性孟害。
  23. 該研究的另一個局限性是,我們沒有研究零拍分類(對于圖像ROI和WSI)在不同數(shù)據(jù)隊列中的魯棒性挪拟,這些隊列可能具有不同的染色變異挨务、組織制備協(xié)議和掃描儀特定的成像配置文件,與使用傳統(tǒng)的監(jiān)督學習或參數(shù)高效的微調(diào)技術(shù)相比玉组。
  24. 此外谎柄,雖然我們表明簡單地組合少量模板和病理學家編寫的類名已經(jīng)可以很好地適用于多個任務(wù),但我們沒有嘗試根據(jù)模型的性能顯式地設(shè)計提示(例如惯雳,使用驗證集)朝巫。
  25. 我們注意到,在小型驗證集(如果可用)上顯式搜索"好"提示可能在實踐中更有效石景,同時仍然保留不需要微調(diào)模型的好處劈猿,盡管它將不再被嚴格地認為是零拍轉(zhuǎn)移。
  26. 此外潮孽,作為WSI的零拍分類算法揪荣,MI-Zero僅適用于每個類的定義形態(tài)模式相互排斥的任務(wù),它可能不適用于具有特定假設(shè)或指南的任務(wù)恩商。
  27. 這包括諸如Gleason評分之類的任務(wù)变逃,其中可能需要考慮主要和次要模式以通知分類,或者腫瘤與正常分類怠堪,其中幻燈片可能在識別單個腫瘤區(qū)域后被適當標記為"陽性"揽乱。
  28. 我們注意到,對于這些類型的任務(wù)粟矿,MI-Zero的池化函數(shù)可以調(diào)整以更好地適應(yīng)任務(wù)的性質(zhì)凰棉,我們將其實現(xiàn)和評估留給未來的研究。
  29. 最后陌粹,雖然當前的視覺語言基礎(chǔ)模型的組織病理學景觀主要關(guān)注圖像級任務(wù)撒犀,但這些模型在區(qū)域級別(即細胞甚至亞細胞級別)識別細粒度視覺概念的能力尚未得到研究,這意味著其他重要任務(wù)掏秩,如有絲分裂檢測或舞、細粒度組織分割或細胞計數(shù),目前仍然超出了它們的下游能力范圍蒙幻。

Methods

Dataset curation

數(shù)據(jù)集管理

  1. 本研究使用的大部分數(shù)據(jù)來自公開可用的研究文章映凳。對于內(nèi)部數(shù)據(jù),馬薩諸塞州總醫(yī)院布萊根婦女醫(yī)院的機構(gòu)審查委員會批準了對內(nèi)部病理圖像邮破、相應(yīng)報告和電子記錄的回顧性分析诈豌。所有內(nèi)部數(shù)字數(shù)據(jù)仆救,包括WSI、病理報告和電子病歷矫渔,在計算分析和模型開發(fā)之前都進行了去標識化處理彤蔽。患者未直接參與或被招募參與該研究庙洼。對回顧性分析檔案病理切片的知情同意被豁免顿痪。
  2. 我們使用來自PubMed的公開文章來整理迄今為止最大的組織病理學圖像-標題對數(shù)據(jù)集。我們使用深度學習迭代地自動化數(shù)據(jù)清理過程送膳。為了整理數(shù)據(jù)员魏,我們將數(shù)據(jù)來源分為兩類:EDU(由教育筆記中提取的數(shù)據(jù)組成)和PMC OA(由PubMed Central開放獲取數(shù)據(jù)集下載的數(shù)據(jù)組成)。
  3. 數(shù)據(jù)整理過程中面臨兩個主要挑戰(zhàn):過濾組織病理學數(shù)據(jù)和處理圖像面板叠聋。第一個挑戰(zhàn)是下載的原始數(shù)據(jù)包含了組織病理學和非組織病理學的示例撕阎。第二個挑戰(zhàn)是大部分數(shù)據(jù)是以圖像面板的形式存在的,其中圖像由多個子圖像組成碌补,這些子圖像排列在一個面板中虏束,標題的部分內(nèi)容涉及所有或部分子圖像。鑒于這些挑戰(zhàn)厦章,手動清理數(shù)據(jù)是不可行的镇匀。
  4. 我們分三個步驟清理數(shù)據(jù):(1)檢測組織病理學圖像(作為單個圖像或子圖像);(2)將指向圖像面板的標題拆分為子標題袜啃;(3)在每個圖像面板內(nèi)將子圖像與子標題對齊汗侵。
  5. 為了檢測組織病理學圖像,我們使用了一個對象檢測模型(YOLOv5)生成邊界框群发,以提取檢測到的圖像晰韵。為了避免手動標記真實邊界框的繁重任務(wù),我們通過隨機選擇單面板圖像并將它們排列在一個圖像面板中來生成合成數(shù)據(jù)熟妓。我們通過在PMC OA的一個小子集(<0.5%)上驗證模型雪猪,并將錯誤標記的樣本添加到訓練集中,迭代優(yōu)化檢測模型起愈。
  6. 對于標題拆分只恨,我們收集了原始標題和拆分標題的數(shù)據(jù)集(在清理EDU數(shù)據(jù)集時)以微調(diào)一個在PubMed和其他醫(yī)學文本上預訓練的生成式預訓練變壓器(GPT)風格模型。我們將標題拆分問題設(shè)定為因果語言建模抬虽,通過微調(diào)語言模型使其將原始完整標題作為輸入官觅,并預測以關(guān)鍵字“next caption”分隔的子標題。我們使用微調(diào)后的模型進行標題拆分阐污。
  7. 為了將檢測到的組織病理學圖像與拆分后的標題對齊缰猴,我們首先在清理后的EDU數(shù)據(jù)集上訓練了一個CLIP模型,并結(jié)合了不需要拆分和對齊的PMC OA單幅圖像疤剑。使用訓練好的模型滑绒,給定一個圖像面板中的m個檢測到的圖像和n個拆分后的標題,我們在對齊的潛在空間中計算圖像嵌入{u0,?u1,?…,?um}和文本嵌入{v0,?v1,?…,?vn}隘膘。對于每個圖像嵌入ui疑故,我們計算其與每個文本嵌入vj的余弦相似度得分。我們檢索具有最高余弦相似度得分的文本弯菊,并將{ui,?vj}視為我們清理后的數(shù)據(jù)集中的圖像-標題對纵势。
  8. 通過將上述三個步驟應(yīng)用于PMC OA,我們創(chuàng)建了PMC-Path管钳,這是一個由PubMed圖像派生的病理學特定圖像-標題數(shù)據(jù)集钦铁。然后我們將其與EDU結(jié)合,形成了我們完整的才漆、未過濾的預訓練數(shù)據(jù)集牛曹,共包含1,786,362個圖像-標題對。
  9. 然而醇滥,PMC-Path中也包含了相當數(shù)量的動物組織病理學對以及非蘇木精和伊紅(H&E)染色對(如免疫組化黎比、馬松三色、剛果紅等)鸳玩。由于我們的下游評估僅涉及人類組織病理學和H&E任務(wù)阅虫,我們希望評估動物和特殊染色數(shù)據(jù)對性能的影響。我們首先解析標題以排除非人類動物樣本不跟,形成了一個包含1,170,647個人類對的數(shù)據(jù)集颓帝。此外,我們訓練了一個分類器來識別H&E染色窝革,以進一步過濾僅有人類的H&E染色數(shù)據(jù)集购城,最終創(chuàng)建了一個包含457,372對的數(shù)據(jù)集。我們發(fā)現(xiàn)聊闯,在人類數(shù)據(jù)集上預訓練的CONCH在一般下游任務(wù)中表現(xiàn)最佳(擴展數(shù)據(jù)圖10a)工猜。

Visual-language pretraining

視覺語言預訓練

  1. 在視覺-語言預訓練中,我們使用了圖像-文本對比損失和標題生成損失的等權(quán)重組合菱蔬,遵循了CoCa32篷帅,這是一個在通用領(lǐng)域圖像-標題對上預訓練的最先進的視覺-語言基礎(chǔ)模型。模型由圖像編碼器f(???;?θ)拴泌、文本編碼器g(???;??)和多模態(tài)文本解碼器h(???;?ψ)組成魏身。
  2. 圖像編碼器包括骨干網(wǎng)絡(luò)和兩個注意力池化模塊,分別由θbackbone蚪腐、θcontrast和θcaption參數(shù)化箭昵。骨干網(wǎng)絡(luò)是一個ViT73,遵循標準的ViT-base架構(gòu)回季,具有12個transformer層家制、12個注意力頭正林、768的嵌入維度和3,072的隱藏維度。token大小為16?×?16颤殴,并為每個token添加了學習的絕對位置嵌入觅廓。骨干網(wǎng)絡(luò)將原始的紅-綠-藍(RGB)像素值形式的圖像轉(zhuǎn)換為在更豐富語義表示空間中學習到的密集特征圖。
  3. 每個注意力池化器負責使用多頭注意力和n個學習查詢涵但,從ViT骨干網(wǎng)絡(luò)的最后一層表示中計算出固定數(shù)量(記為n)的圖像tokens杈绸。為了通過對比學習實現(xiàn)跨模態(tài)檢索,第一個注意力池化器fcontrast(???;?θcontrast)使用單一查詢(ncontrast?=?1)計算出一個單一的圖像token矮瘟,旨在捕獲圖像的全局表示瞳脓。第二個注意力池化器fcaption(???;?θcaption)使用ncaption?=?256個查詢生成一組256個圖像tokens,旨在捕獲圖像的更多局部和細粒度的細節(jié)澈侠,這通常是生成標題所需要的劫侧。
  4. 文本編碼器和多模態(tài)解碼器均為GPT風格的模型,使用因果注意力掩碼進行從左到右的自回歸語言建模埋涧。與圖像編碼器類似板辽,文本編碼器和多模態(tài)解碼器由12個transformer層組成,嵌入維度為768棘催,隱藏維度為3,072劲弦。文本編碼器包括一個嵌入表,用于將離散詞token映射到連續(xù)嵌入醇坝,以及一組學習的絕對位置嵌入邑跪。
  5. 此外,文本編碼器在每個標記化標題后附加了一個學習的<CLS> token呼猪,該token在transformer注意力期間可以訪問完整的上下文画畅,以提取給定標題的全局表示。多模態(tài)解碼器在每個多頭自注意力層之后插入一個交叉注意力層宋距,以整合圖像token的信息轴踱,并包括一個最終的語言建模頭,用于預測支持的詞匯表中的下一個token的分布谚赎。
  6. 在視覺-語言預訓練期間淫僻,一個小批量包含M個圖像-標題對,其中wi = (<BOS>, wi,1,?…,?wi,T, <EOS>)是表示第i個標題的T個詞token序列壶唤。對于給定的對(xi,?wi)雳灵,我們將(ui,?vi)定義為fcontrast(???;?θcontrast)的輸出以及g(???;??)在<CLS> token位置處的輸出,經(jīng)過?2正則化后闸盔。
  7. 完整的目標函數(shù)表示為:
  8. 第一項和第二項分別表示圖像到文本和文本到圖像的對比損失悯辙,旨在最大化配對圖像和文本嵌入之間的余弦相似度分數(shù),相對于小批量中的其余負配對。最后一項旨在最大化多模態(tài)自回歸語言模型(由圖像編碼器躲撰、文本編碼器和多模態(tài)解碼器共同參數(shù)化)在觀察到的每個token下的對數(shù)似然针贬,條件為標題中的前一個token以及相應(yīng)的圖像。
  9. 每個視覺-語言預訓練實驗訓練了40個周期拢蛋,分布在八個NVIDIA A100 80-GB圖形處理單元(GPU)上坚踩,每個GPU的本地批量大小為48,使用梯度累積實現(xiàn)1,536的有效全局批量大小瓤狐。我們將圖像大小設(shè)置為448?×?448像素,較大的圖像首先沿較短邊調(diào)整大小并進行中心裁剪批幌,較小的圖像根據(jù)需要進行零填充础锐。所有優(yōu)化超參數(shù)詳見補充表32。

Pretraining unimodal encoders

預訓練單模態(tài)編碼器

  1. 之前的工作56表明荧缘,在使用成對的圖像-字幕數(shù)據(jù)進行聯(lián)合視覺-語言預訓練之前皆警,使用未配對的數(shù)據(jù)對單模塊進行自監(jiān)督預訓練,可以顯著提高下游零樣本轉(zhuǎn)移性能截粗。
  2. 我們使用iBOT74對圖像編碼器進行預訓練信姓,這是一種最先進的、自監(jiān)督的預訓練算法绸罗,適用于未標記的圖像數(shù)據(jù)意推。
  3. 我們從21,442張WSI的組織區(qū)域中以×20倍的放大率抽取并提取了1600萬張256×256大小的圖像塊,這些WSI涵蓋了OncoTree分類系統(tǒng)65中的350種癌癥亞型珊蟀。
  4. 圖像預訓練的詳細超參數(shù)在補充表33中提供菊值。
  5. 為了預訓練語言模型,我們建立了一個多樣化的病理相關(guān)文本語料庫育灸,范圍從病理教育文本到馬薩諸塞州總醫(yī)院的超過55萬份手術(shù)病理報告的最終診斷部分腻窒,以及超過40萬份精選的病理相關(guān)PubMed摘要。
  6. 我們使用正則表達式對內(nèi)部診斷報告進行了匿名處理磅崭,特別是將患者和醫(yī)生姓名儿子、樣本標識符、醫(yī)療記錄號碼和日期替換為詞匯表中的相應(yīng)特殊標記砸喻。
  7. 我們預訓練了一個24層的GPT風格的自回歸模型柔逼,使用下一個單詞預測損失。
  8. 具體來說恩够,給定一個單詞令牌序列w = (<BOS>, w1, …, wT, <EOS> )卒落,我們在參數(shù)化為ξ的自回歸生成模型下最大化每個令牌的對數(shù)似然:
  9. 僅文本預訓練的詳細超參數(shù)在補充表34中提供。在預訓練后蜂桶,基于Transformer的語言模型的前12層和嵌入表被用來初始化單模態(tài)文本編碼器儡毕,而最后12層和語言建模分類器頭被用來初始化多模態(tài)解碼器中的相應(yīng)參數(shù)。
  10. 我們通過比較上述單模態(tài)領(lǐng)域特定預訓練方案與使用ImageNet預訓練的圖像編碼器的CONCH以及語言模型隨機初始化的CONCH在下游任務(wù)中的性能來評估單模態(tài)預訓練的好處(擴展數(shù)據(jù)圖10)。
  11. 我們發(fā)現(xiàn)腰湾,使用領(lǐng)域特定預訓練的CONCH在零次學習遷移和檢索任務(wù)中都優(yōu)于使用ImageNet預訓練的CONCH雷恃。
  12. 使用預訓練語言模型的CONCH在分類和分級任務(wù)中與使用隨機初始化語言模型的CONCH表現(xiàn)相似,但在檢索任務(wù)中優(yōu)于后者费坊。

Zero-shot transfer on ROIs and tiles

對興趣區(qū)域和圖塊進行零次遷移

  1. 對于零樣本遷移倒槐,我們使用了CLIP中描述的方法。每個類別都與一個包含類別名稱(例如附井,“腺癌”)和模板(例如讨越,“this is {}.”)的文本提示相關(guān)聯(lián)(參見補充表35,了解所有任務(wù)中使用的模板)永毅。對于與類別j?∈?{1,?2,?…,?C}相關(guān)的提示把跨,我們使用在配對數(shù)據(jù)集上訓練的文本編碼器計算?2歸一化的嵌入vj,以形成線性分類器的權(quán)重沼死。
  2. 由于模型性能可能因提示的選擇而顯著變化着逐,我們通過從病理學家整理的一組提示中采樣子集并報告中位數(shù)來測量性能差異∫庵或者耸别,我們也可以通過對一個類別內(nèi)的所有提示取平均嵌入,作為該類別的文本嵌入县钥,來進行集成(參見擴展數(shù)據(jù)圖2秀姐,了解有無集成的比較)。
  3. 類似地魁蒜,對于每個圖像囊扳,我們計算?2歸一化的嵌入ui。然后兜看,我們計算圖像與每個文本嵌入之間的余弦相似度分數(shù)锥咸,預測類別是具有最高相似度分數(shù)的類別:
  4. 由于某些評估集是不平衡的,我們報告了平衡準確率(即對每個類別的準確率進行宏平均)和按每個類別的支持數(shù)加權(quán)的平均F1分數(shù)细移。對于SICAP搏予,我們還報告了二次Cohen’s κ分數(shù),這通常用于前列腺Gleason分級弧轧,其中相鄰分級類別之間的錯誤懲罰較小雪侥。
  5. 類似地,對于跨模態(tài)檢索精绎,我們使用與上述零樣本分類相同的方法來檢索在對齊的潛在空間中最接近特定文本查詢的前K個圖像(文本到圖像檢索)速缨。圖像到文本檢索的操作方式類似。為了評估檢索代乃,我們遵循ALIGN的方法旬牲,使用Recall@K仿粹,即在測試集中正確結(jié)果出現(xiàn)在前K個檢索樣本中的百分比。我們選擇了K?∈?{1,?5,?10}原茅,并通過對三個Recall@K值進行平均來報告平均召回率吭历。
  6. 除非另有說明,我們通過圖像縮放和中心裁剪將CONCH的最大圖像尺寸限制為448?×?448擂橘,類似于其預訓練配置晌区。對于所有不是我們模型的其他模型,我們在下游評估中使用了它們提供的處理函數(shù)和默認配置進行圖像和文本處理通贞。

Extending zero-shot transfer to WSIs

將零樣本遷移擴展到WSIs

  1. 為了將零樣本轉(zhuǎn)移擴展到千兆像素圖像朗若,我們遵循了MI-Zero56引入的方法。具體來說昌罩,對于C類分類捡偏,WSI首先被分成N個圖塊,并使用圖像編碼器獨立計算?2歸一化嵌入峡迷。
  2. 對于每個圖塊嵌入,我們按照上面描述的圖塊方法計算與每個文本嵌入的相似度分數(shù)你虹,從而為每個圖塊獲得一組C個相似度分數(shù)绘搞。
  3. 為了聚合圖塊之間的相似度分數(shù),我們使用了top-K池化運算符傅物,通過對每個類別的最高K個相似度分數(shù)取平均值來獲得幻燈片級別的相似度分數(shù)夯辖。
  4. 因此,具有最高幻燈片級別分數(shù)的類別是預測類別董饰。我們選擇K∈{1, 5, 10, 50, 100}蒿褂,并報告分類任務(wù)中具有最高平衡準確率的K值和DHMC LUAD的Cohen’s κ值。
  5. 與圖塊分類類似卒暂,我們報告分類任務(wù)的幻燈片級別平衡準確率和加權(quán)F1分數(shù)啄栓。對于DHMC LUAD,由于LUAD亞型任務(wù)可能是主觀的也祠,我們報告Cohen’s κ分數(shù)昙楚。
  6. 我們使用與分類類似的方法執(zhí)行零次射擊幻燈片級別分割。我們將WSI劃分為圖塊诈嘿,并獨立計算每個圖塊的相似性得分堪旧。
  7. 然而,我們沒有將圖塊的得分聚合成單個幻燈片級別的預測奖亚,而是將圖塊級別的得分映射到WSI中的相應(yīng)空間位置淳梦,在重疊區(qū)域取平均值。
  8. 最后昔字,對于每個像素爆袍,我們將具有最高得分的類別分配為預測,從而生成像素級別的分割掩碼。
  9. 我們計算了Dice得分76來量化預測分割掩碼相對于真實情況的質(zhì)量螃宙。
  10. 有關(guān)WSI預處理的詳細信息(用于分類和分割任務(wù))在"方法"中的"WSI處理"部分進行了描述蛮瞄。

Supervised and weakly supervised classification experiments

監(jiān)督和弱監(jiān)督分類實驗

  1. 我們在所有有標簽的訓練樣本可用的任務(wù)上進行了監(jiān)督分類實驗,包括用于BRCA亞型分類的TCGA BRCA、用于NSCLC亞型分類的TCGA NSCLC掐暮、用于RCC亞型分類的TCGA RCC帘撰、用于CRC組織分類的CRC100k和用于Gleason分級的SICAP。
  2. 對于每個數(shù)據(jù)集闲先,如果有官方的訓練和測試劃分,我們使用了官方的劃分无蜂;如果沒有伺糠,我們在保留用于零樣本分類評估的樣本后,使用剩余的標簽樣本進行訓練(詳見方法部分斥季,“下游評估數(shù)據(jù)集”)训桶。
  3. 對于切片級實驗,我們考慮了四種視覺-語言預訓練圖像編碼器酣倾,即CONCH舵揭、PLIP、BiomedCLIP和OpenAICLIP躁锡。除了PLIP使用32的patch size外午绳,其余三個編碼器都遵循了16的patch size的ViT-base架構(gòu)。
  4. 對于切片級任務(wù)映之,我們還考慮了一個ResNet50編碼器拦焚,該編碼器在第三個殘差塊后截斷,權(quán)重從ImageNet上的監(jiān)督分類初始化杠输,因為它在WSI的弱監(jiān)督分類中是一個常見的選擇赎败。
  5. 對于ROI級任務(wù),我們添加了CTransPath作為基線蠢甲,這是一個使用自監(jiān)督學習在大規(guī)模未標記的組織病理學圖像數(shù)據(jù)集上訓練的最先進的通用視覺編碼器螟够。我們沒有將CTransPath用于TCGA切片級任務(wù),因為TCGA切片(包括那些用于我們的測試集的切片)構(gòu)成了CTransPath訓練數(shù)據(jù)的大部分峡钓,這可能會導致信息泄露妓笙,從而不公平地提高CTransPath在TCGA基準上的性能。
  6. 在所有實驗中能岩,我們將圖像輸入大小標準化為224?×?224寞宫。我們使用每個圖像編碼器從每個圖像中提取低維特征嵌入(在WSI的情況下是瓦片)。對于CONCH拉鹃,我們使用了與圖像-文本對齊對應(yīng)的注意力池化器的輸出辈赋,嵌入維度為512鲫忍。對于基于CLIP的模型(包括PLIP、BiomedCLIP和OpenAICLIP)钥屈,我們使用了<CLS>標記悟民,該標記也用于預訓練期間的圖像-文本對齊,其維度同樣為512篷就。對于ResNet50射亏,我們在第三個殘差塊后使用全局平均池化來獲得1024維的嵌入。對于CTransPath竭业,我們也使用了<CLS>標記表示智润,其嵌入維度為768。
  7. 對于WSI分類未辆,我們使用了與MI-Zero中零樣本分類相同的預處理設(shè)置窟绷。我們使用廣泛使用的ABMIL進行WSI的弱監(jiān)督分類,使用切片級標簽咐柜。ABMIL模型架構(gòu)包括一個全連接層和一個修正線性單元(ReLU)非線性映射兼蜈,首先將輸入映射到512維的嵌入維度,然后是一個兩層的拙友、門控變體的注意力網(wǎng)絡(luò)(如原始論文中描述)饭尝,隱藏維度為384。最后献宫,一個全連接的分類器頭將注意力池化的切片級表示映射到logits,經(jīng)過softmax歸一化后被解釋為類別概率实撒。我們在網(wǎng)絡(luò)的每個中間層之后使用了P?=?0.25的dropout進行正則化姊途。我們使用AdamW優(yōu)化器、余弦學習率調(diào)度器和1?×?10^?4的學習率在訓練集上訓練每個模型20個周期知态。我們使用加權(quán)數(shù)據(jù)采樣器捷兰,增加了來自少數(shù)類切片的采樣概率,使得模型在每個周期中平均看到來自每個類別的相同數(shù)量的切片负敏。完整的超參數(shù)集總結(jié)在補充表36中贡茅。
  8. 對于ROI級分類,我們通過在每個編碼器的預訓練圖像嵌入上訓練一個邏輯回歸模型進行線性探測其做。我們遵循大規(guī)模自監(jiān)督表示學習社區(qū)推薦的做法顶考,將?2正則化系數(shù)λ設(shè)置為(\frac{1}{M \times C}),其中M是嵌入維度妖泄,C是類別數(shù)量驹沿。我們使用有限內(nèi)存的Broyden–Fletcher–Goldfarb–Shanno (L-BFGS)求解器,并將最大迭代次數(shù)設(shè)置為800蹈胡。
  9. 對于少樣本分類渊季,我們保持測試集不變朋蔫,訓練時每個類別的標記樣本數(shù)量(即“shot”)從nc?=?1,?2,?4,?8,?16,?32變化到nc?=?512或給定類別的最大標記樣本數(shù)量。其他超參數(shù)和訓練設(shè)置與上述相同却汉。

End-to-end fine-tuning for classification experiments

端到端微調(diào)用于分類實驗

  1. 我們在一個四類Gleason分級基準上使用標準的端到端微調(diào)評估了CONCH在圖像ROI分類中的效用驯妄。該基準共有228,482個圖像ROI(訓練集:189,484個;驗證集:9,959個合砂;測試集:29,039個)青扔,分別標記為NC、G3既穆、G4或G5(詳情見方法部分赎懦,“下游評估數(shù)據(jù)集”)。
  2. 我們將CONCH的性能與五個其他模型進行了比較幻工,這些模型涵蓋了多種模型架構(gòu)励两、預訓練策略和規(guī)模,包括ViT-B/16(與CONCH視覺編碼器骨干架構(gòu)相同的ViT)囊颅、ViT-L/16(參數(shù)量約為ViT-B的3.5倍的更大ViT)当悔、ResNet50(流行的、廣泛使用的標準CNN架構(gòu))踢代、CTransPath(基于Swin transformer架構(gòu)的組織病理學特定圖像編碼器盲憎,使用大規(guī)模視覺自監(jiān)督學習預訓練,在許多計算病理學任務(wù)中取得了最先進的性能)和KimiaNet64(基于DenseNet121架構(gòu)的輕量級CNN胳挎,使用監(jiān)督學習在組織病理學圖像分類任務(wù)上進行預訓練)饼疙。
  3. 對于ViT-B/16、ViT-L/16和ResNet50慕爬,我們使用在ImageNet上預訓練的權(quán)重初始化模型窑眯;對于CTransPath和KimiaNet,我們使用了各自作者提供的預訓練權(quán)重医窿。
  4. 我們還通過進一步從完整訓練集中按切片級別下采樣10%和1%的標簽(即來自4,622個切片的189,484個ROI分別對應(yīng)來自462個切片的19,304個ROI和來自46個切片的1,864個ROI)來調(diào)查每個模型的標簽效率磅甩。結(jié)果總結(jié)在補充表31中。
  5. 每次實驗我們使用了八個80-GB的NVIDIA A100 GPU姥卢,ViT-L/16每個GPU的批量大小為32(由于GPU內(nèi)存限制)卷要,所有其他模型的批量大小為128。所有圖像在訓練和推理時均調(diào)整為448?×?448像素独榴。
  6. 我們在250步內(nèi)對學習率進行了預熱僧叉,并使用AdamW優(yōu)化器(β?=?(0.9,?0.999))和fp16自動混合精度訓練。對于每個模型棺榔,我們在驗證集上對學習率{1?×?10^?6, 1?×?10^?5, 1?×?10^?4, 1?×?10^?3, 1?×?10^?2}進行選擇彪标。我們最多訓練20個周期,并監(jiān)控驗證集的性能以進行提前停止掷豺,耐心值為五個周期捞烟,使用驗證集上表現(xiàn)最好的模型進行測試集評估薄声。
  7. 對于10%和1%標簽的訓練,我們將最大周期數(shù)分別增加到40和80题画,以適應(yīng)每個周期較少的訓練迭代次數(shù)默辨,并相應(yīng)地將提前停止的耐心值增加到10和20個周期。
  8. 在訓練期間苍息,我們使用了標準的數(shù)據(jù)增強技術(shù)缩幸,包括隨機水平和垂直翻轉(zhuǎn)、離散角度旋轉(zhuǎn)(θrot?∈?{0,?90,?180,?270})和顏色抖動(亮度竞思,16/255表谊;對比度,0.125盖喷;飽和度爆办,0.075;色調(diào)课梳,0.01)距辆。

Captioning with fine-tuning

使用微調(diào)的字幕

  1. 圖像標題生成是廣泛探索的一個通用視覺-語言任務(wù)。在圖像的頂級診斷之外暮刃,圖像標題生成還可以提供形態(tài)學和上下文細節(jié)以及額外的可解釋性跨算,提供比離散標簽更豐富的信息集。
  2. 盡管之前的視覺-語言預訓練研究展示了分類和檢索的應(yīng)用椭懊,但它們不具備生成能力诸蚕。通過在CoCa框架中添加生成損失以及對齊和文本編碼模塊,我們的模型增強了基于圖像輸入生成文本的能力氧猬。
  3. 我們在來自預留來源A的圖像-標題對上探索了CONCH的標題生成能力背犯,其中每個標題都由認證的病理學家手動審查和精簡,以僅保留可以從圖像推斷出的信息狂窑,包括頂級診斷和詳細的形態(tài)學描述。
  4. 鑒于我們的預訓練數(shù)據(jù)遠未達到高質(zhì)量零樣本標題生成的規(guī)模桑腮,我們在數(shù)據(jù)集上進行了微調(diào)泉哈。我們將數(shù)據(jù)集劃分為訓練、驗證和測試集破讨,并微調(diào)了CONCH和基線模型丛晦。由于PLIP和BiomedCLIP不易適用于標題生成任務(wù),我們將結(jié)果與GenerativeImage2Text (GIT)進行比較提陶,GIT是一種廣泛使用的開源視覺-語言預訓練模型家族烫沙,用于圖像標題生成。
  5. 我們在一個小型的圖像-標題對訓練集上微調(diào)了整個模型隙笆。微調(diào)CONCH時锌蓄,我們簡單地將對比損失設(shè)為零升筏,僅保留標題生成損失作為訓練目標。
  6. 為了評估性能瘸爽,我們報告了常用的METEOR(翻譯評估的顯式排序度量)和ROUGE(面向回憶的概要評估的替代研究)指標您访。
  7. 對于每個模型,我們最多訓練40個周期剪决,并使用提前停止策略(耐心值為10個周期)選擇在驗證集上具有最高METEOR的檢查點灵汪。
  8. 在推理時,我們使用top-K采樣作為解碼策略生成標題柑潦,其中K?=?50享言,即在每個時間步,過濾出最可能的K個標記并重新分配概率質(zhì)量后進行采樣渗鬼。
  9. 類似于零樣本分類和檢索览露,我們將最大圖像尺寸設(shè)置為448?×?448。用于微調(diào)標題生成的完整超參數(shù)集在補充表37中展示乍钻。

Evaluation metrics

  1. 對于分類任務(wù)肛循,我們報告了平衡準確率、加權(quán) F1 分數(shù)和接收器操作特征曲線下面積 (AUROC)银择。
  2. 平衡準確率定義為每個類別召回率的宏平均值多糠。
  3. 加權(quán) F1 分數(shù)是通過對每個類別的 F1 分數(shù)(精度和召回率的調(diào)和平均值)取平均值計算得出的,權(quán)重為每個類別的支持度浩考。
  4. 在二元情況下夹孔,AUROC 是通過改變分類閾值來計算真陽性率與假陽性率的圖形得出的。
  5. AUROC 被推廣到多類情況析孽,通過對所有類別對的 AUROC 取平均值搭伤。
  6. 對于檢索,我們使用了指標 Recall@K袜瞬,它是正確檢索的數(shù)據(jù)在前 K 個檢索樣本中的比例怜俐。
  7. 按照 ALIGN31 的方法,我們選擇了 K ∈ {1, 5, 10}邓尤,并計算了平均召回率拍鲤,即對 Recall@K 值取平均值。
  8. 對于分割汞扎,我們報告了 Dice 分數(shù)季稳,即 F1 分數(shù),以及精度和召回率澈魄,宏平均值跨所有圖像和類別景鼠。
  9. 對于字幕,我們報告了 METEOR 和 ROUGE痹扇,以比較預測字幕與真實字幕铛漓。
  10. METEOR80 是一種基于單元匹配的度量溯香,考慮了原始和真實字幕之間的精度和召回率,并考慮了同義詞和詞形票渠。
  11. ROUGE81 計算了預測字幕和真實字幕之間的 n-gram 重疊度逐哈。
  12. 我們使用了 ROUGE-1,它考慮了單元问顷。

Downstream evaluation datasets

下游評估數(shù)據(jù)集

  1. 源 A 是從保留源中提取的圖像字幕對數(shù)據(jù)集昂秃。我們手動拆分了多面板圖形并將其與字幕匹配。
  2. 由于我們還使用此數(shù)據(jù)集進行字幕添加杜窄,并且由于字幕通常嘈雜并且經(jīng)常包含圖像中沒有的信息肠骆,因此一位受認證的病理學家清潔了文本,我們使用清潔的版本進行所有下游任務(wù)塞耕。
  3. 經(jīng)過過濾和清潔后蚀腿,我們獲得了 797 張圖像,平均寬度為 570 像素扫外,平均高度為 428 像素莉钙。
  4. 我們整個使用此數(shù)據(jù)集進行跨模態(tài)檢索。
  5. 我們還在執(zhí)行 70-10-20 分割以進行訓練筛谚、驗證和測試后使用此數(shù)據(jù)集進行字幕添加磁玉。
  6. 為了避免信息泄露,數(shù)據(jù)集拆分是在圖形級別(考慮到分離的多圖形面板)執(zhí)行的驾讲。
  7. 源 B 是從保留源中提取的圖像字幕對數(shù)據(jù)集蚊伞。與源 A 類似,我們手動拆分多面板圖形并將其與字幕匹配吮铭。
  8. 經(jīng)過過濾和清理后时迫,我們獲得了 1,755 張圖像,平均寬度為 512 像素谓晌,平均高度為 410 像素掠拳。
  9. 由于該數(shù)據(jù)集比源 A 大得多,我們沒有對字幕進行手動清理纸肉。
  10. 我們使用此數(shù)據(jù)集進行跨模態(tài)檢索溺欧。
  11. TCGA LUAD 包含 165 個圖像標題對,提取自 TCGA 的 49 張 LUAD H&E 組織病理學幻燈片(https://portal.gdc.cancer.gov/
  12. 對于每張幻燈片毁靶,一位獲得董事會認證的病理學家從每張幻燈片中選擇了最多五塊感興趣的區(qū)域胧奔,并提供了描述組織模式和任何顯著形態(tài)特征的標題逊移。
  13. 此過程產(chǎn)生了一組165個圖像塊预吆,平均寬度為656像素,平均高度為642像素胳泉。我們使用這組圖像塊進行跨模態(tài)檢索拐叉。
  14. TCGA BRCA 由來自 TCGA 的 BRCA H&E 甲醛固定石蠟包埋(FFPE)診斷組織病理學 WSIs 組成岩遗。
  15. 該數(shù)據(jù)集包括原發(fā)性 IDC 和 ILC 的病例。
  16. 刪除缺失元數(shù)據(jù)的幻燈片后凤瘦,我們收集了總共 1,048 張幻燈片(837 張 IDC 和 211 張 ILC)宿礁。
  17. 零次測試集是完整 TCGA RCC 數(shù)據(jù)集的一個采樣子集,包含 150 張 WSIs(每個類別 75 張)蔬芥。
  18. 對于監(jiān)督學習實驗梆靖,我們保留零次測試集作為測試集,并在排除出現(xiàn)在測試集中的患者的幻燈片后笔诵,使用剩余的幻燈片作為監(jiān)督訓練集返吻。
  19. 該過程產(chǎn)生了一個包含 881 張幻燈片的訓練集(754 張 IDC 和 127 張 ILC;參見補充表 38 查看每個類別在零次分類中使用的提示)乎婿。
  20. TCGA NSCLC 由來自 TCGA 的 NSCLC H&E FFPE 診斷組織病理學 WSIs 組成测僵。
  21. 該數(shù)據(jù)集由原發(fā)性 LUAD 和肺鱗狀細胞癌(LUSC)病例組成。
  22. 在刪除缺失或不正確的元數(shù)據(jù)幻燈片后谢翎,我們收集了總共 1,041 張幻燈片(529 張 LUAD 和 512 張 LUSC)捍靠。
  23. 零樣本測試集是完整 TCGA RCC 數(shù)據(jù)集的采樣子集,包含 150 張 WSIs(每個類別 75 張)森逮。
  24. 對于監(jiān)督學習實驗榨婆,我們將零樣本測試集作為測試集,并在排除出現(xiàn)在測試集中的患者的幻燈片后吊宋,使用剩余的幻燈片作為監(jiān)督訓練集纲辽。
  25. 此過程產(chǎn)生了一個包含 846 張幻燈片的訓練集(432 張 LUAD 和 414 張 LUSC;參見補充表 38 以獲取零樣本分類中每個類別使用的提示)璃搜。
  26. TCGA RCC 由來自 TCGA 的 RCC H&E FFPE 診斷組織病理學 WSIs 組成拖吼。
  27. 該數(shù)據(jù)集由原發(fā)性透明細胞 RCC(CCRCC)、乳頭狀 RCC(PRCC)和嗜色素 RCC(CHRCC)病例組成这吻。
  28. 移除缺少低分辨率下采樣幻燈片后吊档,我們收集了總共 922 張 WSIs(519 張 CCRCC,294 張 PRCC 和 109 張 CHRCC)唾糯。
  29. 零次測試集是完整 TCGA RCC 數(shù)據(jù)集的采樣子集怠硼,包含 225 張 WSIs(每個類別 75 張)。
  30. 對于監(jiān)督學習實驗移怯,我們將零次測試集作為測試集香璃,并在排除測試集中出現(xiàn)的患者的幻燈片后,將剩余的幻燈片用作監(jiān)督訓練集舟误。
  31. 此過程產(chǎn)生了一個包含 693 張幻燈片的訓練集(444 張 CCRCC葡秒,215 張 PRCC 和 34 張 ChRCC;參見補充表 38 查看每個類別在零次分類中使用的提示)。
  32. DHMC LUAD83 由 143 張 H&E LUAD幻燈片組成眯牧,每張幻燈片都標有主要的組織學生長模式(59 個腺體蹋岩,51 個實體,19 個鱗狀学少,9 個微乳頭狀和 5 個乳頭狀)剪个。
  33. 我們僅使用此數(shù)據(jù)集進行零次分類(有關(guān)零次分類中每個類別使用的提示,請參見補充表 39)版确。
  34. CRC100k84 由 224 × 224 像素圖像塊組成扣囊,每像素 0.5 μm,從 50 名患有結(jié)直腸腺癌的患者中提取绒疗。每張圖像屬于九個類別之一:脂肪如暖、背景、碎屑忌堂、淋巴細胞盒至、粘液、平滑肌士修、正常結(jié)腸黏膜枷遂、癌癥相關(guān)基質(zhì)或結(jié)直腸腺癌上皮。
  35. 對于有監(jiān)督的數(shù)據(jù)集棋嘲,我們使用了官方提供的訓練集中的 100,000 張圖像和測試集中的 7,180 張圖像的分割酒唉。對于零次測試集,我們僅使用了官方測試集(有關(guān)零次分類中每個類別使用的提示沸移,請參見補充表 40)痪伦。
  36. WSSS4LUAD85 包含大約 200-500 像素尺寸的 LUAD 圖像塊,每個塊被標記為腫瘤雹锣、腫瘤相關(guān)基質(zhì)和/或正常网沾。
  37. 為了我們的評估,我們過濾了只有一個真實標簽的樣本蕊爵。我們剩下 4,693 張來自官方訓練分割的圖像(參見補充表 41 查看零次分類中每個類別使用的提示)辉哥。
  38. SICAP75 包含 512 × 512 像素的圖像,這些圖像從 155 張前列腺癌核心針活檢的全幻燈片圖像(WSIs)中提取出來攒射,并在 ×10 倍放大下數(shù)字化醋旦。
  39. 官方的訓練和測試分割將數(shù)據(jù)集分為 9,959 張來自 124 張 WSIs 的圖像用于訓練,以及 2,122 張來自 31 張 WSIs 的圖像用于測試会放。
  40. 每個圖塊都被標記為主要的 Gleason 模式(G3饲齐、G4 或 G5),或者被標記為非癌性(NC)咧最。
  41. 對于零樣本分類捂人,我們僅使用官方測試集進行評估甩骏,而對于監(jiān)督分類,我們使用官方分割進行訓練和測試先慷。
  42. 對于零樣本分割(腫瘤與良性),我們使用來自官方測試分割的幻燈片以及相應(yīng)的像素級分割掩碼進行評估(將 Gleason 模式 G3咨察、G4 和 G5 合并為腫瘤類別论熙;請參閱補充表 41 以獲取每個類別在零樣本分類和分割中使用的提示)。
  43. DigestPath86 包含來自 324 名患者的 660 張結(jié)腸鏡 H&E 組織切片圖像摄狱,這些圖像以 ×20 倍的放大倍數(shù)獲得脓诡。
  44. 我們使用了來自 93 名患者的 250 張圖像的子集,其中提供了用于結(jié)直腸癌組織的像素級病變注釋媒役,并且我們執(zhí)行了零次分割評估(有關(guān)零次分割中每個類別使用的提示祝谚,請參見補充表 41)。
  45. EBRAINS87,88 包含來自 EBRAINS 數(shù)字腫瘤圖譜的腦組織 H&E 組織病理學全幻燈片圖像(WSIs)酣衷。
  46. 我們使用了 2,319 張幻燈片交惯,對應(yīng)于 30 種細粒度腦腫瘤亞型任務(wù),其中僅保留至少有 30 張幻燈片的類別穿仪,以確保模型訓練和評估有合理數(shù)量的幻燈片可用席爽。
  47. 對于有監(jiān)督數(shù)據(jù)集,我們執(zhí)行了 50-25-25 的拆分啊片,用于訓練(1,151 張幻燈片)只锻、驗證(595 張幻燈片)和測試(573 張幻燈片)。
  48. 對于零樣本測試集紫谷,我們使用了 573 張幻燈片的測試拆分(參見補充表 42-44齐饮,了解零樣本分類中每個類別使用的提示)。
  49. 數(shù)據(jù)集中每個類別的 WSI 數(shù)量如下:(1)IDH1 野生型膠質(zhì)母細胞瘤(474 張幻燈片)笤昨;(2)毛細血管星形細胞瘤(173 張幻燈片)祖驱;(3)腦膜細胞型腦膜瘤(104 張幻燈片);(4)垂體腺瘤(99 張幻燈片)瞒窒;(5)IDH1 突變和 1p/19q 代碼缺失的間變性寡樹突細胞瘤(91 張幻燈片)羹膳;(6)神經(jīng)節(jié)細胞瘤(88 張幻燈片);(7)血管母細胞瘤(88 張幻燈片)根竿;(8)牙狀顱內(nèi)咽管瘤(85 張幻燈片)陵像;(9)IDH1 突變和 1p/19q 代碼缺失的寡樹突細胞瘤(85 張幻燈片);(10)非典型腦膜瘤(83 張幻燈片)寇壳;(11)神經(jīng)鞘瘤(81 張幻燈片)醒颖;(12)IDH1 突變彌漫性星形細胞瘤(70 張幻燈片);(13)過渡性腦膜瘤(68 張幻燈片)壳炎;(14)中樞神經(jīng)系統(tǒng)彌漫大 B 細胞淋巴瘤(59 張幻燈片)泞歉;(15)膠質(zhì)肉瘤(59 張幻燈片)逼侦;(16)纖維性腦膜瘤(57 張幻燈片);(17)間變性室管膜瘤(50 張幻燈片)腰耙;(18)IDH1 野生型間變性星形細胞瘤(47 張幻燈片)榛丢;(19)轉(zhuǎn)移性腫瘤(47 張幻燈片);(20)IDH1 突變間變性星形細胞瘤(47 張幻燈片)挺庞;(21)室管膜瘤(46 張幻燈片)晰赞;(22)間變性腦膜瘤(46 張幻燈片);(23)分泌性腦膜瘤(41 張幻燈片)选侨;(24)脂肪瘤(38 張幻燈片)掖鱼;(25)血管周細胞瘤(34 張幻燈片);(26)IDH1 突變膠質(zhì)母細胞瘤(34 張幻燈片);(27)非翼狀相關(guān)整合(Wnt)/非 Sonic Hedgehog(Shh)室管膜瘤(32 張幻燈片);(28)蘭格爾漢斯細胞增多癥(32 張幻燈片)汹桦;(29)血管瘤性腦膜瘤(31 張幻燈片)例证;(30)血管瘤(30 張幻燈片)。
  50. 前列腺Gleason分級由來自三個公開可用數(shù)據(jù)集(AGGC89、PANDA90和SICAP75)的H&E染色前列腺組織的228,482個圖像ROI組成。
  51. 對于PANDA和AGGC,每個ROI以×10倍等效放大倍數(shù)提取掌栅,尺寸為512×512像素,并標記為NC码泛、G3猾封、G4或G5,使用各自數(shù)據(jù)集提供的像素級注釋掩碼分配噪珊。
  52. 我們使用此數(shù)據(jù)集比較了我們的模型與計算病理學中常用的其他視覺編碼器之間的端到端微調(diào)性能晌缘。
  53. 我們在幻燈片級別對數(shù)據(jù)集進行分區(qū),并將數(shù)據(jù)集拆分為訓練(來自PANDA和AGGC官方訓練集的4,622張幻燈片中的189,000個ROI)痢站、驗證(來自SICAP官方訓練集的124張幻燈片中的10,000個ROI)和測試(來自AGGC和SICAP官方測試集的92張幻燈片中的29,000個ROI)磷箕。

WSI processing

WSI 處理

  1. 對于切片級任務(wù),WSI的處理流程包括組織分割阵难、切片和特征提取岳枷。
  2. 我們使用CLAM庫進行組織分割,該庫通過將切片從RGB顏色空間轉(zhuǎn)換為色調(diào)-飽和度-明度(HSV)顏色空間后呜叫,在飽和度通道上使用二值閾值法計算組織的二值掩碼空繁。
  3. 使用中值模糊和形態(tài)閉合來平滑組織輪廓并去除偽影。通過面積過濾輪廓以生成分割掩碼朱庆。
  4. 對于零樣本和監(jiān)督分類盛泡,我們遵循先前的慣例,將分割后的組織區(qū)域劃分為連續(xù)的256?×?256像素瓦片娱颊,在×10倍等效放大倍率下進行傲诵。
  5. 對于分割任務(wù)凯砍,我們使用較小的瓦片尺寸(224?×?224像素),以75%的重疊在盡可能高的放大倍率下(即SICAP為×10拴竹,DigestPath為×20)提取瓦片悟衩,以實現(xiàn)更細粒度的預測。
  6. 切片完成后栓拜,對于特征提取座泳,我們將所有瓦片調(diào)整為224?×?224像素,并使用凍結(jié)的預訓練圖像編碼器獨立計算每個瓦片的嵌入菱属,然后將它們緩存以供下游評估。

Pretraining dataset characterization

  1. 我們估計了預訓練字幕涵蓋的主題分布舰罚。我們首先創(chuàng)建了一個包含19個主題的列表纽门,這些主題涵蓋了與病理學研究相關(guān)的主要解剖學部位。
  2. 對于每個主題营罢,一位董事會認證的病理學家然后策劃了與該主題相關(guān)的關(guān)鍵詞列表赏陵。
  3. 然后,我們將字幕映射到一個主題饲漾,如果它包含一個特定的詞蝙搔。由于策劃一個詳盡的關(guān)鍵詞集以涵蓋所有字幕是不切實際的,我們使用k-最近鄰居(kNN)和k = 5來分類剩余的字幕考传。
  4. 字幕在主題上的分布如圖1b所示吃型。在每個主題(以及整個數(shù)據(jù)集)中,我們使用詞云(擴展數(shù)據(jù)圖1)定性地可視化了字幕的內(nèi)容僚楞。

Statistical analysis

統(tǒng)計分析

  1. 使用了1,000個樣本的非參數(shù)自助法來構(gòu)建模型性能的95%置信區(qū)間勤晚。
  2. 對于每個評估指標,使用1,000次置換的雙側(cè)配對置換檢驗來測試模型性能中觀察到的差異是否具有統(tǒng)計顯著性泉褐。
  3. 在每次置換中赐写,兩個模型的獨立預測被隨機交換,以獲得新的模型性能差異膜赃。
  4. P值是模型性能差異絕對值大于觀察到的差異的比例挺邀。
  5. 原假設(shè)是假設(shè)在給定測試集和評估指標下,模型性能之間沒有差異跳座。

Computing hardware and software

  1. 我們在研究中的所有實驗和分析都使用了Python(版本3.8.13)端铛,這些實驗可以通過以下列出的開源庫進行復現(xiàn)。
  2. 對于任務(wù)無關(guān)的預訓練疲眷,我們使用了八個80-GB的NVIDIA A100 GPU沦补,這些GPU配置為多GPU訓練,使用了由流行的開源深度學習框架PyTorch(版本2.0.0咪橙,CUDA 11.7)(https://pytorch.org)實現(xiàn)的DistributedDataParallel (DDP)夕膀。
  3. 所有下游實驗都在單個24-GB的NVIDIA 3090 GPU上進行虚倒。
  4. 對于使用iBOT進行的視覺編碼器的單模態(tài)預訓練,我們修改了由Hugging Face維護的開源Timm庫(版本0.9.2)(https://huggingface.co)中的ViT實現(xiàn)用于編碼器骨干網(wǎng)絡(luò)产舞,并使用了原始的iBOT實現(xiàn)(https://github.com/bytedance/ibot)進行訓練魂奥。
  5. 對于自然語言處理(NLP)工作流程,我們使用了Hugging Face提供的開源庫易猫。特別是耻煤,我們使用Transformers(版本4.27.3)和Accelerate(版本0.15.0)對文本數(shù)據(jù)進行標記化,并對我們的語言模型進行單模態(tài)預訓練准颓,同時使用Evaluate(版本0.4.0)來訪問常見的機器翻譯和圖像標題生成指標哈蝇,包括ROUGE(來自rouge-score版本0.1.2)和METEOR(來自nltk版本3.6.7)。
  6. 我們將預訓練的單模態(tài)視覺編碼器和語言模型集成到open clip庫(版本2.14.0)中攘已,以使用CoCa框架進行視覺語言預訓練炮赦。
  7. 所有的WSI處理都由OpenSlide(版本4.3.1)和openslide-python(版本1.2.0)支持。
  8. 我們使用Scikit-learn(版本1.2.1)實現(xiàn)常見的圖像分類機器學習模型評估指標样勃,并使用該庫訓練邏輯回歸模型用于線性探測實驗吠勘。
  9. Numpy(版本1.20.3)和Pandas(版本1.5.3)用于數(shù)據(jù)收集和準備。
  10. 研究中基準的其他視覺語言模型的實現(xiàn)可以在Hugging Face模型中心找到(https://huggingface.co/models):PLIP(https://huggingface.co/vinid/plip)峡眶、BiomedCLIP(https://huggingface.co/microsoft/BiomedCLIP-PubMedBERT_256-vit_base_patch16_224)剧防、OpenAICLIP(https://huggingface.co/openai/clip-vit-base-patch16)、GIT-base(https://huggingface.co/microsoft/git-base)和GIT-large(https://huggingface.co/microsoft/git-large)辫樱。
  11. Pillow(版本9.3.0)和Opencv-python被用于執(zhí)行基本的圖像處理任務(wù)峭拘。
  12. Matplotlib(版本3.7.1)和Seaborn(版本0.12.2)用于創(chuàng)建圖表和圖形。
  13. 其他雜項Python庫的使用列在Nature Portfolio Reporting Summary中狮暑。

Data availability

  1. TCGA全切片數(shù)據(jù)和標簽可從NIH基因組數(shù)據(jù)中心獲扰锼簟(http://portal.gdc.cancer.gov)。
  2. DHMC LUAD全切片數(shù)據(jù)和標簽可通過達特茅斯生物醫(yī)學信息研究與數(shù)據(jù)科學網(wǎng)站訪問(http://bmirds.github.io/LungCancer/)心例。
  3. SICAP全切片和瓦片數(shù)據(jù)及其對應(yīng)的標簽可通過數(shù)據(jù)門戶訪問(http://data.mendeley.com/datasets/9xxm58dvs3/1)宵凌。
  4. CRC100k瓦片數(shù)據(jù)和標簽可在http://zenodo.org/record/1214456找到。
  5. WSSS4LUAD圖像瓦片和標簽可在http://wsss4luad.grand-challenge.org/找到止后。
  6. 預訓練數(shù)據(jù)是從教育資源和PubMed中的圖像-標題對中精心篩選的瞎惫。
  7. EBRAINS WSIs可在http://search.kg.ebrains.eu/instances/Dataset/8fc108ab-e2b4-406-8999-60269dc1f994找到。
  8. AGGC和PANDA WSIs可通過各自的Grand Challenge門戶訪問(http://aggc22.grand-challenge.org/data/http://panda.grand-challenge.org/data/)译株。
  9. 未處理的PubMed Central開放獲取數(shù)據(jù)集可從NIH PubMed Central網(wǎng)站獲得(http://ncbi.nlm.nih.gov/pmc/tools/openftlist/)瓜喇。
  10. 對于本項目回顧性使用并獲得機構(gòu)許可的匿名患者數(shù)據(jù)的可用性,適用限制歉糜,因此這些數(shù)據(jù)不公開提供乘寒。所有對在內(nèi)部收集或整理的處理或原始數(shù)據(jù)的請求應(yīng)提交給通訊作者,并將根據(jù)機構(gòu)和部門政策進行評估匪补,以確定所請求的數(shù)據(jù)是否受知識產(chǎn)權(quán)或患者隱私義務(wù)的約束伞辛。

Code availability

  1. CONCH 模型權(quán)重可用于學術(shù)研究目的烂翰,網(wǎng)址為 http://huggingface.co/MahmoodLab/conch
  2. 使用預訓練模型的代碼可在 http://github.com/mahmoodlab/CONCH 獲取蚤氏。
  3. 我們記錄了研究中使用的所有技術(shù)深度學習方法和軟件庫甘耿,同時確保本文對更廣泛的臨床和科學受眾可讀。

本文由mdnice多平臺發(fā)布

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末竿滨,一起剝皮案震驚了整個濱河市佳恬,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌于游,老刑警劉巖毁葱,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異贰剥,居然都是意外死亡倾剿,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進店門鸠澈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來柱告,“玉大人截驮,你說我怎么就攤上這事笑陈。” “怎么了葵袭?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵涵妥,是天一觀的道長。 經(jīng)常有香客問我坡锡,道長蓬网,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任鹉勒,我火速辦了婚禮帆锋,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘禽额。我一直安慰自己锯厢,他們只是感情好,可當我...
    茶點故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布脯倒。 她就那樣靜靜地躺著实辑,像睡著了一般。 火紅的嫁衣襯著肌膚如雪藻丢。 梳的紋絲不亂的頭發(fā)上剪撬,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天,我揣著相機與錄音悠反,去河邊找鬼残黑。 笑死馍佑,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的萍摊。 我是一名探鬼主播挤茄,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼冰木!你這毒婦竟也來了穷劈?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤踊沸,失蹤者是張志新(化名)和其女友劉穎歇终,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體逼龟,經(jīng)...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡评凝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了腺律。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片奕短。...
    茶點故事閱讀 38,094評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖匀钧,靈堂內(nèi)的尸體忽然破棺而出翎碑,到底是詐尸還是另有隱情,我是刑警寧澤之斯,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布日杈,位于F島的核電站,受9級特大地震影響佑刷,放射性物質(zhì)發(fā)生泄漏莉擒。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一瘫絮、第九天 我趴在偏房一處隱蔽的房頂上張望涨冀。 院中可真熱鬧,春花似錦麦萤、人聲如沸鹿鳖。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽栓辜。三九已至,卻和暖如春垛孔,著一層夾襖步出監(jiān)牢的瞬間藕甩,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留狭莱,地道東北人僵娃。 一個月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像腋妙,于是被迫代替她去往敵國和親默怨。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,828評論 2 345

推薦閱讀更多精彩內(nèi)容