論文原文:https://arxiv.org/pdf/1805.08403.pdf
完整的圖淹遵、表及引用見(jiàn)原文酝碳,用于學(xué)習(xí)記錄贪婉,與有需要的人分享畅姊。
摘要
為了提高神經(jīng)網(wǎng)絡(luò)的多尺度處理能力咒钟,提出了一種自聚焦卷積層用于語(yǔ)義分割。自聚焦層根據(jù)處理過(guò)的上下文自適應(yīng)地改變有效接受域的大小涡匀,以生成更強(qiáng)大的功能盯腌。這是通過(guò)并行化具有不同膨脹率的多層卷積層來(lái)實(shí)現(xiàn)的,并結(jié)合一種注意機(jī)制陨瘩,該機(jī)制學(xué)會(huì)將注意力集中在由上下文驅(qū)動(dòng)的最優(yōu)尺度上腕够。通過(guò)共享并行卷積的權(quán)值,我們使網(wǎng)絡(luò)的規(guī)模不變舌劳,只增加了少量的參數(shù)帚湘。提出的自聚焦層可以很容易地集成到現(xiàn)有的網(wǎng)絡(luò)中,提高模型的表示能力甚淡。我們?cè)u(píng)估了盆腔CT多器官分割和MRI腦腫瘤分割的挑戰(zhàn)性任務(wù)大诸,并取得了很好的效果。
1 介紹
語(yǔ)義分割是醫(yī)學(xué)圖像分析中的一個(gè)基本問(wèn)題贯卦。非斷層分割系統(tǒng)可以改善臨床管道资柔,促進(jìn)對(duì)病理的全面評(píng)估、治療計(jì)劃和疾病進(jìn)展的監(jiān)測(cè)撵割。它們還可以通過(guò)從大規(guī)模人群的磁共振圖像(MRI)或計(jì)算性tomog- raphy (CT)掃描中以高效和可重現(xiàn)的方式提取測(cè)量值贿堰,促進(jìn)大規(guī)模研究。
為了提高分割算法的性能啡彬,需要使用多尺度的上下文[6]羹与,同時(shí)仍然以像素級(jí)精度為目標(biāo)故硅。多尺度處理提供了詳細(xì)的線(xiàn)索,如結(jié)構(gòu)的紋理信息纵搁,與上下文信息(如結(jié)構(gòu)的環(huán)境)相結(jié)合吃衅,當(dāng)僅基于局部上下文時(shí),可以促進(jìn)模糊的決策腾誉。請(qǐng)注意徘层,這種機(jī)制也是人類(lèi)視覺(jué)系統(tǒng)的一部分,通過(guò)中央凹和周?chē)曈X(jué)利职。
大量的研究都在尋找有效的多尺度處理算法惑灵。傳統(tǒng)方法的概述可以在[6]中找到。類(lèi)分詞系統(tǒng)通常由卷積神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)(cnn)眼耀。為有效捕獲圖像上下文而提出的各種網(wǎng)絡(luò)體系結(jié)構(gòu)可以大致分為三類(lèi)英支。第一種類(lèi)型在多尺度上創(chuàng)建一個(gè)圖像金字塔。圖像以不同的分辨率進(jìn)行降采樣和處理哮伟。Farabet等人訓(xùn)練了相同的過(guò)濾器來(lái)對(duì)圖像的所有這樣的版本執(zhí)行干花,以實(shí)現(xiàn)尺度不變性[5]。相比之下楞黄,DeepMedic[9]提出了幾種不同尺度的學(xué)習(xí)專(zhuān)用路徑池凄,以使三維CNNs能夠以一種計(jì)算效率較高的方式從更大的上下文中提取更多的模式。第二種類(lèi)型使用一種編碼器鬼廓,它逐漸向下采樣以捕獲更多的上下文肿仑,然后是一種解碼器,它學(xué)會(huì)向上采樣分段碎税,使用跳過(guò)連接[11]組合多尺度上下文尤慰。后來(lái)的擴(kuò)展包括U-net[15],它使用一個(gè)更大的解碼器來(lái)學(xué)習(xí)上采樣特性雷蹂,而不是像[11]中的分段伟端。然而,學(xué)習(xí)使用解碼器進(jìn)行上采樣時(shí)匪煌,內(nèi)折線(xiàn)模型的復(fù)雜性和計(jì)算要求责蝠,甚至可能不需要向下采樣。最后萎庭,在這一思想的驅(qū)動(dòng)下霜医,[3,16]提出了膨脹卷積來(lái)處理更大的上下文,而無(wú)需對(duì)特征圖進(jìn)行降采樣驳规。在此基礎(chǔ)上肴敛,DeepLab[3]引入了空間金字塔池(Aspp)模塊,該模塊采用不同速率的膨脹卷積并行捕獲多尺度信息达舒。來(lái)自所有尺度的激活都通過(guò)求和或串聯(lián)天真地融合在一起值朋。
我們提出了自聚焦層,這是一個(gè)新的模塊巩搏,通過(guò)學(xué)習(xí)選擇合適的尺度來(lái)識(shí)別圖像中的不同對(duì)象昨登,從而增強(qiáng)了CNNs的多尺度處理。我們?cè)谧詣?dòng)對(duì)焦方面的工作與Aspp有相似之處贯底,因?yàn)槲覀冞€使用并行擴(kuò)展卷積過(guò)濾器來(lái)捕獲本地和更全局的上下文丰辣。關(guān)鍵的區(qū)別在于,自聚焦層不是天真地聚合所有尺度的特性禽捆,而是自適應(yīng)地選擇最優(yōu)尺度笙什,以數(shù)據(jù)驅(qū)動(dòng)的、學(xué)習(xí)的方式進(jìn)行聚焦胚想。特別地琐凭,我們的自動(dòng)對(duì)焦模塊使用了一個(gè)注意力機(jī)制[1]來(lái)表示每個(gè)尺度在處理圖像不同位置時(shí)的重要性(圖1)。自動(dòng)聚焦還增強(qiáng)了網(wǎng)絡(luò)的可解釋性浊服,因?yàn)樽⒁饬Φ貓D顯示了它如何在局部放大或縮小以分割不同的上下文统屈。與[4]中注意力的使用相比,我們的解決方案是模塊化的牙躺,并且獨(dú)立于體系結(jié)構(gòu)愁憔。
我們?cè)诠桥鐲T多器官分割和MRI腦腫瘤分割兩項(xiàng)任務(wù)上對(duì)我們的方法進(jìn)行了廣泛的評(píng)價(jià)和比較。我們證明孽拷,由于自聚焦層的自適應(yīng)性吨掌,它能很好地處理這兩項(xiàng)任務(wù)中的生物變異性,從而提高了一個(gè)已建立良好的模型的性能脓恕。盡管它很簡(jiǎn)單膜宋,但我們的系統(tǒng)與更復(fù)雜的管道具有競(jìng)爭(zhēng)力,顯示了自動(dòng)對(duì)焦機(jī)制的潛力炼幔。此外激蹲,通過(guò)替換標(biāo)準(zhǔn)的卷積層,自動(dòng)對(duì)焦可以很容易地集成到現(xiàn)有的體系結(jié)構(gòu)中江掩。
2 方法
2.1?膨脹卷積
由于它們是我們工作的基礎(chǔ)学辱,我們?cè)诮榻B符號(hào)時(shí)首先介紹了膨脹卷積的基礎(chǔ)[3,16]。標(biāo)準(zhǔn)的三維膨脹對(duì)流層深度為l环形,膨脹速率為r策泣,可以表示為一個(gè)映射卷積。,,,,,,它可以從Eqn(1)隨著輸入信號(hào)探測(cè)的更加稀疏抬吟,可以通過(guò)增大r l的膨脹來(lái)捕獲更大的上下文萨咕,但細(xì)節(jié)更少。因此火本,更大的r l導(dǎo)致“縮小”行為危队。通常聪建,膨脹率r是一個(gè)超參數(shù),為每一層手動(dòng)設(shè)置和固定茫陆。當(dāng)r = 1時(shí)金麸,標(biāo)準(zhǔn)卷積是一個(gè)特例。下面我們將描述自聚焦機(jī)制簿盅,該機(jī)制自適應(yīng)地為輸入的不同區(qū)域選擇最佳膨脹率挥下。
2.2?自聚焦卷積層
明確地對(duì)圖像中的不同對(duì)象進(jìn)行分類(lèi)可能需要不同的局部和全局信息組合。例如,大型結(jié)構(gòu)可能會(huì)更好的分割處理大量接受域φl(shuí)前花費(fèi)的細(xì)節(jié),而小對(duì)象可能需要關(guān)注高分辨率的局部信息桨醋。因此棚瘟,靜態(tài)定義多尺度處理的架構(gòu)可能不是最優(yōu)的。我們的自適應(yīng)解決方案喜最,自聚焦模塊偎蘸,總結(jié)在圖1中,并在下面形式化瞬内。
給出了前一層fl1的激活量禀苦,通過(guò)K個(gè)不同膨脹率的卷積層并行處理得到多尺度信息。它們產(chǎn)生K個(gè)張量F r K l(圖1(b))遂鹊,每個(gè)張量集具有相同數(shù)量的通道c振乏。它們檢測(cè)K個(gè)不同尺度的模式,我們通過(guò)引入一個(gè)軟注意機(jī)制[1]以數(shù)據(jù)驅(qū)動(dòng)的方式合并這些模式秉扑。
在該模塊中慧邮,我們構(gòu)建了一個(gè)處理F l - 1的小型注意網(wǎng)絡(luò)(圖1(a))。在這項(xiàng)工作中舟陆,它包括兩個(gè)卷積層误澳。第一,Conv l,1,應(yīng)用3×3×3個(gè)核秦躯,產(chǎn)生的通道數(shù)是F l?1(經(jīng)驗(yàn)選擇)中通道數(shù)的一半忆谓,然后是ReLU激活函數(shù)F。第二個(gè)Conv l,2踱承,應(yīng)用1×1×1個(gè)濾波器倡缠,產(chǎn)生一個(gè)K個(gè)通道的張量,每個(gè)尺度一個(gè)茎活。這是緊隨其后的是以聰明元素softmaxσ,規(guī)范化每個(gè)體素的K個(gè)激活加起來(lái)等于1昙沦。因此,通過(guò)融合并行擴(kuò)張卷積的輸出载荔,計(jì)算出自聚焦層的最終輸出盾饮,如下圖所示:
由于注意圖是由全卷積網(wǎng)絡(luò)預(yù)測(cè)的,因此每個(gè)體素的注意預(yù)測(cè)是不同的,由圖像上下文驅(qū)動(dòng)丘损,以獲得最佳的比例選擇普办。
由于該模塊是基于K個(gè)膨脹卷積層的對(duì)位分層結(jié)構(gòu),因此每個(gè)自聚焦層所提供的表征能力的提高都需要一定的計(jì)算量徘钥。因此衔蹲,應(yīng)該尋求一種適當(dāng)?shù)钠胶猓覀冊(cè)诘?節(jié)對(duì)此進(jìn)行了研究吏饿,并取得了很有希望的結(jié)果。
尺度不變性:一些解剖結(jié)構(gòu)的大小蔬浙,如骨骼和器官猪落,可能會(huì)有所不同,但整體外觀(guān)是相當(dāng)相似的畴博。對(duì)其他人來(lái)說(shuō)笨忌,尺寸可能與外表有關(guān)。例如俱病,發(fā)展中的大腫瘤的結(jié)構(gòu)與早期的小腫瘤不同官疲。這表明,規(guī)模不變性可以用來(lái)規(guī)范學(xué)習(xí)亮隙,但必須適當(dāng)?shù)剡M(jìn)行途凫。我們?cè)谧詣?dòng)聚焦層共享參數(shù)中創(chuàng)建并行過(guò)濾器。這使得可訓(xùn)練參數(shù)的數(shù)量與K無(wú)關(guān)溢吻,只有注意模塊在標(biāo)準(zhǔn)卷積上添加參數(shù)维费。因此,每個(gè)并行過(guò)濾器尋找外觀(guān)相似但大小不同的模式促王。因此犀盟,網(wǎng)絡(luò)是自適應(yīng)尺度不變的,注意機(jī)制以數(shù)據(jù)驅(qū)動(dòng)的方式選擇尺度蝇狼,不像Farabet et al.[5]阅畴,后者的網(wǎng)絡(luò)學(xué)習(xí)不同尺度之間的共享過(guò)濾器,但天真地將它們的所有響應(yīng)連接起來(lái)迅耘。
2.3?自聚焦神經(jīng)網(wǎng)絡(luò)
提出的自聚焦層可以集成到現(xiàn)有的體系結(jié)構(gòu)中贱枣,通過(guò)替換標(biāo)準(zhǔn)的或膨脹的卷積來(lái)提高它們的多尺度處理能力。為了演示這一點(diǎn)颤专,我們選擇了具有剩余連接[8]的DeepMedic (Dm)[9]作為起點(diǎn)冯事。Dm使用不同的高分辨率和低分辨率輸入路徑進(jìn)行多尺度處理。相反血公,我們只保留它的高分辨率的途徑昵仅,并尋求授權(quán)與我們的方法。首先,我們通過(guò)標(biāo)準(zhǔn)的在最后6個(gè)隱藏層中以2的速率展開(kāi)卷積來(lái)擴(kuò)大其接受域摔笤,最終得到作為另一個(gè)基線(xiàn)的基本模型」换現(xiàn)在,我們通過(guò)將Basic的最后n個(gè)隱藏層轉(zhuǎn)換為自動(dòng)聚焦層(表示為“Afn-n”)來(lái)定義afnet家族吕世,其中n∈{1彰触,…,6}命辖。圖2為AFNet-4况毅。提出的afnet是端到端訓(xùn)練的。
3?評(píng)估
我們廣泛評(píng)價(jià)afnet在多器官和腦tu- mor分割中的作用尔艇。具體來(lái)說(shuō)尔许,我們執(zhí)行的兩項(xiàng)任務(wù)是:(1)一個(gè)研究,在這個(gè)研究中终娃,我們依次將自動(dòng)聚焦添加到基本網(wǎng)絡(luò)的更多層味廊,以探索其影響;(2)afnet與基線(xiàn)的比較。最后棠耕,(3)我們?cè)诠不鶞?zhǔn)BRATS’15上進(jìn)行了評(píng)估余佛,結(jié)果表明,我們的方法無(wú)論簡(jiǎn)單與否窍荧,都能與最先進(jìn)的管道相媲美辉巡,顯示了其潛力。
基線(xiàn):我們將afnet與之前定義的基本模型進(jìn)行比較蕊退,以顯示自聚焦層對(duì)標(biāo)準(zhǔn)膨脹卷積的貢獻(xiàn)红氯。同樣,我們將DeepMedic[9](記作Dm)與我們的自適應(yīng)多尺度處理與靜態(tài)多尺度路徑進(jìn)行比較咕痛。最后痢甘,我們?cè)贐asic之上放置了一個(gè)Aspp模塊[3],并與Afn-1進(jìn)行了比較茉贡,結(jié)果表明了注意機(jī)制的貢獻(xiàn)塞栅。Aspp-c和Aspp-s分別通過(guò)級(jí)聯(lián)和求和的方式對(duì)Aspp激活物進(jìn)行融合。PyTorch框架中的源代碼和預(yù)培訓(xùn)模型可以在線(xiàn)訪(fǎng)問(wèn):https://github.com/yaq007/autofocs-layer腔丧。
3.1?數(shù)據(jù)集
材料:我們使用兩個(gè)骨盆CT掃描數(shù)據(jù)庫(kù)放椰,收集了不同臨床中心診斷為前列腺癌的患者。第一個(gè)稱(chēng)為Add愉粤,包含86個(gè)掃描砾医,不同的掃描數(shù)量分別為512x512片和3mm的片間間距。Uw由34個(gè)掃描512x512個(gè)切片組成衣厘,切片間距為1mm如蚜。腫瘤專(zhuān)家在所有圖像中手工描繪了以下結(jié)構(gòu):前列腺压恒、精囊(SV)、膀胱错邦、直腸探赫、左股骨和右股骨。每一次掃描都被歸一化撬呢,使其強(qiáng)度均值和單位方差為零伦吠。為了對(duì)模型的泛化進(jìn)行嚴(yán)格的檢驗(yàn),我們利用加法數(shù)據(jù)對(duì)模型進(jìn)行多類(lèi)問(wèn)題的訓(xùn)練魂拦,然后利用加法數(shù)據(jù)對(duì)模型進(jìn)行估計(jì)毛仪。
配置細(xì)節(jié):使用ADAM優(yōu)化器對(duì)Basic、Aspp和Afn模型進(jìn)行了300個(gè)紀(jì)元的訓(xùn)練芯勘,以最小化軟骰子損失[13]箱靴。每批由7個(gè)大小為75 3的片段組成。學(xué)習(xí)速率從0.001開(kāi)始借尿,經(jīng)過(guò)200個(gè)紀(jì)元后降低到0.0001刨晴。我們使用膨脹率2,6,10和14 (K = 4)的Aspp和自動(dòng)聚焦模塊屉来。用2個(gè)NVIDIA泰坦X gpu訓(xùn)練一個(gè)AFNet大約需要20個(gè)小時(shí)路翻。DeepMedic的性能是通過(guò)訓(xùn)練帶有默認(rèn)參數(shù)的公共軟件[9],但不進(jìn)行增強(qiáng)茄靠,并且與其他方法類(lèi)似茂契,對(duì)每個(gè)類(lèi)進(jìn)行平均采樣。
3.2?腦部腫瘤分割數(shù)據(jù)
材料:BRATS 15[12]訓(xùn)練數(shù)據(jù)庫(kù)包括274例患兒的多模態(tài)MR掃描慨绳,以及相應(yīng)的腫瘤注釋掉冶。我們將每次掃描歸一化,這樣屬于大腦的強(qiáng)度平均值和單位方差為零脐雪。在消融研究中厌小,我們對(duì)193名受試者的所有模型進(jìn)行訓(xùn)練,并對(duì)54名受試者的表現(xiàn)進(jìn)行評(píng)估战秋。隨機(jī)選擇這些亞型璧亚,包括高級(jí)別和低級(jí)別膠質(zhì)瘤。其余23例的結(jié)果沒(méi)有報(bào)告脂信,因?yàn)樗鼈冊(cè)陂_(kāi)發(fā)期間用于配置癣蟋。根據(jù)標(biāo)準(zhǔn)方案,我們報(bào)告了對(duì)整個(gè)腫瘤的分割狰闪、核心和增強(qiáng)腫瘤的表現(xiàn)疯搅。最后,為了與其他方法進(jìn)行比較埋泵,我們對(duì)所有274張圖像進(jìn)行AFNet-6訓(xùn)練幔欧,對(duì)15個(gè)BRATS的110個(gè)測(cè)試用例進(jìn)行分割(沒(méi)有公開(kāi)的注釋),并提交預(yù)測(cè)供在線(xiàn)評(píng)估。
配置細(xì)節(jié):設(shè)置類(lèi)似于Kamnitsas等人的[9]進(jìn)行公平的比較琐馆。對(duì)于表2中的每種方法规阀,我們報(bào)告了使用不同種子的三次運(yùn)行的平均值。
3.3?結(jié)果
消融研究:宮頸CT數(shù)據(jù)庫(kù)消融研究結(jié)果見(jiàn)表1,BRATS數(shù)據(jù)庫(kù)消融研究結(jié)果見(jiàn)表2瘦麸。
我們觀(guān)察到以下情況:(a)通過(guò)將Basic的最后一層轉(zhuǎn)換為自動(dòng)對(duì)焦來(lái)構(gòu)建Afn-1谁撼,從而提高性能;需要注意的是,Aspp添加了多個(gè)并行卷積層滋饲,但它們之間沒(méi)有共享權(quán)值厉碟。這導(dǎo)致參數(shù)的大量增加,因此屠缭,部分原因是Aspp優(yōu)于Basic(見(jiàn)表3)箍鼓。(c)將更多的基本基線(xiàn)層轉(zhuǎn)換為自動(dòng)對(duì)焦層會(huì)提高性能。一個(gè)例外是Uw數(shù)據(jù)集上的Afn-4與Afn-5/6呵曹。我們推測(cè)這是由于訓(xùn)練的隨機(jī)性和次優(yōu)優(yōu)化造成的款咖。(d)在盆腔掃描和腦腫瘤分割方面,除了增強(qiáng)腫瘤外奄喂,通過(guò)自適應(yīng)聚焦增強(qiáng)深度醫(yī)療高分辨率通路的效果很快超過(guò)靜態(tài)第二通路铐殃。我們注意到,在前一個(gè)任務(wù)中跨新,由于結(jié)構(gòu)尺寸的較大變化富腊,自聚焦的自適應(yīng)特性更加突出,因此獲得了更深刻的收獲域帐。最后赘被,我們注意到,通過(guò)跨尺度共享權(quán)重肖揣,afnet具有少量的可訓(xùn)練參數(shù)民假,如表3所示,這可以從少量數(shù)據(jù)中快速學(xué)習(xí)龙优,但是這些數(shù)據(jù)留給未來(lái)的工作羊异。缺點(diǎn)是,每個(gè)自動(dòng)對(duì)焦層上的多個(gè)尺度增加了內(nèi)存和計(jì)算需求陋率。
與最先進(jìn)的BRATS 15的對(duì)比:通過(guò)在線(xiàn)評(píng)估平臺(tái)獲得的BRATS 15的測(cè)試數(shù)據(jù)的性能在表4上顯示球化,以及其他已發(fā)表的頂級(jí)方法。Afn-6與在BRATS 15挑戰(zhàn)中獲勝的半自動(dòng)方法[2,14]瓦糟,以及采用第二種靜態(tài)低分辨率路徑的深度醫(yī)療方法相比筒愚,效果更好。注意菩浙,在[14]中巢掺,高級(jí)別和低級(jí)別膠質(zhì)瘤是通過(guò)視覺(jué)檢查分離的句伶,然后通過(guò)一個(gè)適當(dāng)?shù)膶?zhuān)門(mén)的CNN,這使它們比其他冰毒ods更有優(yōu)勢(shì)陆淀。我們的模型只被[10]和[7]的管道超越考余,它們都使用具有深度監(jiān)控和更積極的數(shù)據(jù)擴(kuò)充的CNNs集成。我們的簡(jiǎn)單方法所獲得的良好性能表明了自聚焦層的潛力轧苫,可用于更精細(xì)的系統(tǒng)楚堤。
4?結(jié)論
提出了一種用于生物醫(yī)學(xué)圖像分割的自聚焦卷積層。自聚焦層能夠以數(shù)據(jù)驅(qū)動(dòng)的方式在不同的空間位置調(diào)整網(wǎng)絡(luò)的接收域含懊。我們對(duì)afnet的廣泛評(píng)估表明身冬,它們能很好地處理不同任務(wù)中的生物多樣性,并能很好地在MR和CT圖像上進(jìn)行通用化岔乔。我們已經(jīng)證明酥筝,自聚焦卷積層可以集成到現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu)中,只需要少量增加模型參數(shù)雏门,就可以極大地提高它們的表示能力嘿歌。此外,自聚焦層的可解釋性可以提高對(duì)深度學(xué)習(xí)系統(tǒng)的理解水平茁影。研究自聚焦模塊在回歸問(wèn)題中的潛力將是未來(lái)有趣的工作宙帝。