U2-Net

U^2 Net? ? ? ? ? ? ? ? ? ? CVPR2020?????????????????????github 5k★

https://github.com/NathanUA/U-2-Net

https://arxiv.org/abs/2005.09007v2

在本文中漏设,我們設計了一個簡單但功能強大的深度網絡架構U2-Net,用于顯著目標檢測(SOD)。我們的U2網絡的架構是兩層嵌套的U型結構立砸。該設計具有以下優(yōu)點:(1)由于在我們提出的殘差U塊(RSU)中混合了不同大小的感受野笆载,因此能夠從不同的尺度捕獲更多的上下文信息,(2)由于這些RSU塊中使用了池化操作,因此它增加了整個架構的深度卵凑,而不會顯著增加計算成本奈嘿。該架構使我們能夠從頭開始訓練深層網絡貌虾,而無需使用圖像分類任務中的主干。我們例舉了兩種擬議架構模型裙犹,U2 Net(176.3 MB尽狠,GTX 1080Ti GPU上30 FPS)和U2 Net?(4.7 MB衔憨,40 FPS),以便于在不同環(huán)境中使用袄膏。這兩種模型在六個SOD數據集上都取得了有競爭力的性能践图。

1.引言

顯著目標檢測(SOD)旨在分割圖像中最具視覺吸引力的目標。它在視覺跟蹤沉馆、圖像分割等領域有著廣泛的應用平项。近年來,隨著深度卷積神經網絡(CNN)的發(fā)展悍及,特別是全卷積網絡(FCN)[24]在圖像分割中的興起闽瓢,顯著目標檢測得到了顯著的改進。人們很自然地會問心赶,還缺少什么扣讼?讓我們后退一步,看看剩下的挑戰(zhàn)缨叫。

在大多數SOD網絡的設計中有一個共同的模式[18,27,41,6]椭符,即它們專注于充分利用現(xiàn)有主干提取的深度特征,如Alexnet[17]耻姥、VGG[35]销钝、ResNet[12]、ResNeXt[44]琐簇、DenseNet[15]等蒸健。然而,這些主干最初都是為圖像分類而設計的婉商。它們提取代表語義的特征似忧,而不是局部細節(jié)和全局對比度信息,這對于顯著性檢測至關重要丈秩。他們需要在ImageNet[5]數據上進行預訓練盯捌,這是數據效率低下的,尤其是當目標數據遵循與ImageNet不同的分布時蘑秽。

這就引出了我們的第一個問題:我們能否為SOD設計一個新的網絡饺著,允許從頭開始訓練,并實現(xiàn)與基于現(xiàn)有預訓練骨干的網絡相當或更好的性能肠牲?

關于SOD的網絡架構還有一些問題幼衰。首先,它們往往過于復雜[58]埂材。這部分是由于特征相加聚合模塊塑顺,這些模塊用于相加到現(xiàn)有主干中,以從這些主干中提取多級顯著性信息。其次严拒,現(xiàn)有主干通常通過犧牲特征圖的高分辨率扬绪,從而使得網絡架構可以更深[58]。為了以負擔得起的內存和計算成本運行這些深層模型裤唠,在早期階段將特征圖縮小到較低的分辨率挤牛。例如,在ResNet和DenseNet的早期層[15]种蘸,使用步長為2的卷積和步長為2的maxpooling將特征映射的大小減少到輸入映射的四分之一墓赴。然而,在分割中航瞭,除了網絡深度诫硕,特征映射的高分辨率也起著重要作用[21]。

因此刊侯,我們的后續(xù)問題是:我們是否可以在保持高分辨率特征圖的同時章办,以較低的內存和計算成本使網絡變得更深?

我們的主要貢獻是一種新穎而簡單的網絡架構滨彻,稱為U2-Net藕届,它解決了上述兩個問題。首先亭饵,U2-Net是一個兩層嵌套的U型結構休偶,它是為SOD設計的,不使用任何來自圖像分類的預訓練主干辜羊。它可以從無到有地進行訓練踏兜,以獲得有競爭力的性能。其次只冻,這種新穎的架構允許網絡更深入庇麦,獲得高分辨率,而不會顯著增加內存和計算成本喜德。這是通過嵌套U結構實現(xiàn)的:在bottom level,我們設計了一種新的殘差U塊(ReSidual U-block垮媒,RSU)舍悯,它能夠在不降低特征圖分辨率的情況下提取階段內多尺度特征;在top level睡雇,有一個U形網狀結構萌衬,其中每個階段由一個RSU塊填充。兩級配置形成嵌套的U型結構(見圖5)它抱。我們的U2-Net(176.3MB)在六個公共數據集上實現(xiàn)了與最先進的(SOTA)方法相比的競爭性能秕豫,并在1080Ti GPU上實時運行(每秒30幀,輸入大小為320×320×3)。為了便于在計算和內存受限的環(huán)境中使用我們的設計混移,我們提供了一個小版本的U2-Net祠墅,稱為U2-Net?(4.7MB)。U2-Net?以40 FPS的速度與大多數SOTA型號(見圖1)相比取得了競爭性的結果歌径。

圖1毁嗦。比較我們的U2-Net與其他最先進的SOD模型的模型大小和性能。maxF_β度量是在數據集ECSSD上計算的[46]回铛。紅星表示我們的U2-Net(176.3MB)狗准,藍星表示我們的小型版本U2-Net?(4.7MB)。

2.相關工作

近年來茵肃,已經提出了許多深顯著目標檢測網絡[22,33]腔长。與基于前景一致性[49]、高光譜信息[20]验残、超像素相似性[55]捞附、直方圖[26,25]等手工特征的傳統(tǒng)方法[2]相比,深顯著目標檢測網絡表現(xiàn)出更具競爭力的性能胚膊。

多級深度特征集成(Multi-level deep feature integration):

最近的研究[24,45]表明故俐,來自多個深層的特征能夠產生更好的結果[50]。然后紊婉,針對SOD药版,提出了多種集成和聚合多級深度特征的策略和方法。Li等人(MDF)[18]建議將目標像素周圍的圖像塊饋送到網絡喻犁,然后獲得用于描述該像素顯著性的特征向量槽片。Zhang等人(Amulet)[53]通過將多層次特征聚合為不同分辨率來預測顯著性圖。Zhang等人(UCF)[54]建議通過引入一個重新計算的差分和一個混合上采樣模塊來減少反卷積算子的棋盤偽影肢础。Luo等人[27]設計了一個具有4×5網格結構的顯著性檢測網絡(NLDF+)还栓,其中較深的特征逐漸與較淺的特征相結合。Zhang等人(LFR)[52]通過從原始輸入圖像及其具有同胞結構的反射圖像中提取特征來預測顯著性圖传轰。Hou等人(DSS+)[13]建議通過引入從深層到淺層的短連接來集成多層特征剩盒。Chen等人(RAS)[4]通過迭代使用主干網絡的側面輸出顯著性作為特征注意指導來預測和細化顯著性圖。Zhang等人(BMPM)[50]提出通過可控雙向傳球策略整合淺層和深層特征慨蛙。鄧等人(R3Net+)[6]交替結合淺層和深層特征辽聊,以細化預測的顯著性圖。Hu等人(RADF+)[14]提出通過反復聚合多級深度特征來檢測顯著對象期贫。Wu et al.(MLMS)[42]通過開發(fā)一種新的交互學習模塊來更好地利用邊界和區(qū)域的相關性跟匆,從而提高顯著性檢測的準確性。Wu等人[43]建議使用級聯(lián)部分解碼器(CPD)框架快速準確地檢測顯著目標通砍。這類深度方法利用了主干網絡提取的多級深度特征玛臂,大大提高了顯著目標檢測相對于傳統(tǒng)方法的門檻(bar)。

多尺度特征提取(Multi-scale feature extraction):

如前所述迹冤,顯著性檢測需要局部和全局信息讽营。3×3濾波器用于提取各層的局部特征。然而叁巨,僅僅通過擴大濾波器的大小來提取全局信息是困難的斑匪,因為這將大大增加參數的數量和計算成本。許多工作都更加關注全局上下文的提取锋勺。Wang等人(SRM)[40]對金字塔池模塊[57]進行了調整蚀瘸,以捕獲全局上下文,并提出了一種用于顯著性圖重新細化的多階段細化機制庶橱。Zhang et al.(PAGRN)[56]開發(fā)了一個空間和通道注意模塊贮勃,以獲取每一層的全局信息,并提出了一種漸進式注意引導機制來細化顯著性圖苏章。Wang等人(DGRL)[41]開發(fā)了一個inception-like[36]的上下文權重模塊寂嘉,用于全局定位顯著對象,然后使用邊界細化模塊局部細化顯著性圖枫绅。Liu等人(PiCANet)[23]通過將顯著性圖與UNet架構相結合泉孩,反復捕獲局部和全局像素相關的上下文注意,并預測顯著性圖并淋。Zhang等人(CapSal)[51]設計了一個局部和全局感知模塊寓搬,從主干網絡提取的特征中提取局部和全局信息。Zeng等人(MSWS)[48]設計了一個注意力模塊县耽,用于預測前景對象在圖像區(qū)域上的空間分布句喷,同時聚合其特征。Feng等人(AFNet)[9]開發(fā)了一個全局感知模塊和注意反饋模塊兔毙,以更好地探索顯著對象的結構唾琼。Qin et al.(BASNet)[33]提出了一個predict-refine模型,通過順序堆疊兩個不同配置的U形網絡和一個用于邊界感知顯著目標檢測的混合損耗澎剥。Liu et al.(PoolNet)[22]通過引入用于提取全局定位特征的全局引導模塊和適用于融合全局和精細特征的金字塔池模塊的多尺度特征聚合模塊锡溯,開發(fā)了用于顯著目標檢測的編碼器架構。在這些方法中哑姚,提出了許多啟發(fā)性的模塊來從現(xiàn)有主干提取的多層次深度特征中提取多尺度特征趾唱。這些新模塊引入了多樣化的感受域和豐富的多尺度上下文特征,顯著提高了顯著目標檢測模型的性能蜻懦。

綜上所述,多級深度特征集成方法主要關注于開發(fā)更好的多級特征聚合策略夕晓。另一方面宛乃,多尺度特征提取方法的目標是設計新的模塊,從骨干網絡獲得的特征中提取局部和全局信息。我們可以看到征炼,幾乎所有上述方法都試圖更好地利用現(xiàn)有圖像分類主干生成的特征映射析既。我們沒有開發(fā)和添加更復雜的模塊和策略來使用這些主干特征,而是提出了一種新穎谆奥、簡單的架構眼坏,該架構可以分階段直接提取多尺度特征,用于顯著目標檢測酸些。

3.提出的方法

首先宰译,我們介紹了我們提出的殘差U塊的設計,然后描述了使用該塊構建的嵌套架構的細節(jié)魄懂。本節(jié)末尾描述了網絡監(jiān)督策略和訓練損失沿侈。

3.1. 殘差U形塊

局部和全局上下文信息對于顯著目標檢測和其他分割任務都非常重要。在現(xiàn)代CNN設計中市栗,如VGG缀拭、ResNet、DenseNet等填帽,尺寸為1×1或3×3的小型卷積濾波器是最常用的特征提取組件蛛淋。由于它們需要更少的存儲空間,并且計算效率高篡腌,因此受到青睞褐荷。圖2(a)-(c)示出了具有小感受野的典型現(xiàn)有卷積塊。由于1×1或3×3濾波器的感受野太小哀蘑,無法捕獲全局信息诚卸,淺層的輸出特征圖僅包含局部特征。為了在淺層的高分辨率特征圖上獲得更多的全局信息绘迁,最直接的想法是擴大感受野合溺。圖2(d)顯示了一個類似inception的塊[50],它試圖通過使用擴張卷積[3]擴大感受野來提取局部和非局部特征缀台。然而棠赛,在原始分辨率的輸入特征映射上進行多次擴張卷積(特別是在早期階段)需要太多的計算和內存資源。為了降低計算成本膛腐,PoolNet[22]采用了金字塔池模塊(PPM)[57]的并行配置睛约,該模塊在降采樣特征映射上使用小核濾波器,而不是原始尺寸特征映射上的擴展卷積哲身。但是辩涝,通過直接上采樣和級聯(lián)(或加法)融合不同尺度的特征可能會導致高分辨率特征的退化。

圖2】碧欤現(xiàn)有卷積塊和我們提出的殘差U型塊RSU的說明:(a)普通卷積塊PLN怔揩,(b)殘差類塊RES捉邢,(c)inception-like塊INC,(d)密集類塊DSE和(e)我們的殘差U型塊RSU商膊。

受U-Net[34]的啟發(fā)伏伐,我們提出了一種新的殘差子塊RSU,用于在同一個階段捕獲多尺度特征晕拆。RSU-L(Cin藐翎,M,Cout)的結構如圖2(e)所示实幕,其中L是編碼器中的層數吝镣,Cin,Cout表示輸入和輸出通道數茬缩,M表示RSU中間層中的通道數赤惊。因此,我們的RSU主要由三部分組成:

(i) 輸入卷積層凰锡,將輸入特征映射{x} (H×W×C_{in} )轉換為具有C_{out} 通道的中間映射F_1 (x )未舟。這是一個用于局部特征提取的普通卷積層。

(ii)高度為L的類U網的對稱的編解碼結構掂为,以中間特征圖F_1 (x )為輸入裕膀,學習提取和編碼多尺度上下文信息U(F_1 ( x))。U表示如圖2(e)所示的U形網狀結構勇哗。L越大昼扛,殘差U形塊(RSU)越深,池化操作越多欲诺,感受野的多樣性就越多( larger range of receptive fifields)抄谐,局部和全局特征越豐富。配置此參數可以從具有任意空間分辨率的輸入特征圖中提取多尺度特征扰法。多尺度特征的提取是通過:對特征圖逐步降采樣蛹含,并通過漸進式上采樣、級聯(lián)和卷積編碼為高分辨率特征圖塞颁。這一過程減輕了直接以大的比例上采樣造成的精細細節(jié)損失浦箱。

(iii)通過求和融合局部特征和多尺度特征的殘差連接:F_1 ( x) +U(F_1 (x ))

為了更好地說明我們設計背后的直覺祠锣,圖3中酷窥,我們將殘差U形塊(RSU)與原始殘差塊[12]進行比較。殘差塊中的操作可總結為H( x )=F_2(F_1(x))+x伴网,其中H( x)表示輸入特征x的期望映射蓬推;F2,F(xiàn)1表示權重層澡腾,在此設置中為卷積運算拳氢。RSU和殘差塊之間的主要設計差異在于募逞,RSU用類似U網的結構替換了普通的單流卷積,并用權重層轉換的局部特征替換了原始特征:H_{RSU}( x )=U(F_1 (x ))+F_1 ( x)(編者注:這半句是指+F_1(x)馋评,而不是+x),其中U表示圖2(e)所示的多層U結構刺啦。這種設計變化使網絡能夠從多個尺度直接從每個殘差塊中提取特征留特。更值得注意的是,由于U型結構導致的計算開銷較小玛瘸,因為大多數操作是計算在下采樣的特征映射上蜕青。這如圖4所示,其中我們顯示了圖2(a)-(d)中RSU和其他特征提取模塊之間的計算成本比較糊渊。密集塊(DSE)右核、inception塊(INC)和RSU的FLOPS均隨中間層通道數M呈二次增長。但RSU在二次項上的系數小得多渺绒,從而提高了效率贺喝。它的計算開銷與普通卷積(PLN)和殘差塊(RES)塊(兩者均相對于M為線性)相比并不顯著。

圖3宗兼。殘差塊和我們的RSU的比較躏鱼。
圖4。圖2所示的不同塊的計算成本(GFLOPS 千兆浮點運算):計算成本是基于將尺寸為320×320×3的輸入特征映射轉換為320×320×64的輸出特征映射來計算的殷绍∪究粒“PLN”、“RES”主到、“DSE”茶行、“INC”和“RSU”分別表示普通卷積塊、殘差塊登钥、密集塊畔师、inception塊和我們的殘差U塊

3.2. U2網絡的架構

為不同的任務堆疊多個U形網狀結構已經探索了一段時間,eg.堆疊的hourgalss網絡[31]怔鳖、DocUNet[28]茉唉、CU網絡[38]用于姿勢估計等。這些方法通常按順序疊加U網絡狀結構以建立級聯(lián)模型结执,可總結為“(U×n-Net))”度陆,其中n是重復U網絡模塊的數量。問題是計算和內存成本被放大了n倍献幔。

在這篇文章中懂傀,我們提出了一個不同的公式,U^nNet蜡感,用于在顯著目標檢測中堆疊U結構蹬蚁。我們的指數表示法是指嵌套的U型結構恃泪,而不是級聯(lián)堆疊。理論上犀斋,指數n可以設置為任意正整數贝乎,以實現(xiàn)單級或多級嵌套U型結構。但是嵌套級別太多的架構將太復雜叽粹,無法在實際應用程序中實現(xiàn)和使用览效。

在這里,我們將n設置為2來構建我們的U2網絡虫几。我們的U2網絡是一個兩層嵌套的U型結構锤灿,如圖5所示。它的top-level是一個由11個階段組成的大U型結構(圖5中的立方體)辆脸。每一階段都由一個配置良好的殘差Ublock(RSU)(bottom level? U結構)填充但校。因此,嵌套U結構能夠更有效地提取階段內多尺度特征和聚合階段間多級特征啡氢。

圖5状囱。我們提出的U2-Net架構的說明。主要架構是一個類似于U-Net的編碼器-解碼器空执,其中每個階段由我們新提出的殘差U塊(RSU)組成浪箭。例如,En 1基于圖2(e)所示的RSU塊辨绊。各階段RSU塊的詳細配置見表1最后兩行奶栖。

如圖5所示,U2-Net主要由三部分組成:(1)六級編碼器门坷,(2)五級解碼器和(3)與解碼器級和最后一個編碼器級相連的顯著性映射融合模塊:

(i) 在編碼器級En 1宣鄙、En 2、En 3和En 4中默蚌,我們分別使用殘差U塊RSU-7冻晤、RSU-6、RSU-5和RSU-4绸吸。如前所述鼻弧,“7”、“6”锦茁、“5”和“4”表示RSU塊的高度(L)攘轩。L通常根據輸入特征圖的空間分辨率進行配置。對于高和寬較大的特征圖(編者注:指分辨率較大)码俩,我們使用較大的L來捕獲更大尺度的信息度帮。En 5和En 6中特征圖的分辨率相對較低,進一步降低這些特征圖的采樣會導致有用上下文的丟失稿存。因此笨篷,在En 5和En 6兩個階段中瞳秽,都使用RSU-4F,其中“F”表示RSU是一個dilated版本率翅,在該版本中练俐,我們用擴張卷積替換池化和上采樣操作(見圖5)。這意味著RSU-4F的所有中間特征圖與其輸入特征圖具有相同的分辨率安聘。

(ii)解碼器級具有與其關于En 6的對稱編碼器級類似的結構痰洒。在De 5中,我們還使用擴展版殘差U塊RSU-4F浴韭,這與編碼器級En 5和En 6中使用的類似。每個解碼器級將來自其前一級的上采樣特征映射和來自其對稱編碼器級的上采樣特征映射的級聯(lián)作為輸入脯宿,參見圖5念颈。

(iii)最后一部分是顯著圖融合模塊,用于生成顯著概率圖连霉。與HED[45]類似榴芳,我們的U2-Net首先通過3×3卷積層和sigmoid函數從階段En 6、De 5跺撼、De 4窟感、De 3、De 2和De 1生成六側輸出顯著性概率圖(six side output saliency probability maps)S_{side}^{(6)}歉井、S_{side}^{(5)}柿祈、S_{side}^{(4)}S_{side}^{(3)}哩至、S_{side}^{(2)}S_{side}^{(1)}。然后奥务,它將側輸出(side output)顯著性映射的logit(在sigmoid函數之前的卷積輸出)向上采樣到輸入圖像大小欺缘,并使用一個拼接操作(隨后是1×1卷積層和sigmoid函數)將其融合,以生成最終顯著性概率映射S_{fuse} (參見圖5的右下角)箭阶。

總之虚茶,我們的U2-Net的設計允許具有豐富的多尺度特性和相對較低的計算和內存成本的深層架構。此外仇参,由于我們的U2-Net架構僅構建在RSU塊上嘹叫,而不使用任何根據圖像分類調整的預訓練主干,因此它靈活且易于適應不同的工作環(huán)境冈敛,性能損失不大待笑。在本文中,我們通過使用不同的濾波器數量配置提供了兩個U2-Net實例:一個普通版本U2-Net(176.3MB)和一個相對較小的版本U2-Net?(4.7MB)抓谴。詳細配置見表1的最后兩行暮蹂。

3.3. 監(jiān)督

在訓練過程中寞缝,我們使用了與HED類似的深度監(jiān)督[45]。其有效性已在HED和DSS中得到驗證仰泻。我們的訓練損失定義為:

L=\sum_{m=1}^M w_{side}^{(m)}  l_{side}^{(m)} + w_{fuse}  l_{fuse} ? ??(1)

其中荆陆, l_{side}^{(m)} 是側輸出顯著性映射S_{side}^{(m)}的損失(M=6,如圖5中的Sup1集侯、Sup2被啼、... Sup6所示),l_{fuse} 是最終融合輸出顯著性映射S_{fuse} 的損失(圖5中的Sup7)棠枉。w_{side}^{(m)} w_{fuse}  是每個損失的加權權重浓体。對于每一項,我們使用標準二值交叉熵來計算損失:

l=-\sum_{(r,c)}^{(H,W)} [{P_{G(r,c)} }log{P_{S(r,c)} }+(1-{P_{G(r,c)} })log(1-{P_{S(r,c)} })]? ??(2)

其中(r,c)是像素坐標辈讶,(H,W)是圖像高寬命浴,{P_{G(r,c)} }{P_{S(r,c)} }分別表示真值和預測顯著性概率圖的像素值。訓練過程試圖最小化等式(1)的總損失L贱除。在測試過程中生闲,我們選擇融合輸出的l_{fuse}作為最終的顯著性圖。

4.????實驗結果

4.1. 數據集

訓練數據集:? ? 我們在DUTS-TR上訓練我們的網絡月幌,它是DUTS數據集的一部分[39]碍讯。DUTS-TR總共包含10553個圖像。目前扯躺,它是用于顯著目標檢測的最大和最常用的訓練數據集捉兴。我們通過水平翻轉來擴充這個數據集,從而離線獲得21106個訓練圖像缅帘。

評估數據集:????六個常用的基準數據集用于評估我們的方法轴术,包括:DUTOMRON[47]、DUTS-TE[39]钦无、HKU-IS[18]逗栽、ECSSD[46]、PASCAL-S[19]失暂、SOD[30]彼宠。DUT-OMRON包括5168幅圖像,其中大部分包含一個或兩個結構復雜的前景對象弟塞。DUTS數據集由兩部分組成:DUTS-TR和DUTS-TE凭峡。如上所述,我們使用DUTS-TR進行訓練决记。因此摧冀,包含5019幅圖像的DUTS-TE被選為我們的評估數據集之一。HKU-IS包含4447幅具有多個前景對象的圖像。ECSSD包含1000個結構復雜的圖像索昂,其中許多包含大型前景對象建车。PASCAL-S包含850幅圖像,前景對象復雜椒惨,背景雜亂缤至。SOD僅包含300個圖像。但這是非常具有挑戰(zhàn)性的康谆。因為它最初是為圖像分割而設計的领斥,并且許多圖像對比度低或包含與圖像邊界重疊的復雜前景對象。

4.2. 評價指標

深度顯著目標方法的輸出通常是與輸入圖像具有相同空間分辨率的概率圖沃暗。預測顯著性圖的每個像素的值都在0和1(或[0-255])的范圍內月洛。真值通常是二值掩碼,其中每個像素為0或1(或0和255)孽锥,其中0表示背景像素膊存,1表示前景突出對象像素。

為了綜合評估這些概率圖相對于真值的質量忱叭,有六種度量,包括(1)精度召回(Precision-Recall今艺,PR)曲線韵丑,(2)最大F度量(maxF_β)[1],(3)平均絕對誤差(MAE)[23,33,22]虚缎,(4)加權F度量(F_β^w)[29]撵彻,(5)結構度量(S_m)[8]和(6)邊界的松弛F度量(relaxed F-measure of boundary)(relaxF_β^b)[33]:

(1)PR曲線????是基于一組精度召回對(precision-recall pairs)而繪制的。給定一個預測的顯著性概率圖实牡,其精度和召回分數是通過將其閾值二元掩碼與真值掩碼進行比較來計算的陌僵。數據集的精度和召回分數是通過平均這些顯著性映射的精度和召回分數來計算的。通過將閾值從0增加到1创坞,我們可以得到數據集的一組平均精度召回對碗短。

(2) F-measure????F_β用于綜合評估精度和召回率,如下所示:

F_β=\frac{(1+β^2)\times Precision\times Recall}{β^2\times Precision+Recall} ? ??(3)


我們將β^2設置為0.3题涨,并報告每個數據集的最大F_βmaxF_β)偎谁,類似于之前的工作[1,23,50]。

(3) MAE????是平均絕對誤差纲堵,表示預測的顯著性圖與其真值遮罩之間的平均每像素差異巡雨。其定義為:

MAE= \frac{1}{H\times W} \sum\nolimits_{r=1 }^H \sum\nolimits_{c=1 }^W |P(r,c)-G(r,c)|? ??(4)

其中PG分別是顯著目標檢測的概率圖和相應的真值,(H,W)(r,c)分別是圖像高寬和像素坐標席函。

(4) weighted F-measure(F_β^w)[29]? ? 是對maxF_β的補充度量铐望,用于克服“插值缺陷、依賴性缺陷和同等重要性缺陷”可能導致的不公平比較[23],定義為:

F_β^w=(1+β^2)\frac{Precision^w\cdot  Recall^w}{β^2\cdot Precision^w+Recall^w} ? ??(5)

(5) S-measure (S_m????用于評估預測的非二值顯著性圖和真值的結構相似性正蛙。S-測度定義為區(qū)域感知S_r和對象感知S_o結構相似性的加權和(Sm is used to evaluate the structure similarity of the predicted non-binary saliency map and the ground truth.The S-measure is defined as the weighted sum of region-aware Sr and object-aware So structural similarity):

S=(1-\alpha S_r)+\alpha S_o? ??(6)

其中α通常設置為0.5督弓。

(6) relax boundary F-measure?relaxF_β^b[7]????用于定量評估預測顯著性圖[33]的邊界質量。給定一個預測的顯著性概率圖P∈ [0,1]跟畅,通過簡單的閾值操作(閾值設置為0.5)獲得其二值掩模P_{bw}咽筋。然后,執(zhí)行XOR(P_{bw},P_{erd})操作以獲得其一像素寬的邊界(its one pixel wide boundary)徊件,其中P_{erd}表示P_{bw}腐蝕的二值掩膜[11]奸攻。以相同的方式獲得真值掩模的邊界。松弛邊界F-度量relaxF_β^b的計算類似于公式(3)虱痕。不同之處在于睹耐,要將公式(3)中的PrecisionRecall分別換成relaxPrecision^brelaxRecall^b。松弛邊界精度(relaxPrecision^b)的定義是距離真值邊界像素ρ像素范圍內的預測邊界像素分數部翘。松弛邊界召回(relaxRecall^b)定義為位于預測邊界像素ρ像素范圍內的真值邊界像素分數硝训。松弛參數ρ設置為3,與之前的工作一樣[33]新思。對于某個數據集窖梁,本文報告所有預測顯著性圖的平均relaxF_β^b

4.3????實施細節(jié)

在訓練過程中夹囚,首先將每個圖像的大小調整為320×320纵刘,然后隨機垂直翻轉并裁剪為288×288。我們沒有在網絡中使用任何現(xiàn)有的主干網荸哟。因此假哎,我們從頭開始訓練網絡,所有卷積層都由Xavier[10]初始化鞍历。損失函數的加權權重w_{side}^{(m)} w_{fuse}  都設為1舵抹。Adam optimizer[16]用于訓練我們的網絡,其超參數設置為默認值(初始學習率lr=1e-3劣砍,betas=(0.9,0.999)惧蛹,eps=1e-8,權重衰減=0)秆剪。我們訓練網絡直到損失收斂赊淑,而不使用驗證集,遵循之前的方法[22,23,50]仅讽。經過600k次迭代(批量大小為12)陶缺,訓練損失收斂,整個訓練過程大約需要120小時洁灵。在測試過程中饱岸,將輸入圖像(H×W)調整為320×320掺出,并輸入網絡以獲得顯著性圖。將大小為320×320的預測顯著性圖調整回輸入圖像的原始大猩环选(H×W)汤锨。雙線性插值用于兩種調整大小過程。我們的網絡是基于Pytorch 0.4.0[32]實現(xiàn)的百框。訓練和測試都是在一臺8核16線程PC上進行的闲礼,該PC配有AMD Ryzen 1800x 3.5 GHz CPU(32GB RAM)和GTX 1080ti GPU(11GB內存)。我們稍后將發(fā)布代碼铐维。

4.4? ??消融研究

為了驗證我們的U2-Net的有效性柬泽,我們在以下三個方面進行了消融研究:i)基本塊,ii)架構和iii)主干嫁蛇。所有消融研究遵循相同的實施設置锨并。

4.4.1????塊上的消融

在塊消融中,目標是驗證我們新設計的殘余U型區(qū)塊(RSU)的有效性睬棚。具體來說第煮,我們使U2-Net的外部編碼器-解碼器架構固定不變,并用其他流行的塊替換其階段抑党,包括普通卷積塊(PLN)包警、殘差類塊(RSE)、密集類塊(DSE)底靠、inception-like塊(INC)和金字塔池模塊(PPM)揽趾,如圖2(a)-(d)所示。詳細配置見表1苛骨。

表1。消融研究中使用的不同結構的詳細配置苟呐⊙髦ィ“PLN”、“RES”牵素、“DSE”严衬、“INC”、“PPM”和“RSU”分別表示普通卷積塊笆呆、殘差塊请琳、密集塊、inception塊赠幕、金字塔池化模塊和我們的殘差U塊俄精。“NIV U2-Net”表示U-Net榕堰,其每個階段都由一個簡單的U-Net塊替換竖慧∠犹祝“I”、“M”和“O”表示每個塊的輸入通道(Cin)圾旨、中間通道和輸出通道(Cout)的數量踱讨。“En i”和“De j”分別表示編碼器和解碼器級砍的”陨福“NIV-L”和“RSU-L”中的數字“L”表示原始U型塊和殘差U型塊的高度。

表2顯示了消融研究的定量結果廓鞠。正如我們所見帚稠,基線U-Net的性能最差,而PLN U-Net诫惭、RES U-Net翁锡、DES U-Net、INC U-Net和PPM U-Net的性能優(yōu)于基線U-Net夕土。因為它們要么更深馆衔,要么具有提取多尺度特征的能力。然而怨绣,它們的性能仍然低于我們的全尺寸U2-Net和小型版本U2-Net?角溃。特別是,在DUT-OMRON和ECSSD數據集上篮撑,我們的全尺寸U2-Net分別將maxF_β提高了約3.3%和1.8%减细,并將MAE降低了超過12.9%和21.4%(在塊消融研究中)。此外赢笨,在DUT-OMRON數據集上未蝌,我們的U2-Net和U2-Net?使maxF_β分別增加了9.8%和8.8%,MAE分別降低了34.1%和27.0%茧妒,這是相對于基線U-Net的顯著改進萧吠。在ECSSD數據集上,雖然我們的U2-Net和U2-Net?相對于基線U-Net的maxF_β改善(5.5%桐筏,4.7%)略低于DUT-OMRON纸型,但MAE的改善更大(50.0%,38.0%)梅忌。因此狰腌,我們相信,我們新設計的殘差U塊RSU在這項顯著目標檢測任務中優(yōu)于其他RSU牧氮。此外琼腔,基于殘差U塊(RSU)的U2-Net架構的時間成本沒有顯著增加。

表2踱葛。不同塊體展姐、結構和主干的消融研究結果躁垛。“PLN”圾笨、“RES”教馆、“DSE”、“INC”擂达、“PPM”和“RSU”分別表示普通卷積塊土铺、殘差塊、密集塊板鬓、inception塊悲敷、金字塔化模塊和我們的殘差U塊〖罅睿“NIV U2-Net”表示U-Net后德,其每個階段由一個簡單的UNet塊代替〕唬“ Time (ms)” (ms: milliseconds) 消耗通過平均ECSSD數據集中圖像的推斷時間成本來計算瓢湃。帶有粗體字體的值表示性能最佳的兩個。

4.4.2????架構上的消融

如前所述赫蛇,以前的方法通常使用級聯(lián)方式來堆疊多個類似的結構绵患,以構建更具表現(xiàn)力的模型。這個想法背后的一個直覺是悟耘,多個相似的結構能夠逐漸細化結果落蝙,同時減少過度擬合。堆疊HourglassNet[31]和CU-Net[37]是這一類別中的兩個代表性模型暂幼。因此筏勒,我們采用了堆疊的HourglassNet和CU-Net來比較級聯(lián)架構和嵌套架構之間的性能。如表2所示旺嬉,我們的全尺寸U2-Net和小尺寸U2-Net?都優(yōu)于這兩種級聯(lián)模型奏寨。值得注意的是,堆疊的HourglassNet和CU-Net都使用改進的U-Net類模塊作為其堆疊子模型鹰服。為了進一步證明我們的嵌套架構的有效性,我們還演示了基于原始U塊(NIV)的U2網絡的性能揽咕,而不是我們新提出的殘差U塊悲酷。我們可以看到,NIV U2-Net仍然比這兩個級聯(lián)模型實現(xiàn)更好的性能亲善。此外设易,嵌套架構比級聯(lián)架構更快∮纪罚總之顿肺,我們的嵌套架構在準確性和速度方面都比級聯(lián)架構能夠實現(xiàn)更好的性能戏溺。

4.4.3????主干消融

與以前使用主干(例如VGG、ResNet等)作為編碼器的顯著目標檢測模型不同屠尊,我們新提出的U2-Net架構是無主干的旷祸。為了驗證無主干設計,我們進行了消融研究讼昆,用不同的主干(VGG16和ResNet50)替換我們全尺寸U2網絡的編碼器部分托享。實踐中,我們在主干(VGG-16和ResNet-50)的最后一個卷積階段后面再接一個額外的階段浸赫,以實現(xiàn)與我們最初的U2-Net架構設計相同的感受野闰围。如表2所示,使用主干網和我們的RSU作為解碼器的模型比以前的消融實現(xiàn)了更好的性能既峡,并且與我們的小尺寸U2-Net相比性能相當羡榴。然而,他們仍然不如我們的全尺寸U2-Net运敢。因此校仑,我們相信,在這個顯著性目標檢測任務中者冤,我們的無主干設計比基于主干的設計更具競爭力肤视。

4.5. 與最新技術的比較

我們將我們的模型(全尺寸U2-Net,176.3 MB和小尺寸U2-Net?涉枫,4.7 MB)與20種最先進的方法進行比較邢滑,包括一種基于AlexNet的模型:MDF;10種基于VGG的模型:UCF愿汰、Amulet困后、NLDF、DSS衬廷、RAS摇予、PAGRN、BMPM吗跋、PiCANet侧戴、MLMS、AFNet跌宛;一個基于DenseNet的模型MSWS酗宋;一個基于ResNeXt的模型:R3Net;以及七個基于ResNet的模型:CapSal疆拘、SRM蜕猫、DGRL、PiCANetR哎迄、CPD回右、PoolNet隆圆、BASNet。為了公平比較翔烁,我們主要使用作者提供的顯著目標檢測結果渺氧。對于某些方法的某些數據集上缺少的結果,我們在建議的環(huán)境設置下運行它們發(fā)布的代碼和經過訓練的模型租漂。

4.5.1????定量比較

圖6顯示了我們的模型(U2-Net阶女,176.3 MB和U2-Net?,4.7 MB)的精確-召回曲線以及六個數據集上最先進的典型方法哩治。曲線與表3和表4一致秃踩,表3和表4展示了我們的U2-Net在DUT-OMRON、HKU-IS和ECSSD上的最先進性能业筏,以及在其他數據集上的競爭性能憔杨。表3和表4比較了五個(六個包括模型大小)評估指標以及我們提出的方法與其他方法的模型大小蒜胖。正如我們所看到的消别,我們的U2-Net在數據集DUT-OMRON、HKU-IS和ECSSD上幾乎在五個評估指標中都達到了最佳性能台谢。在DUTS-TE數據集上寻狂,我們的U2-Net的總體性能排名第二,略低于PoolNet朋沮。在PASCAL-S上蛇券,我們的U2-Net的性能略低于AFNet、CPD和PoolNet樊拓。值得注意的是纠亚,就邊界質量評估指標relaxFβb而言,U2-Net的性能排名第二筋夏。在SOD數據集上蒂胞,PoolNet表現(xiàn)最好,而我們的U2-Net在整體性能方面排名第二条篷。

圖6骗随。在六個SOD數據集上,我們的模型和其他典型最先進模型的精確-召回曲線赴叹。
表3鸿染。比較我們的方法與20種SOTA方法在DUT-OMRON、DUTS-TE稚瘾、HKU-IS上的模型尺寸、maxFβ(↑), MAE(↓), 加權Fβw(↑), 結構度量Sm(↑) 和松弛邊界F-測度relaxFβb(↑). 紅色姚炕、綠色和藍色表示最佳摊欠、第二最佳和第三最佳性能丢烘。
表4.比較我們的方法與20種SOTA方法在ECSSD、PASCAL-S些椒、SOD的模型大小播瞳、maxFβ(↑), MAE(↓), 加權Fβw(↑), 結構度量Sm(↑) 和松弛邊界F-測度relaxFβb(↑). 紅色、綠色和藍色表示最佳免糕、第二最佳和第三最佳性能赢乓。

我們的U2-Net?只有4.7 MB,這是當前顯著目標檢測領域中最小的模型石窑。與其他模型相比牌芋,它的參數數量要少得多,但仍能獲得令人驚訝的競爭性能松逊。雖然它的性能不如我們的全尺寸U2-Net躺屁,但它的輕量將促進它在許多計算和內存受限環(huán)境中的應用。

4.5.2????定性比較

為了直觀地了解我們模型的良好性能经宏,我們在圖7中展示了我們模型的示例結果和其他幾種最先進的方法犀暑。正如我們所見,我們的U2-Net和U2-Net?能夠處理不同類型的目標烁兰,并產生準確的顯著目標檢測結果耐亏。圖7的第一行和第二行顯示了小物體和大物體

的結果。正如我們所觀察到的沪斟,我們的U2-Net和U2-Net?能夠在小物體和大物體上產生準確的結果广辰。其他模型要么容易錯過小目標,要么產生精度較差的大對象币喧。第三行顯示目標接觸圖像邊界的結果轨域。我們的U2網絡正確地劃分了所有區(qū)域。雖然U2-Net?錯誤地分割了右下角的孔杀餐,但它仍然比其他型號好得多干发。第四行演示了模型在分割既包含大結構又包含窄細結構的物體的性能。正如我們所看到的史翘,除了AFNet(第j列)之外枉长,大多數其他模型雖然能很好地提取大結構,但是都會錯失窄細的纜狀結構琼讽。第五行是一棵背景相對干凈的樹必峰,背景是藍天。這看起來很簡單钻蹬,但實際上對大多數模型來說都是一個挑戰(zhàn)吼蚁,因為目標的形狀很復雜。正如我們所看到的,我們的模型可以很好地分割樹干和樹枝肝匆,而其他模型在分割復雜的樹枝區(qū)域時失敗粒蜈。與第5排相比,第6排所示的工作臺由于采用中空結構而更加復雜旗国。我們的U2-Net產生了近乎完美的效果枯怖。雖然U2-Net?預測圖的右下角不完美,但其在這一目標上的總體性能比其他模型要好得多能曾。此外度硝,與PoolNet(第f列)、CPD(第g列)寿冕、picanatr(第h列)和AFNet(第j列)等模型相比蕊程,我們的模型的結果更具有一致性,灰度區(qū)域更少蚂斤。第七行顯示存捺,我們的模型可以產生比真值更精細的結果。在第7張圖片中標記這些小孔既麻煩又耗時曙蒸。因此捌治,這些重復的精細結構通常在注釋過程中被忽略。從這些不完善的標簽推斷正確的結果是一項挑戰(zhàn)纽窟。但是我們的模型在分割這些精細結構方面表現(xiàn)出了很好的能力肖油,這要歸功于設計良好的架構,用于提取和集成高分辨率局部和低分辨率全局信息臂港。第8行和第9行顯示了我們的模型在檢測背景雜亂和前景復雜的目標方面的強大能力森枪。第10行顯示,我們的模型能夠分割多個目標审孽,同時捕獲檢測到的目標的細節(jié)(參見每艘帆船兩片帆的間隙區(qū)域)县袱。總之佑力,我們的全尺寸和小尺寸模型都能夠處理各種場景式散,并產生高精度的顯著目標檢測結果。

圖7.提出方法與其他七種SOTA方法的定性比較:(a)圖像打颤,(b)GT暴拄,(c)Ours,(d)Ours?编饺,(e)BASNet乖篷,(f)PoolNet,(g)CPD透且,(h)Picanert撕蔼,(i)R3Net+,(j)AFNet,(k)DSS+鲸沮,其中“+”表示CRF后處理畅形。

5????結論

在本文中,我們提出了一種新的深度網絡:U2-Net诉探,用于顯著目標檢測。我們的U2-Net的主要架構是一個two-level 嵌套的U型結構棍厌。我們新設計的RSU塊嵌套的U結構使網絡能夠從淺層和深層捕獲更豐富的局部和全局信息肾胯,而不管分辨率如何。

與那些建立在現(xiàn)有主干上的SOD模型相比耘纱,我們的U2-Net完全建立在建議的RSU塊上,這使得可以從頭開始訓練,并根據目標環(huán)境約束配置不同的模型大小添祸。在本文中拦惋,我們提供了一個全尺寸的U2-Net(176.3 MB,30 FPS)和一個較小尺寸的版本U2-Net?(4.7 MB员寇,40 FPS)弄慰。在6個公共顯著目標檢測數據集上的實驗結果表明,這兩種模型在定性和定量測量方面與其他20種最先進的方法相比具有非常強的競爭力蝶锋。

盡管我們的模型與其他最先進的方法相比具有競爭力陆爽,但對于計算和內存有限的設備(如手機、機器人等)扳缕,我們需要更快慌闭、更小的模型。在不久的將來躯舔,我們將探索不同的技術和架構驴剔,以進一步提高速度并減小模型尺寸。此外粥庄,需要更大的多樣化顯著對象數據集來訓練更精確和更健壯的模型丧失。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市飒赃,隨后出現(xiàn)的幾起案子利花,更是在濱河造成了極大的恐慌,老刑警劉巖载佳,帶你破解...
    沈念sama閱讀 217,826評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件炒事,死亡現(xiàn)場離奇詭異,居然都是意外死亡蔫慧,警方通過查閱死者的電腦和手機挠乳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人睡扬,你說我怎么就攤上這事盟蚣。” “怎么了卖怜?”我有些...
    開封第一講書人閱讀 164,234評論 0 354
  • 文/不壞的土叔 我叫張陵屎开,是天一觀的道長。 經常有香客問我马靠,道長奄抽,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,562評論 1 293
  • 正文 為了忘掉前任甩鳄,我火速辦了婚禮逞度,結果婚禮上,老公的妹妹穿的比我還像新娘妙啃。我一直安慰自己档泽,他們只是感情好,可當我...
    茶點故事閱讀 67,611評論 6 392
  • 文/花漫 我一把揭開白布揖赴。 她就那樣靜靜地躺著馆匿,像睡著了一般。 火紅的嫁衣襯著肌膚如雪燥滑。 梳的紋絲不亂的頭發(fā)上甜熔,一...
    開封第一講書人閱讀 51,482評論 1 302
  • 那天,我揣著相機與錄音突倍,去河邊找鬼腔稀。 笑死,一個胖子當著我的面吹牛羽历,可吹牛的內容都是我干的焊虏。 我是一名探鬼主播,決...
    沈念sama閱讀 40,271評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼秕磷,長吁一口氣:“原來是場噩夢啊……” “哼诵闭!你這毒婦竟也來了?” 一聲冷哼從身側響起澎嚣,我...
    開封第一講書人閱讀 39,166評論 0 276
  • 序言:老撾萬榮一對情侶失蹤疏尿,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后易桃,有當地人在樹林里發(fā)現(xiàn)了一具尸體褥琐,經...
    沈念sama閱讀 45,608評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,814評論 3 336
  • 正文 我和宋清朗相戀三年晤郑,在試婚紗的時候發(fā)現(xiàn)自己被綠了敌呈。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片贸宏。...
    茶點故事閱讀 39,926評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖磕洪,靈堂內的尸體忽然破棺而出吭练,到底是詐尸還是另有隱情,我是刑警寧澤析显,帶...
    沈念sama閱讀 35,644評論 5 346
  • 正文 年R本政府宣布鲫咽,位于F島的核電站,受9級特大地震影響谷异,放射性物質發(fā)生泄漏浑侥。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,249評論 3 329
  • 文/蒙蒙 一晰绎、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧括丁,春花似錦荞下、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,866評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至构资,卻和暖如春抽诉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背吐绵。 一陣腳步聲響...
    開封第一講書人閱讀 32,991評論 1 269
  • 我被黑心中介騙來泰國打工迹淌, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人己单。 一個月前我還...
    沈念sama閱讀 48,063評論 3 370
  • 正文 我出身青樓唉窃,卻偏偏與公主長得像,于是被迫代替她去往敵國和親纹笼。 傳聞我的和親對象是個殘疾皇子纹份,可洞房花燭夜當晚...
    茶點故事閱讀 44,871評論 2 354

推薦閱讀更多精彩內容