PAGE-Net

題目

PAGE-Net: Salient Object Detection with Pyramid Attention and Salient Edge
具有金字塔注意力和突出邊緣的突出目標(biāo)檢測

摘要

本文提出了一種利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)檢測圖像中顯著目標(biāo)的新方法狈醉。該網(wǎng)絡(luò)名為PAGE-Net,它作出了兩個主要的新貢獻(xiàn)惠险。第一種方法是設(shè)計一個基本的金字塔注意結(jié)構(gòu)苗傅,用于顯著目標(biāo)檢測宣渗,使得網(wǎng)絡(luò)在開發(fā)多尺度顯著信息的同時能夠更多地關(guān)注顯著區(qū)域诗舰。這種層疊式注意力設(shè)計提供了一種有效增強相應(yīng)網(wǎng)絡(luò)層表示能力的有效方法,并具有擴大的接收域裂逐。第二個貢獻(xiàn)是提出了一個顯著邊緣檢測模塊抱慌,它強調(diào)了顯著邊緣信息的重要性逊桦,因為它提供了一個強有力的線索,以更好地分割顯著對象和細(xì)化對象邊界抑进。這種顯著邊緣檢測模塊學(xué)習(xí)用于預(yù)融合顯著邊界估計强经,從而鼓勵更好地保持邊緣的顯著對象分割。大量實驗表明寺渗,所提出的金字塔注意和顯著邊緣對顯著目標(biāo)檢測都是有效的夕凝,并且我們的PAGE-Net在具有快速輸入速度(單個GPU上的25FPS)的幾個流行基準(zhǔn)上優(yōu)于現(xiàn)有方法。

引言

顯著目標(biāo)檢測(SOD)是指在圖像中定位和分割最顯著目標(biāo)或區(qū)域的問題户秤。它可以廣泛地用于改進(jìn)各種視覺任務(wù),例如對象建議生成[2]逮矛、對象分割[37]和視頻對象跟蹤[11]等鸡号。SOD在計算機視覺領(lǐng)域得到了廣泛的研究。傳統(tǒng)的方法往往設(shè)計手工制作的低層特征须鼎,并做出啟發(fā)式假設(shè)[41鲸伴,15]府蔗,這對于復(fù)雜場景的圖像往往不能產(chǎn)生令人滿意的結(jié)果。近來汞窗,深層學(xué)習(xí)方法已經(jīng)成為SOD的一個重要趨勢姓赤,并且經(jīng)常報告顯著的改進(jìn)。盡管SOD的研究非持倮簦活躍不铆,但是如何設(shè)計一個有效的SOD深層神經(jīng)網(wǎng)絡(luò)模型仍然是一個有待解決的問題。

本文提出了一種新的金字塔注意和顯著邊緣感知顯著性模型page net裹唆,用于顯著性目標(biāo)檢測誓斥,該模型具有兩個關(guān)鍵模塊:(1)一個金字塔注意模塊,通過考慮顯著性的多尺度注意和擴大接收場许帐,有效地增強顯著性模型表示劳坑;以及(2)一個突出的邊緣檢測模塊,明確學(xué)習(xí)突出的對象邊界成畦,以更好地定位和銳化突出的對象距芬。本文提出的PAGE-Net設(shè)計主要有以下兩個方面。

首先循帐,特征表示是基于深度學(xué)習(xí)的顯著性模型的關(guān)鍵框仔,探索更有效的尺度空間特征學(xué)習(xí)策略一直是人們所希望的。正如許多SOD研究[46,31,49,12]所見證的惧浴,多尺度顯著性特征對SOD至關(guān)重要存和。因此,最近的深度顯著性模型主要集中于組合來自中間網(wǎng)絡(luò)層的輸出衷旅。與已有的工作不同捐腿,我們提出了一種新的金字塔注意模型,它繼承了注意機制的特征增強能力柿顶,并明確地處理了多尺度顯著特征學(xué)習(xí)問題茄袖。將注意力機制結(jié)合到網(wǎng)絡(luò)中已被證明對選擇任務(wù)相關(guān)特征是有用的[30]。如圖1所示嘁锯,我們擴展了具有層次結(jié)構(gòu)的注意機制以增強顯著性計算宪祥。這種設(shè)計很重要,因為它有效地增加了conv層(甚至對于淺層)的接收場家乘。我們鼓勵顯著性模型使用多尺度信息集中在重要區(qū)域(圖1(b))蝗羊。通過金字塔式注意,原始特征(圖1(c))中的背景響應(yīng)被成功地抑制仁锯,導(dǎo)致更具辨別性的顯著性表示(圖1(d))和更好的結(jié)果(圖1(g))耀找。這種注意模塊還通過解釋顯著性模型所關(guān)注的位置來提供可解釋性的額外維度。

其次业崖,還希望找到一種提高顯著目標(biāo)檢測結(jié)果的清晰度的有效方法野芒。CNN被設(shè)計成通過重復(fù)的池和子采樣操作來產(chǎn)生分層的特征圖蓄愁,其中較高層獲得更大的接收場,并且自上而下的網(wǎng)絡(luò)架構(gòu)[46狞悲、12撮抓、24] (參見圖2(a)中的方案)已經(jīng)被廣泛研究,以逐步地以自上而下的方式恢復(fù)顯著的對象細(xì)節(jié)摇锋,即銳度問題仍然是一個挑戰(zhàn)丹拯。受語義分割[4,6]最新進(jìn)展的啟發(fā),我們提出在顯著性模型上配備一個顯著性邊緣檢測模塊乱投,專門設(shè)計用于檢測顯著性對象邊界咽笼。因此,網(wǎng)絡(luò)可以利用更明確的顯著邊緣(圖1(e))來更好地定位顯著對象并銳化結(jié)果(圖1(g))戚炫。

綜上所述剑刑,我們的主要貢獻(xiàn)有三個方面:(1)我們提出了一個金字塔注意模型,用于具有多尺度特征學(xué)習(xí)的區(qū)分顯著性表示双肤,以及一個擴展的接受域(3.1)施掏;(2)我們提出了一個顯著性邊緣檢測模塊,它顯式地利用顯著性邊緣信息進(jìn)行顯著性物體檢測(3.2)茅糜;以及(i i i)我們在六個流行的基準(zhǔn)上執(zhí)行廣泛的實驗七芭,即,ECCSD[41]蔑赘、DUT-OMRON[42]狸驳、HKUIS[19]、PASCAL-S[23]缩赛、SOD[28]和DUTS-TE[32]耙箍,其中提出的深顯著性模型在多個強基線上產(chǎn)生一致的改進(jìn)。最后酥馍,該模型在現(xiàn)代GPU上運行速度快辩昆,達(dá)到了25FPS的實時推理速度。

相關(guān)工作

1旨袒、顯著目標(biāo)檢測
突出物檢測的開創(chuàng)性工作可以追溯到Liu等人[26]和Achanta等人[1]汁针。從那時起,報告了大量后續(xù)工作砚尽,主要使用基于對比度的假設(shè)[9施无,41,15]和之前的背景[38必孤,50]猾骡。這些早期的方法常常嚴(yán)重依賴于手工制作的特征和啟發(fā)式假設(shè)。

近年來,由于CNN在計算機視覺方面的巨大成功卓练,深層學(xué)習(xí)已經(jīng)成為SOD的一個有前途的替代方法」鹤模基于CNN的顯著性模型允許具有強大端到端學(xué)習(xí)能力的靈活顯著性表示襟企,從而獲得明顯優(yōu)于經(jīng)典方法的性能。在文獻(xiàn)中已經(jīng)提出了多種深度學(xué)習(xí)方法狮含。例如顽悼,一些方法將深度學(xué)習(xí)模型與手工制作的特征[18]、啟發(fā)式顯著性先驗[33]几迄、水平集[13]蔚龙、上下文信息[49]或顯式視覺固定相結(jié)合[36]。其他方法利用全局和局部顯著性信息[19映胁,31木羹,46,27]解孙,結(jié)合像素和段級特征[20]坑填,激發(fā)網(wǎng)絡(luò)層之間的連接[12],或者探索更復(fù)雜的深層架構(gòu)[16弛姜,24脐瑰,47,34]廷臼。

我們的方法與現(xiàn)有研究的一個顯著區(qū)別在于其邊緣保持特性苍在。當(dāng)前突出的網(wǎng)絡(luò)體系結(jié)構(gòu)傾向于堆疊多層特征。雖然最終的預(yù)測層訪問多尺度荠商、多層次的信息寂恬,產(chǎn)生更精確的顯著性分割,但是由于conv核的平滑性和空間池的下采樣结啼,銳化問題仍然沒有解決掠剑。一些后處理啟發(fā)式算法[33,12,20]已經(jīng)被采用,但是很少有人研究如何通過端到端訓(xùn)練將顯著邊緣信息嵌入到深度顯著性模型中郊愧。最近的一些方法[45朴译,21]也探索了邊界線索,但它們與我們的非常不同属铁。例如眠寿,Zhang[45]等。簡單地使用額外的損耗來強調(diào)對突出對象邊界內(nèi)的像素的檢測誤差焦蘑。在[21]中盯拱,他們考慮了來自預(yù)訓(xùn)練輪廓檢測器的語義輪廓信息[43]。相比之下,我們使用顯著邊緣檢測模塊擴展了每個側(cè)向外層狡逢,并學(xué)習(xí)了端到端的邊緣和目標(biāo)信息的組合宁舰。

2、網(wǎng)絡(luò)中的可訓(xùn)練注意機制
深層神經(jīng)網(wǎng)絡(luò)的注意機制是近年來研究的熱點奢浑,它是由Bahdanau等人首次提出的蛮艰。〔3〕用于神經(jīng)機器翻譯雀彼。后來壤蚜,它在許多自然語言處理和視覺任務(wù)中被證明是有用的,例如徊哑,字幕生成[40]袜刷、問題回答[44]和場景識別[5,30]等等莺丑。在這些研究中著蟹,注意力是以自動、自上而下和目標(biāo)驅(qū)動的方式學(xué)習(xí)的窒盐,允許網(wǎng)絡(luò)將注意力集中在圖像或句子中與任務(wù)最相關(guān)的部分草则。只有少數(shù)SOD[48,25,7]的最新方法使用注意力網(wǎng)絡(luò)。但是我們的方法與他們的非常不同蟹漓,因為他們通常只考慮單層的注意力設(shè)計炕横。在我們的方法中,對于每個控制層葡粒,都配備了一個注意力金字塔份殿,用于基本學(xué)習(xí),以將更高的重要性分配給顯著區(qū)域嗽交,同時解決多尺度學(xué)習(xí)的問題卿嘲。更重要的是,這種金字塔式注意力設(shè)計使得我們的模型具有全局的視角夫壁,并且通過擴大的接受領(lǐng)域提高了學(xué)習(xí)能力拾枣。

我們的方法

圖2(b)給出了PAGE-Net的簡化圖示,該PAGE-Net由三個部分組成:用于特征提取的骨干網(wǎng)絡(luò)盒让、金字塔注意模塊和顯著邊緣檢測模塊梅肤。我們首先在3.1中描述我們的金字塔注意力模塊(圖2(b))。在3.2中詳細(xì)描述了我們的顯著邊緣檢測模塊(圖2(b))邑茄。最后姨蝴,在3.3中,我們給出了更多的實現(xiàn)細(xì)節(jié)肺缕。

金字塔注意模塊

對于每個顯著性網(wǎng)絡(luò)層左医,首先結(jié)合金字塔注意模塊來生成更具區(qū)分性的特征表示授帕。與以往對顯著特征的所有位置都一視同仁的顯著性模型相比,我們的模型關(guān)注重要區(qū)域的特征浮梢,并考慮多尺度信息跛十。這是使用堆疊式注意力架構(gòu)來實現(xiàn)的:基于多尺度特征的多個注意力層被堆疊以形成統(tǒng)一的金字塔注意力模型。

更具體地說秕硝,設(shè)X表示來自顯著網(wǎng)絡(luò)的卷積層的3D特征張量(在圖2(c)中)偶器。這通常由寬度M和高度M:X∈R M×M×C的C通道組成。我們的目標(biāo)是學(xué)習(xí)一組等空間大小的注意力掩碼缝裤,基于多尺度信息,對輸出顯著性特征X進(jìn)行軟加權(quán)颊郎。本質(zhì)上憋飞,我們通過逐步下采樣X到多分辨率{X n:M X n∈R2n×2n×C,n=1姆吭,2榛做,3,.…N}具有N個步驟内狸。對于在一定尺度n內(nèi)的X n检眯,我們使用軟注意機制-M nism[40]來預(yù)測重要性映射l∈[0,1]2n×2n昆淡。特別地锰瘸,在2n×2n個空間位置上應(yīng)用軟最大操作。位置軟最大值可以被認(rèn)為是我們的模型認(rèn)為輸入特征中的相應(yīng)區(qū)域很重要的概率昂灵。其定義為:

一旦獲得全部{X n}N上的注意概率{l n}N=1避凝,就采用n=1n的上采樣操作來調(diào)整它們的大小使其達(dá)到原始分辨率:{l 0∈M×M N[0,1]}n=1眨补。圖3為我們的注意力模塊提供了更詳細(xì)的說明管削。顯然,這些注意力圖(圖3(d))對應(yīng)于不同的分辨率撑螺,并且可以顯示重要區(qū)域含思。更重要的是,金字塔注意模塊配備了疊加池操作甘晤,極大地改善了相應(yīng)的特征提取層的接收場含潘。

在計算了這些重要概率之后,通過考慮不同區(qū)域中的特征片的期望值來改進(jìn)原始特征表示X:

其中Y是更新的特征安皱,Y j是特征立方體的第j個切片调鬓。這里,該模型通過對不同區(qū)域中的圖像特征的期望來計算輸入的期望值酌伊。我們的注意力模塊不僅用于增強聚焦位置中的顯著性表示腾窝,而且用于解釋多尺度信息缀踪。正如[30]中所討論的,通過注意力圖細(xì)化的特征通常具有接近于零的大量值虹脯。因此驴娃,許多細(xì)化的特征的堆棧使得反向傳播變得困難。為了解決這個問題循集,我們在等式2中應(yīng)用身份映射[10]:

即使注意力很写匠ā(l 0 j_0),來自原始特征X的信息仍然可以通過殘余連接來保存咒彤。如圖3(c)和(e)所示疆柔,注意模塊能夠增強特征圖,以便更有效地進(jìn)行顯著性表示镶柱。這種金字塔式注意力結(jié)構(gòu)提供了分配每個相應(yīng)conv層的全局視圖的可行方法(具有顯著擴大的接受域旷档;參見圖2(d))。注意力模塊的更詳細(xì)的體系結(jié)構(gòu)在_3.3中給出歇拆。

討論鞋屈。不同位置的特征對顯著性計算的貢獻(xiàn)并不相同。因此故觅,我們引入注意機制來關(guān)注那些對突出物體的本質(zhì)最關(guān)鍵的位置厂庇。通過我們的設(shè)計,注意模塊可以通過迭代下采樣特征圖來快速地收集多尺度信息输吏,這種金字塔結(jié)構(gòu)使得特征層的接收場易于快速地擴大权旷。在圖4中,我們觀察到所提出的金字塔注意模塊能夠獲得更高的訓(xùn)練效率和更好的性能贯溅。與以往的注意力模型相比炼杖,金字塔注意力模型由于能夠有效地利用多尺度特征和具有擴大的接收場的強大表示而更加有利,所有這些對于像素級顯著性估計都是必不可少的盗迟。

凸緣檢測器

利用改進(jìn)的顯著性特征Y坤邪,可以通過直接將Y饋入帶有sigmoid的一小堆conv層來生成顯著性映射,如前面的方法中所做的那樣罚缕。然而艇纺,我們觀察到,檢測不能在顯著對象和背景之間產(chǎn)生清晰的邊界(參見圖5(b))邮弹。這主要是由于conv內(nèi)核的平滑性和池層的下采樣黔衡。為了解決這個問題,我們設(shè)計了一個額外的顯著性邊緣檢測模塊(見圖2(d))腌乡,以迫使網(wǎng)絡(luò)強調(diào)顯著性邊界對齊盟劫,并學(xué)習(xí)使用顯著性邊緣信息來細(xì)化顯著性映射。

設(shè){(I k,G k,P k)}K=1表示訓(xùn)練數(shù)據(jù)与纽,其中I k,G k和P k分別是彩色圖像侣签、相應(yīng)的地面真值顯著性圖和顯著目標(biāo)邊界圖塘装。注意,邊緣圖P k(圖5(d))可以很容易地從地面真值顯著性圖G k(圖5(f))獲得影所。我們首先在圖2和圖5(c)中建立一個顯著邊緣檢測模塊蹦肴,它可以為輸入圖像I k.這里F表示由一組conv層組成的顯著邊緣檢測模塊,Y I k對應(yīng)于I k的增強特征猴娩∫趸希可以通過最小化以下L2范數(shù)損失函數(shù)來學(xué)習(xí)F:

然后建立顯著性讀出網(wǎng)絡(luò)R(y i k,f(y i k))卷中,通過考慮顯著性特征y i k和顯著性邊緣信息f(y i k)矛双,生成顯著性估計(見圖2)。因此蟆豫,可以通過最小化以下組合損失來學(xué)習(xí)整個模塊:

其中背零,顯著性損耗L Sal是加權(quán)交叉熵?fù)p耗,該加權(quán)交叉熵?fù)p耗解釋了顯著像素和非顯著像素之間的數(shù)據(jù)不平衡:

其中i∈ΩI无埃,ΩI是圖像I的格域。S表示R和S i∈S.β的顯著性估計毛雇,它指的是地面真值G中顯著像素的比率嫉称。利用方程5中的損失函數(shù)和顯著邊緣檢測模塊F,讀出網(wǎng)絡(luò)R學(xué)習(xí)利用顯式ed來優(yōu)化顯著目標(biāo)估計灵疮。GE信息织阅。

由于神經(jīng)網(wǎng)絡(luò)的層次性,我們在模型中引入了緊密連接[14]震捣,以利用來自不同層的信息荔棉,提高表示能力。通過考慮所有多層顯著性估計{S1蒿赢,在第層中的顯著性特征Y得到增強润樱。以及邊緣信息{E1,E 1}來自所有前面的1層:

其中羡棵,H表示一個小型網(wǎng)絡(luò)壹若,該網(wǎng)絡(luò)對來自所有先前層的附加輸入進(jìn)行上采樣和連接。F皂冰、R店展、H的詳細(xì)結(jié)構(gòu)可以在_3.3中找到。

討論秃流。為了保留更多的邊界信息赂蕴,我們添加了一個顯著邊緣檢測模塊F,它特別關(guān)注于在地面真值邊緣圖P的監(jiān)督下分割顯著對象邊界舶胀。然后利用顯著性特征Y和來自F的顯式顯著邊緣信息概说,學(xué)習(xí)用于檢測顯著對象的讀出網(wǎng)絡(luò)R碧注。進(jìn)一步引入密集連接,以通過重用來自其他層的信息來提取表示能力席怪。

具體的網(wǎng)絡(luò)體系結(jié)構(gòu)

骨干網(wǎng)应闯。骨干網(wǎng)絡(luò)是由VGG-16[29]模型構(gòu)建的,該模型以其優(yōu)雅和簡單而著稱挂捻,并且被廣泛用于顯著性模型碉纺。采用VGG-16的前五個卷積塊。如圖6所示刻撒,為了保留更多的空間信息骨田,我們省略了最后一個池層(池5)。

金字塔注意模塊声怔。讓{X 5态贤,X 4,X 3醋火,X 2悠汽,X 1}表示五個conv塊的最后conv層的特征:conv1-2,conv2-2芥驳,conv3-3柿冲,conv4-3和conv5-3。對于每個X兆旬,我們首先將X'下采樣到多個級別假抄。對于標(biāo)度n,注意模塊定義為三個連續(xù)的操作:BN_Conv(1×1丽猬,1)RELU宿饱,其中最小注意映射被設(shè)置為14×14。應(yīng)用上采樣操作將注意力映射{1n}n在所有尺度上的大小調(diào)整為其原始大小脚祟。然后我們得到增強顯著性表示Y到等式3谬以。

邊緣檢測模塊。邊緣檢測模塊F定義為:BN_Conv(3×3,64)RELU_Conv(1×1,1)sigmoid由桌。顯著性讀出函數(shù)R被構(gòu)造為:BN_Conv(3×3,128)RELU_BN_Conv(3×3,64)RELU_Conv(1×1,1)sigmoid蛉签。對于第l層,采用一組上采樣操作(H’)沥寥,以便以當(dāng)前特征分辨率放大來自所有前層的所有顯著目標(biāo)估計和顯著邊緣信息碍舍。然后,通過等式7更新顯著性表示Y邑雅。接下來片橡,采用邊緣檢測模塊F和顯著性讀出函數(shù)R來生成相應(yīng)的顯著性圖S。

以conv3-3層為例淮野。給定輸入圖像I∈R 224×224×3捧书,首先將conv4-3和conv5-3層的顯著性圖S 2吹泡、S 1和邊緣圖E 2、E 1上采樣到當(dāng)前空間分辨率56×56中经瓷。然后饋入H 3爆哑,并相應(yīng)地更新特征Y 3。應(yīng)用邊緣檢測模塊F 3和顯著性讀出函數(shù)R 3舆吮,得到顯著性映射S 3∈[0揭朝,1]56×56。這樣色冀,我們分別從conv1-2潭袱、conv2-2、conv3-3锋恬、conv4-3和conv5-3得到5個顯著圖{S 5屯换、S 4、S 3与学、S 2彤悔、S 1},其中S 5∈[0索守,1]224×224是最終的晕窑、最準(zhǔn)確的顯著性估計。

整體損失蕾盯。所有的訓(xùn)練圖像{I k}K k=1都被調(diào)整到固定維數(shù)224×224×3。顯著邊界映射P k∈{0蓝丙,1}224×224由相應(yīng)的地面真值顯著目標(biāo)映射G k∈{0级遭,1}224×224生成,并擴展為三個像素半徑渺尘〈旄耄考慮到所有五邊輸出,訓(xùn)練圖像I k的總體訓(xùn)練損失是:

利用層次損失函數(shù)鸥跟,PAGE-Net中的五個中間層可以直接從損失函數(shù)中獲取梯度丢郊,從而實現(xiàn)隱式深度監(jiān)督[17]。

實現(xiàn)細(xì)節(jié)医咨。PAGE-Net在Keras.遵循[46枫匾,18,33]中的訓(xùn)練協(xié)議拟淮,我們使用THUS10K[9]進(jìn)行訓(xùn)練干茉,該THUS10K[9]包含10000幅帶有逐像素注釋的圖像。在訓(xùn)練階段很泊,學(xué)習(xí)率被設(shè)置為0.0001角虫,并且每兩個周期降低10倍沾谓。在每次訓(xùn)練迭代中,我們使用10張圖像的小批量戳鹅。使用Nvidia TITAN X GPU均驶,整個培訓(xùn)過程需要7個小時。

由于本模型不需要任何預(yù)處理或后處理枫虏,因此推理過程只需要0.04s就可以處理224×224大小的圖像妇穴。這使得它比大多數(shù)基于深度學(xué)習(xí)的競爭者更快(參見_4.1了解詳細(xì)的比較)。

實驗

我們在六個流行的基準(zhǔn)上進(jìn)行了廣泛的實驗:ECCSD[41]模软、DUT-OMRON[42]伟骨、HKU-IS[19]、PASCAL-S[23]燃异、SOD[28]和DUTS-TE[32]携狭,它們都是公開可用的,并且都用像素級的基本真值進(jìn)行定量評估回俐。在評價方面逛腿,我們采用了三種廣泛使用的度量,即精確回憶曲線(PR)仅颇、F度量和平均絕對誤差(MAE)单默。

性能比較

我們將所提出的PAGE-Net與19個最近的基于深度學(xué)習(xí)的替代方案進(jìn)行比較:MDF[19]、LEGS[31]忘瓦、DS[22]搁廓、DCL[20]、ELD[18]耕皮、MC[49]境蜕、RFCN[33]、DHS[24]凌停、HEDS[12]粱年、KSR[35]、NLDF[27]罚拟、DLS[13]台诗、AMU[46]、UCF[47]赐俗、SRM[34]拉队、FSN[8]、PAGR[48]阻逮、RAS[7]和C2S[21]氏仗。我們使用具有推薦參數(shù)設(shè)置的實現(xiàn)或者由作者共享的顯著性映射。為了進(jìn)行公平的比較,我們排除了其他基于ResNet的模型皆尔。由于完全連接的條件隨機場(CRF)在一些方法[20,12]中被用作后處理呐舔,因此我們進(jìn)一步提供了使用CRF的基線PAGE-Net+CRF。

定量評價慷蠕。所有方法的精確召回曲線在圖7中給出珊拼。由于空間有限,我們只在四個數(shù)據(jù)集上顯示結(jié)果流炕。正如所看到的澎现,我們的PAGE-Net在所有數(shù)據(jù)集上的性能都優(yōu)于它的同行,令人信服地證明了該方法的有效性每辟。我們還將我們的方法與當(dāng)前最先進(jìn)的模型在F-度量和MAE評分方面進(jìn)行比較剑辫。從表1中可以明顯看出,PAGE-Net在度量上的所有數(shù)據(jù)集上都取得了優(yōu)異的結(jié)果渠欺。特別地妹蔽,對于DUT-OMRON數(shù)據(jù)集(0.770vs 0.758),PAGE-Net顯示了與第二個最佳方法RAS相比顯著改進(jìn)的F度量挠将,這是最具挑戰(zhàn)性的基準(zhǔn)之一胳岂。這清楚地說明了PAGE-Net在復(fù)雜場景中的優(yōu)越性能。

定性評價舔稀。圖8顯示了我們與其他五個表現(xiàn)最好的競爭者的結(jié)果的視覺比較乳丰。為了更好的可視化,我們強調(diào)每個圖像組的主要困難内贮。我們發(fā)現(xiàn)PAGE-Net在各種具有挑戰(zhàn)性的場景中表現(xiàn)良好产园,例如,對于大的突出對象(第一行)夜郁、對象與背景之間的低對比度(第二行)什燕、雜亂的背景(第四行)和多個斷開連接的對象(最后一行)。此外拂酣,我們觀察到秋冰,由于使用了顯著邊緣檢測模塊仲义,我們的方法能夠很好地捕獲顯著邊界婶熬。

運行時比較。我們還報告了表2中幾種深度顯著性方法的運行時間埃撵。這些評估是在具有i7 CPU和Titan-X GPU的機器上進(jìn)行的赵颅。PAGE-Net比其他大多數(shù)方法更快,達(dá)到了25FPS的實時速度暂刘。

消融研究

在本節(jié)中饺谬,我們將分析每個組件對模型整體性能的貢獻(xiàn)。我們使用ECCSD[41]和DUT-OMRON[42]數(shù)據(jù)集進(jìn)行實驗。結(jié)果總結(jié)在表3中募寨。

多尺度注意族展。為了驗證我們的多尺度注意結(jié)構(gòu)(3.1)的有效性,我們比較了三種變體:w/o注意拔鹰、w/單尺度和w/o同一性映射仪缸。基線w/o注意力是指在沒有任何注意力模塊的情況下列肢,通過重新訓(xùn)練PAGE-Net而獲得的結(jié)果恰画。基線w/單標(biāo)度對應(yīng)于用單標(biāo)度注意模塊獲得的結(jié)果(方程3中N=1)瓷马。對于w/o身份映射拴还,我們在沒有身份映射的情況下重新訓(xùn)練注意力模塊(方程2)。如表3所示欧聘,與沒有注意模塊或使用單尺度注意的網(wǎng)絡(luò)相比片林,具有多尺度注意的網(wǎng)絡(luò)獲得更好的性能。這證實了注意模塊從多尺度信息中受益树瞭。這些結(jié)果還表明拇厢,標(biāo)識映射還可以提高性能。在圖3(f)和(g)中可以看到PAGE-Net的w/和w/o注意模塊的結(jié)果之間的視覺比較晒喷。

突出邊緣信息孝偎。接下來,我們研究了顯著目標(biāo)邊緣信息(3.2)的影響凉敲。通過禁用顯著邊緣檢測模塊來獲得基線w/o顯著邊緣衣盾。當(dāng)使用MAE時,我們觀察到性能下降(ECCSD:0.042_0.054爷抓,DUT-OMRON:0.066_0.074)势决。這表明,顯著邊緣信息確實改善了顯著對象分割蓝撇。為了更深入地了解顯著邊緣信息的重要性果复,我們在用兩種不同的邊緣檢測器:HED[39]和canny濾波器代替顯著邊緣檢測模塊之后,再次測試該模型渤昌。我們還觀察到在兩種情況下性能都有輕微下降虽抄。這表明使用顯著邊緣信息對于獲得更好的性能是至關(guān)重要的。這是因為突出的邊緣為檢測和分割突出的對象提供了信息提示独柑,而不是簡單地確定顏色或強度的變化迈窟。

側(cè)輸出。最后忌栅,我們研究了層次結(jié)構(gòu)對自上而下的顯著性推斷的影響(圖2(b)和_3.3)车酣。我們介紹了與PAGE-Net中間層的輸出相對應(yīng)的四個附加基線:conv2-output、conv3-output、conv4-output和conv5-output湖员。注意贫悄,PAGE-Net的最終預(yù)測可以看作來自conv1層的輸出。我們發(fā)現(xiàn)娘摔,通過添加來自下層的更多細(xì)節(jié)清女,顯著性結(jié)果逐漸優(yōu)化。

結(jié)論

本文提出了一種新的深度顯著性模型PAGE-Net晰筛,用于顯著性物體的檢測嫡丙。PAGE-Net具有兩個基本組件:金字塔關(guān)注模塊和顯著邊緣檢測模塊。前者利用多尺度信息擴展常規(guī)注意機制读第,提高顯著性表征曙博,使訓(xùn)練更有效,表現(xiàn)更好怜瞒。后者著重于檢測顯著邊緣信息父泳,這些信息可用于銳化顯著對象段。對六個著名的基準(zhǔn)數(shù)據(jù)集的廣泛實驗評估證明吴汪,上述貢獻(xiàn)顯著提高了顯著性檢測性能惠窄。最后,該模型在GPU上運行速度快漾橙,推理速度快杆融。

Edit Review

Paper ID

1005

Paper Title

PAGE-Net: Salient Object Detection with Pyramid Attention and Salient Edge

REVIEW QUESTIONS

1. Summary. In 3-5 sentences, describe the key ideas and experiments and their significance.

(visible to author during feedback, visible to author after notification, visible to other reviewer, visible to meta-reviewer)

This paper proposes a new method, called PAGE-Net, for detecting salient
objects in images using convolutional neural networks.

2. What aspects of the paper are particularly good?

(visible to author during feedback, visible to author after notification,
visible to other reviewer, visible to meta-reviewer)

3. Strengths. Consider the significance of key ideas, experimental validation, writing quality. Explain clearly why these aspects of the paper are valuable.

(visible to author during feedback, visible to author after notification, visible to other reviewer, visible to meta-reviewer)

4. What aspects of the paper most need improvement?

(visible to author during feedback, visible to author after notification,visible to other reviewer, visible to meta-reviewer)

5. Weaknesses. Consider significance of key ideas, experiments, writing quality. Clearly explain why these are weak aspects of the paper, e.g. why a specific prior work has already demonstrated the key contributions, or why the experiments are insufficient to validate the claims.

(visible to author during feedback, visible to author after notification, visible to other reviewer, visible to meta-reviewer)

6. Paper rating

(visible to author during feedback, visible to author after notification, visible to other reviewer, visible to meta-reviewer)

7. Justification of rating. What are the most important factors in your rating?

(visible to author during feedback, visible to author after notification, visible to other reviewer, visible to meta-reviewer)

8. Comments to author. Include any comments that may be useful for revision but should not be considered in the paper decision.

(only visible to author) (visible to author during feedback, visible to author after notification)

9. Comments to AC, such as concerns about plagiarism, other ethical violations, or your ability to evaluate the paper.

(only visible to area chairs) (visible to meta-reviewer)

10. Who wrote this review (if not you)?

(visible to AC only) (visible to meta-reviewer)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市霜运,隨后出現(xiàn)的幾起案子脾歇,更是在濱河造成了極大的恐慌,老刑警劉巖淘捡,帶你破解...
    沈念sama閱讀 218,386評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件藕各,死亡現(xiàn)場離奇詭異,居然都是意外死亡焦除,警方通過查閱死者的電腦和手機激况,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來膘魄,“玉大人乌逐,你說我怎么就攤上這事“昃啵” “怎么了黔帕?”我有些...
    開封第一講書人閱讀 164,704評論 0 353
  • 文/不壞的土叔 我叫張陵代咸,是天一觀的道長蹈丸。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么逻杖? 我笑而不...
    開封第一講書人閱讀 58,702評論 1 294
  • 正文 為了忘掉前任奋岁,我火速辦了婚禮,結(jié)果婚禮上荸百,老公的妹妹穿的比我還像新娘闻伶。我一直安慰自己,他們只是感情好够话,可當(dāng)我...
    茶點故事閱讀 67,716評論 6 392
  • 文/花漫 我一把揭開白布蓝翰。 她就那樣靜靜地躺著,像睡著了一般女嘲。 火紅的嫁衣襯著肌膚如雪畜份。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,573評論 1 305
  • 那天欣尼,我揣著相機與錄音爆雹,去河邊找鬼。 笑死愕鼓,一個胖子當(dāng)著我的面吹牛钙态,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播菇晃,決...
    沈念sama閱讀 40,314評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼册倒,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了磺送?” 一聲冷哼從身側(cè)響起剩失,我...
    開封第一講書人閱讀 39,230評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎册着,沒想到半個月后拴孤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,680評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡甲捏,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,873評論 3 336
  • 正文 我和宋清朗相戀三年演熟,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片司顿。...
    茶點故事閱讀 39,991評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡芒粹,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出大溜,到底是詐尸還是另有隱情化漆,我是刑警寧澤,帶...
    沈念sama閱讀 35,706評論 5 346
  • 正文 年R本政府宣布钦奋,位于F島的核電站座云,受9級特大地震影響疙赠,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜朦拖,卻給世界環(huán)境...
    茶點故事閱讀 41,329評論 3 330
  • 文/蒙蒙 一圃阳、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧璧帝,春花似錦捍岳、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至苏潜,卻和暖如春晕城,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背窖贤。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評論 1 270
  • 我被黑心中介騙來泰國打工砖顷, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人赃梧。 一個月前我還...
    沈念sama閱讀 48,158評論 3 370
  • 正文 我出身青樓滤蝠,卻偏偏與公主長得像,于是被迫代替她去往敵國和親授嘀。 傳聞我的和親對象是個殘疾皇子物咳,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,941評論 2 355