用于跨模式檢索的自監(jiān)督對抗哈希網(wǎng)絡(luò)
摘要
由于深入學(xué)習(xí)的成功枢步,跨模式檢索最近取得了顯著的進(jìn)展鹿寻。然而嘉竟,仍然存在著一個關(guān)鍵的瓶頸:如何彌合情態(tài)差異邦危,進(jìn)一步提高檢索的準(zhǔn)確性。在本文中舍扰,我們提出了一種自我監(jiān)督的對抗性散列(SSAH)方法倦蚪,它是早期嘗試將對抗性學(xué)習(xí)以自我監(jiān)督的方式納入跨模式散列的方法之一。這項工作的主要貢獻(xiàn)是利用兩個敵對網(wǎng)絡(luò)來最大化不同方式之間的相互關(guān)系和一致性边苹。此外陵且,我們還利用自監(jiān)督語義網(wǎng)絡(luò)以多標(biāo)簽注釋的形式發(fā)現(xiàn)高級語義信息。這些信息指導(dǎo)了特征學(xué)習(xí)過程个束,并保持了公共需求空間和漢明斯空間之間的模式關(guān)系慕购。在三個基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實驗驗證了所提出的SSAH優(yōu)于最先進(jìn)的方法聊疲。
1,簡介
由于爆炸性增加來自各種搜索引擎和社交媒體的多元數(shù)據(jù)脓钾,近年來交叉模式檢索已經(jīng)成為一個引人注目的話題[20,21,22,23,24,25,39,35,36,41,42,45]售睹。跨模態(tài)檢索旨在通過使用來自另一模態(tài)(例如可训,文本)的查詢在一種模態(tài)(例如,圖像)中搜索語義上相似的實例捶枢。為了滿足實際應(yīng)用中低存儲成本和高查詢速度的要求握截,哈希在跨模態(tài)檢索領(lǐng)域備受關(guān)注,它將高維多模態(tài)數(shù)據(jù)映射到公共哈希中烂叔。給出類似的交叉模態(tài)項類似的哈希碼谨胞。由于來自不同形態(tài)的實例在其特征表示和分布(即,它們的模態(tài)差)方面是異常的蒜鸡,因此有必要在足夠的細(xì)節(jié)中探索它們的語義相關(guān)性以橋接該模態(tài)差距胯努。大多數(shù)現(xiàn)有的淺交叉模態(tài)哈希方法(無人監(jiān)督[2,10,14,18]和監(jiān)督設(shè)置[7,17,19,26,30,40,33])總是捕捉到共同漢明的語義相關(guān)性空間。與無監(jiān)督的對應(yīng)物相比逢防,監(jiān)督的跨模式哈希方法通過開發(fā)語義標(biāo)簽或關(guān)于相關(guān)性的信息可以實現(xiàn)最高性能叶沛,從而提取跨模態(tài)相關(guān)性。然而忘朝,幾乎所有這些存在于交叉模態(tài)下的方法都是基于手工制作的特征灰署,這可能會限制實例的辨別表示,從而降低學(xué)習(xí)二進(jìn)制哈希碼的準(zhǔn)確性局嘁。
近年來溉箕,深度學(xué)習(xí)已經(jīng)成為非常成功的,可以用于各種應(yīng)用[1] [13]悦昵。然而肴茄,只有少數(shù)作品對跨模態(tài)哈希[3,9,12,31,43]進(jìn)行了深度學(xué)習(xí),這可以更有效地捕捉跨模態(tài)實例之間的非線性相關(guān)性但指。值得注意的是寡痰,仍然存在一些阻礙當(dāng)前深度跨模式散列方法的常見缺點。首先枚赡,這些方法簡單直接地采用單類標(biāo)簽來衡量跨模態(tài)的語義相關(guān)性[9] [12]氓癌。實際上,在標(biāo)準(zhǔn)的跨模式基準(zhǔn)數(shù)據(jù)集(如NUS-WIDE [6]和Microsoft COCO [15])中贫橙,可以將圖像實例分配給多個類別標(biāo)簽[27]贪婉,這是有益的,因為它允許描述語義相關(guān)性跨越不同的方式更準(zhǔn)確卢肃。其次疲迂,這些方法通過用相應(yīng)的預(yù)定義損失函數(shù)約束相應(yīng)的哈希碼來實現(xiàn)模態(tài)差距[4]才顿。代碼長度通常小于128位。這意味著大多數(shù)有用信息被中和尤蒿,使得哈希碼無法捕獲相關(guān)的模態(tài)一致性郑气。相比之下,高維模態(tài)特征包含更豐富的信息腰池,有助于彌合模態(tài)差距尾组。因此,如何鼓勵更豐富的語義相關(guān)性并建立更準(zhǔn)確的模態(tài)關(guān)系對于在現(xiàn)實世界檢索應(yīng)用中實現(xiàn)令人滿意的性能變得至關(guān)重要示弓。
圖1:我們提出的SSAH框架讳侨。
在本文中,我們提出了一種新的自我監(jiān)督的對抗性散列(SSAH)方法來幫助進(jìn)行跨模態(tài)檢索奏属。具體而言跨跨,我們采用兩個對抗網(wǎng)絡(luò)來共同學(xué)習(xí)高維特征及其相應(yīng)的差異模式。在時間上囱皿,一個自我監(jiān)督的語義網(wǎng)絡(luò)被無縫集成勇婴,以多個標(biāo)記的形式發(fā)現(xiàn)語義信息,其中監(jiān)督頭部學(xué)習(xí)嘱腥,以最大化語義相關(guān)性和模態(tài)之間的特征分布一致性耕渴。我們工作的重點可概括如下:
?我們提出了一種新的自我監(jiān)督的對抗性哈希方法,用于跨模態(tài)檢索爹橱。據(jù)我們所知萨螺,這是利用對抗性學(xué)習(xí)的第一次嘗試,旨在解決跨模式哈希問題愧驱。
?我們將自我監(jiān)督的語義學(xué)習(xí)與對抗性學(xué)習(xí)相結(jié)合慰技,以盡可能地保持語義相關(guān)性和跨模態(tài)的表示一致性。通過這種方式组砚,我們可以有效地彌合模態(tài)差距吻商。
?對三個基準(zhǔn)數(shù)據(jù)集進(jìn)行的大量實驗表明,我們提出的SSAH明顯優(yōu)于當(dāng)前最先進(jìn)的交叉模式方法糟红,包括傳統(tǒng)和基于深度學(xué)習(xí)的方法艾帐。
本文的其余部分安排如下。第2節(jié)介紹了相關(guān)的工作重點模型盆偿。我們提出的SSAH模型和學(xué)習(xí)算法在第3節(jié)中給出柒爸。實驗見第4節(jié),第5節(jié)結(jié)束這項工作事扭。
2.相關(guān)工作
跨模態(tài)散列方法可大致分為無監(jiān)督和監(jiān)督設(shè)置捎稚。無監(jiān)督散列方法[8,34,38,46]通過發(fā)現(xiàn)屬于未標(biāo)記訓(xùn)練數(shù)據(jù)的模態(tài)和模態(tài)內(nèi)信息來學(xué)習(xí)散列函數(shù)。丁等人。 [8]通過使用潛在因子模型執(zhí)行矩陣分解來學(xué)習(xí)單一二進(jìn)制代碼今野。 Song等人的工作葡公。 [34]學(xué)習(xí)可以將不同形態(tài)的特征映射到共同漢明空間的函數(shù)。 Supervisedhashingmethods [2,4,14,16,39,40,44]旨在利用可用的監(jiān)督信息(例如標(biāo)簽或訓(xùn)練數(shù)據(jù)的語義功能)來提高性能条霜。布羅斯坦等人催什。 [2]通過特征分解和增強來保持類內(nèi)相似性,提出了一種跨模態(tài)哈希方法宰睡。語義相關(guān)最大化(SCM)[44]利用標(biāo)簽信息來學(xué)習(xí)模態(tài)特定變換蒲凶,其預(yù)測模態(tài)之間的最大相關(guān)性。保留語義的散列(SePH)[16]通過對概率分布中的親和矩陣建模拆内,同時最小化Kullback-Leiblerdivergence豹爹,生成單一二進(jìn)制代碼。大多數(shù)這些方法都依賴于手工制作的特征矛纹,這些特征必須由淺層架構(gòu)提取;這些方法可以有效地利用各種形式的異質(zhì)關(guān)系。最近光稼,一些作品報道了深度交叉模式哈希檢索[3,9,12,37]或南。深度跨模式散列(DCMH)[12]執(zhí)行端到端學(xué)習(xí)框架,使用負(fù)對數(shù)似然丟失來保持跨模態(tài)的相似性艾君。 對抗性跨模式檢索(ACMR)[37]直接借鑒了對抗性學(xué)習(xí)方法采够,并嘗試使用與我們最密切相關(guān)的分類方法來區(qū)分不同的方式。 然而冰垄,與[37]相比蹬癌,我們的SSAH利用兩個對抗網(wǎng)絡(luò)來共同模式化不同的模態(tài),從而進(jìn)一步捕獲它們的語義相關(guān)性和代表性虹茶,以及對學(xué)習(xí)語義特征的監(jiān)督逝薪。
3.PROPosed SSAH
在不失一般性的情況下,我們專注于雙模態(tài)數(shù)據(jù)(即圖像和文本)的跨模態(tài)檢索蝴罪。圖1是表示所提出的SSAH方法的一般原理的流程圖董济。該方法主要由三部分組成,包括一個名為LabNet的自監(jiān)督語義生成網(wǎng)絡(luò)要门,以及分別用于圖像和文本模式的兩個名為ImgNet和TexNet的對抗網(wǎng)絡(luò)虏肾。具體而言,LabNet的目標(biāo)是以允許從多個注釋中學(xué)習(xí)語義特征的方式構(gòu)建欢搜。然后封豪,它可以被視為一個共同的語義空間,在其中監(jiān)督兩個階段的模態(tài) - 特征學(xué)習(xí)炒瘟。在第一階段吹埠,來自單獨的生成器網(wǎng)絡(luò)的模態(tài)特定特征在共同的語義空間中彼此相關(guān)聯(lián)。由于深度神經(jīng)網(wǎng)絡(luò)中的每個輸出層都包含語義信息,因此在公共語義空間中關(guān)聯(lián)模態(tài)特定的特征可以幫助促進(jìn)模態(tài)之間的語義相關(guān)性藻雌。在第二階段雌续,語義特征和模態(tài)特定特征同時被饋送到兩個鑒別器網(wǎng)絡(luò)中。結(jié)果胯杭,在相同語義特征的監(jiān)督下驯杜,兩種形態(tài)的特征分布趨于一致。在本節(jié)中做个,我們將介紹有關(guān)SSAH方法的詳細(xì)信息鸽心,包括模型公式背后的方法和學(xué)習(xí)算法。
3.1居暖。問題制定
設(shè)O = {oi} ni = 1表示具有n個實例的交叉模態(tài)數(shù)據(jù)集顽频,oi =(vi,ti太闺,li)糯景,其中vi∈R1×dv和ti∈R1×dt是原始圖像和文本特征。第i個實例省骂,li = [li1蟀淮,...,lic]是分配給oi的多標(biāo)簽注釋钞澳,其中c是類號怠惶。如果oi屬于第j類lij = 1,則lij = 0.圖像特征矩陣定義為V轧粟,文本特征矩陣定義為T策治,標(biāo)簽矩陣定義為L forallinstances±家鳎空間多標(biāo)簽相似性矩陣S用于描述兩個實例中的每一個之間的語義相似性通惫,其中Sij = 1意味著oi在語義上與oj相同,否則Sij = 0.在多標(biāo)簽設(shè)置中揽祥,兩個實例(oi和oj)被注釋通過多個標(biāo)簽讽膏。因此,如果oi和oj共享至少一個標(biāo)簽拄丰,則我們定義Sij = 1府树,否則Sij = 0。
這兩種方式的交叉模態(tài)運行代碼的代碼:Bv料按,t∈{-1,1} K奄侠,其中K是
二進(jìn)制代碼的長度。使用模擬距離評估兩個二進(jìn)制碼之間的相似性载矿。漢明距離disH(bi垄潮,bj)與其內(nèi)積hbi烹卒,bji之間的關(guān)系可以使用disH(bi,bj)= 12(K-hbi弯洗,bji)來表達(dá)旅急。因此,我們可以使用內(nèi)積來量化兩個二進(jìn)制代碼的相似性牡整。給定S藐吮,條件B下S的概率可表示為:
其中δ(Ψij) = 1 1 + e-Ψij,Ψij= 1 2 hbi逃贝,bji谣辞。因此,具有較大內(nèi)積的兩個實例應(yīng)該具有高概率相似沐扳。因此泥从,量化漢明空間中二進(jìn)制碼之間的相似性的問題可以是轉(zhuǎn)換為代碼原始特征的內(nèi)積的計算。在這里沪摄,我們通過對話網(wǎng)絡(luò)(ImgNet和TxtNet)來學(xué)習(xí)圖像和文本模態(tài)的單獨哈希函數(shù)(即躯嫉,Hv,t = fv杨拐,t(v和敬,t;θv, t))戏阅。同時,我們構(gòu)建了一個端到端的自我監(jiān)督語義網(wǎng)絡(luò)(LabNet)啤它,以便在一個共同的語義空間中模擬圖像和文本模態(tài)之間的語義相關(guān)性奕筐,同時學(xué)習(xí)這種語義特征的功能(即Hl = fl(l) ;θl))。這里变骡,fv离赫,t,l是哈希函數(shù)塌碌,θv渊胸,t,l是要學(xué)習(xí)的網(wǎng)絡(luò)參數(shù)台妆。學(xué)習(xí)后的Hv翎猛,t,l接剩,bina ry代碼Bv切厘,t,l可以通過將符號函數(shù)應(yīng)用于Hv懊缺,t疫稿,l:Bv,t,l =符號 來生成更容易理解遗座,我們另外使用Fv舀凛,t,l∈Rs×n todenotethesemanticfeaturesinacommon語義空間用于圖像途蒋,文本和標(biāo)簽猛遍,s是語義空間的維度。在實踐中碎绎,F(xiàn)v螃壤,t,l對應(yīng)于深度神經(jīng)網(wǎng)絡(luò)的某些輸出層(分別為ImgNet筋帖,TxtNet和LabNet)奸晴。
3.2。自我監(jiān)督的語義生成
以微軟的COCOdatase為例日麸,有一個標(biāo)注有多個標(biāo)簽的例子寄啼,如“人”,“棒球棒”和“棒球手套”代箭。在這種情況下墩划,最自然的想法是,有可能采取多個labelannotationasaconduciveness與其他模式之間的模態(tài)之間的語義相關(guān)性嗡综。我們設(shè)計了一個名為LabNet的端到端全連接深度神經(jīng)網(wǎng)絡(luò)乙帮,用于模擬不同模態(tài)之間的語義相關(guān)性。給定實例的多標(biāo)簽向量极景,LabNet逐層提取抽象語義特征;通過這些察净,我們可以在網(wǎng)絡(luò)和網(wǎng)絡(luò)上監(jiān)督特征學(xué)習(xí)過程。由于aaipiplet(vi盼樟,ti氢卡,li)被用于特殊情況,因此我們可以使用isgardli asself-supervisedsemanticinformation forvi andti晨缴。 InLabNet译秦,semanticfeaturesareprojectedinto
通過非線性變換得到相應(yīng)的哈希碼。我們意識到击碗,語義特征與相應(yīng)的對應(yīng)代碼之間存在著相似的關(guān)系筑悴,這是對不同形式之間有效關(guān)聯(lián)背后的基本預(yù)測。因此稍途,對于LabNet雷猪,最終目標(biāo)可以表述如下:
(3)其中Δlij= 1 2(F1 * i)>(F1 * j),Γlij= 1 2(Hl * i)>(Hl * j)晰房,Hl是預(yù)測的散列代碼和L1是預(yù)測標(biāo)簽求摇。 α射沟,γ,η和β是超參數(shù)与境。在(3)中验夯,J1和J2是兩個負(fù)對數(shù)似然函數(shù)。 J1用于保持語義特征之間的相似性摔刁,而J2用于保存類似標(biāo)簽信息不相似的實例挥转。 J3是學(xué)習(xí)哈希碼二值化的近似,J4是原始標(biāo)簽和預(yù)測標(biāo)簽的分類丟失
3.3共屈。特征學(xué)習(xí)
如上所述绑谣,屬于多模態(tài)實例的不同模態(tài)在語義上是相關(guān)的。為了保持這種語義相關(guān)性拗引,我們在LabNet的指導(dǎo)下監(jiān)督兩種模態(tài)的特征學(xué)習(xí)過程借宵,包括對語義特征和學(xué)習(xí)二進(jìn)制代碼的監(jiān)視。為了解決圖像模態(tài)矾削,我們設(shè)計了一個名為ImgNet的端到端特征學(xué)習(xí)網(wǎng)絡(luò)壤玫,它可以將圖像投影到哈希碼中。通過使用語義網(wǎng)絡(luò)監(jiān)督圖像特征學(xué)習(xí)哼凯,我們可以在ImgNet和語義網(wǎng)絡(luò)之間保持相同的語義相關(guān)性欲间。當(dāng)在ImgNet中使用時,這是語義網(wǎng)絡(luò)的自我監(jiān)督角色断部。同樣猎贴,在考慮文本模態(tài)時,我們使用語義網(wǎng)絡(luò)來監(jiān)督特定于特定學(xué)習(xí)過程的文本網(wǎng)絡(luò)蝴光。因此嘱能,v和t中不同形態(tài)的自監(jiān)督特征學(xué)習(xí)的目標(biāo)函數(shù)可以寫成:
(4)其中Δv,t ij = 1 2(F1 * i)>(Fv虱疏,t * j),并且Γv苏携,t ij = 1 2(Hl * i) >(Hv做瞪,t * j)。 Hv右冻,t是預(yù)測的哈希碼装蓬,Lv,t分別是圖像和文本的預(yù)測標(biāo)簽纱扭。 α牍帚,γ,η和β是超參數(shù)乳蛾。 J1和J2是兩個負(fù)對數(shù)似然函數(shù)暗赶。 J3和J4區(qū)域的近似損失和分類損失以類似于LabNet中使用的方式定義鄙币。應(yīng)注意,盡管(3)和(4)在結(jié)構(gòu)上相似蹂随,但它們具有不同的含義十嘿。因此,我們使用監(jiān)督信息Fl * i和Hl * i(從語義網(wǎng)絡(luò)中學(xué)習(xí))來指導(dǎo)學(xué)習(xí)網(wǎng)絡(luò)和文本網(wǎng)絡(luò)的過程岳锁〖ㄖ裕可以使用語義網(wǎng)絡(luò)建立相關(guān)性。結(jié)果激率,可以減輕模態(tài)差距咳燕。與圖像模態(tài)相比,文本模態(tài)中的實例(通常由詞袋(BoW)向量表示)容易導(dǎo)致稀疏性乒躺。因此招盲,當(dāng)想要發(fā)現(xiàn)學(xué)習(xí)哈希碼所需的有價值信息時,BoW是不合適的聪蘸。為了解決這個問題宪肖,我們設(shè)計了一個多尺度融合模型,它由多個平均合并層和一個1×1卷積層組成健爬。使用多個平均映射層來提取多個縮放比例的數(shù)據(jù)控乾,然后使用1×1個卷積層來使用多個特征。通過這個過程娜遵,可以捕獲不同的關(guān)系蜕衡,在構(gòu)建文本形態(tài)的語義相關(guān)性時,可以捕獲這些關(guān)系设拟。更詳細(xì)的參數(shù)信息在第3.6節(jié)中給出慨仿。
3.4。對抗性學(xué)習(xí)
在LabNet的監(jiān)督下纳胧,語義相關(guān)性可以在不同的模態(tài)中得以保留镰吆。 但是,不同的模態(tài)通常不一致地分布跑慕,如果我們想要生成單一的哈希碼万皿,這不是有益的。 為了彌合這種模式差距并實現(xiàn)更準(zhǔn)確的檢索核行,我們以對抗性學(xué)習(xí)方式研究了不同模態(tài)的分布協(xié)議牢硅。 我們已經(jīng)建立了兩個用于圖像和文本模式的鑒別器,而不是分配差異芝雪。 對于圖像(文本)鑒別器诅福,輸入是通過LabNet生成的圖像(文本)模態(tài)特征和語義特征李丰,輸出是單個值煎饼,“0”或“1”。 具體而言如筛,我們定義了這些語義特征的模態(tài)標(biāo)簽,它們已經(jīng)生成了“1”赃承,并且定義了圖像(文本)語義的模態(tài)標(biāo)簽妙黍。
從ImgNet(TxtNet)生成的模態(tài)特征為“0”。我們將Fv和F1輸入到為圖像設(shè)計的鑒別器中瞧剖,并將Ft和Fl饋送到另一個已經(jīng)設(shè)計好的標(biāo)識符中拭嫁。 Toformulatethis結(jié)構(gòu),letY = {yi} 3×n i = 1抓于,yi∈{0,1}表示模態(tài)labelassignedtothesemanticfeatureinthesharedcommon空間做粤。設(shè)Y l = {yl i} n i = 1,yl i = 1表示標(biāo)簽的模態(tài)標(biāo)簽捉撮。 LetY v怕品,t = {yv,t i} n i = 1 andyv巾遭,t i = 0分別表示圖像和文本的模態(tài)標(biāo)簽肉康。在訓(xùn)練我們的模型時,這兩個鑒別器就是兩個對手灼舍。因此吼和,目標(biāo)函數(shù)可以寫成如下:
(5)
wherexv,t骑素,l i是共同語義空間中的語義特征炫乓,而模態(tài)標(biāo)簽是yv,t献丑,l i末捣,2×n,表示在每個判別器中都有重復(fù)的實例创橄。 (5)的結(jié)果是鑒別器充當(dāng)兩個二進(jìn)制分類器箩做,將輸入語義特征分類為類“1”和類“0”。
3.5.優(yōu)化
需要注意的是妥畏,使用我們的SSAH可以生成三種散列碼::Bv邦邦,t,l = sign(Hv咖熟,t,l)柳畔。在訓(xùn)練過程中馍管,我們使B =符號(Hv + Ht + Hl)訓(xùn)練我們的模型以生成用于語義相似實例的類似二進(jìn)制代碼。如上所述薪韩,整體目標(biāo)函數(shù)可以寫成如下:Lgen = Lv + Lt + Ll Ladv = Lvadv + Ltadv(6)如果我們把它們放在一起确沸,我們可以得到:(
由于參數(shù)B的離散性和由最小值損失引起的消失梯度捌锭,(7)的優(yōu)化是難以處理的。因此罗捎,我們通過迭代優(yōu)化來優(yōu)化目標(biāo)(7)观谦。首先,我們通過探索標(biāo)簽信息來優(yōu)化過度θ1桨菜,B1和L1豁状。然后,通過固定θ1和B1來優(yōu)化LV對θv和Bv的影響倒得。類似地泻红,我們留下θl和Bl固定來學(xué)習(xí)θt和Bt,允許Lt的優(yōu)化霞掺。在這個過程中谊路,兩種模態(tài)特征是在自我監(jiān)督的學(xué)習(xí)方式中學(xué)習(xí)的。最后菩彬,通過固定θv缠劝,t,l weoptimizeLv骗灶,t advoverθv惨恭,t。通過利用隨機梯度下降(SGD)和反向傳播(BP)算法來研究所有網(wǎng)絡(luò)參數(shù)矿卑,這是一種廣泛采用的不存在的深度學(xué)習(xí)方法喉恋。 Algorithm1詳細(xì)介紹了整個學(xué)習(xí)算法。對于樣本外擴展:建議的框架可以應(yīng)用于跨模式母廷。實際上轻黑,它不僅限于兩種形式;相反,它可以很容易地適應(yīng)解決問題的原因琴昆,而不是更多的不同氓鄙。 Hashcodesfortheunseendata-point,它來自不同的模態(tài)业舍,imagesortext抖拦,可以通過將原始特征輸入到我們的模型中而直接獲得:
(8)此外,通過將標(biāo)簽信息輸入到LabNet舷暮,我們可以獲得標(biāo)簽信息的哈希碼态罪,然后可以同時使用來自圖像和文本的相關(guān)結(jié)果。
3.6下面。實現(xiàn)細(xì)節(jié)
自我監(jiān)督語義網(wǎng)絡(luò):我們使用四層前饋神經(jīng)網(wǎng)絡(luò)構(gòu)建LabNet复颈,用于將標(biāo)簽投影為哈希碼(L→4096→512→N)。輸出層N的節(jié)點與不同數(shù)據(jù)集的哈希碼K和總類標(biāo)簽c的長度相關(guān)沥割,N = K + c耗啦。
圖像生成網(wǎng)絡(luò):我們基于CNN-F [5]神經(jīng)網(wǎng)絡(luò)構(gòu)建了ImgNet凿菩。為了將CNN應(yīng)用于我們的SSAH模型,我們保留了前七層(與CNN-F中的相同)帜讲。在此之后衅谷,中間層fc8(具有512個節(jié)點)和最終輸出層(具有N個節(jié)點)被構(gòu)建。此外似将,我們還使用vgg19 [32]網(wǎng)絡(luò)評估了我們的方法;在這里获黔,我們用vgg19網(wǎng)絡(luò)替換了CNN-F網(wǎng)絡(luò),其余部分保持不變玩郊。
用于文本的生成網(wǎng)絡(luò):我們使用三層前饋神經(jīng)網(wǎng)絡(luò)和多尺度(MS)融合模型(T→MS→4096→512→N)構(gòu)建TxtNet肢执。 MS由五級池化層(1×1,2×2,3×3,5×5和10×10)組成。
對抗網(wǎng)絡(luò):我們使用三層前饋神經(jīng)網(wǎng)絡(luò)(Fv译红,t预茄,l→4096→4096→1)構(gòu)建鑒別器網(wǎng)絡(luò)。
關(guān)于SSAH中使用的激活函數(shù):sigmoid激活用于輸出預(yù)測的標(biāo)簽; tanh激活用于輸出哈希碼;其余的層都由relu函數(shù)統(tǒng)一激活侦厚。此外耻陕,SSAH通過TensorFlow實現(xiàn),并在具有兩個NVIDIA TITAN X GPU的服務(wù)器上運行刨沦。
4.實驗
4.1诗宣。數(shù)據(jù)集
MIRFLICKR-25K數(shù)據(jù)集[11]包含從Flickr收集的25,000個實例。每個圖像都標(biāo)有相關(guān)的文本標(biāo)簽想诅。在這里召庞,我們遵循DCMH [12]中給出的實驗方案±雌疲總共為我們的實驗選擇了20,015個數(shù)據(jù)點篮灼。每個點的文本表示為1,386維BoW向量,并且每個點用24個唯一標(biāo)簽中的至少一個手動注釋徘禁。
NUS-WIDE數(shù)據(jù)集[6]是一個包含269,648個Web圖像的公共Web圖像數(shù)據(jù)集诅诱。有81個基本概念,它已經(jīng)被人們注意到了對其進(jìn)行評價送朱。在修剪沒有任何標(biāo)簽或標(biāo)簽信息的數(shù)據(jù)之后娘荡,選擇屬于21個最常見概念中的某些概念的190,421個圖像文本對的子集作為我們的數(shù)據(jù)集。
MSCOCO數(shù)據(jù)集 [15]包含大約80,000個訓(xùn)練圖像和40,000個驗證圖像驶沼。隨機選擇來自驗證集的五千個圖像炮沐。總的來說回怜,我們的實驗中使用了85,000個數(shù)據(jù)項大年。每個數(shù)據(jù)項由兩個不同模態(tài)的一個圖像 - 文本對組成,每個文本表示為2000維BoW矢量。表1總結(jié)了三個數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)鲜戒。
4.2。評估和基線
評估:漢明排名和哈希查找是用于評估跨模態(tài)檢索任務(wù)性能的兩種經(jīng)典檢索協(xié)議抹凳。在我們的實驗中遏餐,我們使用三個評估標(biāo)準(zhǔn):平均精度(MAP),用于測量漢明距離的準(zhǔn)確度;精確調(diào)用(PR)曲線赢底,用于測量散列查找協(xié)議的準(zhǔn)確性;并且n(P @ n)曲線的精度用于通過僅考慮頂部返回點的數(shù)量來評估精度失都。
基線:我們使用六種最先進(jìn)的方法比較我們的SSAH,包括幾種基于淺層結(jié)構(gòu)的方法(CVH [14]幸冻,STMH [38]粹庞,CMSSH [2],SCM [44]洽损,SePH [16])庞溜,和基于深層結(jié)構(gòu)的方法(DCMH [12])。為了進(jìn)行公平的比較碑定,我們利用了CNN-F [5]和vgg19 [32]流码,它們已經(jīng)在ImageNet數(shù)據(jù)集[28]上進(jìn)行了預(yù)測,以便為所有基于淺層結(jié)構(gòu)的基線提取深層特征延刘。
為了確定超參數(shù)α漫试,γ,η和β碘赖,我們從檢索數(shù)據(jù)庫中隨機選擇一些數(shù)據(jù)點(每個數(shù)據(jù)集2,000個)作為我們的驗證集驾荣。 圖2提供了這些超參數(shù)的靈敏度分析。 當(dāng)α=γ= 1且η=β= 10-4時普泡,總是可以看到高性能播掷。 對于圖像模態(tài),我們使用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的CNN-F網(wǎng)絡(luò)初始化ImgNet的前七層劫哼。 對于文本模態(tài)叮趴,TxtNet隨機初始化。 學(xué)習(xí)率從10-4到10-8之間選擇权烧。 在此之后眯亦,我們顯示了10次運行的平均結(jié)果。
表1:我們實驗中使用的數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)
表2:MAP般码。 最佳精度以粗體顯示妻率。 基線基于CNN-F功能。
4.3板祝。性能
漢明排名:表2報告了我們的SSAH和其他在三種流行數(shù)據(jù)集(MIRFLICKR25K宫静,NUS-WIDE和MSCOCO)的模態(tài)檢索中具有CNN-F特征的比較方法的MAP結(jié)果。 “I→T”表示查詢是圖像,數(shù)據(jù)庫是基于文本的孤里,“T→I”表示查詢和數(shù)據(jù)庫是基于圖像的伏伯。與CVH,STMH捌袜,CMSSH说搅,SCM和SePH的淺基線相比,我們的SSAH在MIRFLICKR-25K數(shù)據(jù)集上對I→T / T→I的MAP實現(xiàn)了絕對超過10%的增加虏等。在將SSAH與基于深度學(xué)習(xí)的方法(DCMH)進(jìn)行比較時弄唧,我們運行作者提供的源代碼。在這里霍衫,可以看出SSAH可以實現(xiàn)超過5%的MAP增加候引。對于具有更多實例和復(fù)雜內(nèi)容的更多實例和MS COCO,SSAH總是提供比其他比較方法更優(yōu)越的性能敦跌,如表2所示澄干。這可能是因為,在學(xué)習(xí)過程中柠傍,所提出的自我監(jiān)督的對抗性網(wǎng)絡(luò)更有效地促進(jìn)了不同形式之間語義相關(guān)性的學(xué)習(xí)傻寂,這意味著可以使用我們的SSAH學(xué)習(xí)更多的判別性表征。因此携兵,SSAH可以更準(zhǔn)確地捕獲模態(tài)之間的相關(guān)性疾掰。我們使用已在ImageNet數(shù)據(jù)集上預(yù)先訓(xùn)練過的vgg19功能[32]進(jìn)一步驗證我們的SSAH。表3顯示了三個不同數(shù)據(jù)集的MAP結(jié)果徐紧。如表3所示静檬,我們可以看到幾乎所有基于基于CNN-F的方法均基于CNN-F。不僅如此并级,我們的SSAH始終如一地實現(xiàn)了最佳性能拂檩。與淺基線(CVH,STMH嘲碧,CMSSH稻励,SCM和SePH)相比,SSAH在MIRFLICKR-25K數(shù)據(jù)集上的I→T / T→I的平均MAP上實現(xiàn)了絕對超過5%的增加愈涩。這表明所提出的SSAH可以應(yīng)用于其他網(wǎng)絡(luò)望抽,并且當(dāng)配備有效的深層網(wǎng)絡(luò)結(jié)構(gòu)時可以實現(xiàn)更準(zhǔn)確的檢索。
散列查找:在考慮查找協(xié)議時履婉,我們計算給定任何漢明半徑的返回點的PR曲線煤篙。 PR曲線可以通過將Hamming半徑從0變?yōu)?6來獲得,步長為1.圖4顯示了所有當(dāng)前最先進(jìn)方法的PR曲線毁腿,在三個基準(zhǔn)數(shù)據(jù)集上具有16位哈希碼辑奈。通過這種方式苛茂,可以看出我們的SSAH顯著優(yōu)于其所有最先進(jìn)的競爭對手。
SSAH的消融研究:我們還驗證了不同網(wǎng)絡(luò)模塊對我們SSAH性能的影響鸠窗。設(shè)計了三種變體作為我們SSAH網(wǎng)絡(luò)的基線:(a)通過自我監(jiān)督的語義網(wǎng)絡(luò)來建立SSAH-1; (b)SSAH-2是用三個全連接層替換TxtNet而建造的; (c)通過刪除對抗性學(xué)習(xí)模塊來構(gòu)建SSAH-3妓羊。圖3顯示了MIRFLICKR-25K數(shù)據(jù)集上16位的比較結(jié)果。從結(jié)果中我們可以看出稍计,我們的方法在使用所設(shè)計的模塊時可以實現(xiàn)更準(zhǔn)確的性能侍瑟,并且自我監(jiān)督的語義網(wǎng)絡(luò)顯著地提高了性能。
訓(xùn)練效率:圖5顯示了SSAH和DCMH的MAP和訓(xùn)練時間之間的差異丙猬。 我們可以看到,我們的方法將訓(xùn)練時間縮短了10倍费韭,超過了DCMH.IncomparisontoDCMH茧球,SSAHexploitsLabNet從高維語義特征和代碼中學(xué)習(xí)更多足夠的監(jiān)督信息,用于有效地訓(xùn)練ImgNet和TxtNet星持。 因此抢埋,可以捕獲不同模態(tài)之間的更準(zhǔn)確的相關(guān)性,并且可以更有效地橋接模態(tài)差距督暂。
與ACMR的比較:根據(jù)我們目前的最佳知識揪垄,ACMR [37]是借用對抗性學(xué)習(xí)方法進(jìn)行跨模態(tài)檢索的第一項工作。 但是逻翁,ACMR不是基于散列的方法饥努。 為了與ACMR進(jìn)行公平比較,我們遵循在NUS-WIDE-10kdataset中使用的ACMR.SSAH進(jìn)行的實驗設(shè)置八回,這是通過從NUS-WIDE數(shù)據(jù)集中的10個最大類別中隨機選擇10,000個圖像/文本對來構(gòu)建的酷愧。 表4顯示了實驗結(jié)果。 ACMR報告了帶下劃線的結(jié)果缠诅。 可以看出溶浴,我們的方法明顯優(yōu)于ACMR。 這可能是因為我們的框架中使用了兩個小的網(wǎng)絡(luò)管引,SSAH可以更準(zhǔn)確地學(xué)習(xí)不同模態(tài)的分布士败,從而可以更有效地捕獲相關(guān)性。
圖2:超參數(shù)的靈敏度分析
圖3:Precision @ top1000curvesonMIRFLICKR-25K褥伴。 表4:NUS-WIDE上具有CNN-F特征的MAP谅将。
5.結(jié)論
在這項工作中,我們提出了一種新的深度哈希方法重慢,稱為自監(jiān)督對抗性哈希(SSAH)戏自,以便有效地解決跨模態(tài)檢索的問題。 提出的SSAHincorporatesa自我監(jiān)督語義網(wǎng)絡(luò)與多標(biāo)簽信息相結(jié)合伤锚,并進(jìn)行對抗性學(xué)習(xí)擅笔,以最大化不同形式之間的語義相關(guān)性和特征分布一致性志衣。 大量實驗表明,SSAH在三個基準(zhǔn)數(shù)據(jù)集上實現(xiàn)了最先進(jìn)的檢索性能猛们。
6.致謝
本項工作得到國家自然科學(xué)基金項目61572388和批準(zhǔn)61703327念脯,重點研發(fā)項目/重點行業(yè)創(chuàng)新,陜西省2017ZDCXLGY-05-04-02和格蘭特2017ZDCXL-GY-05-04-02弯淘,以及ARC的支持绿店。 FL-170100117,DP-180103424庐橙,DP-140102164假勿,LP150100671。