- NIPS2018.
- 摘要
-
背景:
- 現(xiàn)有的交互式圖像檢索方法已經(jīng)證明了整合用戶反饋呐粘、改善檢索結(jié)果的優(yōu)點(diǎn)
- 基于用戶反饋以交互的形式進(jìn)行圖像檢索是有效可行的。
- 現(xiàn)有工作的局限性:
- 當(dāng)前大多數(shù)系統(tǒng)依賴于受限形式的用戶反饋转捕,例如二元相關(guān)性反饋作岖,或基于一組固定的相關(guān)屬性的反饋,這限制了它們的影響五芝。
-
創(chuàng)新性工作
- 本文提出了一種新的交互式圖像搜索方法痘儡,使用戶能夠通過(guò)自然語(yǔ)言提供反饋,從而實(shí)現(xiàn)更自然枢步、更有效的交互沉删。
-
關(guān)鍵設(shè)計(jì)
- 將基于對(duì)話的交互式圖像檢索任務(wù)制定為強(qiáng)化學(xué)習(xí)問(wèn)題,并獎(jiǎng)勵(lì)對(duì)話系統(tǒng)在每個(gè)對(duì)話回合中提高目標(biāo)圖像的排名醉途。
- 為了在對(duì)話系統(tǒng)學(xué)習(xí)時(shí)減少收集人機(jī)對(duì)話的繁瑣和昂貴的過(guò)程矾瑰,我們使用用戶模擬器訓(xùn)練我們的系統(tǒng),該模擬器本身經(jīng)過(guò)訓(xùn)練以描述目標(biāo)圖像和候選圖像之間的差異隘擎。我們方法的有效性在鞋類檢索應(yīng)用程序中得到了證明殴穴。
- 對(duì)模擬和真實(shí)世界數(shù)據(jù)的實(shí)驗(yàn)表明:
- 1)我們提出的學(xué)習(xí)框架比其他監(jiān)督和強(qiáng)化學(xué)習(xí)基線實(shí)現(xiàn)了更好的準(zhǔn)確性
- 2)基于自然語(yǔ)言而不是預(yù)先指定的屬性的用戶反饋導(dǎo)致更有效的檢索結(jié)果,和更自然和更具表現(xiàn)力的交互界面货葬。
背景
圖像媒體檢索的數(shù)量急劇增加采幌,并加劇了對(duì)能夠更有效地識(shí)別相關(guān)信息的檢索系統(tǒng)的需求,在電商等領(lǐng)域也得到應(yīng)用震桶。 但由于特征表示和高級(jí)語(yǔ)義概念之間眾所周知的語(yǔ)義鴻溝休傍,以及難以在此類檢索系統(tǒng)中充分了解用戶的搜索意圖仍然是一個(gè)挑戰(zhàn)。
提高搜索效率的典型方法是允許用戶與系統(tǒng)進(jìn)行一組帶約束的交互尼夺。 特別是尊残,用戶提供有關(guān)檢索到的對(duì)象的反饋炒瘸,以便系統(tǒng)可以改進(jìn)檢索結(jié)果,允許用戶和系統(tǒng)進(jìn)行“對(duì)話”以解決用戶想要檢索的問(wèn)題寝衫。如下圖所示顷扩,相關(guān)性反饋允許用戶指出哪些圖像與所需圖像“相似”或“不相似”,相對(duì)屬性反饋允許將所需圖像與候選圖像進(jìn)行比較基于一組固定屬性的圖像慰毅。 雖然這些反饋范式是有效的隘截,但對(duì)用戶交互的特定形式的限制在很大程度上限制了用戶可以傳達(dá)的有益于檢索過(guò)程的信息。
方法
1. overview
本文的框架稱之為對(duì)話管理器 dialog manager汹胃,考慮用戶通過(guò)多輪對(duì)話與檢索代理(系統(tǒng))交互婶芭。
在第 t 輪對(duì)話時(shí),對(duì)話管理器向用戶呈現(xiàn)從檢索數(shù)據(jù)庫(kù) I = {Ii}N i = 0 中選擇的候選圖像着饥。
然后犀农,用戶提供反饋語(yǔ)句 ot,描述候選圖像 at 和所需圖像之間的差異宰掉。
根據(jù)用戶反饋和對(duì)話歷史呵哨,對(duì)話管理器從數(shù)據(jù)庫(kù)中選擇另一個(gè)候選圖像 at+1 并將其呈現(xiàn)給用戶。這個(gè)過(guò)程一直持續(xù)到選擇所需的圖像或達(dá)到最大對(duì)話輪數(shù)轨奄。
在實(shí)踐中孟害,對(duì)話管理器可以每輪提供多張圖像以實(shí)現(xiàn)更好的檢索性能。本文主要專注于每輪交互返回單個(gè)圖像的簡(jiǎn)化場(chǎng)景挪拟,可以將相同的框架擴(kuò)展到多圖像情況挨务。
2. Dialog Manager
對(duì)話管理器由三個(gè)主要組件組成:Response Encoder 響應(yīng)編碼器、State Tracker狀態(tài)跟蹤器和 **Candidate Generator **候選生成器玉组。
- 在第 t 輪對(duì)話時(shí)谎柄,響應(yīng)編碼器將候選圖像和相應(yīng)的用戶反饋 {at, ot} 用一個(gè)聯(lián)合的視覺語(yǔ)義embedding來(lái)表示 xt ∈ RD届腐。
- 然后狀態(tài)跟蹤器將此表示與前幾輪的對(duì)話歷史聚合如贷,生成一個(gè)新的特征向量 st ∈ RD 嘲玫。
- 候選生成器使用聚合的表示 st 來(lái)選擇顯示給用戶的新候選圖像 at+1桩蓉。
Response Encoder
- 核心目標(biāo)是將上一輪的候選圖片和用戶反饋(文本)用語(yǔ)義融合的embedding表示面殖。
- 具體做法:
- 用CNN對(duì)圖片進(jìn)行提取耕捞, 并進(jìn)行線性映射:
- 具體實(shí)現(xiàn): ImageNet pre-trained ResNet-101 參數(shù)固定畅姊。
- 文本: 對(duì)用戶反饋的文本中的單詞用embedding表示恨狈, 用CNN進(jìn)行處理:
- 用CNN對(duì)圖片進(jìn)行提取耕捞, 并進(jìn)行線性映射:
- 將兩部分特征進(jìn)行拼接組合得到最后的表征:
State Tracker
- 狀態(tài)跟蹤器基于GRU鸵钝,接收response表示 xt 作為輸入糙臼,將其與先前對(duì)話回合的歷史表示組合,并輸出聚合特征向量 st恩商。
- 狀態(tài)跟蹤器的前向傳播寫為:
- 輸出和隱藏狀態(tài)表示:
- 最后聚合輸出表示為:
- st ∈ RD 是使用當(dāng)前對(duì)話回合的信息更新的歷史表示变逃。 狀態(tài)跟蹤器(GRU 模型)的可學(xué)習(xí)參數(shù)表示為 θs。 狀態(tài)跟蹤器的這種基于內(nèi)存的設(shè)計(jì)允許我們的模型按順序聚合來(lái)自用戶反饋的信息怠堪,以定位要檢索的候選圖像揽乱。
Candidate Generator
- 給定圖像庫(kù)中的所有圖像名眉, 下一步就是要從中檢索出最相關(guān)的圖片。
- 首先利用CNN得到所有圖像的表征:
- 然后再?gòu)膱D中所有圖像向量中 計(jì)算歷史表征s_t的top-K最近鄰凰棉, 基于歐式距離進(jìn)行計(jì)算损拢。
- 在選擇下一個(gè)候選圖像時(shí),分為兩種情況:
- 訓(xùn)練階段: 基于采樣的思想撒犀, 從top-K圖像中按照相似程度進(jìn)行采樣福压, 選取圖像
- inference階段: 直接選取top-1圖像作為下一個(gè)候選。
- 總體模型參數(shù)包括兩部分: Response Encoder中的參數(shù)和State Tracker中GRU的相關(guān)參數(shù)或舞。
3. Training the Dialog Manager
- 在監(jiān)督學(xué)習(xí)方案中直接優(yōu)化排名指標(biāo)具有挑戰(zhàn)性荆姆,因?yàn)樗且粋€(gè)不可微的函數(shù)。相反映凳,我們將排名百分位數(shù)建模為代理收到的環(huán)境獎(jiǎng)勵(lì)胆筒,并在強(qiáng)化學(xué)習(xí)設(shè)置中構(gòu)建學(xué)習(xí)過(guò)程,目標(biāo)是最大化折扣獎(jiǎng)勵(lì)的預(yù)期總和:
- rt ∈ R 是表示目標(biāo)圖像在第 t 次交互時(shí)的排名百分位數(shù)的獎(jiǎng)勵(lì)
- γ 是確定短期和長(zhǎng)期獎(jiǎng)勵(lì)之間權(quán)衡的折扣因子诈豌,T 是最大對(duì)話輪數(shù), πθ 是由網(wǎng)絡(luò)參數(shù) θ.3 決定的策略
- 迭代輪次越大腐泻, 對(duì)應(yīng)的獎(jiǎng)勵(lì)收益越小。
- 針對(duì)這個(gè)問(wèn)題訓(xùn)練 RL 模型需要對(duì)動(dòng)作空間進(jìn)行廣泛的探索队询,這只有在有大量訓(xùn)練數(shù)據(jù)可用時(shí)才可行。
- 然而构诚,為我們的任務(wù)收集和注釋人機(jī)對(duì)話數(shù)據(jù)是昂貴的蚌斩。這個(gè)問(wèn)題在基于自然語(yǔ)言的用戶反饋的情況下更加嚴(yán)重,與基于固定屬性集的方法相比范嘱,這會(huì)導(dǎo)致更大的探索空間送膳。
- 在基于文本的對(duì)話系統(tǒng)中,通常依靠用戶模擬器來(lái)規(guī)避這個(gè)問(wèn)題丑蛤, 本文采用了類似的策略叠聋,適用用戶模擬器,在人工編寫的相關(guān)描述上進(jìn)行訓(xùn)練受裹,在訓(xùn)練對(duì)話管理器時(shí)替代真實(shí)用戶的角色碌补。
User Simulator
- 基于relative caption的方式來(lái)構(gòu)建模擬器, 即通過(guò)一個(gè)模型生成目標(biāo)圖片和候選圖片之間的差異描述棉饶,即用文本描述圖片間的差異厦章,將該差異作為用戶的反饋,輸入到下一輪模型中照藻。
- 具體來(lái)說(shuō)袜啃,使用特征連接來(lái)融合目標(biāo)和參考圖像對(duì)的圖像特征,并應(yīng)用 Show幸缕、Attend 和 Tell 模型使用長(zhǎng)短期記憶網(wǎng)絡(luò) (LSTM) 生成相關(guān)標(biāo)題群发。對(duì)于圖像特征提取晰韵,我們采用了在 ImageNet 上預(yù)訓(xùn)練的 ResNet101架構(gòu);為了更好地捕捉局部視覺差異熟妓,我們添加了視覺注意機(jī)制雪猪;
- 相關(guān)描述的損失函數(shù)是正確單詞的負(fù)對(duì)數(shù)似然之和 。
Policy Learning
-
監(jiān)督預(yù)訓(xùn)練
- 當(dāng)網(wǎng)絡(luò)參數(shù)在開始時(shí)隨機(jī)初始化時(shí)滑蚯,歷史表示 st 幾乎是隨機(jī)的浪蹂。 為了促進(jìn) RL 訓(xùn)練期間的有效探索,我們首先使用監(jiān)督學(xué)習(xí)目標(biāo)對(duì)策略進(jìn)行預(yù)訓(xùn)練告材。 雖然基于最大似然的預(yù)訓(xùn)練更為常見坤次,但我們?cè)谶@里使用更具辨別力的三元組損失目標(biāo) (hinge Loss)進(jìn)行預(yù)訓(xùn)練:
- 當(dāng)網(wǎng)絡(luò)參數(shù)在開始時(shí)隨機(jī)初始化時(shí)滑蚯,歷史表示 st 幾乎是隨機(jī)的浪蹂。 為了促進(jìn) RL 訓(xùn)練期間的有效探索,我們首先使用監(jiān)督學(xué)習(xí)目標(biāo)對(duì)策略進(jìn)行預(yù)訓(xùn)練告材。 雖然基于最大似然的預(yù)訓(xùn)練更為常見坤次,但我們?cè)谶@里使用更具辨別力的三元組損失目標(biāo) (hinge Loss)進(jìn)行預(yù)訓(xùn)練:
- 其中 x+ 和 x? 分別是目標(biāo)圖像和從檢索數(shù)據(jù)庫(kù)中采樣的隨機(jī)圖像的圖像特征,m 是間距超參數(shù)斥赋。 直觀地缰猴,通過(guò)確保目標(biāo)圖像與系統(tǒng)返回的圖像的接近度,可以提高目標(biāo)圖像的排名疤剑,而無(wú)需從隨機(jī)初始化中進(jìn)行昂貴的策略搜索滑绒。 然而,完全依賴這個(gè)監(jiān)督學(xué)習(xí)目標(biāo)偏離了我們的主要學(xué)習(xí)目標(biāo)隘膘,因?yàn)槿M損失目標(biāo)不會(huì)聯(lián)合優(yōu)化候選圖像集以最大化預(yù)期的未來(lái)獎(jiǎng)勵(lì)疑故。
-
基于模型的政策改進(jìn)。
- 鑒于環(huán)境的動(dòng)態(tài)已知弯菊,利用其行為來(lái)改進(jìn)策略通常是有利的纵势。
-
在這里,我們將策略改進(jìn)應(yīng)用于我們基于模型的策略學(xué)習(xí)管钳。給定當(dāng)前策略 π 和用戶模擬器钦铁,可以通過(guò)前瞻策略值估計(jì)(look-ahead policy value estimation) Qπ(ht, at) = E 有效地計(jì)算使用測(cè)試時(shí)配置采取行動(dòng)at的分值
- 因?yàn)橛脩裟M器本質(zhì)上是確定性的,一個(gè)軌跡就足以估計(jì)一個(gè)動(dòng)作值才漆。 因此牛曹,改進(jìn)的策略 π' 可以從當(dāng)前策略 π 推導(dǎo)出給定當(dāng)前策略值的最佳動(dòng)作:
- 通過(guò)最小化以下的交叉損失項(xiàng)進(jìn)行處理。
- 與傳統(tǒng)的策略梯度方法相比醇滥,基于模型的策略改進(jìn)梯度具有更低的方差黎比,并且收斂更快。 在第 5 節(jié)中鸳玩,我們通過(guò)將其與最近的策略梯度方法進(jìn)行比較焰手,進(jìn)一步證明了基于模型的策略改進(jìn)的有效性。
DataSet: Relative Captioning
用戶模擬器旨在捕捉描述任何給定圖像對(duì)的視覺差異的豐富而靈活的語(yǔ)言怀喉。
因此,數(shù)據(jù)集需要此屬性 即描述圖片差異的文本书妻。
我們將數(shù)據(jù)收集過(guò)程置于購(gòu)物助理和客戶之間的購(gòu)物聊天會(huì)話的場(chǎng)景中。 注釋者被要求扮演顧客的角色,并提供一種自然的表達(dá)方式來(lái)通知購(gòu)物助理所需的產(chǎn)品項(xiàng)目躲履。 為了促進(jìn)更規(guī)律见间、更具體和相對(duì)的用戶反饋,我們提供了一個(gè)句子前綴工猜,供注釋者在撰寫他們對(duì)檢索到的圖像的響應(yīng)時(shí)完成米诉。 否則,注釋者響應(yīng)是完全自由形式的:沒(méi)有對(duì)響應(yīng)施加其他約束篷帅。 我們使用 Amazon Mechanical Turk 來(lái)眾包相關(guān)表達(dá)式史侣, 總共收集了 10751 個(gè)標(biāo)題,每對(duì)圖像有一個(gè)標(biāo)題魏身。
當(dāng)目標(biāo)圖像和參考圖像足夠不同時(shí)惊橱,用戶通常直接描述目標(biāo)圖像的視覺外觀,而不是使用相對(duì)表達(dá)式箭昵。 這種行為反映了判別性描述問(wèn)題税朴,其中一種方法必須接收兩個(gè)圖像并生成僅引用其中一個(gè)的描述。 相對(duì)描述和判別描述是互補(bǔ)的家制,在實(shí)踐中正林,這兩種策略都被使用,因此我們通過(guò)將 3600 個(gè)判別描述與其他不同圖像配對(duì)來(lái)擴(kuò)充我們的數(shù)據(jù)集颤殴。 因此觅廓,描述部分和基于對(duì)話的交互式檢索器都接受了區(qū)分性和相關(guān)性描述的訓(xùn)練,以便分別對(duì)真實(shí)用戶更具代表性和響應(yīng)性涵但。
Experiments
-
在一個(gè)時(shí)尚的女鞋數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)哪亿, 與傳統(tǒng)的attribute-based 方法進(jìn)行了效率對(duì)比。
Conclusion
- 本文主要針對(duì)交互式圖像檢索任務(wù)贤笆, 提出了基于自然語(yǔ)言反饋的檢索框架。 并具體涉及了相應(yīng)的模塊讨阻。
- 從所展示的效果上看芥永, 該框架具有里程碑意義, 對(duì)于后續(xù)構(gòu)成未來(lái)高保真钝吮、多模式埋涧、智能對(duì)話系統(tǒng)有重要的意義。
END
本人簡(jiǎn)書所有文章均為原創(chuàng)奇瘦,歡迎轉(zhuǎn)載棘催,請(qǐng)注明文章出處 。百度和各類采集站皆不可信耳标,搜索請(qǐng)謹(jǐn)慎鑒別醇坝。技術(shù)類文章一般都有時(shí)效性,本人習(xí)慣不定期對(duì)自己的博文進(jìn)行修正和更新次坡,因此請(qǐng)?jiān)L問(wèn)本人簡(jiǎn)書主頁(yè)查看最新信息http://www.reibang.com/u/40d14973d97c