讀ACMR論文后,自己的理解蛾娶。主要分析框架潜秋。
為什么使用ACMR方法
1.核心思想
第一次結(jié)合了跨模態(tài)檢索和對抗學(xué)習(xí)的監(jiān)督表示學(xué)習(xí),特征映射器和模態(tài)分類器兩個過程間的相互作用
1.框架
基于極大-極小對抗機制
第一模態(tài)分類器半等,區(qū)分目標(biāo)的模態(tài)杀饵,也就是區(qū)分輸入的是圖像還是文本,
第二特征生成器朽缎,用來生成適應(yīng)不同模態(tài)的特征表達谜悟,來迷惑模態(tài)分類器最終讓MC不能區(qū)分輸入的是圖像還是文本
2.對于模態(tài)分類器和特征生成器的關(guān)系
(1)為了緩解不同模態(tài)之間的差異葡幸,引入了立即反饋信號,來特征映射器的學(xué)習(xí)過程
(2)同時進行標(biāo)簽預(yù)測和結(jié)構(gòu)保存床蜘,能夠生更加有效的特征
生成器開始把投影到公共空間的特征送入判別器中蔑水,讓判別器區(qū)分輸入的是文本還是圖像,若模態(tài)分類器loss的值很大丹擎,就反饋給特征生成器歇父,在這種不斷的對抗學(xué)習(xí)中,對同一語義的圖片和文本描述毁渗,將會在特征空間中逐步靠近单刁。當(dāng)模態(tài)分類器無法再區(qū)分出輸入的是文本還是圖像即模態(tài)分類器loss值很小的時候,特征生成器在同一個空間學(xué)習(xí)到特征表達
3.模態(tài)分類器
模態(tài)分類器的任務(wù)是通過區(qū)分公共子空間中的樣本來自哪個模態(tài)肺樟,來提升特征映射器的表征學(xué)習(xí)能力
根據(jù)投影到公共空間的特征么伯,來輸出數(shù)據(jù)屬于圖像或文本的概率卡儒,要最終使模態(tài)分類器最終無法區(qū)分輸入是圖像還是文本,就是要使loss越小越好硬爆,這里使用的是softmax函數(shù)
4.特征生成器
希望模型最后學(xué)習(xí)到圖像和文本在公共子空間中的特征表達擎鸠,能夠生成更有效的特征,用標(biāo)簽預(yù)測和結(jié)構(gòu)保存的方法對特征進行處理袜蚕。
標(biāo)簽預(yù)測的目的是保證樣本語義標(biāo)簽在樣本被映射到公共子空間時不發(fā)生改變绢涡。
結(jié)構(gòu)保持的目的是,最大限度縮小具有相同語義標(biāo)簽樣本之間的距離雄可。當(dāng)樣本被映射到公共子空間時滞项。
標(biāo)簽預(yù)測與結(jié)構(gòu)保持的聯(lián)合作用如圖2-4(a)所示,在圖中过椎,圓圈表示圖像戏仓,矩形表示文本,不同顏色表示不同語義類敷待。結(jié)構(gòu)保持的優(yōu)化工程如圖2-4(b)所示仁热,具有相同語義類的項(圖像-文本)相互靠近,不同語義類的項(圖像-文本)相互遠離举哟。
對圖片我的理解:標(biāo)簽預(yù)測就是在a 中顏色(語義標(biāo)簽)相同的妨猩,在公共子空間中的顏色也是一樣的,不會由藍色變?yōu)榧t色
結(jié)構(gòu)報保存就是B的過程威兜,讓顏色相同的相互靠近庐椒,顏色不同的盡量遠離
4.1標(biāo)簽預(yù)測
根據(jù)投影到公共空間的特征來輸出數(shù)據(jù)屬于某一類的概率扼睬,從而進行語義標(biāo)簽(分類)的區(qū)分
4.2結(jié)構(gòu)保存
5.對抗學(xué)習(xí):優(yōu)化
學(xué)習(xí)目標(biāo)是使得adversarial loss 和 embedding loss 最小窗宇,將兩者結(jié)合起來,使用 minimax game 來優(yōu)化如下兩個公式