ACM MM 2022 | 首個針對跨語言跨模態(tài)檢索的噪聲魯棒研究工作

論文標(biāo)題：Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning

文章鏈接：https://arxiv.org/pdf/2208.12526.pdf

代碼鏈接：https://github.com/LiJiaBei-7/nrccr

雖然目前傳統(tǒng)的跨模態(tài)檢索工作已取得了巨大的進(jìn)展，但由于缺少低資源語言的標(biāo)注數(shù)據(jù)，這些工作通常關(guān)注于高資源語言（比如英語），因此極大地限制了低資源語言在該領(lǐng)域的發(fā)展详羡。為了解決這一問題肉津，作者針對跨語言跨模態(tài)檢索任務(wù)（CCR）展開了研究碴开，該任務(wù)旨在僅使用人工標(biāo)注的視覺-源語言（如英語）語料庫對模型進(jìn)行訓(xùn)練桥嗤，使其可以適用于其他目標(biāo)語言（非英語）進(jìn)行評估咨堤。如下圖所示发钝。

▲ 傳統(tǒng)跨模態(tài)檢索&跨語言跨模態(tài)檢索（CCR）

在這篇論文中顿涣，作者旨在借助機(jī)器翻譯來生成偽視覺-目標(biāo)語言對進(jìn)行跨語言遷移，來緩解人工標(biāo)注多語言視覺-語言語料庫困難的問題酝豪。雖然機(jī)器翻譯可以快速的處理大量的文本語言轉(zhuǎn)換涛碑，但是其準(zhǔn)確性并不能得到保證，因此在翻譯過程中將會引入大量的噪聲孵淘，導(dǎo)致翻譯的目標(biāo)語言句子并不能準(zhǔn)確的描述其對應(yīng)的視覺內(nèi)容【如下圖所示】蒲障。

▲ 翻譯錯誤的示例圖

然而之前的基于機(jī)器翻譯的CCR 工作大多忽略了這個問題，它們通常使用大規(guī)模的預(yù)訓(xùn)練模型在通過機(jī)器翻譯得到的大規(guī)模多語言視覺-語言語料庫上進(jìn)行大規(guī)模預(yù)訓(xùn)練瘫证，并且只關(guān)注于視覺-目標(biāo)語言數(shù)據(jù)對之間的對齊揉阎。然而直接在這種噪聲數(shù)據(jù)對上應(yīng)用跨模態(tài)匹配將會嚴(yán)重影響檢索性能，神經(jīng)網(wǎng)絡(luò)模型有很強(qiáng)的能力來擬合這種給定的（噪聲）數(shù)據(jù)背捌。為了解決這個問題毙籽，作者提出了一個噪聲魯棒學(xué)習(xí)方法來緩解機(jī)器翻譯中所引入的噪聲問題，該論文是首個關(guān)注于 CCR 任務(wù)中由機(jī)器翻譯所引入噪聲問題的工作毡庆。

『方法』

▲ 模型框架圖

作者首先引入了其基線模型坑赡，繼而引入噪聲魯棒學(xué)習(xí)方法。

1.1 基線模型（Basic Model）

視覺編碼器：給定一個視頻么抗，使用預(yù)訓(xùn)練的2D CNN 來提取視頻特征序列垮衷，然后輸入到 Transformer 塊中，來增強(qiáng)幀間交互乖坠，最終得到一個視頻特征向量。

文本編碼器：作者設(shè)計了一個雙分支編碼器刀闷，分別又一個源語言分支和一個目標(biāo)語言分支組成熊泵。每個語言分支都包含一個Transformer block 和一個預(yù)訓(xùn)練的 mBERT backbone，將源語言和目標(biāo)語言分別輸入到對應(yīng)的分支中甸昏，得到對應(yīng)的源語言句子特征和目標(biāo)語言句子特征顽分。

將以上三個特征分別映射到多語言多模態(tài)空間中：

作者使用了傳統(tǒng)的跨模態(tài)檢索任務(wù)中常用的triplet ranking loss 進(jìn)行約束：

1.2 噪聲魯棒的特征學(xué)習(xí)（Noise-Robust Representation Learning）

基線模型只是簡單的進(jìn)行了跨語言跨模態(tài)對齊，并沒有對噪聲進(jìn)行處理施蜜，接下來作者提出了多視圖自蒸餾來生成soft pseudo-tagets 以監(jiān)督目標(biāo)語言分支的學(xué)習(xí)卒蘸。

作者首先借助于cross-attention 來生成一個相對干凈的中間目標(biāo)語言句子特征，通過將源語言 token 序列作為 query，利用 cross-attenion 固有的性質(zhì)缸沃，對目標(biāo)語言 token 序列進(jìn)行過濾恰起。

▲ cross-attention 權(quán)重示例圖

如圖3 所示，錯誤的單詞（用紅色標(biāo)記）和源語言單詞之間的注意權(quán)重被分配了低值趾牧。其過程表示如下：

1.3 多視角自蒸餾（Multi-view self-distillation）

作者引入了基于相似度視角和基于特征視角的自蒸餾損失检盼。基于相似度視角的自蒸餾（Similarity-based view）：給定（V, S, T）翘单，默認(rèn)其兩兩之間互為匹配對吨枉，忽視翻譯得到的目標(biāo)語言句子 T 中所包含噪聲的事實。對此哄芜，作者將 cross-attention 所生成的特征h_c?作為 teacher貌亭，使用特征h_c?和視覺特征計算v?計算得到 soft pseudo-targets 作為目標(biāo)語言分支的監(jiān)督。

▲ soft pseudo-targets示例圖

基于特征視角的自蒸餾（Feature-based view）：通過 l1 范式實現(xiàn)特征蒸餾：

1.4 循環(huán)語義一致性（Cycle Semantic Consistency）

受無監(jiān)督機(jī)器翻譯的啟發(fā)认臊，作者引入了循環(huán)語義一致性模塊圃庭，提高源語言分支從噪聲中提高原始語義信息的能力，增加源語言分支的魯棒性美尸。

1.5 語言無關(guān)特征學(xué)習(xí)（Language-agnostic Representation Learning）：

考慮到特定語言特征缺少跨語言遷移能力冤议，作者通過對抗學(xué)習(xí)的方式來訓(xùn)練模型學(xué)習(xí)語言無關(guān)特征。構(gòu)建一個分類器F 作為判別器來分辨輸入特征是源語言還是目標(biāo)語言师坎，判別器和特征編碼器相互博弈：

1.6 訓(xùn)練和測試

最終的目標(biāo)函數(shù)為：

測試時作者采用了目標(biāo)語言和翻譯的源語言（由于測試時只使用目標(biāo)語言）加權(quán)和的方式：

『實驗』

作者在三個跨語言跨模態(tài)數(shù)據(jù)集上進(jìn)行了實驗對比恕酸，其中為兩個多語言視頻文本檢索數(shù)據(jù)集（VATEX 和 MSRVTT-CN），一個多語言圖像文本檢索（Multi30K）胯陋；其中 MSRVTT-CN 是作者對 MSRVTT 進(jìn)行中文擴(kuò)展得到的多語言數(shù)據(jù)集蕊温。

▲?在VATEX數(shù)據(jù)集上進(jìn)行SOTA對比實驗

▲?MSRVTT-CN上性能對比

▲?Multi30K上進(jìn)行性能對比實驗

2.1 魯棒分析實驗

為了進(jìn)一步證明模型對抗翻譯噪聲的魯棒能力，作者通過增加翻譯次數(shù)以進(jìn)一步增加訓(xùn)練數(shù)據(jù)的噪聲程度遏乔，如圖所示义矛，在經(jīng)過多次翻譯后，基線模型的性能明顯下降盟萨，而本文所提出的模型性能更加的穩(wěn)定凉翻，驗證了噪聲魯棒特征學(xué)習(xí)的有效性。

將目標(biāo)語言句子根據(jù)句子長度進(jìn)行分組捻激，作者假設(shè)越長的句子制轰，翻譯越困難，因此包含的噪聲可能更多胞谭。結(jié)果表明垃杖，本文所提出的模型和基線模型的性能差距隨著句子長度的增加而增加。

2.2 t-SNE可視化實驗

作者隨機(jī)從VATEX 的中文測試集中隨機(jī)選擇 20 個樣本丈屹，其中每個樣本包含 10 個對應(yīng)的英語翻譯句子和一個對應(yīng)的視頻调俘。如圖所示，NRCCR 的類內(nèi)特征更加的緊湊，表明了模型更好的學(xué)習(xí)到了跨語言跨模態(tài)對齊彩库。

2.3 消融實驗

結(jié)果表明肤无，使用兩個視角，性能得到了提升侧巨，表明基于相似度視角和基于特征視角彼此互補(bǔ)舅锄。引入循環(huán)語義一致性后，實現(xiàn)了額外的性能收益司忱。此外皇忿，還表明了語言無關(guān)特征學(xué)習(xí)的重要性。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末坦仍，一起剝皮案震驚了整個濱河市鳍烁，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌繁扎，老刑警劉巖幔荒，帶你破解...
沈念sama閱讀 221,635評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異梳玫，居然都是意外死亡爹梁，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,543評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門提澎，熙熙樓的掌柜王于貴愁眉苦臉地迎上來姚垃，“玉大人，你說我怎么就攤上這事盼忌』矗” “怎么了？”我有些...
開封第一講書人閱讀 168,083評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵谦纱，是天一觀的道長看成。經(jīng)常有香客問我，道長跨嘉，這世上最難降的妖魔是什么川慌？我笑而不...
開封第一講書人閱讀 59,640評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮祠乃，結(jié)果婚禮上窘游，老公的妹妹穿的比我還像新娘。我一直安慰自己跳纳，他們只是感情好，可當(dāng)我...
茶點故事閱讀 68,640評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布贪嫂。她就那樣靜靜地躺著寺庄，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上斗塘，一...
開封第一講書人閱讀 52,262評論 1贊 308
城市分裂傳說
那天赢织，我揣著相機(jī)與錄音，去河邊找鬼馍盟。笑死于置，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的贞岭。我是一名探鬼主播八毯，決...
沈念sama閱讀 40,833評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼瞄桨！你這毒婦竟也來了话速？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,736評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤芯侥，失蹤者是張志新（化名）和其女友劉穎泊交，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體柱查，經(jīng)...
沈念sama閱讀 46,280評論 1贊 319
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡廓俭，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,369評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了唉工。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片研乒。...
茶點故事閱讀 40,503評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡鲁猩，死狀恐怖章母，靈堂內(nèi)的尸體忽然破棺而出舵变，到底是詐尸還是另有隱情晾腔，我是刑警寧澤清焕，帶...
沈念sama閱讀 36,185評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布矛紫，位于F島的核電站仁热，受9級特大地震影響耙厚，放射性物質(zhì)發(fā)生泄漏参歹。R本人自食惡果不足惜仰楚，卻給世界環(huán)境...
茶點故事閱讀 41,870評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望犬庇。院中可真熱鬧僧界，春花似錦、人聲如沸臭挽。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,340評論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽欢峰。三九已至葬荷，卻和暖如春涨共，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背宠漩。一陣腳步聲響...
開封第一講書人閱讀 33,460評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工举反，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人扒吁。一個月前我還...
沈念sama閱讀 48,909評論 3贊 376
代替公主和親
正文我出身青樓火鼻，卻偏偏與公主長得像，于是被迫代替她去往敵國和親雕崩。傳聞我的和親對象是個殘疾皇子魁索，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,512評論 2贊 359

ACM MM 2022 | 首個針對跨語言跨模態(tài)檢索的噪聲魯棒研究工作

推薦閱讀更多精彩內(nèi)容