論文標(biāo)題:Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning
文章鏈接:https://arxiv.org/pdf/2208.12526.pdf
代碼鏈接:https://github.com/LiJiaBei-7/nrccr
雖然目前傳統(tǒng)的跨模態(tài)檢索工作已取得了巨大的進(jìn)展,但由于缺少低資源語言的標(biāo)注數(shù)據(jù),這些工作通常關(guān)注于高資源語言(比如英語),因此極大地限制了低資源語言在該領(lǐng)域的發(fā)展详羡。為了解決這一問題肉津,作者針對跨語言跨模態(tài)檢索任務(wù)(CCR)展開了研究碴开,該任務(wù)旨在僅使用人工標(biāo)注的視覺-源語言(如英語)語料庫對模型進(jìn)行訓(xùn)練桥嗤,使其可以適用于其他目標(biāo)語言(非英語)進(jìn)行評估咨堤。如下圖所示发钝。
▲ 傳統(tǒng)跨模態(tài)檢索&跨語言跨模態(tài)檢索(CCR)
在這篇論文中顿涣,作者旨在借助機(jī)器翻譯來生成偽視覺-目標(biāo)語言對進(jìn)行跨語言遷移,來緩解人工標(biāo)注多語言視覺-語言語料庫困難的問題酝豪。雖然機(jī)器翻譯可以快速的處理大量的文本語言轉(zhuǎn)換涛碑,但是其準(zhǔn)確性并不能得到保證,因此在翻譯過程中將會引入大量的噪聲孵淘,導(dǎo)致翻譯的目標(biāo)語言句子并不能準(zhǔn)確的描述其對應(yīng)的視覺內(nèi)容【如下圖所示】蒲障。
▲ 翻譯錯誤的示例圖
然而之前的基于機(jī)器翻譯的CCR 工作大多忽略了這個問題,它們通常使用大規(guī)模的預(yù)訓(xùn)練模型在通過機(jī)器翻譯得到的大規(guī)模多語言視覺-語言語料庫上進(jìn)行大規(guī)模預(yù)訓(xùn)練瘫证,并且只關(guān)注于視覺-目標(biāo)語言數(shù)據(jù)對之間的對齊揉阎。然而直接在這種噪聲數(shù)據(jù)對上應(yīng)用跨模態(tài)匹配將會嚴(yán)重影響檢索性能,神經(jīng)網(wǎng)絡(luò)模型有很強(qiáng)的能力來擬合這種給定的(噪聲)數(shù)據(jù)背捌。為了解決這個問題毙籽,作者提出了一個噪聲魯棒學(xué)習(xí)方法來緩解機(jī)器翻譯中所引入的噪聲問題,該論文是首個關(guān)注于 CCR 任務(wù)中由機(jī)器翻譯所引入噪聲問題的工作毡庆。
1
『方法』
▲ 模型框架圖
作者首先引入了其基線模型坑赡,繼而引入噪聲魯棒學(xué)習(xí)方法。
1.1 基線模型(Basic Model)
視覺編碼器:給定一個視頻么抗,使用預(yù)訓(xùn)練的2D CNN 來提取視頻特征序列垮衷,然后輸入到 Transformer 塊中,來增強(qiáng)幀間交互乖坠,最終得到一個視頻特征向量。
文本編碼器:作者設(shè)計了一個雙分支編碼器刀闷,分別又一個源語言分支和一個目標(biāo)語言分支組成熊泵。每個語言分支都包含一個Transformer block 和一個預(yù)訓(xùn)練的 mBERT backbone,將源語言和目標(biāo)語言分別輸入到對應(yīng)的分支中甸昏,得到對應(yīng)的源語言句子特征和目標(biāo)語言句子特征顽分。
將以上三個特征分別映射到多語言多模態(tài)空間中:
作者使用了傳統(tǒng)的跨模態(tài)檢索任務(wù)中常用的triplet ranking loss 進(jìn)行約束:
1.2 噪聲魯棒的特征學(xué)習(xí)(Noise-Robust Representation Learning)
基線模型只是簡單的進(jìn)行了跨語言跨模態(tài)對齊,并沒有對噪聲進(jìn)行處理施蜜,接下來作者提出了多視圖自蒸餾來生成soft pseudo-tagets 以監(jiān)督目標(biāo)語言分支的學(xué)習(xí)卒蘸。
作者首先借助于cross-attention 來生成一個相對干凈的中間目標(biāo)語言句子特征,通過將源語言 token 序列作為 query,利用 cross-attenion 固有的性質(zhì)缸沃,對目標(biāo)語言 token 序列進(jìn)行過濾恰起。
▲ cross-attention 權(quán)重示例圖
如圖3 所示,錯誤的單詞(用紅色標(biāo)記)和源語言單詞之間的注意權(quán)重被分配了低值趾牧。其過程表示如下:
1.3 多視角自蒸餾(Multi-view self-distillation)
作者引入了基于相似度視角和基于特征視角的自蒸餾損失检盼。基于相似度視角的自蒸餾(Similarity-based view):給定(V, S, T)翘单,默認(rèn)其兩兩之間互為匹配對吨枉,忽視翻譯得到的目標(biāo)語言句子 T 中所包含噪聲的事實。對此哄芜,作者將 cross-attention 所生成的特征h_c?作為 teacher貌亭,使用特征h_c?和視覺特征計算v?計算得到 soft pseudo-targets 作為目標(biāo)語言分支的監(jiān)督。
▲ soft pseudo-targets示例圖
基于特征視角的自蒸餾(Feature-based view):通過 l1 范式實現(xiàn)特征蒸餾:
1.4 循環(huán)語義一致性(Cycle Semantic Consistency)
受無監(jiān)督機(jī)器翻譯的啟發(fā)认臊,作者引入了循環(huán)語義一致性模塊圃庭,提高源語言分支從噪聲中提高原始語義信息的能力,增加源語言分支的魯棒性美尸。
1.5 語言無關(guān)特征學(xué)習(xí)(Language-agnostic Representation Learning):
考慮到特定語言特征缺少跨語言遷移能力冤议,作者通過對抗學(xué)習(xí)的方式來訓(xùn)練模型學(xué)習(xí)語言無關(guān)特征。構(gòu)建一個分類器F 作為判別器來分辨輸入特征是源語言還是目標(biāo)語言师坎,判別器和特征編碼器相互博弈:
1.6 訓(xùn)練和測試
最終的目標(biāo)函數(shù)為:
測試時作者采用了目標(biāo)語言和翻譯的源語言(由于測試時只使用目標(biāo)語言)加權(quán)和的方式:
2
『實驗』
作者在三個跨語言跨模態(tài)數(shù)據(jù)集上進(jìn)行了實驗對比恕酸,其中為兩個多語言視頻文本檢索數(shù)據(jù)集(VATEX 和 MSRVTT-CN),一個多語言圖像文本檢索(Multi30K)胯陋;其中 MSRVTT-CN 是作者對 MSRVTT 進(jìn)行中文擴(kuò)展得到的多語言數(shù)據(jù)集蕊温。
▲?在VATEX數(shù)據(jù)集上進(jìn)行SOTA對比實驗
▲?MSRVTT-CN上性能對比
▲?Multi30K上進(jìn)行性能對比實驗
2.1 魯棒分析實驗
為了進(jìn)一步證明模型對抗翻譯噪聲的魯棒能力,作者通過增加翻譯次數(shù)以進(jìn)一步增加訓(xùn)練數(shù)據(jù)的噪聲程度遏乔,如圖所示义矛,在經(jīng)過多次翻譯后,基線模型的性能明顯下降盟萨,而本文所提出的模型性能更加的穩(wěn)定凉翻,驗證了噪聲魯棒特征學(xué)習(xí)的有效性。
將目標(biāo)語言句子根據(jù)句子長度進(jìn)行分組捻激,作者假設(shè)越長的句子制轰,翻譯越困難,因此包含的噪聲可能更多胞谭。結(jié)果表明垃杖,本文所提出的模型和基線模型的性能差距隨著句子長度的增加而增加。
2.2 t-SNE可視化實驗
作者隨機(jī)從VATEX 的中文測試集中隨機(jī)選擇 20 個樣本丈屹,其中每個樣本包含 10 個對應(yīng)的英語翻譯句子和一個對應(yīng)的視頻调俘。如圖所示,NRCCR 的類內(nèi)特征更加的緊湊,表明了模型更好的學(xué)習(xí)到了跨語言跨模態(tài)對齊彩库。
2.3 消融實驗
結(jié)果表明肤无,使用兩個視角,性能得到了提升侧巨,表明基于相似度視角和基于特征視角彼此互補(bǔ)舅锄。引入循環(huán)語義一致性后,實現(xiàn)了額外的性能收益司忱。此外皇忿,還表明了語言無關(guān)特征學(xué)習(xí)的重要性。