ABSTRACT
最近档痪,與單模態(tài)學(xué)習(xí)相比涉枫,基于大規(guī)模數(shù)據(jù)集的聯(lián)合視覺和語言建模在多模態(tài)任務(wù)中取得了良好的進(jìn)展。然而钞它,這些方法對現(xiàn)實(shí)世界擾動(dòng)的魯棒性尚未研究拜银。在這項(xiàng)工作中,我們對這些模型進(jìn)行了第一次廣泛的魯棒性研究遭垛,研究對象是視頻和語言尼桶。我們專注于文本到視頻檢索,并提出了兩個(gè)大型基準(zhǔn)數(shù)據(jù)集锯仪,MSRVTT-P和YouCook2-P泵督,它們利用了90種不同的視覺和35種不同的文本擾動(dòng)。研究揭示了一些有趣的發(fā)現(xiàn):1)所研究的模型在文本受到干擾時(shí)比視頻受到干擾時(shí)更為穩(wěn)健庶喜,2)與word embedding方法相比小腊,transformer text encoder在非語義變化的文本干擾和視覺干擾方面更為穩(wěn)健,3) 分開來使用兩個(gè)分支encoder通常比architectures 使用 cross-attention時(shí)更健壯久窟。我們希望這項(xiàng)研究將作為一個(gè)基準(zhǔn)秩冈,并指導(dǎo)魯棒多模態(tài)學(xué)習(xí)的未來研究