VQA: Given an image and a question in natural language, it requires reasoning over visual elements of the image and general knowledge to infer the correct answer.
和Textual QA區(qū)別
- 圖像維度更高聋呢,會引入更多的噪聲
- 圖像沒有文化那樣的結(jié)構(gòu)化和語法規(guī)則
- 文本往往是一個抽象的概念,而圖像更加具體削锰,讓計算機(jī)從圖像中理解抽象概念有難度
和Image captioning區(qū)別
- VQA需要對圖片進(jìn)行推理,而不是只是將圖片進(jìn)行結(jié)構(gòu)化翻譯
- VQA更容易評估喂窟,因為答案一般都是短語,而非像caption那樣的長文本
Methods for VQA
1. Joint embedding approaches
利用CNNs&RNNs分別去學(xué)習(xí)圖片和句子碗啄,然后聯(lián)合編碼,最后進(jìn)行分類操作稚字,或者生成長度不等的序列。
Joint embedding
2. Attention mechanisms
該方法是從image captioning中借鑒而來瘫想,相比于對全局進(jìn)行學(xué)習(xí)昌讲,更加關(guān)注特定區(qū)域,使得模型更加關(guān)注關(guān)鍵圖像的部位
attention mechanisms
3. Compositional models
針對不同的問題用組合模型設(shè)計計算方法
3.1 Neural Module Networks
NMN
將問題進(jìn)行語法分析,然后判斷需要用的模塊
3.2 Dynamic Memory Networks
DMN
有四個模塊窄驹,表征圖像的input module证逻、表征問題的question module、作為內(nèi)存的episodic memory module和產(chǎn)生答案的answer module
4. Knowledge base-enhanced approaches
利用外部數(shù)據(jù)囚企,獲取先驗知識,構(gòu)建知識庫