一访诱、VQA常用的數(shù)據(jù)集:?
1. COCO-QA?
COCO-QA數(shù)據(jù)集中的圖像來自于MS-COCO數(shù)據(jù)集牡辽,主要包括123287張圖像纠拔,其中72738張用于訓(xùn)練物蝙,38948用于測試,并且每張圖像都有一個question/answer pair蚜迅,每個answer都是一個單詞舵匾。這些question/answer pair都是根據(jù)MS-COCO中的圖像描述自動生成的。根據(jù)Answer可以將Question分為四類:object谁不、number坐梯、color 和location。由于問題都是自動生成的刹帕,所以存在一定的重復(fù)率吵血。?
2. FM-IQA?
FM-IQA也是基于MS-COCO,包含123,287張圖像偷溺。它的question/answer pair是通過Amazon Mechanical Turk crowd-sourcing platform自動生成的蹋辅。注釋的人可以提出任何和圖像相關(guān)的問題,使得FM-IQA相對于之前的數(shù)據(jù)集更加復(fù)雜挫掏。FM-IQA中的question/answer pair是中文的侦另,之后才將其翻譯成英文的。?
3. VQA dataset?
VQA dataset中的圖像主要由兩個部分組成:現(xiàn)實圖像和抽象卡通圖像。VQA-real中有123,287訓(xùn)練圖像和81,434測試圖像褒傅,主要來自于MS-COCO數(shù)據(jù)集弃锐。不同于之前的一些數(shù)據(jù)集,VQA-real中包含二元問題(i.e, yes/no)殿托。這個數(shù)據(jù)集中可以進行多選設(shè)置霹菊,即為每個問題提供17個額外的錯誤的候選答案。綜上所述支竹,VQA-real包含614163個問題旋廷,并且每個問題都包含10個來自不同注視者的答案。?
4. Visual Genome?
Visual Genome包含108,249張圖像礼搁,這些圖像來自于YFCC100M和MS-COCO數(shù)據(jù)集柳洋,平均每張圖像有17個Q/A pairs。到目前為止叹坦,這是最大的VQA數(shù)據(jù)集熊镣。Visual Genome的問題主要由6種”W”構(gòu)成:what, where, how, when, who和 why。?
5. Visual7W?
Visual7W是Visual Genome的一個子集募书,包含47,300張圖像绪囱。Visual7W的問題主要由What, Where, How, When, Who, Why, and Which構(gòu)成。Visual7W的問題是多選問題莹捡,每個問題都有四個候選答案鬼吵。
6. Clever
二、評價方法:
Accuracy
Wu-Palmer Similarity (WUPS)
參考文獻:
1. https://blog.csdn.net/lsh894609937/article/details/61645283