RP2K
細(xì)粒度圖像分類的大規(guī)模零售商品數(shù)據(jù)集
核心問題:用物體識(shí)別方法來識(shí)別貨架上商品洛姑。
種類多蒜鸡、同類不同品類(或規(guī)格、角度)但外觀相似纤勒、拍攝角度和光照差異大坯苹。
2000種SKU、真實(shí)零售商品摇天、分級(jí)標(biāo)注(根據(jù)形狀等分成6粹湃、7類)恐仑。
Related
-
細(xì)粒度圖像分類:
零售商品的識(shí)別是圖像細(xì)粒度分類的領(lǐng)域問題,因?yàn)椴煌放圃儆蟆⒖谖兜纳唐啡搜劭雌饋砗芟嗨啤?/p>
零售產(chǎn)品數(shù)據(jù)集:
1)RPC數(shù)據(jù)集有200類菊霜,8w+圖片,由于每張圖片中每個(gè)物體都提供了邊界框和標(biāo)簽济赎,因此可提供40w張單物體圖像鉴逞。但光照簡(jiǎn)單、背景干凈司训,不是真實(shí)場(chǎng)景构捡。
2)TGFS: 自主售貨機(jī)真實(shí)場(chǎng)景圖片,3w張圖片只有24類壳猜,3大類勾徽,數(shù)據(jù)為480*640。
3)SKU-110K數(shù)據(jù)集:100w張圖片统扳,但只是密集場(chǎng)景中零售物體檢測(cè)喘帚,只有邊界框沒有提供種類。
4)MVTEC:實(shí)例感知的語義分割數(shù)據(jù)集咒钟,60種吹由,2.1w張圖片,與RPC類似朱嘴,只有受限的攝像頭設(shè)置倾鲫,種類少。
Dataset
-
組織:
用RetinaNet在輔助檢測(cè)數(shù)據(jù)集上訓(xùn)練檢測(cè)子萍嬉,后人為篩選乌昔、標(biāo)注每個(gè)邊界框圖
一般,每個(gè)裁剪出的邊界框圖有六個(gè)SKU屬性壤追。
種類標(biāo)簽有兩種:一種是罐磕道、瓶、袋等7種形狀類別行冰,另一種是通過非酒精飲料捅厂、調(diào)味品、化妝品等6種類別分類资柔。
-
數(shù)據(jù)收集:
10個(gè)城市500多個(gè)不同商店收集得到焙贷,一個(gè)圖片中心位置是架子,一個(gè)圖片只有一個(gè)架子贿堰,每個(gè)圖片至少3000*3000像素辙芍。
使用不同相機(jī),采集到的單個(gè)目標(biāo)大小至少80*80 -
統(tǒng)計(jì):
共拍攝1.4w張高清貨架圖,單目標(biāo)圖像有53w+, 一共有2000個(gè)SKU, 平均每個(gè)SKU有267張圖故硅。
訓(xùn)練/測(cè)試集為0.85/0.15 -
輔助檢測(cè)數(shù)據(jù)集:
抽出1400個(gè)貨架圖中的9.6萬張圖(7種形狀類別)訓(xùn)練目標(biāo)檢測(cè)子庶灿。
衡量數(shù)據(jù)集
以上檢測(cè)數(shù)據(jù)集用于衡量RP2K數(shù)據(jù)集,在分類任務(wù)上的效果吃衅。
使用MobileNet和inceptionV3作為分類往踢。
四種訓(xùn)練方式——從頭訓(xùn)練、預(yù)訓(xùn)練徘层、帶增強(qiáng)的從頭訓(xùn)練和帶增強(qiáng)的預(yù)訓(xùn)練——中峻呕,帶有增強(qiáng)的預(yù)訓(xùn)練方式效果較好。
兩千個(gè)商品排序(由多向少排列)趣效、每十個(gè)聚集在一起瘦癌,然后計(jì)算top1分類準(zhǔn)確度,預(yù)測(cè)準(zhǔn)確度隨實(shí)例數(shù)減少而減低跷敬。
以上構(gòu)成細(xì)粒度識(shí)別的長(zhǎng)尾問題讯私。
其他可能的研究問題
-
對(duì)抗攻擊和防御
細(xì)粒度特征使得我們得到的數(shù)據(jù)集中兩種類別的圖像之間差異非常不明顯,2000個(gè)的類別數(shù)比傳統(tǒng)的imageNet和CIFAR/MNIST(防御算法基于的數(shù)據(jù)集)西傀,類別更多斤寇,防御問題就更富挑戰(zhàn)。
-
結(jié)構(gòu)圖片上的生成模型
提供了真實(shí)的語義輸出布局信息拥褂,用于生成模型
-
少樣本學(xué)習(xí)
我們數(shù)據(jù)集的長(zhǎng)尾效應(yīng)提供了100多類實(shí)例數(shù)小于30個(gè)圖片(一共有200大類)娘锁,所以該數(shù)據(jù)集可以用于少量樣本學(xué)習(xí)算法的評(píng)估。
Conclusion
貨架產(chǎn)品識(shí)別任務(wù)激發(fā)下肿仑,提出零售產(chǎn)品識(shí)別數(shù)據(jù)集RP2K致盟,可用于大量AI驅(qū)動(dòng)的零售業(yè)的——圖片檢索碎税、空貨架檢測(cè)和銷售活動(dòng)跟蹤等等尤慰。
作為細(xì)粒度分類數(shù)據(jù)集,RP2K是最多種類的數(shù)據(jù)集雷蹂,但種類中的實(shí)例數(shù)量遞減伟端。
數(shù)據(jù)集中有豐富的屬性信息。
當(dāng)前模型在識(shí)別系統(tǒng)中的改進(jìn)可以有很大的提升空間匪煌,除目標(biāo)識(shí)別外少樣本學(xué)習(xí)责蝠、生成模型等也能用拿到次數(shù)據(jù)集。