1.大賽簡介
「背景」直播帶貨是淘寶連接商品和消費者的重要方式,買家在觀看直播的過程對喜愛的商品進行購買。在單場直播中端朵,主播常常會對成百上千的商品進行展示液肌、試用和介紹慨菱,買家如果想購買正在講解的商品焰络,則需要在該直播關(guān)聯(lián)的商品列表(包含成百上千個商品)中手動去挑選,非常影響用戶的購買效率和用戶體驗符喝。大賽希望選手能夠通過商品識別的算法闪彼,根據(jù)直播視頻的畫面和主播的講解,自動識別出當前講解的商品协饲,把對應(yīng)的購買鏈接推薦給用戶畏腕,將大大提升用戶的購買體驗。本賽題要求選手通過計算機視覺茉稠、自然語言處理等人工智能算法描馅,把視頻中正在講解的商品識別出來,提升用戶在淘寶直播中的購買體驗而线。
「初賽數(shù)據(jù)」包含大量直播片段的視頻庫和一個包含大量商品的商品庫流昏,其中視頻庫中包含直播片段的視頻幀和該時間段對應(yīng)的主播講解語音的文本,商品庫中包含商品的多張展示圖和對商品的文本描述吞获。總結(jié)來說谚鄙,分為圖片庫和視頻庫各拷,兩個庫內(nèi)均有圖片標注和文本標注信息。
「評價標準」算法運行時間和F1 score闷营。
2. 模型
在對服裝檢索相關(guān)論文進行閱讀和整理后烤黍,最后選定使用Deepfashion2中的baseline模型Match R-CNN[2],選擇原因是模型結(jié)構(gòu)簡單傻盟,其他服裝檢索模型開源代碼較少速蕊,Match R-CNN復(fù)現(xiàn)難度較低,且后續(xù)可以使用Deepfashion2數(shù)據(jù)集進行預(yù)訓(xùn)練增強模型在淘寶直播數(shù)據(jù)集中的表現(xiàn)娘赴。原論文給的模型結(jié)構(gòu)圖如下:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Match R-CNN結(jié)構(gòu)圖规哲。
Match R-CNN由三個模塊組成:特征網(wǎng)絡(luò)(FN),感知網(wǎng)絡(luò)(PN)和匹配網(wǎng)絡(luò)(MN)诽表。簡單來說就是Faster R-CNN的基礎(chǔ)上衍生的模型唉锌。由于我們數(shù)據(jù)集只含有目標檢測分支的標注數(shù)據(jù)隅肥,所以我們復(fù)現(xiàn)的模型在感知網(wǎng)絡(luò)那塊就只有檢測分支,而且匹配網(wǎng)絡(luò)的輸入改為檢測網(wǎng)絡(luò)中ROIAlign得到的7x7x256特征圖袄简,而不是mask分支下的特征圖腥放。我們最后把模型重新整理后,其實主要就是兩個網(wǎng)絡(luò)的結(jié)合:目標檢測網(wǎng)絡(luò) + 匹配網(wǎng)絡(luò)
3. ROIAlign后特征圖大小
前面也提到了绿语,我們使用了7x7x256特征圖而不是mask分支下的14x14x256的特征圖秃症。會影響結(jié)果嗎?應(yīng)該會影響的吕粹。因為特征圖太小种柑,其表征能力就弱,但特征圖太大昂芜,特征相關(guān)性變高莹规,會出現(xiàn)特征冗余。這塊得結(jié)合實際實驗結(jié)果來進行觀察泌神。
4. 特征提取
很多文章加入關(guān)注機制去提取特征良漱,這樣得到的特征可以減少冗余背景信息,并提取到更有價值的目標特征信息欢际。另外母市,也有使用低層和高層特征進行融合,因為低層特征具有基礎(chǔ)的特征信息损趋,而高層特征語義更強患久,兩者互補可能會對模型有更好的幫助。
此外浑槽,個人有個想法就是蒋失,將一段視頻中10個frames的特征進行合并,另外將檢索商品庫抽取的特征重復(fù)4次后合并桐玻,之后將它們共同輸入到匹配網(wǎng)絡(luò)當中篙挽,這樣能充分利用到同視頻多幀切片的特征信息,使匹配模型考慮匹配度時更加全面些镊靴。
5. 損失函數(shù)
Match R-CNN使用二分類交叉熵計算損失铣卡,但現(xiàn)在服裝檢索主流損失是pair loss和triplet loss,因此Match R-CNN還具有很大的改進空間偏竟。