Deep Metric Learning via Lifted Structured Feature Embedding(PDF)
Author:Hyun Oh Song,?Yu Xiang,?Stefanie Jegelka,?Silvio Savarese CVPR2016?(Citations:1066)
核心思想:
? ? ? ?較早提出的基于對(duì)的損失函數(shù)對(duì)于樣本的利用率太低扁掸,例如說在contrastive loss中,一個(gè)mini-batch size為n的樣本集只能形成n/2個(gè)樣本對(duì)攒砖。那么本文主要解決的就是樣本利用率過低的缺點(diǎn)酌心,將所有樣本之間兩兩配對(duì)筛璧,使樣本對(duì)的數(shù)量提升為(n*(n-1)/2)。
問題引入:
? ? ? ?最近,含有大量類別數(shù)量的極端分類問題最近在學(xué)術(shù)界引起了廣泛的關(guān)注尤揣。在極端分類問題中宙橱,學(xué)習(xí)和推理復(fù)雜度與類別的數(shù)量不再成線性關(guān)系姨俩,其次,每個(gè)類別中的可用樣本數(shù)據(jù)非常少养匈。然而哼勇,現(xiàn)有的方法途徑在網(wǎng)絡(luò)的小批量隨機(jī)梯度下降訓(xùn)練過程中不能完全利用所有的訓(xùn)練樣本。
解決方案:
提升結(jié)構(gòu)化特征嵌入:
? ? ? ?在本文中呕乎,基于訓(xùn)練集中所有的正負(fù)樣本對(duì)提出了結(jié)構(gòu)化損失函數(shù):
其中积担,是正樣本對(duì),是負(fù)樣本對(duì)猬仁,是margin帝璧。該函數(shù)會(huì)遍歷所有的正樣本對(duì),然后找到距離正樣本對(duì)最近的一個(gè)負(fù)樣本(相當(dāng)于搜索最小的或即最難的負(fù)樣本),如果該負(fù)樣本到正樣本的距離大于margin+正樣本對(duì)的距離湿刽,則損失為0的烁,其余情況下則產(chǎn)生損失。
? ? ? ?該函數(shù)有兩個(gè)計(jì)算上的挑戰(zhàn):一是該函數(shù)由于含有max函數(shù)诈闺,因此非平滑渴庆;二是函數(shù)的估計(jì)和其子梯度的計(jì)算需要對(duì)所有的樣本對(duì)進(jìn)行多次最小化。為了解決上述兩個(gè)問題,首先襟雷,我們對(duì)函數(shù)的平滑上邊界進(jìn)行優(yōu)化刃滓,其次,采用隨機(jī)方法進(jìn)行處理耸弄。
? ? ? ?給定一個(gè)批量為m的c維嵌入特征X咧虎,其中X的每一個(gè)列向量為每個(gè)樣本特征的平方歸一化,我們就能通過該特征向量構(gòu)建稠密對(duì)平方距離矩陣计呈,該矩陣中的任意元素即為與的嵌入特征向量之間的平方L2范數(shù)砰诵。
? ? ? ?那么在本文中,隨機(jī)采樣并不是完全隨機(jī)的而是集成了重要性采樣的元素捌显。我們首先隨機(jī)選擇一些正樣本對(duì)茁彭,然后靈活的添加它們的具有難度系數(shù)的近鄰到訓(xùn)練批量中。那正如我們前面所提到的苇瓣,嵌套max函數(shù)可能會(huì)導(dǎo)致網(wǎng)絡(luò)嵌入局部最優(yōu)解尉间,因此我們將max函數(shù)替換為光滑上界
? ? ? ?那正如我們前面所提到的,嵌套max函數(shù)可能會(huì)導(dǎo)致網(wǎng)絡(luò)嵌入局部最優(yōu)解击罪,因此我們將max函數(shù)替換為光滑上界: