論文:https://arxiv.org/pdf/2004.11362.pdf
代碼:https://github.com/HobbitLong/SupContrast
交叉熵?fù)p失有很多缺點(diǎn)渐排,例如對(duì)嘈雜標(biāo)簽缺乏魯棒性,分類邊距可能較差验夯,導(dǎo)致泛化性能下降抹沪。
作者在對(duì)比學(xué)習(xí)的基礎(chǔ)上加上了標(biāo)簽信息阅懦,提出了一種監(jiān)督學(xué)習(xí)的損失,讓來(lái)自相同類別的特征比不同類別的特征更靠近。
方法
給定一批輸入數(shù)據(jù)熬苍,首先應(yīng)用兩次數(shù)據(jù)增強(qiáng)劳澄,獲得該 batch 的兩個(gè)副本地技。兩個(gè)副本都通過編碼器網(wǎng)絡(luò)向前傳播,獲得 2048 維的歸一化嵌入浴骂。在訓(xùn)練期間乓土,該特征表示通過一個(gè)投影網(wǎng)絡(luò)進(jìn)一步傳播。監(jiān)督對(duì)比損失是在投影網(wǎng)絡(luò)的輸出上計(jì)算的溯警。為了使用經(jīng)過訓(xùn)練的模型進(jìn)行分類趣苏,作者使用交叉熵?fù)p失在凍結(jié)的特征表示之上訓(xùn)練了一個(gè)線性分類器。
特征學(xué)習(xí)框架
主要組成部分是:
- 數(shù)據(jù)增強(qiáng)模塊梯轻,
食磕。對(duì)于每個(gè)輸入樣本
,生成兩個(gè)隨機(jī)增強(qiáng)
喳挑,每個(gè)代表數(shù)據(jù)的不同視角(view)彬伦,并包含原始樣本中信息的一些子集。
在實(shí)驗(yàn)中伊诵,包括了4種實(shí)現(xiàn):AutoAugment单绑, RandAugment,SimAugment曹宴, Stacked RandAugment搂橙。
- 編碼器網(wǎng)絡(luò),
笛坦,它將
映射到表示向量
区转。兩個(gè)增強(qiáng)樣本分別輸入到同一個(gè)編碼器,產(chǎn)生一對(duì)表示向量版扩。
被歸一化為
中的單位超球面(本文所有實(shí)驗(yàn)中的
= 2048)废离,實(shí)驗(yàn)表明這種歸一化提高了 top-1 的準(zhǔn)確性。
實(shí)驗(yàn)中礁芦,的結(jié)構(gòu)有 ResNet-50蜻韭,ResNet-101,ResNet-200。
- 投影網(wǎng)絡(luò)湘捎,
诀豁,將
映射到向量
。作者將
設(shè)置為為一個(gè)多層感知器 窥妇,具有一個(gè)大小為 2048 的隱藏層和大小為
的輸出向量舷胜,或者只是一個(gè)大小為
的線性層。作者在對(duì)比訓(xùn)練結(jié)束時(shí)丟棄
活翩。因此烹骨,在推理時(shí)模型包含與使用相同編碼器
的交叉熵模型完全相同數(shù)量的參數(shù)。
對(duì)比損失函數(shù)
對(duì)比學(xué)習(xí)中的 infoNCE loss:
其中材泄, 是網(wǎng)絡(luò)輸出特征沮焕,
是anchor,
是所有正樣本拉宗。
作者提出的有監(jiān)督對(duì)比loss加入了多個(gè)正樣本:
作者認(rèn)為這兩個(gè)版本的loss:
- 能夠泛化到任意數(shù)量的正樣本峦树,作者讓同一個(gè)batch里的同一個(gè)類別的都作為正樣本,讓來(lái)自同一類別的樣本更加靠近
- 對(duì)比能力隨著負(fù)樣本數(shù)量增強(qiáng)
- 能夠更好的實(shí)現(xiàn)強(qiáng)負(fù)樣本(正樣本)的選擇
但是這兩種 loss 并不是等價(jià)的旦事,作者通過推導(dǎo)證明了 魁巩,也就是
是
的上界,因此作者選擇了
姐浮。
與其他 loss 的聯(lián)系
作者證明了 Triplet Loss 是使用一正一負(fù)樣本時(shí)對(duì)比損失的特例谷遂。當(dāng)使用多個(gè)負(fù)數(shù)時(shí),作者表明 SupCon Loss 等同于 N-pairs Loss卖鲤。
實(shí)驗(yàn)
實(shí)驗(yàn)也證明了確實(shí)有提高: