一 L-Softmax(ICML2016)
1. 前置工作:softmax, contrasive loss, tripliet loss,
2.?Preliminaries
其中是向量
和
之間的夾角,去除偏置項之后锨络,精度幾乎保持不變曙搬,所以一般可將偏置項去除。
3. Intuition
考慮二分類問題,為了將樣本正確分類到類別1永脓,原始的softmax是讓
為了讓分類更嚴格泥技,在上乘以一個margin,由于cos函數(shù)在0到
上單調(diào)遞減颓哮,所以:
新的分類準則在訓(xùn)練過程會更強烈的要求將分類到類別1家妆,于是會產(chǎn)生更加嚴格的分類邊界。
4. Definition
m是個整數(shù)冕茅,表示margin伤极,越大分類邊界越分離,學(xué)習目標也越困難姨伤。paper中m=4時取得最好結(jié)果哨坪。
二 A-Softmax(?CVPR2017 :SphereFace)
1. 前置工作:softmax, contrasive loss, tripliet loss, center loss, L-softmax(直觀上看在其基礎(chǔ)上歸一化權(quán)重).
2. 從softmax loss到modified softmax loss(從優(yōu)化inner product到優(yōu)化angles):
其中是向量
和
之間的夾腳。歸一化權(quán)重乍楚,并且將偏置置0当编,便可得到modified softmax loss:
該損失函數(shù)可以優(yōu)化角度邊界進而學(xué)習特征,但學(xué)習得到的特征依然沒有很好的辨別性--->angular margin徒溪,強化特征的可辨別性忿偷。
3. 從modified softmax loss到A-Softmax soll (使分類邊界更強,更可分)
臊泌,paper中取m=4鲤桥。
三 L2-Softmax(2017)
1. 前置工作:softmax,?contrasive loss, tripliet loss,?center loss。
2. Softmax的主要問題:(1)訓(xùn)練和測試過程相互解耦缺虐,用該損失函數(shù)不能保證在歸一化的空間中正例對更接近芜壁,負例對更遠離;(2)處理難樣本和極限樣本的能力弱高氮,在一個質(zhì)量不平衡的訓(xùn)練batch內(nèi)慧妄,該函數(shù)通過增加簡單樣例特征的L2范數(shù)來小化。
3. 解決辦法:迫使每個圖片特征的L2范數(shù)為相同值剪芍,讓特征分布在一個固定半徑的球面塞淹。優(yōu)點1:在球面上最小化softmax loss等價于最大化正樣本對的cosine 相似度以及最小化負樣本對的cosine相似度;優(yōu)點2:由于所有人臉特征都有相同的L2范數(shù)罪裹,softmax loss能更好的處理難樣本和極限樣本饱普。
4. L2-softmax定義:
5. 新參數(shù):讓該參數(shù)可學(xué)習的話运挫,優(yōu)化過程中會不斷變大,導(dǎo)致失去了該參數(shù)的意義套耕,更好的選擇是將它設(shè)定為一個較小的固定值(實驗驗證了可學(xué)習的方法精度會略微降低)谁帕。但是如果該值太小,訓(xùn)練將很難收斂冯袍,因為一個半徑很小的超球面表面積有限匈挖,以至不能很好的分開不同類的特征以及聚攏同一個類別的特征】捣撸——>類別數(shù)越多儡循,該值應(yīng)該越大。對于5w以下id征冷,取32择膝,5w以上實驗32,40检激,64肴捉。
四 NormFace(2017)
1. 前置工作:softmax, contrasive loss, triplet loss, center loss。
1. 當損失函數(shù)是softmax loss時呵扛,為什么進行特征比對時要歸一化特征每庆?由于softmax loss傾向于產(chǎn)生一個放射狀的特征分布,如果不對特征進行歸一化今穿,同一個類中兩個樣本的Euclidean距離往往會大于不同類中兩個樣本的距離缤灵。通過歸一化,便可采用兩個特征向量的cosine距離衡量相似度蓝晒。注意腮出,當全聯(lián)接層存在偏置b時,一些類別的特征會分布在原點附近芝薇,歸一化后胚嘲,將會拉伸這些特征,以至于出現(xiàn)這些類別特征分布重疊的現(xiàn)象洛二,所以在該工作中馋劈,去除了全聯(lián)接層的偏置b。
2. 如果直接優(yōu)化cosine相似度(歸一化softmax loss前面的特征和權(quán)重w)晾嘶,為什么不會收斂妓雾?由于cosine相似度的取值為[-1,1],這樣小的range會阻止正確類別的預(yù)測概率接近1垒迂。對于不同的類別數(shù)目和歸一化值械姻,softmax loss會對應(yīng)一個下限,如果把權(quán)重和特征歸一化到1机断,該下限會比較大楷拳,如果將二者歸一化到一個更大的值绣夺,該下限會持續(xù)降低』兑荆——> 在consine layer后添加scale layer:
3. 由于歸一化后采用softmax loss會難以收斂陶耍,有沒有其他的損失函數(shù)適合于歸一化后的特征?agent strategy:
,C-contrasive浸颓,建議margin:1物臂。
, C-triplet旺拉,建議margin:0.8产上。
是第j個類別的summarizer。
4. 實驗結(jié)論:有pretrain模型的前提下蛾狗,歸一化后采用softmax loss也能得到reasonably的結(jié)果晋涣,如果隨機初始化,歸一化權(quán)重會造成訓(xùn)練collapse沉桌,歸一化特征will lead to a worse?accuracy谢鹊。當FAR較低的時候歸一化技術(shù)會表現(xiàn)得更好。
5. 一個trick:采用加法融合圖片的特征和mirror后的圖片的特征留凭,而不是concat佃扼。
五 AM-Softmax(2018)
1. 前置工作:softmax, L-softmax, A-softmax, contrasive loss,triplet loss蔼夜。
2. 定義
兼耀,可得:
讓s可學(xué)習會收斂比較慢,所以固定s=30求冷。
3. Angular Margin 還是 Cos Margin
Sphere face --- Angular Margin; AM-Softmax -- Cos Margin瘤运。Angular Margin在概念上更好,但是Cos Margin對于計算更友好匠题,它能以較小的開銷達到和Angular Margin相同的目的拯坟。
4. CosFace(CVPR2018)方法基本一致。
六 ArcFace(CVPR2019)
1. 定義
2. 在ArcFace中加入Inter-loss韭山,Intra-loss郁季,Triplet-loss,并沒有提升钱磅。
3. 訓(xùn)練得到的全聯(lián)接層W沒有通過模型計算出來的特征中心有代表性梦裂。