題目
試想有一份數(shù)據(jù)集,有99個(gè)負(fù)樣本语卤,1個(gè)正樣本∽反現(xiàn)在我們要學(xué)習(xí)一個(gè)模型,怎么學(xué)粹舵?
分析
看上去钮孵,直接學(xué),模型會(huì)擬合大量負(fù)樣本的特性眼滤。根本學(xué)不到正樣本的油猫。學(xué)到的模型,即使將所有樣本都預(yù)測(cè)為負(fù)樣本柠偶,都會(huì)取得很高的正確率情妖。 本質(zhì)上還是樣本不平衡問題。
怎么解決呢诱担?
Hard Negtive Mining
傳統(tǒng)的做法毡证,如SVM分類時(shí),首先訓(xùn)練一個(gè)模型蔫仙, 利用該模型將預(yù)測(cè)錯(cuò)誤的樣本加入料睛,認(rèn)為這部分樣本為Hard Negtive。
預(yù)測(cè)正確且置信度很高的樣本剔除摇邦,認(rèn)為這部分樣本為Easy Negtive恤煞。
這個(gè)過程很好理解, 就像我們上學(xué)時(shí)的錯(cuò)題本施籍,經(jīng)常會(huì)記入一些自己做錯(cuò)的居扒,或者不會(huì)做的題。同時(shí)會(huì)將一些簡(jiǎn)單的題丑慎,做對(duì)的題從作業(yè)本上劃掉喜喂。后面在復(fù)習(xí)時(shí),就直接跳過了竿裂。
方法改進(jìn)
-
均衡交叉熵 Blanced CE
Blance CE
給不同的類別的樣本玉吁,在損失上增加不同的權(quán)重,以增加對(duì)該類別的重視腻异。
-
FocalLoss
Focal Loss是Kaiming 大神團(tuán)隊(duì)在他們的論文Focal Loss for Dense Object Detection 提出來的損失函數(shù)进副,利用它改善了圖像物體檢測(cè)的效果。是從損失函數(shù)方面進(jìn)行改進(jìn)悔常,來改變樣本分布平衡狀態(tài)影斑。Kaiming 大神團(tuán)隊(duì)認(rèn)為上面的Hard Negtive Minging雖然增加了錯(cuò)分類樣本的權(quán)重曾沈,但是容易忽略容易分類的樣本。而 Blanced CE是一個(gè)超參鸥昏,還是不夠靈活,雖然能夠平衡 positive/negative 樣本的重要性姐帚,但不能區(qū)分 easy/had 樣本. 因此提出了Focal loss吏垮。
Focal Loss是對(duì)交叉熵?fù)p失函數(shù)的一點(diǎn)小改造,經(jīng)過這種改造后罐旗,可以動(dòng)態(tài)的調(diào)整權(quán)重膳汪,具體表現(xiàn)為降低Easy分類樣本的權(quán)重,增加難分類樣本的權(quán)重九秀。
交叉熵函數(shù)本尊長(zhǎng)得下面這樣:
簡(jiǎn)寫一下遗嗽,就是下面這樣:
其實(shí)上面交叉熵的公式,當(dāng)y=0的時(shí)候鼓蜒,y^ 就是y=0的概率痹换,而1-y^ 也就是y=1的概率。就記著一句話都弹, log里面都是y=1的概率就可以了娇豫。所以這樣就可以統(tǒng)一成,簡(jiǎn)化版了畅厢,簡(jiǎn)化版中pt 就是 y=1 的預(yù)測(cè)概率冯痢。
再來看FocalLoss的公式:
再來看看簡(jiǎn)化版:
跟上面交叉熵及簡(jiǎn)化版一樣,簡(jiǎn)單理解下框杜。
那么大神這么做能否 化腐朽為神奇浦楣,能否成為神來之筆?
r = 0時(shí)咪辱,是標(biāo)準(zhǔn)的傳統(tǒng)交叉熵振劳,為藍(lán)色曲線。
r =其他值時(shí)油狂,是藍(lán)色曲線下面的曲線澎迎。
可以發(fā)現(xiàn):
1)當(dāng)一個(gè)樣本被分錯(cuò)的時(shí)候,pt是很小的选调,那么調(diào)制因子(1-Pt)接近1夹供,無論r取多少,該樣本貢獻(xiàn)的損失基本不變仁堪,該怎么辦就怎么辦哮洽;
但是當(dāng)一個(gè)樣本分對(duì)了, Pt→1弦聂,那么(1-Pt)接近0鸟辅,而且在r次方下氛什,更接近于0了,這樣分對(duì)的樣本對(duì)損失貢獻(xiàn)為0匪凉,可以理解為沒啥貢獻(xiàn)了枪眉。
經(jīng)過,上面(1-pt)和r的調(diào)整后再层,相當(dāng)于增大了分錯(cuò)樣本的權(quán)重贸铜, 因?yàn)槠鋵?duì)損失貢獻(xiàn)大,地位重要聂受。 減弱了分對(duì)樣本的權(quán)重蒿秦,因?yàn)樗麑?duì)損失的貢獻(xiàn)小,地位很弱了蛋济」鞅睿總之,更加讓模型去重視那些易分錯(cuò)樣本碗旅,即Hard Negtive渡处, 否則承受著更大損失的增長(zhǎng)。
2) 參數(shù)γ平滑地調(diào)節(jié)了易分樣本調(diào)低權(quán)值的比例祟辟。γ增大能增強(qiáng)調(diào)制因子的影響骂蓖,實(shí)驗(yàn)發(fā)現(xiàn)γ取2最好。
focal loss的兩個(gè)性質(zhì)算是核心川尖,其實(shí)就是用一個(gè)合適的函數(shù)去度量難分類和易分類樣本對(duì)總的損失的貢獻(xiàn)登下。
樣本改進(jìn)
見本人之前分享的另一篇文章<采樣>