Neil Zhu,簡(jiǎn)書ID Not_GOD暖释,University AI 創(chuàng)始人 & Chief Scientist,致力于推進(jìn)世界人工智能化進(jìn)程。制定并實(shí)施 UAI 中長(zhǎng)期增長(zhǎng)戰(zhàn)略和目標(biāo)桩砰,帶領(lǐng)團(tuán)隊(duì)快速成長(zhǎng)為人工智能領(lǐng)域最專業(yè)的力量。
作為行業(yè)領(lǐng)導(dǎo)者释簿,他和UAI一起在2014年創(chuàng)建了TASA(中國(guó)最早的人工智能社團(tuán)), DL Center(深度學(xué)習(xí)知識(shí)中心全球價(jià)值網(wǎng)絡(luò))亚隅,AI growth(行業(yè)智庫培訓(xùn))等,為中國(guó)的人工智能人才建設(shè)輸送了大量的血液和養(yǎng)分庶溶。此外煮纵,他還參與或者舉辦過各類國(guó)際性的人工智能峰會(huì)和活動(dòng)懂鸵,產(chǎn)生了巨大的影響力,書寫了60萬字的人工智能精品技術(shù)內(nèi)容行疏,生產(chǎn)翻譯了全球第一本深度學(xué)習(xí)入門書《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》匆光,生產(chǎn)的內(nèi)容被大量的專業(yè)垂直公眾號(hào)和媒體轉(zhuǎn)載與連載。曾經(jīng)受邀為國(guó)內(nèi)頂尖大學(xué)制定人工智能學(xué)習(xí)規(guī)劃和教授人工智能前沿課程隘擎,均受學(xué)生和老師好評(píng)殴穴。
譯自wikipedia
# 基礎(chǔ)
The Hinge Loss 定義為 E(z) = max(0,1-z),在圖中是藍(lán)色的線所表示的那個(gè)货葬,the Log Loss 為紅色的線所表示采幌,而 the Square Loss 是綠色 the misclassification error 用黑色表示。
Figure 1 來自 Chris Bishop's PRML book
Hinge Loss 最常用在 SVM 中的最大化間隔分類中[1]震桶。
對(duì)可能的輸出 t = ±1 和分類器分?jǐn)?shù) y休傍,預(yù)測(cè)值 y 的 hinge loss 定義如下:
看到 y 應(yīng)當(dāng)是分類器決策函數(shù)的“原始”輸出,而不是最終的類標(biāo)蹲姐。例如磨取,在線性的 SVM 中
可以看出當(dāng) t 和 y 有相同的符號(hào)時(shí)(意味著 y 預(yù)測(cè)出正確的分類)
擴(kuò)展
盡管 SVM 常常被采用 1 v all 或者 1v1 的方式擴(kuò)展到 multiclass classification中 [2]柴墩,事實(shí)上還有一種“真正的”多類 Hinge loss 版本忙厌,由Crammer and Singer,[3]提出,
在[4]中給出定義了江咳。
在 結(jié)構(gòu)化推斷structured prediction中逢净,hinge loss 可以被更遠(yuǎn)地?cái)U(kuò)展到結(jié)構(gòu)話輸出空間上。采用下面的變體的間隔重形變技術(shù)的Structured SVMs 歼指,其中 y 表示 SVM 的參數(shù), φ 是聯(lián)合特征函數(shù)爹土, 而 Δ 是 Hamming loss:
優(yōu)化
Hinge loss 是一個(gè) 凸函數(shù), 所以很多常用的凸優(yōu)化技術(shù)都可以使用。不過它是不可微的, 只是有subgradient
所以人們多采用平滑后的版本進(jìn)行優(yōu)化挟阻,例如二次平滑
在這篇文章中 Zhang 提出這樣的想法琼娘。[5]
[Modified Huber loss] 是這個(gè) loss function 的特例 [5],其中
參考:
-
Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). "Are Loss Functions All the Same?". ?
-
Duan, K. B.; Keerthi, S. S. (2005). "Which Is the Best Multiclass SVM Method? An Empirical Study". Multiple Classifier Systems. [LNCS] ?
-
Crammer, Koby; Singer, Yoram (2001). "On the algorithmic implementation of multiclass kernel-based vector machines". [J. Machine Learning Research] ?
-
Moore, Robert C.; DeNero, John (2011). "L1
and L2 regularization for multiclass hinge loss models". ? -
Zhang, Tong (2004). Solving large scale linear prediction problems using stochastic gradient descent algorithms. ICML. ? ?