Lecture 3:Loss functions and Optimization

Lecture 3: Loss functions and Optimization

1. Loss Function

1.1 回顧

? ? 我們?cè)偕弦淮握f到墨礁,我們希望找到一個(gè)權(quán)重W使得我們的識(shí)別效果最好,怎么算好呢莫换,我們需要一個(gè)評(píng)估標(biāo)準(zhǔn)。這就是Loss Function(譯名:損失函數(shù)骤铃,代價(jià)函數(shù)拉岁,目標(biāo)函數(shù))

1.2 多類支持向量機(jī)損失 Multiclass Support Vector Machine Loss

? ? 我們首先給出這個(gè)函數(shù)的形式:假設(shè)我們有很多圖片來做訓(xùn)練,那么惰爬,其中第i張圖片包含有像素?cái)?shù)據(jù)x_i和代表正確分類的標(biāo)簽y_i喊暖。我們令s = f(x_i,W)那么s_j就是預(yù)測(cè)出的第j項(xiàng)的得分。對(duì)這一個(gè)訓(xùn)練數(shù)據(jù)的Cost Function定義為撕瞧。
L_i = \sum_{j\not= y_i}max(0,s_j - s_{y_i} + \Delta)
舉一個(gè)比較具體的例子陵叽。假設(shè)我們經(jīng)過計(jì)算,得出三個(gè)類別的評(píng)分分別為【3.2,5.1,-1.7】那么丛版,并且第一個(gè)標(biāo)簽為正確分類巩掺,且超參數(shù)\Delta = 1那么。
L = max(0,5.1-3.2 + 1) + max(0,-1.7-3.2 + 1) = 2.9
另外這里需要注意\Delta其實(shí)是規(guī)定的一個(gè)邊界值页畦,這個(gè)比如說就是說正確分類和錯(cuò)誤分類評(píng)分差值達(dá)到多少時(shí)胖替,本函數(shù)開始敏感,其結(jié)果就是其實(shí)設(shè)置成為多少不是很重要,這里的差值會(huì)使得權(quán)重向一個(gè)整倍數(shù)方向移動(dòng)刊殉,通常\Delta = 1就可以了。

如果訓(xùn)練集有很多數(shù)據(jù)州胳,那么整體結(jié)果是:
L = \frac{1}{N}\sum_{i = 1}^N L_i
(此處有另一種標(biāo)記方式记焊,在吳恩達(dá)的那個(gè)五部分的課程里有用到,將單個(gè)訓(xùn)練樣本的損失稱作Loss Function栓撞,將一次訓(xùn)練的多個(gè)數(shù)據(jù)的損失稱為Cost Function遍膜,但表達(dá)的意思是一樣的,……起碼我理解的是一樣的瓤湘,本文均使用Loss Function)
幾個(gè)小問題

  • Q1:我們?cè)谏厦娴氖阶永镉?img class="math-inline" src="https://math.jianshu.com/math?formula=j%5Cnot%3Dy" alt="j\not=y" mathimg="1">如果等了會(huì)怎么樣瓢颅?
  • Q2:我們不求和但是使用平均值會(huì)怎么樣?L_i = \frac{1}{N-1}\sum_{j\not= y_i}max(0,s_j - s_{y_i} + \Delta)
  • Q3:我們使用L_i = \sum_{j\not= y_i}max(0,s_j - s_{y_i} + \Delta)^2怎么樣
  • Q4:這個(gè)損失函數(shù)的最大值和最小值是什么弛说?
  • Q5:很多時(shí)候權(quán)重會(huì)被初始化為比較小的值挽懦,那一開始損失函數(shù)會(huì)是怎么樣的?

1.3 正則化 Regularization

? ? 有些權(quán)重是我們不喜歡的木人,比如我們令x = [1,1,1,1],W_1 = [1,0,0,0],W_2 = [0.25,0.25,0.25,0.25]那么我們會(huì)得到W_1^Tx = W_2^Tx = 1但是信柿,顯然前者只利用了數(shù)據(jù)的很少一部分,這就會(huì)使得在面對(duì)未知數(shù)據(jù)時(shí)前者更可能會(huì)出錯(cuò)醒第,所以渔嚷,在得到同樣準(zhǔn)確度時(shí),我們更希望是后者稠曼。因此形病,我們?cè)贚oss Funnction中添加一項(xiàng)正則化損失,以體現(xiàn)我們的意愿霞幅。

  • L2 regularization:R(W) = \sum_j\sum_kW_{j,k}^2
  • L1 regularization:R(W) = \sum_j\sum_k|W_{j,k}|
    因此漠吻,整理后的Loss Function 為
    L = \frac{1}{N}\sum_{i = 1}^N L_i + \lambda R(W)
    其中\lambda為超參數(shù)

1.4 Softmax 分類器(Multinomial Logistic Regression)

? ? 這個(gè)應(yīng)該是跟概率論有比較大的關(guān)系的,但是我現(xiàn)在還沒學(xué)到(順便苦逼一句蝗岖,概率論選到了英文授課)侥猩。所以我們先把式子擺出來然后再實(shí)際計(jì)算看下吧。
L_i = -log(\frac{e^{f_{y_i}}}{\sum_j e^{f_j}})
跟上面一樣j為預(yù)測(cè)結(jié)果的索引抵赢,另外欺劳,其中\frac{e^{f_{y_i}}}{\sum_j e^{f_j}}稱作Softmax函數(shù)。
下面是一個(gè)具體的計(jì)算例子铅鲤,假設(shè)我們有一個(gè)s = [3.2,5.1,-1.7]那么我們首先取指數(shù)划提,這一步是使得所有的均為正數(shù),那么e^s = [24.5,164.0,0.18]然后我們?cè)诎阉鼈兌嫁D(zhuǎn)換到[0,1]當(dāng)中其實(shí)是開區(qū)間邢享,但是考慮到精度鹏往,就閉了。怎么轉(zhuǎn)換骇塘,就除以和就行了伊履,本例中24.5+164.0+0.18=188.68因此轉(zhuǎn)換之后的數(shù)值為[0.13,0.84,0]韩容,最后L_i = -log(0.13) = 0.89
? ? 這里的中間步驟[0.13,0.84,0]可以理解為分類概率,即模型認(rèn)為這張圖片是類別1,2,3的概率分別是13%唐瀑,84%和0%群凶。
小問題:

  • Q6:這個(gè)損失函數(shù)最大值最小值是什么?
  • Q7:很多時(shí)候權(quán)重會(huì)被初始化為比較小的值哄辣,那一開始損失函數(shù)會(huì)是怎么樣的请梢?

1.5 Softmax和多類SVM的對(duì)比

? ? 我們使用[10,-100,-100]作為例子,其中假設(shè)類別一是正確分類
L_{SVM} = max(0,-109) + max(0,-109) = 0
L_{Softmax} = -log(1) = 0
我們注意到力穗,當(dāng)我們改變另外兩個(gè)類別的數(shù)值的時(shí)候比如改變成[10,8,8]毅弧,多類SVM損失函數(shù)的數(shù)值其實(shí)沒有變化,但是Softmax變化了
L_{SVM} = max(0,-1) + max(0,-1) = 0
L_{Softmax} = -log(0.7869) = 0.104
為什么当窗,就是當(dāng)初那個(gè)\Delta控制著邊界條件够坐,多類SVM只對(duì)邊界值敏感,但是對(duì)差距比較大的數(shù)值不敏感崖面,但是顯然咆霜,Softmax仍然會(huì)受到影響,雖然比較少嘶朱,但是我們有一種感性的認(rèn)知蛾坯,Softmax分類器是考慮了全部結(jié)果的,只有預(yù)測(cè)結(jié)果為[1,0,0]這種結(jié)果是Softmax才會(huì)為0疏遏,但是多類SVM只要目標(biāo)標(biāo)簽分?jǐn)?shù)比其他的大1脉课,就會(huì)為0.

1.6 上面那幾個(gè)小問題的答案

  • Q1:會(huì)在最后結(jié)果上整體加一。
  • Q2:其實(shí)沒什么财异,只是除了一個(gè)常數(shù)值倘零。
  • Q3:這個(gè)函數(shù)是原函數(shù)的非線性變形,相當(dāng)于兩個(gè)損失函數(shù)戳寸,至于選擇哪個(gè)呈驶,這是個(gè)超參。
  • Q4:范圍是[0,+\infty)
  • Q5:結(jié)果會(huì)是3(分類數(shù))疫鹊,相當(dāng)于max(0,1) + max(0,1) + max(0,1) = 3
  • Q6:范圍是[0,+\infty)
  • Q7:結(jié)果是-log(\frac{1}{3}) = 0.477

2. Optimization

2.1 Recap

? ? 現(xiàn)在袖瞻,我們有了目標(biāo)了,我們?cè)撓胂朐趺磧?yōu)化我們的W使得我們的Loss Function最小了拆吆。

2.2 閃現(xiàn)

? ? 最樸素的方法無疑是隨機(jī)選擇(Bingo Sort一樣)我們其實(shí)可以把優(yōu)化過程看作到達(dá)一個(gè)山谷聋迎,四面八方都是山,我們可以首先在這個(gè)山谷里閃現(xiàn)枣耀,每到一個(gè)地方就看下我們現(xiàn)在的高度(Loss Function)是多少霉晕。這確實(shí)是一種方法。

2.3 梯度下降 Gradient Descent

? ? 這部分在數(shù)分里講過,就不多說了牺堰。

2.3.1 數(shù)值解

? ? 回顧一下我們對(duì)導(dǎo)數(shù)的定義
\frac{d f(x)}{dx} = \lim_{h \to 0}\frac{f(x + h) - f(x)}{h}
類似的拄轻,我們有


在我們求出梯度之后,向這個(gè)方向走伟葫,就可以了哺眯。

2.3.2 解析解

? ? 當(dāng)然數(shù)值解很費(fèi)時(shí)間,所以扒俯,如果愿意的話,直接求解析解也是可以的一疯,畢竟這整個(gè)數(shù)學(xué)關(guān)系式是有的撼玄,可以使用鏈?zhǔn)椒▌t求導(dǎo)。

2.3.3 Learning Rate

? ? 梯度解決了向那里走的問題墩邀,走多少呢掌猛?學(xué)習(xí)率,又是一個(gè)超參數(shù)眉睹,走太多荔茬,一直在山上下不來了,走太小又耗時(shí)間竹海,這確實(shí)是個(gè)玄學(xué)問題慕蔚。對(duì)于這個(gè)問題,可以使用學(xué)習(xí)率衰減(Learning Rate Decay)來“解決”斋配。字面意思孔飒,我們?cè)酵笥?xùn)練,走的步長越小艰争。

2.4 Mini-Batch Gradient Descent

? ? 在前面我們知道坏瞄,在損失函數(shù)里都有個(gè)\frac{1}{N}。就是說甩卓,我們有時(shí)候會(huì)把一整個(gè)數(shù)據(jù)集全部算一次鸠匀,得出一個(gè)損失函數(shù),然后根據(jù)他來優(yōu)化逾柿,但是缀棍,當(dāng)數(shù)據(jù)集太大的時(shí)候,這一點(diǎn)顯然是不適用的机错,因此睦柴,有時(shí)候會(huì)把數(shù)據(jù)集分成小塊來用,這種做法稱為 Mini-Batch Gradient Descent毡熏,當(dāng)每次只使用一個(gè)訓(xùn)練樣本的時(shí)候坦敌,稱為隨機(jī)梯度下降(Stochastic Gradient Descent 簡稱SGD)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市狱窘,隨后出現(xiàn)的幾起案子杜顺,更是在濱河造成了極大的恐慌,老刑警劉巖蘸炸,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件躬络,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡搭儒,警方通過查閱死者的電腦和手機(jī)穷当,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來淹禾,“玉大人馁菜,你說我怎么就攤上這事×宀恚” “怎么了汪疮?”我有些...
    開封第一講書人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長毁习。 經(jīng)常有香客問我智嚷,道長,這世上最難降的妖魔是什么纺且? 我笑而不...
    開封第一講書人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任盏道,我火速辦了婚禮,結(jié)果婚禮上载碌,老公的妹妹穿的比我還像新娘摇天。我一直安慰自己,他們只是感情好恐仑,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開白布泉坐。 她就那樣靜靜地躺著,像睡著了一般裳仆。 火紅的嫁衣襯著肌膚如雪腕让。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,749評(píng)論 1 289
  • 那天歧斟,我揣著相機(jī)與錄音纯丸,去河邊找鬼。 笑死静袖,一個(gè)胖子當(dāng)著我的面吹牛觉鼻,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播队橙,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼坠陈,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼萨惑!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起仇矾,我...
    開封第一講書人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤庸蔼,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后贮匕,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體姐仅,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年刻盐,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了掏膏。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡敦锌,死狀恐怖馒疹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情供屉,我是刑警寧澤,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布溺蕉,位于F島的核電站伶丐,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏疯特。R本人自食惡果不足惜哗魂,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望漓雅。 院中可真熱鬧录别,春花似錦、人聲如沸邻吞。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽抱冷。三九已至崔列,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間旺遮,已是汗流浹背赵讯。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留耿眉,地道東北人边翼。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像鸣剪,于是被迫代替她去往敵國和親组底。 傳聞我的和親對(duì)象是個(gè)殘疾皇子丈积,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容