Hessian Matrix: When Gradient is Zero

Why Deep Structure 一文中我已經(jīng)說(shuō)明了 Deep Structure 的表示能力很強(qiáng)贱除,以及相比 Shallow Structure 的優(yōu)勢(shì)所在完沪。但“能力越大責(zé)任越大”蝗柔,擬合能力越強(qiáng)的模型往往越難找到最優(yōu)解蝶涩。

本文根據(jù)李宏毅老師的講義整理了關(guān)于 Deep Learning 中的 Optimization 部分的一個(gè)特殊情形骤铃,即梯度為 0 的情形沛善。

首先蹲坷,我們知道驶乾,若損失函數(shù)為凸函數(shù),則使用梯度下降法找到的局部最優(yōu)解即為全局最優(yōu)解冠句,但深度學(xué)習(xí)難就難在其損失函數(shù)通常不是凸函數(shù)轻掩,如圖所示:

圖中通過(guò)一個(gè)很簡(jiǎn)單的例子說(shuō)明了為什么 DL 的 Loss Function 通常非凸。假如我們當(dāng)前找到了一組權(quán)重使得 Loss Function 達(dá)到局部最小值懦底,那么我們通過(guò)交換神經(jīng)元的位置而不改變權(quán)重唇牧,顯然得到的還是局部最小值,而這兩者的權(quán)重向量是不同的聚唐,由其中一個(gè)向量變化到另一個(gè)向量的過(guò)程中 Loss Function 必然會(huì)有一個(gè)上升過(guò)程(因?yàn)楫?dāng)前處于局部最胸ぶ亍),因此局部的函數(shù)圖像如右下角的圖形所示杆查,是一個(gè)非凸函數(shù)扮惦。

非凸函數(shù)的麻煩在于,當(dāng)我們利用梯度下降法找到局部最小值時(shí)亲桦,我們不知道和全局最小值相差多少崖蜜,也無(wú)法保證能夠得到全局最小值浊仆。

但近期的研究中人們猜測(cè),雖然 DL 的損失函數(shù)局部最小值很多豫领,但都相差不大抡柿,也就是說(shuō),當(dāng)陷入局部最小的時(shí)候等恐,我們就得到了一個(gè)不錯(cuò)的解洲劣。

所以接下來(lái)的問(wèn)題就是,利用梯度下降法能夠得到局部最優(yōu)解嗎课蔬?

如上圖所示囱稽,當(dāng)我們陷入梯度為 0 (或梯度數(shù)值非常小)的點(diǎn)時(shí)二跋,有可能是局部最小值战惊,有可能是局部最大值,也有可能是鞍點(diǎn)同欠。

當(dāng)然样傍,利用梯度下降法最終停在局部最大值的可能性幾乎為 0,除非你的初始位置就在局部最大值點(diǎn)铺遂,使得參數(shù)無(wú)法更新衫哥。

當(dāng)梯度下降法運(yùn)行停止的時(shí)候,我們要如何判斷所在點(diǎn)是以上哪一種情形呢襟锐?

其實(shí)思路和高中時(shí)期求二階導(dǎo)沒(méi)有本質(zhì)區(qū)別撤逢。首先將 Loss Function 在當(dāng)前的臨界點(diǎn) \theta_0 進(jìn)行 Taylor expansion,由于當(dāng)前導(dǎo)數(shù) g=0粮坞,因此函數(shù)值在 \theta_0 附近的變化情形由二階項(xiàng)決定蚊荣。

這里就自然引出了 Hessian Matrix 的定義。

由圖中的形式我們知道莫杈,若 H 是正定矩陣(即對(duì)任意x互例,都有x^THx>0),則 f 在點(diǎn) \theta_0 附近的所有 \theta 的取值都大于在 \theta_0 的取值(因?yàn)槎雾?xiàng)恒正)筝闹,所以 \theta_0 是 local minimum媳叨。

同理,若 H 是負(fù)定矩陣关顷,則 f 在點(diǎn) \theta_0 附近的所有 \theta 的取值都小于在 \theta_0 的取值(因?yàn)槎雾?xiàng)恒負(fù))糊秆,所以 \theta_0 是 local maximum。

若有時(shí)??^?????? > 0, 有時(shí)??^?????? < 0议双,則 \theta_0 是一個(gè)鞍點(diǎn)痘番。

需要注意的是,如果 H 是半正定或半負(fù)定的,即對(duì)任意x汞舱,都有x^THx\geq0x^THx\leq0伍纫,則無(wú)法確定 \theta_0 是哪一種情形,因此當(dāng) x^THx=0 的時(shí)候,決定 \theta_0 附近點(diǎn)的取值的就變成三次項(xiàng)了辞嗡。

最后,需要說(shuō)明的是,梯度下降法有時(shí)候會(huì)卡住飞几,也就是說(shuō) Loss Function 的值不再呈下降趨勢(shì),而是在某個(gè)值附近振蕩萍虽,這時(shí)候我們往往認(rèn)為是接近臨界點(diǎn)導(dǎo)致的轴脐,而事實(shí)并不一定如此。

如圖所示砾嫉,當(dāng)梯度下降法導(dǎo)致的 Loss Function 變化平緩的時(shí)候幼苛,其實(shí)它的梯度值仍然可能很大。

此外焕刮,在實(shí)踐中人們發(fā)現(xiàn)舶沿,DL 的訓(xùn)練過(guò)程中 Loss Function 的變化趨勢(shì)更像下面的形式。

也就是說(shuō)配并,我們一直在不斷跳入鞍點(diǎn)(下降)然后逃離(上升)括荡,而不是一路下降停在一個(gè)局部最優(yōu)點(diǎn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末溉旋,一起剝皮案震驚了整個(gè)濱河市畸冲,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌观腊,老刑警劉巖邑闲,帶你破解...
    沈念sama閱讀 219,270評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異梧油,居然都是意外死亡苫耸,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)儡陨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)褪子,“玉大人,你說(shuō)我怎么就攤上這事迄委『稚福” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,630評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵叙身,是天一觀的道長(zhǎng)渔扎。 經(jīng)常有香客問(wèn)我,道長(zhǎng)信轿,這世上最難降的妖魔是什么晃痴? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,906評(píng)論 1 295
  • 正文 為了忘掉前任残吩,我火速辦了婚禮,結(jié)果婚禮上倘核,老公的妹妹穿的比我還像新娘泣侮。我一直安慰自己,他們只是感情好紧唱,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布活尊。 她就那樣靜靜地躺著,像睡著了一般漏益。 火紅的嫁衣襯著肌膚如雪蛹锰。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,718評(píng)論 1 305
  • 那天绰疤,我揣著相機(jī)與錄音铜犬,去河邊找鬼。 笑死轻庆,一個(gè)胖子當(dāng)著我的面吹牛癣猾,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播余爆,決...
    沈念sama閱讀 40,442評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼纷宇,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了蛾方?” 一聲冷哼從身側(cè)響起呐粘,我...
    開(kāi)封第一講書(shū)人閱讀 39,345評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎转捕,沒(méi)想到半個(gè)月后作岖,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,802評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡五芝,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評(píng)論 3 337
  • 正文 我和宋清朗相戀三年痘儡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片枢步。...
    茶點(diǎn)故事閱讀 40,117評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡沉删,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出醉途,到底是詐尸還是另有隱情矾瑰,我是刑警寧澤,帶...
    沈念sama閱讀 35,810評(píng)論 5 346
  • 正文 年R本政府宣布隘擎,位于F島的核電站殴穴,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜采幌,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評(píng)論 3 331
  • 文/蒙蒙 一劲够、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧休傍,春花似錦征绎、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,011評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至忙厌,卻和暖如春顷扩,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背慰毅。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,139評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留扎阶,地道東北人汹胃。 一個(gè)月前我還...
    沈念sama閱讀 48,377評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像东臀,于是被迫代替她去往敵國(guó)和親着饥。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容