深度模型中的優(yōu)化挑戰(zhàn)

深度模型中的優(yōu)化

1. 神經(jīng)網(wǎng)絡(luò)中的優(yōu)化挑戰(zhàn)

1.1 病態(tài)

??病態(tài)問題一般被認(rèn)為存在于神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中兄渺。病態(tài)體現(xiàn)在隨機(jī)梯度下降會(huì)‘‘卡’’ 在某些情況,此時(shí)即使很小的更新步長(zhǎng)也會(huì)增加代價(jià)函數(shù)撑刺。


1.2 局部極小值

??由于模型可辨識(shí)性(model identifiability)問題,神經(jīng)網(wǎng)絡(luò)和任意具有多個(gè)等效參數(shù)化潛變量的模型都會(huì)具有多個(gè)局部極小值。如果一個(gè)足夠大的訓(xùn)練集可以唯一確定一組模型參數(shù)聪蘸,那么該模型被稱為可辨認(rèn)的狰闪。帶有潛變量的模型通常是不可辨認(rèn)的疯搅,因?yàn)橥ㄟ^相互交換潛變量我們能得到等價(jià)的模型。例如埋泵,考慮神經(jīng)網(wǎng)絡(luò)的第一層幔欧,我們可以交換單元 i 和單元 j 的傳入權(quán)重向量、傳出權(quán)重向量而得到等價(jià)的模型丽声。如果神經(jīng)網(wǎng)絡(luò)有 m 層礁蔗,每層有 n 個(gè)單元,那么會(huì)有 n! m 種排列隱藏單元的方式雁社。這種不可辨認(rèn)性被稱為權(quán)重空間對(duì)稱性(weight space symmetry)浴井。
??一種能夠排除局部極小值是主要問題的檢測(cè)方法是畫出梯度范數(shù)隨時(shí)間的變化。如果梯度范數(shù)沒有縮小到一個(gè)微小的值霉撵,那么該問題既不是局部極小值磺浙,也不是其他形式的臨界點(diǎn)。

1.3 高原徒坡、鞍點(diǎn)和其他平坦區(qū)域

??對(duì)于很多高維非凸函數(shù)而言撕氧,局部極小值(以及極大值)事實(shí)上都遠(yuǎn)少于另一類梯度為零的點(diǎn):鞍點(diǎn)。鞍點(diǎn)附近的某些點(diǎn)比鞍點(diǎn)有更大的代價(jià)喇完,而其他點(diǎn)則有更小的代價(jià)伦泥。在鞍點(diǎn)處,Hessian矩陣同時(shí)具有正負(fù)特征值锦溪。位于正特征值對(duì)應(yīng)的特征向量方向的點(diǎn)比鞍點(diǎn)有更大的代價(jià)不脯,反之,位于負(fù)特征值對(duì)應(yīng)的特征向量方向的點(diǎn)有更小的代價(jià)刻诊。

1.4 懸崖和梯度爆炸

??多層神經(jīng)網(wǎng)絡(luò)通常存在像懸崖一樣的斜率較大區(qū)域防楷,如圖1所示。這是由于幾個(gè)較大的權(quán)重相乘導(dǎo)致的则涯。遇到斜率極大的懸崖結(jié)構(gòu)時(shí)域帐,梯度更新會(huì)很大程度地改變參數(shù)值赘被,通常會(huì)完全跳過這類懸崖結(jié)構(gòu)。


1

??當(dāng)傳統(tǒng)的梯度下降算法提議更新很大一步時(shí)肖揣,啟發(fā)式梯度截?cái)鄷?huì)干涉來減小步長(zhǎng)民假,從而使其不太可能走出梯度近似為最陡下降方向的懸崖區(qū)域。懸崖結(jié)構(gòu)在循環(huán)神經(jīng)網(wǎng)絡(luò)的代價(jià)函數(shù)中很常見龙优,因?yàn)檫@類模型會(huì)涉及到多個(gè)因子的相乘羊异,其中每個(gè)因子對(duì)應(yīng)一個(gè)時(shí)間步。因此彤断,長(zhǎng)期時(shí)間序列會(huì)產(chǎn)生大量相乘野舶。

1.5 長(zhǎng)期依賴

??當(dāng)計(jì)算圖變得極深時(shí),神經(jīng)網(wǎng)絡(luò)優(yōu)化算法會(huì)面臨的另外一個(gè)難題就是長(zhǎng)期依賴問題——由于變深的結(jié)構(gòu)使模型喪失了學(xué)習(xí)到先前信息的能力宰衙,讓優(yōu)化變得極其困難平道。梯度消失使得我們難以知道參數(shù)朝哪個(gè)方向移動(dòng)能夠改進(jìn)代價(jià)函數(shù),而梯度爆炸會(huì)使得學(xué)習(xí)不穩(wěn)定供炼。之前描述的促使我們使用梯度截?cái)嗟膽已陆Y(jié)構(gòu)便是梯度爆炸現(xiàn)象的一個(gè)例子一屋。

1.6 非精確梯度

??大多數(shù)優(yōu)化算法的先決條件都是我們知道精確的梯度或是Hessian矩陣。在實(shí)踐中袋哼,通常這些量會(huì)有噪聲冀墨,甚至是有偏的估計(jì)。幾乎每一個(gè)深度學(xué)習(xí)算法都需要基于采樣的估計(jì)涛贯,至少使用訓(xùn)練樣本的小批量來計(jì)算梯度诽嘉。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市弟翘,隨后出現(xiàn)的幾起案子虫腋,更是在濱河造成了極大的恐慌,老刑警劉巖稀余,帶你破解...
    沈念sama閱讀 206,723評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件岔乔,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡滚躯,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門嘿歌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來掸掏,“玉大人,你說我怎么就攤上這事宙帝∩シ铮” “怎么了?”我有些...
    開封第一講書人閱讀 152,998評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵步脓,是天一觀的道長(zhǎng)愿待。 經(jīng)常有香客問我浩螺,道長(zhǎng),這世上最難降的妖魔是什么仍侥? 我笑而不...
    開封第一講書人閱讀 55,323評(píng)論 1 279
  • 正文 為了忘掉前任要出,我火速辦了婚禮,結(jié)果婚禮上农渊,老公的妹妹穿的比我還像新娘患蹂。我一直安慰自己,他們只是感情好砸紊,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評(píng)論 5 374
  • 文/花漫 我一把揭開白布传于。 她就那樣靜靜地躺著,像睡著了一般醉顽。 火紅的嫁衣襯著肌膚如雪沼溜。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,079評(píng)論 1 285
  • 那天游添,我揣著相機(jī)與錄音系草,去河邊找鬼。 笑死否淤,一個(gè)胖子當(dāng)著我的面吹牛悄但,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播石抡,決...
    沈念sama閱讀 38,389評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼檐嚣,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了啰扛?” 一聲冷哼從身側(cè)響起嚎京,我...
    開封第一講書人閱讀 37,019評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎隐解,沒想到半個(gè)月后鞍帝,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,519評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡煞茫,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評(píng)論 2 325
  • 正文 我和宋清朗相戀三年帕涌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片续徽。...
    茶點(diǎn)故事閱讀 38,100評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蚓曼,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出钦扭,到底是詐尸還是另有隱情纫版,我是刑警寧澤,帶...
    沈念sama閱讀 33,738評(píng)論 4 324
  • 正文 年R本政府宣布客情,位于F島的核電站其弊,受9級(jí)特大地震影響癞己,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜梭伐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評(píng)論 3 307
  • 文/蒙蒙 一痹雅、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧籽御,春花似錦练慕、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至哑梳,卻和暖如春劲阎,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背鸠真。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工悯仙, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人吠卷。 一個(gè)月前我還...
    沈念sama閱讀 45,547評(píng)論 2 354
  • 正文 我出身青樓锡垄,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親祭隔。 傳聞我的和親對(duì)象是個(gè)殘疾皇子货岭,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 主要內(nèi)容 自然語(yǔ)言輸入編碼 前饋網(wǎng)絡(luò) 卷積網(wǎng)絡(luò) 循環(huán)網(wǎng)絡(luò)(recurrent networks ) 遞歸網(wǎng)絡(luò)(re...
    JackHorse閱讀 4,106評(píng)論 0 2
  • 1、學(xué)習(xí)和純優(yōu)化的不同 在大多數(shù)機(jī)器學(xué)習(xí)問題中疾渴,我們關(guān)注某些性能度量P千贯,其定義于測(cè)試集上并且可能是不可解的...
    梅八哥閱讀 738評(píng)論 0 0
  • 有前面的知識(shí),我們知道如何構(gòu)建目標(biāo)函數(shù)了搞坝,當(dāng)目標(biāo)函數(shù)構(gòu)建出來后搔谴,如何求其參數(shù)使的目標(biāo)函數(shù)最小化呢?這就是這一小節(jié)的...
    李濤AT北京閱讀 902評(píng)論 0 0
  • 還剩一個(gè)禮拜不到就要過年了桩撮。各路親戚們?cè)缫研顒?shì)待發(fā)敦第,準(zhǔn)備好好熱鬧一番。有些大家族甚至還會(huì)搞個(gè)聚會(huì)啥的店量。一大家子人聚...
    桑榆0325閱讀 1,148評(píng)論 1 11
  • 空氣質(zhì)量終于有了好轉(zhuǎn)芜果,今天已經(jīng)是輕度污染,步行前往學(xué)校上班垫桂。鄰近學(xué)校門口南側(cè)亞飛汽貿(mào)前,幾輛小轎車陸續(xù)開到了便道廣...
    星之夢(mèng)lyx閱讀 79評(píng)論 0 0