優(yōu)化算法-如何事倍功半優(yōu)化你的模型(一)

武功再高，也怕菜刀幼衰。

當(dāng)我們的模型主體結(jié)構(gòu)確定了之后舆蝴，或者說(shuō)我們由于數(shù)據(jù)量等現(xiàn)實(shí)問(wèn)題已經(jīng)無(wú)法再提已有模型的能力，我們可以使用很多簡(jiǎn)單的優(yōu)化算法幢泼，把我們現(xiàn)在的數(shù)據(jù)模型的能力大幅提高紧显。這一部分我們會(huì)分別介紹多層網(wǎng)絡(luò)，激活函數(shù)缕棵，損失函數(shù)孵班，梯度下降涉兽，反向傳播，動(dòng)態(tài)學(xué)習(xí)率以及具體的實(shí)現(xiàn)

多層網(wǎng)絡(luò)

首先我們?cè)诘谝徽戮陀懻摿松疃葘W(xué)習(xí)的驚人效果篙程，所以首先我們要做的就是要把上一張的模型變成神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)花椭，即在輸入層和輸出層之間加入隱藏層。

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

隱藏層可以包含很多層房午，上一層的處理結(jié)果又是下一次的輸入值矿辽，經(jīng)過(guò)每一層的處理最終得到輸出結(jié)果」幔可以理解為每一層我們通過(guò)參數(shù)的設(shè)置袋倔，把上一層的處理結(jié)果抽象成更高級(jí)的特征。

層數(shù)越深越好折柠？
隨著隱藏層的層數(shù)越來(lái)越多宾娜，我們最終結(jié)果的準(zhǔn)確率也會(huì)提升。然而隨著深度越來(lái)越深扇售，我們發(fā)現(xiàn)了這些問(wèn)題：

1. 過(guò)擬合（Overfitting） 原因是隨著層數(shù)的增多前塔，對(duì)正確結(jié)果有影響的“噪音”也和真正所需的特征一起被放大，抽象承冰。這就導(dǎo)致了我們所訓(xùn)練的模型對(duì)于訓(xùn)練集數(shù)據(jù)可以高度的匹配华弓，但是不具備普遍實(shí)用性，所以這樣的模型會(huì)在測(cè)試集上表現(xiàn)不盡人意困乒。

欠擬合寂屏，恰當(dāng)中和，過(guò)擬合

如圖所示娜搂，第一種是擬合不足迁霎，導(dǎo)致模型在訓(xùn)練集和測(cè)試集上都沒(méi)有好的表現(xiàn)；恰當(dāng)?shù)臄M合如圖二百宇，則會(huì)在訓(xùn)練集和測(cè)試集上都有比較好的結(jié)果考廉；圖三則是過(guò)擬合，它在訓(xùn)練集上過(guò)度的擬合携御，雖然可以在訓(xùn)練集上取得很高的準(zhǔn)確率昌粤，卻會(huì)在測(cè)試集上獲得較低的訓(xùn)練集。
對(duì)于如何在深度網(wǎng)絡(luò)中解決過(guò)擬合的問(wèn)題因痛，我們會(huì)專門(mén)開(kāi)一章講解婚苹，有很多有趣的想法。

2. 梯度消失（Gradient Vanishing Problem）
梯度消失是指在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中鸵膏，權(quán)重更新的梯度消失膊升，也就是權(quán)重參數(shù)無(wú)法再通過(guò)訓(xùn)練更新。現(xiàn)在對(duì)于梯度的修正方法也很多了谭企，我們會(huì)在后面的講解中帶出廓译。其中一個(gè)簡(jiǎn)單實(shí)用的就是使用非線性激活函數(shù)评肆。

3. 梯度爆炸（Gradient Exploding Problem）
和梯度消失相反，梯度爆炸是指在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中非区，權(quán)重更新的梯度變大瓜挽，使得權(quán)重多次以大于1的倍數(shù)迭代更新。我們也會(huì)在后面的講解中提出解決方案征绸。

激活函數(shù)

簡(jiǎn)單概括久橙，激活函數(shù)是用來(lái)實(shí)現(xiàn)函數(shù)的去線性化。想象一下你用一堆直線想要畫(huà)出一個(gè)圓管怠，就必須用無(wú)數(shù)的直線一點(diǎn)點(diǎn)修正淆衷。但是如果你可以話曲線就可以一次性解決問(wèn)題。如果沒(méi)有激活函數(shù)渤弛，所有的輸入和輸出其實(shí)都是線性關(guān)系祝拯，這就像用直線畫(huà)圓一樣，同樣的訓(xùn)練成本下只能實(shí)現(xiàn)粗糙的效果她肯。

常用激活函數(shù)

sigmoid是最為普遍的激活函數(shù)佳头，但是現(xiàn)在在我們的實(shí)際應(yīng)用中已經(jīng)很少使用了，一個(gè)重要的原因就是它在深層網(wǎng)絡(luò)中容易引起梯度消失晴氨，所以我們一般在隱藏層中使用ReLU作為激活函數(shù)康嘉。但是使用ReLU我們一樣有需要注意的是學(xué)習(xí)率的設(shè)定，因?yàn)閺乃奶卣魑覀円材馨l(fā)現(xiàn)瑞筐，它很容易造成死神經(jīng)元凄鼻，也就是所有神經(jīng)元的輸入經(jīng)過(guò)激活后變成了0腊瑟。所以我們也可以使用Leaky ReLU替代聚假。
具體使用什么樣的激活函數(shù)其實(shí)和我們所訓(xùn)練的數(shù)據(jù)以及模型有關(guān)，大家在實(shí)踐中發(fā)現(xiàn)模型有問(wèn)題發(fā)生在激活函數(shù)前后時(shí)闰非，可以嘗試其他的激活函數(shù)膘格。

損失函數(shù)

我們訓(xùn)練神經(jīng)網(wǎng)絡(luò)的最終目的就是最小化我們的損失函數(shù)，所以損失函數(shù)即我們用來(lái)衡量模型好壞的標(biāo)準(zhǔn)财松。正如我們前面提到的瘪贱，不同的模型有著目的所以一般有著不一樣的損失函數(shù)。但是我們也有著一些通用的評(píng)判方法辆毡，比如交叉熵函數(shù)（Cross Entropy）菜秦。p表示真實(shí)標(biāo)記的分布，q則為訓(xùn)練后的模型的預(yù)測(cè)標(biāo)記分布舶掖，交叉熵?fù)p失函數(shù)可以衡量p與q的相似性球昨。

交叉熵

自定義損失函數(shù)
我們當(dāng)然可以根據(jù)實(shí)際需要自定義損失函數(shù)。比如我是一個(gè)銷(xiāo)售商眨攘，我進(jìn)貨時(shí)需要考慮我能賣(mài)多少主慰。假如一件商品的成本是1嚣州，利潤(rùn)是2，那么我多進(jìn)貨一個(gè)共螺，損失是1该肴，但是少進(jìn)一個(gè)就會(huì)損失2，所以我的損失函數(shù)就會(huì)變成

loss  = sum(f(x, y))
f(x, y) = 1 * (x - y) 如果x > y
f(x, y) = 2 * (y - x) 如果y > x

這些都是我們?cè)趯?shí)際應(yīng)用中必然會(huì)使用的方法藐不，每一項(xiàng)都可以展開(kāi)說(shuō)很多內(nèi)容匀哄，我們?cè)谶@里先進(jìn)行簡(jiǎn)單介紹，等我們?cè)诓僮髦杏龅綍r(shí)會(huì)繼續(xù)展開(kāi)雏蛮。有興趣的同學(xué)們可以自己去搜索一下相關(guān)知識(shí)拱雏。
另外歡迎大家關(guān)注留言，我們的更新可以及時(shí)推送底扳，一起學(xué)習(xí)吧騷年們～

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末铸抑，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子衷模，更是在濱河造成了極大的恐慌鹊汛，老刑警劉巖，帶你破解...
沈念sama閱讀 217,185評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件阱冶，死亡現(xiàn)場(chǎng)離奇詭異刁憋，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)木蹬，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)至耻，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人镊叁，你說(shuō)我怎么就攤上這事尘颓。” “怎么了晦譬？”我有些...
開(kāi)封第一講書(shū)人閱讀 163,524評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵疤苹，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我敛腌，道長(zhǎng)卧土，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,339評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任像樊，我火速辦了婚禮尤莺，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘生棍。我一直安慰自己颤霎，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,387評(píng)論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著捷绑，像睡著了一般韩脑。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上粹污，一...
開(kāi)封第一講書(shū)人閱讀 51,287評(píng)論 1贊 301
城市分裂傳說(shuō)
那天段多，我揣著相機(jī)與錄音，去河邊找鬼壮吩。笑死进苍，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的鸭叙。我是一名探鬼主播觉啊，決...
沈念sama閱讀 40,130評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼沈贝！你這毒婦竟也來(lái)了杠人？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 38,985評(píng)論 0贊 275
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤宋下，失蹤者是張志新（化名）和其女友劉穎嗡善，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體学歧，經(jīng)...
沈念sama閱讀 45,420評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡罩引，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,617評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了枝笨。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片袁铐。...
茶點(diǎn)故事閱讀 39,779評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖横浑，靈堂內(nèi)的尸體忽然破棺而出剔桨，到底是詐尸還是另有隱情，我是刑警寧澤伪嫁，帶...
沈念sama閱讀 35,477評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布领炫，位于F島的核電站，受9級(jí)特大地震影響张咳，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜似舵，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,088評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一脚猾、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧砚哗，春花似錦龙助、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,716評(píng)論 0贊 22
一樁弒父案提鸟，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)军援。三九已至，卻和暖如春称勋，著一層夾襖步出監(jiān)牢的瞬間胸哥，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,857評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工赡鲜，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留空厌，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,876評(píng)論 2贊 370
代替公主和親
正文我出身青樓银酬，卻偏偏與公主長(zhǎng)得像嘲更，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子揩瞪，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,700評(píng)論 2贊 354

優(yōu)化算法-如何事倍功半優(yōu)化你的模型(一)

武功再高，也怕菜刀幼衰。

多層網(wǎng)絡(luò)

激活函數(shù)

損失函數(shù)

推薦閱讀更多精彩內(nèi)容