優(yōu)化算法-如何事倍功半優(yōu)化你的模型(一)

武功再高,也怕菜刀幼衰。

當(dāng)我們的模型主體結(jié)構(gòu)確定了之后舆蝴,或者說(shuō)我們由于數(shù)據(jù)量等現(xiàn)實(shí)問(wèn)題已經(jīng)無(wú)法再提已有模型的能力,我們可以使用很多簡(jiǎn)單的優(yōu)化算法幢泼,把我們現(xiàn)在的數(shù)據(jù)模型的能力大幅提高紧显。這一部分我們會(huì)分別介紹多層網(wǎng)絡(luò),激活函數(shù)缕棵,損失函數(shù)孵班,梯度下降涉兽,反向傳播,動(dòng)態(tài)學(xué)習(xí)率以及具體的實(shí)現(xiàn)


多層網(wǎng)絡(luò)

首先我們?cè)诘谝徽戮陀懻摿松疃葘W(xué)習(xí)的驚人效果篙程,所以首先我們要做的就是要把上一張的模型變成神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)花椭,即在輸入層和輸出層之間加入隱藏層。


神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

隱藏層可以包含很多層房午,上一層的處理結(jié)果又是下一次的輸入值矿辽,經(jīng)過(guò)每一層的處理最終得到輸出結(jié)果」幔可以理解為每一層我們通過(guò)參數(shù)的設(shè)置袋倔,把上一層的處理結(jié)果抽象成更高級(jí)的特征。

層數(shù)越深越好折柠?
隨著隱藏層的層數(shù)越來(lái)越多宾娜,我們最終結(jié)果的準(zhǔn)確率也會(huì)提升。然而隨著深度越來(lái)越深扇售,我們發(fā)現(xiàn)了這些問(wèn)題:

1. 過(guò)擬合(Overfitting) 原因是隨著層數(shù)的增多前塔,對(duì)正確結(jié)果有影響的“噪音”也和真正所需的特征一起被放大,抽象承冰。這就導(dǎo)致了我們所訓(xùn)練的模型對(duì)于訓(xùn)練集數(shù)據(jù)可以高度的匹配华弓,但是不具備普遍實(shí)用性,所以這樣的模型會(huì)在測(cè)試集上表現(xiàn)不盡人意困乒。

欠擬合寂屏,恰當(dāng)中和,過(guò)擬合

如圖所示娜搂,第一種是擬合不足迁霎,導(dǎo)致模型在訓(xùn)練集和測(cè)試集上都沒(méi)有好的表現(xiàn);恰當(dāng)?shù)臄M合如圖二百宇,則會(huì)在訓(xùn)練集和測(cè)試集上都有比較好的結(jié)果考廉;圖三則是過(guò)擬合,它在訓(xùn)練集上過(guò)度的擬合携御,雖然可以在訓(xùn)練集上取得很高的準(zhǔn)確率昌粤,卻會(huì)在測(cè)試集上獲得較低的訓(xùn)練集。
對(duì)于如何在深度網(wǎng)絡(luò)中解決過(guò)擬合的問(wèn)題因痛,我們會(huì)專門(mén)開(kāi)一章講解婚苹,有很多有趣的想法。

2. 梯度消失(Gradient Vanishing Problem)
梯度消失是指在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中鸵膏,權(quán)重更新的梯度消失膊升,也就是權(quán)重參數(shù)無(wú)法再通過(guò)訓(xùn)練更新。現(xiàn)在對(duì)于梯度的修正方法也很多了谭企,我們會(huì)在后面的講解中帶出廓译。其中一個(gè)簡(jiǎn)單實(shí)用的就是使用非線性激活函數(shù)评肆。

3. 梯度爆炸(Gradient Exploding Problem)
和梯度消失相反,梯度爆炸是指在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中非区,權(quán)重更新的梯度變大瓜挽,使得權(quán)重多次以大于1的倍數(shù)迭代更新。我們也會(huì)在后面的講解中提出解決方案征绸。

激活函數(shù)

簡(jiǎn)單概括久橙,激活函數(shù)是用來(lái)實(shí)現(xiàn)函數(shù)的去線性化。想象一下你用一堆直線想要畫(huà)出一個(gè)圓管怠,就必須用無(wú)數(shù)的直線一點(diǎn)點(diǎn)修正淆衷。但是如果你可以話曲線就可以一次性解決問(wèn)題。如果沒(méi)有激活函數(shù)渤弛,所有的輸入和輸出其實(shí)都是線性關(guān)系祝拯,這就像用直線畫(huà)圓一樣,同樣的訓(xùn)練成本下只能實(shí)現(xiàn)粗糙的效果她肯。


常用激活函數(shù)

sigmoid是最為普遍的激活函數(shù)佳头,但是現(xiàn)在在我們的實(shí)際應(yīng)用中已經(jīng)很少使用了,一個(gè)重要的原因就是它在深層網(wǎng)絡(luò)中容易引起梯度消失晴氨,所以我們一般在隱藏層中使用ReLU作為激活函數(shù)康嘉。但是使用ReLU我們一樣有需要注意的是學(xué)習(xí)率的設(shè)定,因?yàn)閺乃奶卣魑覀円材馨l(fā)現(xiàn)瑞筐,它很容易造成死神經(jīng)元凄鼻,也就是所有神經(jīng)元的輸入經(jīng)過(guò)激活后變成了0腊瑟。所以我們也可以使用Leaky ReLU替代聚假。
具體使用什么樣的激活函數(shù)其實(shí)和我們所訓(xùn)練的數(shù)據(jù)以及模型有關(guān),大家在實(shí)踐中發(fā)現(xiàn)模型有問(wèn)題發(fā)生在激活函數(shù)前后時(shí)闰非,可以嘗試其他的激活函數(shù)膘格。

損失函數(shù)

我們訓(xùn)練神經(jīng)網(wǎng)絡(luò)的最終目的就是最小化我們的損失函數(shù),所以損失函數(shù)即我們用來(lái)衡量模型好壞的標(biāo)準(zhǔn)财松。正如我們前面提到的瘪贱,不同的模型有著目的所以一般有著不一樣的損失函數(shù)。但是我們也有著一些通用的評(píng)判方法辆毡,比如交叉熵函數(shù)(Cross Entropy)菜秦。p表示真實(shí)標(biāo)記的分布,q則為訓(xùn)練后的模型的預(yù)測(cè)標(biāo)記分布舶掖,交叉熵?fù)p失函數(shù)可以衡量p與q的相似性球昨。

交叉熵

自定義損失函數(shù)
我們當(dāng)然可以根據(jù)實(shí)際需要自定義損失函數(shù)。比如我是一個(gè)銷(xiāo)售商眨攘,我進(jìn)貨時(shí)需要考慮我能賣(mài)多少主慰。假如一件商品的成本是1嚣州,利潤(rùn)是2,那么我多進(jìn)貨一個(gè)共螺,損失是1该肴,但是少進(jìn)一個(gè)就會(huì)損失2,所以我的損失函數(shù)就會(huì)變成

loss  = sum(f(x, y))
f(x, y) = 1 * (x - y) 如果x > y
f(x, y) = 2 * (y - x) 如果y > x

這些都是我們?cè)趯?shí)際應(yīng)用中必然會(huì)使用的方法藐不,每一項(xiàng)都可以展開(kāi)說(shuō)很多內(nèi)容匀哄,我們?cè)谶@里先進(jìn)行簡(jiǎn)單介紹,等我們?cè)诓僮髦杏龅綍r(shí)會(huì)繼續(xù)展開(kāi)雏蛮。有興趣的同學(xué)們可以自己去搜索一下相關(guān)知識(shí)拱雏。
另外歡迎大家關(guān)注留言,我們的更新可以及時(shí)推送底扳,一起學(xué)習(xí)吧騷年們~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末铸抑,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子衷模,更是在濱河造成了極大的恐慌鹊汛,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,185評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件阱冶,死亡現(xiàn)場(chǎng)離奇詭異刁憋,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)木蹬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門(mén)至耻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人镊叁,你說(shuō)我怎么就攤上這事尘颓。” “怎么了晦譬?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,524評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵疤苹,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我敛腌,道長(zhǎng)卧土,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,339評(píng)論 1 293
  • 正文 為了忘掉前任像樊,我火速辦了婚禮尤莺,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘生棍。我一直安慰自己颤霎,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評(píng)論 6 391
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著捷绑,像睡著了一般韩脑。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上粹污,一...
    開(kāi)封第一講書(shū)人閱讀 51,287評(píng)論 1 301
  • 那天段多,我揣著相機(jī)與錄音,去河邊找鬼壮吩。 笑死进苍,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的鸭叙。 我是一名探鬼主播觉啊,決...
    沈念sama閱讀 40,130評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼沈贝!你這毒婦竟也來(lái)了杠人?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,985評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤宋下,失蹤者是張志新(化名)和其女友劉穎嗡善,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體学歧,經(jīng)...
    沈念sama閱讀 45,420評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡罩引,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了枝笨。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片袁铐。...
    茶點(diǎn)故事閱讀 39,779評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖横浑,靈堂內(nèi)的尸體忽然破棺而出剔桨,到底是詐尸還是另有隱情,我是刑警寧澤伪嫁,帶...
    沈念sama閱讀 35,477評(píng)論 5 345
  • 正文 年R本政府宣布领炫,位于F島的核電站,受9級(jí)特大地震影響张咳,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜似舵,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評(píng)論 3 328
  • 文/蒙蒙 一脚猾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧砚哗,春花似錦龙助、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,716評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)军援。三九已至,卻和暖如春称勋,著一層夾襖步出監(jiān)牢的瞬間胸哥,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,857評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工赡鲜, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留空厌,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,876評(píng)論 2 370
  • 正文 我出身青樓银酬,卻偏偏與公主長(zhǎng)得像嘲更,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子揩瞪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容