神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的閱讀筆記

原文鏈接(中文版)
第一章和三四章的筆記洞豁,從最簡單的神經(jīng)元模型感知機(jī)講起犀变,感知機(jī)的激活函數(shù)是階躍函數(shù),不能很好地反應(yīng)代價(jià)函數(shù)下降的變化量肥败,由此引入sigmoid激活函數(shù)趾浅,介紹了BP網(wǎng)絡(luò)的梯度下降法,使代價(jià)函數(shù)始終朝自變量負(fù)梯度方向下降馒稍,采用隨機(jī)梯度下降提升學(xué)習(xí)效率皿哨,最后從代價(jià)函數(shù)、正則化纽谒、權(quán)值初始化证膨、超參數(shù)選擇等方面入手優(yōu)化學(xué)習(xí)模型,加快學(xué)習(xí)速度鼓黔。

隨機(jī)梯度下降

每次迭代都進(jìn)行隨機(jī)梯度下降央勒,(隨機(jī)選擇訓(xùn)練輸入的少量樣本,并只計(jì)算這些樣本的?Cx的平均值來估算梯度 nablaC澳化。)每一次迭代隨機(jī)分配minibatch崔步,對每一個(gè)batch進(jìn)行參數(shù)更新,參數(shù)更新是依據(jù)batch中所有樣本的梯度的平均值缎谷。
累計(jì)BP則是求得所有樣本的變化量的均值C=1n∑xCx

神經(jīng)網(wǎng)絡(luò)的超參數(shù)
訓(xùn)練迭代數(shù)井濒,mini-batch的大小,學(xué)習(xí)率eta列林,隱藏神經(jīng)元個(gè)數(shù)

交叉熵代價(jià)函數(shù)

利用二次代價(jià)函數(shù)(均值方差)作為代價(jià)函數(shù)可能會(huì)因?yàn)槌跏紖?shù)選取不恰當(dāng)?shù)脑驅(qū)е聦W(xué)習(xí)速度下降瑞你,因?yàn)樵谔荻认陆邓惴ㄖ猩婕暗絪igmoid函數(shù)的導(dǎo)數(shù),當(dāng)接近1時(shí)變化緩慢希痴,解決方案是交叉熵代價(jià)函數(shù)

交叉熵代價(jià)函數(shù)

交叉熵由于非負(fù)和接近目標(biāo)值時(shí)交叉熵接近0的特性者甲,可作為代價(jià)函數(shù),同時(shí)也避免了學(xué)習(xí)速度下降的問題

因?yàn)榻徊骒卦趯ψ兞壳筇荻葧r(shí)砌创,約去了sigmoid函數(shù)項(xiàng)虏缸,所以避免了學(xué)習(xí)速率下降的問題,如下

交叉熵求權(quán)重導(dǎo)
交叉熵求閾值導(dǎo)

一般當(dāng)輸出神經(jīng)元使用sigmoid激活函數(shù)時(shí)嫩实,交叉熵都是更好的選擇

softmax層

softmax函數(shù)也可以用于解決學(xué)習(xí)緩慢的問題刽辙,用softmax函數(shù)代替sigmoid函數(shù)作為激活函數(shù),softmax層的輸出都是一些相加為1的正數(shù)的集合舶赔,可被看作是概率分布

softmax函數(shù)

用log-likelihood函數(shù)作為代價(jià)函數(shù)

log-likelihood

當(dāng)softmax的輸出接近于1時(shí)扫倡,log-likelihood的輸出接近于0,可用作概率分布的代價(jià)函數(shù)。softmax 加上 log-likelihood 的組合更加適用于那些需要將輸出激活值解釋為概率的場景撵溃。

過擬合

在訓(xùn)練集由于迭代的增加代價(jià)函數(shù)會(huì)不斷降低疚鲤,學(xué)習(xí)能力越來越強(qiáng),但但反映在測試集上可能會(huì)出現(xiàn)準(zhǔn)確率或代價(jià)函數(shù)在一段時(shí)間內(nèi)提升后震蕩或衰減的現(xiàn)象缘挑。原因是在學(xué)習(xí)過程中由于參數(shù)眾多集歇,可能導(dǎo)致模型學(xué)習(xí)到訓(xùn)練數(shù)據(jù)本身的性質(zhì)。方法之一是早停语淘,當(dāng)學(xué)習(xí)到驗(yàn)證集的準(zhǔn)確度出現(xiàn)飽和時(shí)诲宇,停止訓(xùn)練』谭或是增加訓(xùn)練樣本姑蓝。
另一種緩解過擬合的方法是規(guī)范化,或稱權(quán)值下降吕粗、L2正則化

L2正則化

規(guī)范化的效果是讓網(wǎng)絡(luò)傾向于學(xué)習(xí)小一點(diǎn)的權(quán)重纺荧,規(guī)范化可以當(dāng)做一種尋找小的權(quán)重和最小化原始的代價(jià)函數(shù)之間的折中。這兩部分之前相對的重要性就由lambda的值來控制了:lambda越小颅筋,就偏向于最小化原始代價(jià)函數(shù)宙暇,反之,傾向于小的權(quán)重议泵。在引入正則化后占贫,參數(shù)的下降會(huì)多減去關(guān)于lambda的一項(xiàng)

正則化的權(quán)重下降

無規(guī)范化的網(wǎng)絡(luò)在隨機(jī)初始化參數(shù)后可能最終會(huì)得到極小值,規(guī)范化網(wǎng)絡(luò)能有效規(guī)避這一問題先口。規(guī)范化網(wǎng)絡(luò)使權(quán)重更小型奥,小的權(quán)重在某種程度上說表示更低的復(fù)雜度。更小的權(quán)重意味著網(wǎng)絡(luò)的行為不會(huì)因?yàn)槲覀冸S便改變了一個(gè)輸入而改變太大池充。這會(huì)讓規(guī)范化網(wǎng)絡(luò)學(xué)習(xí)局部噪聲的影響更加困難桩引。將它看做是一種讓單個(gè)的證據(jù)不會(huì)影響網(wǎng)絡(luò)輸出太多的方式缎讼。相對的收夸,規(guī)范化網(wǎng)絡(luò)學(xué)習(xí)去對整個(gè)訓(xùn)練集中經(jīng)常出現(xiàn)的證據(jù)進(jìn)行反應(yīng)。對比看血崭,大權(quán)重的網(wǎng)絡(luò)可能會(huì)因?yàn)檩斎氲奈⑿「淖兌a(chǎn)生比較大的行為改變卧惜。所以一個(gè)無規(guī)范化的網(wǎng)絡(luò)可以使用大的權(quán)重來學(xué)習(xí)包含訓(xùn)練數(shù)據(jù)中的噪聲的大量信息的復(fù)雜模型。簡言之夹纫,規(guī)范化網(wǎng)絡(luò)受限于根據(jù)訓(xùn)練數(shù)據(jù)中常見的模式來構(gòu)造相對簡單的模型咽瓷,而能夠抵抗訓(xùn)練數(shù)據(jù)中的噪聲的特性影響。我們的想法就是這可以讓我們的網(wǎng)絡(luò)對看到的現(xiàn)象進(jìn)行真實(shí)的學(xué)習(xí)舰讹,并能夠根據(jù)已經(jīng)學(xué)到的知識更好地進(jìn)行泛化茅姜。

簡單概括上述表達(dá),正則化會(huì)將學(xué)習(xí)過程中那些離群點(diǎn)看作噪聲從而減少參數(shù)數(shù)量月匣,簡化學(xué)習(xí)模型钻洒,避免過擬合奋姿。

規(guī)范化的其他技術(shù)

  • L1正則化
  • dropout
  • 人工擴(kuò)展訓(xùn)練數(shù)據(jù)

權(quán)重初始化

當(dāng)采用標(biāo)準(zhǔn)正態(tài)分布(均值0方差1)進(jìn)行權(quán)值初始化時(shí),對于隱層神經(jīng)元的輸入有可能飽和(通過重構(gòu)代價(jià)函數(shù)可以解決輸出神經(jīng)元在錯(cuò)誤值上飽和導(dǎo)致學(xué)習(xí)下降的問題素标,但不能解決隱層的飽和)称诗。可以使用均值0方差1/srqt(n)的正態(tài)分布初始權(quán)重头遭,這樣會(huì)向下擠壓高斯分布寓免,不容易飽和。這樣的初始化不僅僅能夠帶來訓(xùn)練速度的加快计维,有時(shí)候在最終性能上也有很大的提升袜香。

self.biases = [np.random.randn(y, 1) for y in self.sizes[1:]]
self.weights = [np.random.randn(y, x)/np.sqrt(x)
                        for x, y in zip(self.sizes[:-1], self.sizes[1:])]

如何選擇神經(jīng)網(wǎng)絡(luò)的超參數(shù)

  • 學(xué)習(xí)率

通常采用可變的學(xué)習(xí)率更加有效。在學(xué)習(xí)的前期鲫惶,權(quán)重可能非常糟糕困鸥。所以最好是使用一個(gè)較大的學(xué)習(xí)率讓權(quán)重變化得更快。越往后剑按,我們可以降低學(xué)習(xí)率疾就,這樣可以作出更加精良的調(diào)整。一種自然的觀點(diǎn)是使用提前終止的想法艺蝴。就是保持學(xué)習(xí)率為一個(gè)常量知道驗(yàn)證準(zhǔn)確度開始變差猬腰。然后按照某個(gè)量下降學(xué)習(xí)率。

  • 規(guī)范化參數(shù)

我建議猜敢,開始時(shí)不包含規(guī)范化lambda=0姑荷,確定eta的值。使用確定出來的eta缩擂,我們可以使用驗(yàn)證數(shù)據(jù)來選擇好的lambda鼠冕。從嘗試lambda=1.0開始,然后根據(jù)驗(yàn)證集上的性能按照因子10增加或減少其值胯盯。一旦我已經(jīng)找到一個(gè)好的量級懈费,你可以改進(jìn)lambda的值。這里搞定后博脑,你就可以返回再重新優(yōu)化eta憎乙。

  • minibatch大小
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市叉趣,隨后出現(xiàn)的幾起案子泞边,更是在濱河造成了極大的恐慌,老刑警劉巖疗杉,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件阵谚,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)梢什,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進(jìn)店門闻牡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人绳矩,你說我怎么就攤上這事罩润。” “怎么了翼馆?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵割以,是天一觀的道長。 經(jīng)常有香客問我应媚,道長严沥,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任中姜,我火速辦了婚禮消玄,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘丢胚。我一直安慰自己翩瓜,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布携龟。 她就那樣靜靜地躺著兔跌,像睡著了一般。 火紅的嫁衣襯著肌膚如雪峡蟋。 梳的紋絲不亂的頭發(fā)上坟桅,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天,我揣著相機(jī)與錄音蕊蝗,去河邊找鬼仅乓。 笑死,一個(gè)胖子當(dāng)著我的面吹牛蓬戚,可吹牛的內(nèi)容都是我干的夸楣。 我是一名探鬼主播,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼碌更,長吁一口氣:“原來是場噩夢啊……” “哼裕偿!你這毒婦竟也來了洞慎?” 一聲冷哼從身側(cè)響起痛单,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎劲腿,沒想到半個(gè)月后旭绒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年挥吵,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了重父。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,040評論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡忽匈,死狀恐怖房午,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情丹允,我是刑警寧澤郭厌,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站雕蔽,受9級特大地震影響折柠,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜批狐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一扇售、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧嚣艇,春花似錦承冰、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至慌洪,卻和暖如春顶燕,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背冈爹。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工涌攻, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人频伤。 一個(gè)月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓恳谎,卻偏偏與公主長得像,于是被迫代替她去往敵國和親憋肖。 傳聞我的和親對象是個(gè)殘疾皇子因痛,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容