姓名:周小蓬 16019110037
轉(zhuǎn)載自:http://blog.csdn.net/isuccess88/article/details/54588131
[嵌牛導(dǎo)讀]
殘差網(wǎng)絡(luò)Residual Network自提出之日起就聲名大振摊求,成為大家在介紹深度學(xué)習(xí)近年上位史時(shí)不得不講的網(wǎng)絡(luò)結(jié)構(gòu)。目前引用量已達(dá)1900甸鸟。
[嵌牛鼻子]
人工智能
[嵌牛提問]
如何學(xué)習(xí)殘差網(wǎng)絡(luò)以及步驟
[嵌牛正文]
閱讀原文呀舔,會(huì)發(fā)現(xiàn)通篇出現(xiàn)次數(shù)非常多的一個(gè)詞”degradation”,之前的深度學(xué)習(xí)模型深度加深到一定程度后如果繼續(xù)加深會(huì)使得損失增加(準(zhǔn)確率降低)头遭,下圖表明了誤差和模型深度之間的關(guān)系:
可以看到56層的模型無(wú)論是訓(xùn)練誤差還是測(cè)試誤差都比26層的要大器赞。為什么會(huì)出現(xiàn)這種情況拯腮?假設(shè)現(xiàn)在有一個(gè)稍淺的性能比較好的網(wǎng)絡(luò),現(xiàn)在在它后面加上多層網(wǎng)絡(luò)潮售,并且我們假設(shè)添加的多層網(wǎng)絡(luò)擬合的是恒等函數(shù)痊项,那么新網(wǎng)絡(luò)的性能應(yīng)該和原網(wǎng)絡(luò)一樣好才對(duì)∷址蹋可是實(shí)驗(yàn)證明新網(wǎng)絡(luò)的準(zhǔn)確率降低了鞍泉,這說明額外的多層網(wǎng)絡(luò)并不能很好地?cái)M合恒等函數(shù)“拐剩總結(jié)成數(shù)學(xué)表達(dá)就是:假設(shè)現(xiàn)在我們想用多層網(wǎng)絡(luò)擬合函數(shù)H(x)=x咖驮,但是訓(xùn)練的神經(jīng)網(wǎng)絡(luò)找不到這個(gè)最優(yōu)解。
現(xiàn)在我們粗暴的令
H(x)=F(x)+x训枢,(1)
現(xiàn)在只需要讓F(x)=0就可以得到H(x)=x托修。而公式(1)的一種網(wǎng)絡(luò)結(jié)構(gòu)如下:
上面的F(x)也可以是其他的網(wǎng)絡(luò)結(jié)構(gòu),如卷積層肮砾。
這樣由圖2中的殘差塊組成的殘差網(wǎng)絡(luò)在沒有增加參數(shù)數(shù)量和計(jì)算復(fù)雜度的情況下诀黍,解決了”degradation”問題,從而使得網(wǎng)絡(luò)可以非常非常深仗处。