ResNet要解決的問(wèn)題
深度學(xué)習(xí)網(wǎng)絡(luò)的深度對(duì)最后的分類(lèi)和識(shí)別的效果有著很大的影響,所以正常想法就是能把網(wǎng)絡(luò)設(shè)計(jì)的越深越好本慕,但是事實(shí)上卻不是這樣,常規(guī)的網(wǎng)絡(luò)的堆疊(plain network)在網(wǎng)絡(luò)很深的時(shí)候,效果卻越來(lái)越差了。
這里其中的原因之一即是網(wǎng)絡(luò)越深伪货,梯度消失的現(xiàn)象就越來(lái)越明顯,網(wǎng)絡(luò)的訓(xùn)練效果也不會(huì)很好钾怔。
但是現(xiàn)在淺層的網(wǎng)絡(luò)(shallower network)又無(wú)法明顯提升網(wǎng)絡(luò)的識(shí)別效果了碱呼,所以現(xiàn)在要解決的問(wèn)題就是怎樣在加深網(wǎng)絡(luò)的情況下又解決梯度消失的問(wèn)題。
ResNet引入了殘差網(wǎng)絡(luò)結(jié)構(gòu)(residual network)宗侦,通過(guò)殘差網(wǎng)絡(luò)愚臀,可以把網(wǎng)絡(luò)層弄的很深,據(jù)說(shuō)現(xiàn)在達(dá)到了1000多層矾利,最終的網(wǎng)絡(luò)分類(lèi)的效果也是非常好姑裂,殘差網(wǎng)絡(luò)的基本結(jié)構(gòu)如下圖所示
通過(guò)在輸出和輸入之間引入一個(gè)shortcut connection,而不是簡(jiǎn)單的堆疊網(wǎng)絡(luò),這樣可以解決網(wǎng)絡(luò)由于很深出現(xiàn)梯度消失的問(wèn)題男旗,從而可可以把網(wǎng)絡(luò)做的很深舶斧,ResNet其中一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示
之前一直在探究殘差網(wǎng)絡(luò)提出的由來(lái),作者是基于先前的什么知識(shí)才提出殘差網(wǎng)絡(luò)的察皇,咋一看感覺(jué)殘差網(wǎng)絡(luò)提出的很精巧茴厉,其實(shí)就是很精巧,但是現(xiàn)在感覺(jué)非要從殘差的角度進(jìn)行解讀感覺(jué)不太好理解什荣,真正起作用的應(yīng)該就是shortcut連接了矾缓,這才是網(wǎng)絡(luò)的關(guān)鍵之處。
基本的殘差網(wǎng)絡(luò)其實(shí)可以從另一個(gè)角度來(lái)理解稻爬,這是從另一篇論文里看到的嗜闻,如下圖所示:
殘差網(wǎng)絡(luò)單元其中可以分解成右圖的形式,從圖中可以看出桅锄,殘差網(wǎng)絡(luò)其實(shí)是由多種路徑組合的一個(gè)網(wǎng)絡(luò)琉雳,直白了說(shuō)样眠,殘差網(wǎng)絡(luò)其實(shí)是很多并行子網(wǎng)絡(luò)的組合,整個(gè)殘差網(wǎng)絡(luò)其實(shí)相當(dāng)于一個(gè)多人投票系統(tǒng)(Ensembling)翠肘。下面來(lái)說(shuō)明為什么可以這樣理解
如果把殘差網(wǎng)絡(luò)理解成一個(gè)Ensambling系統(tǒng)吹缔,那么網(wǎng)絡(luò)的一部分就相當(dāng)于少一些投票的人,如果只是刪除一個(gè)基本的殘差單元锯茄,對(duì)最后的分類(lèi)結(jié)果應(yīng)該影響很邢崽痢;而最后的分類(lèi)錯(cuò)誤率應(yīng)該適合刪除的殘差單元的個(gè)數(shù)成正比的肌幽,論文里的結(jié)論也印證了這個(gè)猜測(cè)晚碾。
下圖是比較VGG和ResNet分別刪除一層網(wǎng)絡(luò)的分類(lèi)錯(cuò)誤率變化
下圖是ResNet分類(lèi)錯(cuò)誤率和刪除的基本殘差網(wǎng)絡(luò)單元個(gè)數(shù)的關(guān)系
ResNet的確可以做到很深,但是從上面的介紹可以看出喂急,網(wǎng)絡(luò)很深的路徑其實(shí)很少格嘁,大部分的網(wǎng)絡(luò)路徑其實(shí)都集中在中間的路徑長(zhǎng)度上,如下圖所示:
從這可以看出其實(shí)ResNet是由大多數(shù)中度網(wǎng)絡(luò)和一小部分淺度網(wǎng)絡(luò)和深度網(wǎng)絡(luò)組成的廊移,說(shuō)明雖然表面上ResNet網(wǎng)絡(luò)很深糕簿,但是其實(shí)起實(shí)際作用的網(wǎng)絡(luò)層數(shù)并沒(méi)有很深,我們能來(lái)進(jìn)一步闡述這個(gè)問(wèn)題狡孔,我們知道網(wǎng)絡(luò)越深懂诗,梯度就越小,如下圖所示
而通過(guò)各個(gè)路徑長(zhǎng)度上包含的網(wǎng)絡(luò)數(shù)乘以每個(gè)路徑的梯度值苗膝,我們可以得到ResNet真正起作用的網(wǎng)絡(luò)是什么樣的殃恒,如下圖所示
我們可以看出大多數(shù)的梯度其實(shí)都集中在中間的路徑上,論文里稱(chēng)為effective path辱揭。
從這可以看出其實(shí)ResNet只是表面上看起來(lái)很深离唐,事實(shí)上網(wǎng)絡(luò)卻很淺。
原文鏈接: