https://arxiv.org/pdf/1603.05027.pdf
本文是對于ResNet進(jìn)一步的分析,并且做了結(jié)構(gòu)上的小小改動(dòng)埠况,使模型的性能更好燕侠。先看一下做的小小改動(dòng)吧:
? ? 文中先是解釋了一下ResNet之所以work的原因是因?yàn)橛捎赗esidual Unit的存在缘眶,feature間數(shù)值的傳遞可以表達(dá)為以下的形式:
? ? 所以在梯度傳遞時(shí)棒动,表達(dá)形式為:
? ? 這樣保證了梯度可以被傳遞到任意的淺層。而不會(huì)在經(jīng)過重重weights的剝削后消失。
? ? 而當(dāng)identity shortcut有其他參數(shù)介入的情況下,梯度傳播就會(huì)變?yōu)椋?/p>
這樣又會(huì)導(dǎo)致梯度的指數(shù)倍的膨脹和消失梨睁,是不利于梯度傳導(dǎo)的。
除了理論上的推導(dǎo)意外娜饵,作者當(dāng)然也嘗試了不同的connect方法來做實(shí)驗(yàn),模型結(jié)構(gòu)變化如下:
不同的連接結(jié)構(gòu)
不同連接的error
可以看出新的connect結(jié)構(gòu)的效果都不如原有的結(jié)果官辈,這也和理論推導(dǎo)的結(jié)論是相同的箱舞。
此外,作者繼續(xù)探索了activation對于模型的影響拳亿,不同嘗試如下:
不同的activation
不同activation的實(shí)驗(yàn)結(jié)果
可以看出full pre-activation的結(jié)構(gòu)效果超過了原有結(jié)構(gòu)晴股。作者認(rèn)為是因?yàn)樵冀Y(jié)構(gòu)中每個(gè)Unit的輸出在進(jìn)入到weights層之前沒有經(jīng)過BN。