Motivation:對于許多視覺識別任務(wù)來說皮仁,網(wǎng)絡(luò)表示的深度是至關(guān)重要的。然而蝌数,一方面深網(wǎng)絡(luò)并不是直接堆疊就可以愕掏,會面臨梯度消失或爆炸的問題,這個(gè)問題很大程度上被正則化輸入和批量標(biāo)準(zhǔn)化層方法以及Relu激活解決顶伞,使得具有數(shù)十層的網(wǎng)絡(luò)能夠開始收斂于隨機(jī)梯度下降(SGD)和反向傳播饵撑;另一方面剑梳,當(dāng)更深層次的網(wǎng)絡(luò)能夠開始收斂時(shí),網(wǎng)絡(luò)學(xué)習(xí)能力的退化問題開始顯現(xiàn):隨著網(wǎng)絡(luò)深度的增加滑潘,準(zhǔn)確性達(dá)到飽和(這可能不足為奇)垢乙,然后迅速下降。由于訓(xùn)練誤差也隨著層數(shù)增加而提升语卤,所以這個(gè)現(xiàn)象可能并非參數(shù)的增加造成的過擬合追逮。
Solution:我們顯式地將這些層重新設(shè)計(jì)為學(xué)習(xí)輸入層的殘差函數(shù)。顯示的設(shè)計(jì)使得殘差模塊能夠很容易學(xué)習(xí)到恒等函數(shù)粹舵,這確保至少不會降低網(wǎng)絡(luò)的效率钮孵,實(shí)驗(yàn)證明創(chuàng)建類似殘差網(wǎng)絡(luò)可以提升網(wǎng)絡(luò)性能。將預(yù)測H(x)令為預(yù)測F(x)= H(x)- x齐婴,稱為預(yù)測殘差函數(shù)油猫。
Architecture:
Assumpation:如作者所說,他們確認(rèn)了反向傳播中的梯度柠偶,認(rèn)為BN已經(jīng)確保避免了梯度消弭情況的發(fā)生,因此睬关,退化問題不太可能是由于梯度消散引起的诱担。在排除梯度原因之后,作者猜測深層網(wǎng)絡(luò)的退化問題可能是由于普通深層網(wǎng)絡(luò)呈現(xiàn)指數(shù)級低收斂速度導(dǎo)致电爹,至于為什么會這樣蔫仙,還有待研究。