背景
AlexNet(ISVRC2012)
AlexNet有5個(gè)卷積層和3個(gè)全連接層
- 用Relu函數(shù)代替Sigmoid函數(shù)
Gradient Vanishing
Sigmoid函數(shù)在深度網(wǎng)絡(luò)中常常會(huì)導(dǎo)致導(dǎo)數(shù)逐漸變?yōu)?,使得參數(shù)無法被更新,神經(jīng)網(wǎng)絡(luò)無法被優(yōu)化赊窥。原因在于兩點(diǎn):(1) 在上圖中容易看出,當(dāng)x較大或較小時(shí)寥袭,導(dǎo)數(shù)接近0,而后向傳遞的數(shù)學(xué)依據(jù)是微積分求導(dǎo)的鏈?zhǔn)椒▌t关霸,當(dāng)前層的導(dǎo)數(shù)需要之前各層導(dǎo)數(shù)的乘積传黄,幾個(gè)小數(shù)的相乘,結(jié)果會(huì)很接近0 (2) Sigmoid導(dǎo)數(shù)的最大值是0.25队寇,這意味著導(dǎo)數(shù)在每一層至少會(huì)被壓縮為原來的1/4尝江,通過兩層后被變?yōu)?/16,…英上,通過10層后為1/1048576。
Dropout
在前向傳導(dǎo)過程中啤覆,以一定的概率P使某個(gè)神經(jīng)元停止工作苍日。在同一網(wǎng)絡(luò)里模擬出更多的組合的子網(wǎng)絡(luò),再求模型平均窗声,從而防止過擬合相恃。
Data Augmentation
通過數(shù)據(jù)增強(qiáng),也可以防止過擬合笨觅,提高魯棒性拦耐。
- 顏色增強(qiáng)(包括圖像亮度、飽和度见剩、對(duì)比度)
- 隨機(jī)剪裁
- 旋轉(zhuǎn)杀糯、平移、翻轉(zhuǎn)苍苞、縮放變換
- 噪聲(高斯噪聲固翰、椒鹽噪聲)
VGG16-19
- 增加層數(shù)
通過在現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,不斷增加3*3卷積核羹呵,當(dāng)深度增加到16-19層時(shí)骂际,識(shí)別效果有較大提升。 - 采用小的卷積核
更少的訓(xùn)練參數(shù)
GoogleNet(Inception)
- 通過采用不同大小的卷積核提取特征在進(jìn)行聯(lián)合冈欢。意味著不同大小的感受野歉铝,最后拼接意味著不同尺度特征的融合;
- 不使用FC層
使用Global Average Pooling取代最后的全連接層凑耻,因?yàn)槿B接層參數(shù)多且易過擬合太示。做法即移除全連接層柠贤,在最后一層(文中使用mlpconv)層,后面加一層Average Pooling層先匪。
ResNet-50种吸、101、152
退化問題(隨著模型深度增加呀非,學(xué)習(xí)能力增強(qiáng)坚俗,性能卻比淺的模型差。因?yàn)楫?dāng)模型變復(fù)雜時(shí)岸裙,SGD的優(yōu)化變得更加困難猖败,導(dǎo)致了模型達(dá)不到好的學(xué)習(xí)效果。)
*增加shortcut connection
這一想法源于圖像處理中的殘差向量編碼降允,通過一個(gè)reformulation恩闻,將一個(gè)問題分解成多個(gè)尺度直接的殘差問題,能夠很好的起到優(yōu)化訓(xùn)練的效果剧董。
DenseNet
why幢尚?結(jié)果說明一切。翅楼。
- 省參數(shù)和計(jì)算量
DenseNet 比其他網(wǎng)絡(luò)效率更高尉剩,其關(guān)鍵就在于網(wǎng)絡(luò)每層計(jì)算量的減少以及特征的重復(fù)利用。DenseNet 的每一層只需學(xué)習(xí)很少的特征毅臊,使得參數(shù)量和計(jì)算量顯著減少理茎。 - 抗過擬合
DenseNet 具有非常好的抗過擬合性能,尤其適合于訓(xùn)練數(shù)據(jù)相對(duì)匱乏的應(yīng)用管嬉。神經(jīng)網(wǎng)絡(luò)每一層提取的特征都相當(dāng)于對(duì)輸入數(shù)據(jù)的一個(gè)非線性變換皂林,而隨著深度的增加,變換的復(fù)雜度也逐漸增加(更多非線性函數(shù)的復(fù)合)蚯撩。相比于一般神經(jīng)網(wǎng)絡(luò)的分類器直接依賴于網(wǎng)絡(luò)最后一層(復(fù)雜度最高)的特征础倍,DenseNet 可以綜合利用淺層復(fù)雜度低的特征,因而更容易得到一個(gè)光滑的具有更好泛化性能的決策函數(shù)