2015 ResNet
Resnet 受 VGG的設計啟發(fā)做baseline:
卷積層多為3x3filter蛔添,相同output形狀的層有相同個數(shù)濾波器拣播,如果特征圖變?yōu)橐话氪笮。瑸V波器個數(shù)加倍(為了保存layer的時間復雜性)
進一步增加shortcut做resnet時墩弯,輸入輸出不變時就簡單的加shortcut疯淫,但是遇到維度增加(64->128,128->256)時有兩種選擇:多余的dimension都補0(好處是不增加參數(shù))逞怨,或者用以下公式的線性映射卖怜,(利用1x1卷積做)玻粪。這兩種方法都要以stride=2來做梗逮。
圖片.png
處理:
- 用ImageNet中的圖片项秉,隨機resize[256,480]中的一個大小慷彤,然后crop成224x224. 減去均值娄蔼。
- 應用論文:A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.中的標準顏色augment。
- 在每個CONV后底哗,activation前加上BN層岁诉。
- 應用論文:K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In ICCV, 2015.中的初始化方法。
- mini-batch=256跋选, 用SGD涕癣。weight decay 0.0001,momentum=0.9 初始化學習率為0.1前标,遇到error plateaus就除以10坠韩。
- 共迭代600,000次。
- 不用dropout炼列。
網絡結構:
圖片.png
圖片.png
得出的主要結論有兩個:
- 網絡足夠深的情況下只搁,ResNet效果好
- 網絡一般深,比如這里的18層俭尖,Res能在早期階段提供更快的優(yōu)化氢惋。
圖片.png
圖片中ABC是ResNet三種不同參數(shù)方法:
A:ZERO PADDING 不增加任何參數(shù)
B:維度增加時應用線性映射matrix M
C:每一個shortcut都用線性映射
得出的結論:
差不多。C稍微比AB好稽犁,B稍微比A好焰望。然而我么要考慮到時空消耗所以就不用C
文章又進行了Bottleneck 結構設計,如下圖已亥,最終采取右邊的方式熊赖,第一個1x1卷積負責降維,后一個1x1用于升維虑椎。
left:optionA right:bottleneck
在ImageNet上用的右邊秫舌,做cifar10用的左邊。
cifar10 中net結構
cifar10實驗參數(shù):
- weight decay 0.0001 momentum 0.9绣檬;
- 用了上面說的那篇文章中的初始化足陨,用了BN,沒用dropout娇未;
- minibatch=128 (在倆GPU中 墨缘。。)
- 初始化lr=0.1 在32k和48k時除以10,共訓練了64k (在訓練110層的時先用0.01預熱到80error以下镊讼,約400iter宽涌,然后用0.1);
- 集合分配:45K/5K TRAIN/VAL蝶棋;
- 圖片每邊pad4卸亮,隨機crop32x32(cifar10是28x28原圖好像);
cifar10 不同模型結果
Identity Mappings in Deep Residual Networks
本文主要是改進模型玩裙,更好訓練兼贸。
初始公式,可以發(fā)現(xiàn)有兩部分
左邊:原文 右邊:提出
如果初始公式能改成:
改進
這樣BP傳遞性質也很好
BP