生活:
今天累成狗了......柱子哥讓我做關于video feature flow主線的PPT茂卦,然后在組會上講...我一個剛來不到1個月的實習生冤留,這簡直太看得起我了璧榄。。亿驾。
中午吃的那個炸鮮奶挺好吃的~
科研:
1.VGG:
基于CNN經(jīng)典的五大模型在上面的鏈接里都簡單介紹啦郭蕉,下面主要說VGG和Alexnet:
VGG相對來說,有更準確的估值喂江,更節(jié)省空間召锈。
先解釋幾個仍然不清楚的概念:
@1:filter(過濾器)——相當于一套卷積參數(shù),每個Filter都可以把原始輸入圖像卷積得到一個Feature Map开呐,三個Filter就可以得到三個Feature Map.
@2:channel(通道)——我們可以把Feature Map可以看做是通過卷積變換提取到的圖像特征烟勋,三個Filter就對原始圖像提取出三組不同的特征,也就是得到了三個Feature Map筐付,也稱做三個通道(channel)
VGG結(jié)構(gòu):
與AlexNet相同點
1.最后三層FC層(Fully Connected全連接層)結(jié)構(gòu)相同卵惦。
2.都分成五層(組)。
3.每層和每層之間用pooling層分開瓦戚。
不同點
1.AlexNet每層僅僅含有一個Convolution層沮尿,filter的大小7x7(很大);而VGG每層含有多個(2~4)個Convolution層较解,filter的大小是3x3(最行蠹病)。很明顯印衔,VGG是在模仿Alex的結(jié)構(gòu)啡捶,然而它通過降低filter的大小,增加層數(shù)來達到同樣的效果奸焙。我提出我的一個對這種模仿的一種我自己的理解瞎暑。因為不是論文中講到,僅僅是我自己的理解与帆,僅供大家參考了赌。
作者在論文中說了一句
"This can be seen as imposing a regularisation on the 7 × 7 conv. filters, forcing them to have a decomposition through the 3 × 3 filters"
他說7x7 filter可以被分解成若干個3x3的filter的疊加。
類比一下n維空間的向量x玄糟,x的正交分解
x = x1(1, 0, 0, ....) + x2(0, 1, 0, ...) + x3(0, 0, 1,...) + ... + xn(0, 0, 0, ..., 1)
每一組的每一層的filter被類比成n維歐幾里得空間的基底勿她。
若VGG的一組含有3層3x3的filter,則我們則假設一個7x7的filter可以被分解成3種“正交”的3x3的filter阵翎。
作者原文:First, we incorporate three non-linearrectification layers instead of a single one, which makes the decision function more discriminative.Second, we decrease the number of parameters: assuming that both the input and the output of athree-layer 3 × 3 convolution stack has C channels, the stack is parametrised by 3? 32C^2 = 27C^2weights; at the same time, a single 7 × 7 conv. layer would require 72C^2 = 49C^2
2.AlexNet的Channel明顯小于VGG逢并。猜測VGG的之所以能夠達到更高的精準性,源自于更多的Channel數(shù)郭卫。而由于filter size的減小筒狠,channel可以大幅度增加,更多的信息可以被提取箱沦。
作者:voidrank
鏈接:http://www.reibang.com/p/9c6d90e4f20e