??????? 今天看論文時(shí),突然想到丧靡,費(fèi)了這么大力氣來(lái)到國(guó)內(nèi)最頂尖的科研機(jī)構(gòu)實(shí)習(xí)蟆沫,是不是該每天記錄點(diǎn)什么,雖說(shuō)實(shí)習(xí)生是實(shí)驗(yàn)室里最低級(jí)的存在温治。饭庞。。但是也不能糊里糊涂的浪費(fèi)未來(lái)的半年熬荆。所以舟山,從今天開(kāi)始,每天下班之前惶看,寫(xiě)一點(diǎn)收獲感受啦~
生活:
桌子上終于有了一盆小小的綠植捏顺,同學(xué)說(shuō)叫薄雪萬(wàn)年草,查了一下也叫磯小松纬黎,挺有意思的名字。
在網(wǎng)上買(mǎi)的杯子到了劫窒,終于不用來(lái)來(lái)回回背著保溫杯啦~
科研:
1本今、搞定翻墻問(wèn)題 網(wǎng)址:ssv9s.pw
2、閱讀Semantic Segmentation (語(yǔ)義分割)系列先鋒論文:Pyramid Scene Parsing Network.(PSPNet)。論文里提到了使用金字塔類(lèi)型的一種劃分多級(jí)自區(qū)域方式冠息,來(lái)防止上下文關(guān)系(Context relationship)被忽略和單一向量(vector)造成的模糊和出錯(cuò)挪凑。
涉及新的知識(shí)點(diǎn):
@1:dilated convolution:擴(kuò)張卷積
? ? Dilated convolutions. A recent development (e.g. see paper by Fisher Yu and Vladlen Koltun) is to introduce one more hyperparameter to the CONV layer called the dilation. So far we’ve only discussed CONV filters that are contiguous. However, it’s possible to have filters that have spaces between each cell, called dilation. As an example, in one dimension a filter w of size 3 would compute over input x the following: w[0]*x[0] + w[1]*x[1] + w[2]*x[2]. This is dilation of 0. For dilation 1 the filter would instead compute w[0]*x[0] + w[1]*x[2] + w[2]*x[4]; In other words there is a gap of 1 between the applications. This can be very useful in some settings to use in conjunction with 0-dilated filters because it allows you to merge spatial information across the inputs much more agressively with fewer layers. For example, if you stack two 3x3 CONV layers on top of each other then you can convince yourself that the neurons on the 2nd layer are a function of a 5x5 patch of the input (we would say that the effective receptive field of these neurons is 5x5). If we use dilated convolutions then this effective receptive field would grow much quicker.
@2:FCN(fully convolutional networks)網(wǎng)絡(luò)
全卷積網(wǎng)絡(luò)(FCN)的概念,針對(duì)語(yǔ)義分割訓(xùn)練一個(gè)端到端逛艰,點(diǎn)對(duì)點(diǎn)的網(wǎng)絡(luò)躏碳,達(dá)到了state-of-the-art。這是第一次訓(xùn)練端到端的FCN散怖,用于像素級(jí)的預(yù)測(cè)菇绵;也是第一次用監(jiān)督預(yù)訓(xùn)練的方法訓(xùn)練FCN。FCN主要用到了三種技術(shù):
?1.卷積化(convolutionalization)
分類(lèi)所使用的網(wǎng)絡(luò)通常會(huì)在最后連接全連接層镇眷,它會(huì)將原來(lái)二維的矩陣(圖片)壓縮成一維的咬最,從而丟失了空間信息,最后訓(xùn)練輸出一個(gè)標(biāo)量欠动,這就是我們的分類(lèi)標(biāo)簽永乌。
而圖像語(yǔ)義分割的輸出則需要是個(gè)分割圖,且不論尺寸大小具伍,但是至少是二維的翅雏。所以,我們丟棄全連接層人芽,換上卷積層枚荣,而這就是所謂的卷積化了。
這幅圖顯示了卷積化的過(guò)程,圖中顯示的是AlexNet的結(jié)構(gòu)啼肩,簡(jiǎn)單來(lái)說(shuō)卷積化就是將其最后三層全連接層全部替換成卷積
2.上采樣(Upsampling)
上采樣也就是對(duì)應(yīng)于上圖中最后生成heatmap的過(guò)程橄妆。
在一般的CNN結(jié)構(gòu)中,如AlexNet,VGGNet均是使用池化層來(lái)縮小輸出圖片的size,例如VGG16,五次池化后圖片被縮小了32倍;而在ResNet中祈坠,某些卷積層也參與到縮小圖片size的過(guò)程害碾。我們需要得到的是一個(gè)與原圖像size相同的分割圖,因此我們需要對(duì)最后一層進(jìn)行上采樣赦拘,在caffe中也被稱(chēng)為反卷積(Deconvolution),可能叫做轉(zhuǎn)置卷積(conv_transpose)更為恰當(dāng)一點(diǎn)慌随。
3.跳躍結(jié)構(gòu)(Skip Architecture)
其實(shí)直接使用前兩種結(jié)構(gòu)就已經(jīng)可以得到結(jié)果了,但是直接將全卷積后的結(jié)果上采樣后得到的結(jié)果通常是很粗糙的躺同。所以這一結(jié)構(gòu)主要是用來(lái)優(yōu)化最終結(jié)果的阁猜,思路就是將不同池化層的結(jié)果進(jìn)行上采樣,然后結(jié)合這些結(jié)果來(lái)優(yōu)化輸出