1. 前言
依舊是CVPR 2018的文章脯丝,感覺alignment今年還蠻火的脓钾。
2. 介紹
首先論文中提到了一個(gè)觀點(diǎn)尼夺,全卷積網(wǎng)絡(luò)能夠很好地提取局部特征斩跌,但是卻無法很好的整合全局的信息绍些,因?yàn)樘卣鲗?duì)應(yīng)的感受野都不夠大。
為了克服這個(gè)問題滔驶,人們使用例如:級(jí)聯(lián)遇革,池化卿闹,或者擬合一個(gè)統(tǒng)計(jì)模型(揭糕?),這篇論文提取了一個(gè)新思路來在FCN中引入全局信息锻霎。
關(guān)鍵點(diǎn)是一個(gè)implicit kernel convolution within the network.
論文中提到了全卷積網(wǎng)絡(luò)的幾個(gè)特點(diǎn):
- 不依賴于圖片分辨率
- 不需要bounding box
- 可以處理沒有物體或者多個(gè)物體的情況
- 可以處理cropped和遮擋
- 更少的參數(shù)和內(nèi)存需求
3. Local-global context network
作者采用了heatmap回歸的方式著角,論文的方法能夠考慮到全局的context,并且可以根據(jù)點(diǎn)分布模型來通過后處理優(yōu)化旋恼。
通過使用dilated convolution吏口,可以避免過擬合的問題。冰更?
3.1 預(yù)處理
首先將訓(xùn)練和測(cè)試圖片crop到正方形产徊,在rescale到96*96。作者將圖片都轉(zhuǎn)換為了灰度圖蜀细,作者發(fā)現(xiàn)結(jié)果和RGB差不多舟铜,甚至有時(shí)候更好,這可能是因?yàn)槿ǖ廊菀走^擬合奠衔。
landmark的groundtruth被設(shè)置為灰度圖谆刨,通過線性插值使得包含4個(gè)不為零的像素點(diǎn),它們的和為1.
3.2 Network architecture
如下圖:
總體來說归斤,網(wǎng)絡(luò)包含四個(gè)部分:
- local-context, fully-convolutional network
- convolution with a (customizable) static kernel
- Global-context, dilated fully-convolutional network
- Square error-like loss versus kernel-convolved labels
3.2.1 Local-context subnet
該子網(wǎng)絡(luò)作為局部特征提取器痊夭,提取一些底層的局部landmark特征扼仲,上述圖片中偷俭,該子網(wǎng)絡(luò)是一個(gè)15層的CNN,和一個(gè)1*1的linear convolution谷誓。
3.2.2 Kernel convolution
local-context子網(wǎng)絡(luò)的輸出迫横,通過grouped convolution來進(jìn)行整合番舆,只是group size為1。就是每個(gè)卷積核僅僅和輸入的一個(gè)通道卷積员淫。
它有兩個(gè)目的:
- 像素之間的平方差現(xiàn)在關(guān)聯(lián)了預(yù)測(cè)和ground truth之間的距離
-
global-context子網(wǎng)絡(luò)可以利用dilated合蔽,而不是dense convolution
論文給出了一些解釋。
kernel設(shè)計(jì)如下:
3.2.3 Global-context subnet
該全局子網(wǎng)絡(luò)的目的是整合local子網(wǎng)絡(luò)的信息介返。作者使用了dilated卷積來增大感受野拴事。
3.2.4 Loss
作者根據(jù)N個(gè)landmark是否在圖片邊界內(nèi)來對(duì)它們進(jìn)行加權(quán):
loss定義如下: