這篇文章發(fā)表在CVPR2018上维咸,文章目的是做視頻分類和物體檢測,但實際上提出了一個非局部層惠爽,可以嵌入在任意神經(jīng)網(wǎng)絡中提升效果癌蓖。這個思想來源于圖像去噪領域的傳統(tǒng)方法NL-Means,他認為傳統(tǒng)的卷積層只能覆蓋局部的信息婚肆,無法涵蓋全局信息租副,而提出的非局部網(wǎng)絡可以融合時間序列和空間序列的信息。作者提出了CNN和RNN的三個缺點:計算不高效较性;難以優(yōu)化用僧;非局部特征的信息傳遞不夠靈活,功能不夠強大赞咙。所以產(chǎn)生了本文的思想责循。
上式中輸入是x(features),輸出是y攀操,i和j分別代表輸入的某個(空間院仿,時間,時空)位置速和,xi是一個向量歹垫,維數(shù)跟x的channel一樣,f是一個計算任意兩點相似關系的函數(shù)颠放,輸出一個值作為權重排惨,g函數(shù)計算j處這個點的特征。為了計算輸出層的一個點碰凶,需要將輸入的每個點都考慮一遍暮芭,所以這個過程為非局部的鹿驼。
計算流程就如下圖所示,T,H,W代表輸入特征的維度谴麦。其中T是對于視頻幀數(shù)蠢沿,特征圖尺寸為T×H×W×1024 也就是有1024個通道。藍色框表示1×1×1 的卷積操作匾效,這種結(jié)構為512通道的“瓶頸”(bottleneck)結(jié)構舷蟀。對于分割或檢測任務,1x1的卷積壓縮通道數(shù)面哼,形成瓶頸結(jié)構(bottleneck)野宜。或者在f()對應的1x1卷積之后使用pooling來減小H,W魔策,即采樣一部分的j而不是所有的j進行信息融合匈子。
全局的處理方法全連接也是,而全連接就是一個特殊的非局部層闯袒,當任意兩點的相似性僅跟兩點的位置有關虎敦,而與兩點的具體feature無關,即 f(xi,xj)=wij政敢;g是identity函數(shù)其徙, g(x)=x;歸一化系數(shù)為1時就是全連接層了喷户。具體的實驗過程還沒有細看唾那,但將非局部層加到傳統(tǒng)的CNN里可以有很好的提升效果。