01?簡 介
在計(jì)算機(jī)視覺模型中搬素,Self-Attention已經(jīng)成為一種普遍模塊绷耍。盡管它取得了顯著的成就,但對Self-Attention的理解仍然有限忽刽。它的優(yōu)點(diǎn)之一是克服了空間距離對依賴性建模的限制天揖。
與LSTM和門控RNN相比,Self-Attention源于自然語言處理跪帝,在不考慮序列中單詞之間距離的情況下對遠(yuǎn)距離依賴關(guān)系進(jìn)行建模今膊。
在應(yīng)用于視覺模型時(shí),Self-Attention將像素或Patch之間的全局信息聚集起來伞剑。同樣斑唬,與傳統(tǒng)的卷積相比,通過Self-Attention提取的特征不再受局部鄰域的約束黎泣。
而LTSA作者認(rèn)為恕刘,Self-Attention中的全局聚合也會(huì)帶來問題,因?yàn)榫酆系奶卣鞑荒芮宄貐^(qū)分local cues和contextual cues抒倚。
作者從條件隨機(jī)場(CRF)的角度來研究這個(gè)問題褐着,并將其分解為local term和context term。而unary term(Local)和binary term(Context)則基于相同的query托呕、key和value構(gòu)建塊含蓉,并使用相同的投影矩陣計(jì)算。
假設(shè)项郊,使用相同的構(gòu)建模塊的local term和context term將導(dǎo)致問題馅扣,這與Dong等人指出的Self-Attention映射的弱點(diǎn)有關(guān)。
他們從理論上證明了連續(xù)Self-Attention的輸出會(huì)以雙指數(shù)形式收斂到一個(gè)秩1矩陣着降,并從經(jīng)驗(yàn)上驗(yàn)證了這種退化差油。他們還聲稱skip connection可以部分解決排序崩潰問題。
在作者的CRF分析中任洞,skip connection創(chuàng)建了最簡單的local term蓄喇,這相當(dāng)于標(biāo)識(shí)映射食绿。雖然skip connection緩解了這個(gè)問題,但作者認(rèn)為仍然需要設(shè)計(jì)一個(gè)具有更強(qiáng)表示能力的Local term公罕。
02?本文方法
對于提升Local Term的表征能力器紧,作者受全連接條件隨機(jī)場(CRF)的啟發(fā),將自注意力分解為Local term和Context term楼眷。它們對應(yīng)于CRF中的unary term和binary term铲汪,并由投影矩陣的注意力機(jī)制實(shí)現(xiàn)。
作者發(fā)現(xiàn)罐柳,unary term對輸出的貢獻(xiàn)很小掌腰,而標(biāo)準(zhǔn)的CNN僅依賴于unary term,在各種任務(wù)上都取得了很好的性能张吉。
因此齿梁,作者提出了局部增強(qiáng)的自注意力機(jī)制(LESA),它通過將unary term與卷積結(jié)合來增強(qiáng)unary term肮蛹,并利用融合模塊動(dòng)態(tài)耦合unary和binary運(yùn)算勺择。
1.分解Self-Attention
可以將Self-Attention分解為Local term和Context term。
具體來說伦忠,可以將Self-Attention的公式寫成:
對于空間位置(i,j)省核,第一個(gè)Local term通過觀察自身來計(jì)算激活,而第二個(gè)Context term通過觀察他人來計(jì)算激活昆码,然后由softmax來生成貢獻(xiàn)權(quán)重气忠。
因此,輸出混合了局部和上下文特征赋咽。
作者進(jìn)行消融實(shí)驗(yàn)研究旧噪,以調(diào)查這兩個(gè)term的貢獻(xiàn)。具體來說脓匿,采用ResNet50淘钟,并將其最后兩個(gè)階段的卷積層替換為Self-Attention。
可以看到亦镶,Self-Attention主要是由Binary運(yùn)算貢獻(xiàn)的日月,但Unary也很重要袱瓮。雖然Unary項(xiàng)的權(quán)值只取小于2%缤骨,去除它會(huì)導(dǎo)致7.56%的準(zhǔn)確率下降或35%的錯(cuò)誤率相對增加。
通過這種分解方法分析Self-Attention時(shí)尺借,Unary項(xiàng)起著重要作用绊起,但大部分的計(jì)算和重點(diǎn)都集中在Binary運(yùn)算上。
2.?局部增強(qiáng)Self-Attention
添加Unary項(xiàng)和Binary項(xiàng)是一種靜態(tài)的方法燎斩,可以用相等的權(quán)重合并這兩個(gè)項(xiàng)虱歪。更靈活的策略是在不同的情況下給兩者分配權(quán)重蜂绎。
例如,在目標(biāo)檢測中笋鄙,當(dāng)檢測圖像中的多個(gè)小目標(biāo)時(shí)师枣,像素依賴的局部性比上下文更重要。
具體來說萧落,和Sigmoid一起可以將pipeline表示為F+Sigmoid(BN - ReLU - FC - BN - ReLU - FC - BN - Sigmoid)践美。為簡單起見,在公式中省略了位置嵌入找岖。
在設(shè)計(jì)中陨倡,w根據(jù)Unary項(xiàng)和Binary項(xiàng)的內(nèi)容,在不同的空間位置和不同的特征通道中控制它們的相對權(quán)重许布。
3.Unary和Binary Terms的動(dòng)態(tài)融合
添加Unary項(xiàng)和Binary項(xiàng)是合并具有相等權(quán)重的2個(gè)項(xiàng)的靜態(tài)方式兴革。更靈活的策略是在不同情況下按需分配權(quán)重。例如蜜唾,在目標(biāo)檢測中杂曲,當(dāng)檢測圖像中的多個(gè)小目標(biāo)時(shí),像素依賴的局部性比上下文更重要袁余。
這里作者通過將Binary項(xiàng)乘以并自適應(yīng)調(diào)整這2項(xiàng)的相對權(quán)重解阅,如下式所示:
具體來說,和Sigmoid可以表示為:
在設(shè)計(jì)中泌霍,ω取決于Unary項(xiàng)和Binary項(xiàng)的內(nèi)容货抄,并控制它們在不同空間位置和不同特征通道中的相對權(quán)重。這是融合Unary項(xiàng)和Binary項(xiàng)的主要方式朱转。
03?實(shí)驗(yàn)
1.圖像分類
結(jié)果如表所示蟹地。準(zhǔn)確度top-1和top-5中,LESA都超過了卷積和Self-Attention的Baseline藤为。
動(dòng)態(tài)融合模塊使用等式中的w來控制Binary項(xiàng)怪与。則Unary項(xiàng)和Binary項(xiàng)的權(quán)值分別為1+w和w/1+w。由于w依賴于輸入缅疟、空間位置和特征通道分别,在記錄中對它們的權(quán)重進(jìn)行平均。
在自注意中存淫,通過表1中使用的softmax操作計(jì)算權(quán)重耘斩。研究發(fā)現(xiàn),Self-Attention中權(quán)重分布是不平衡的桅咆。Unary項(xiàng)的權(quán)重百分比小于3%括授,比Binary項(xiàng)的權(quán)重百分比小32倍以上。
而對于LESA,它們的權(quán)重百分比分別為67%和33%荚虚。在局部線索尤為重要的目標(biāo)檢測任務(wù)中薛夜,LESA表現(xiàn)出了更好的提高,如表3和表4所示版述。
2.目標(biāo)檢測與實(shí)例分割
結(jié)果如表3和表4所示梯澜。對val2017和test-dev2017使用相同的測試。與所有場景中的卷積渴析、Self-Attention和DCN Baseline相比腊徙,LESA為所有小、中檬某、大目標(biāo)提供了最好的BBox mAP和Mask mAP撬腾。
3.結(jié)果對比
通過上圖可以看出,LESA的效果明顯優(yōu)于CNN和Self-Attention恢恼。
04?總結(jié)
這項(xiàng)工作主要啟發(fā)點(diǎn)是來自于條件隨機(jī)場民傻,從CRF的角度將Self-Attention分解為一階和二階項(xiàng),也就是文中所謂的Unary Term和Binary Term场斑。
對于局部信息和全局信息所對應(yīng)的Local Feature和Global Feature的關(guān)注在之前的各種工作中都沒有得到很好的平衡漓踢;
因此作者針對于這一點(diǎn)提出了自己的觀點(diǎn)設(shè)計(jì)了全新的局部信息增強(qiáng)模塊,也就是LESA注意力機(jī)制漏隐,首先是通過Unary Term與卷積相結(jié)合來增強(qiáng)模型局部信息的表達(dá)能力喧半,
其次,提出了動(dòng)態(tài)化的融合Unary Term和Binary Term青责,進(jìn)而可以更好的讓該模塊適配于不同的下游任務(wù)挺据,比如說針對檢測任務(wù),尤其是其中的小目標(biāo)脖隶,這時(shí)的局部信息就顯得格外的重要扁耐,而針對于分類任務(wù),可能全局信息更為重要产阱,可見動(dòng)態(tài)融合這方面還是一個(gè)不錯(cuò)的Trick的婉称。
但是LESA與標(biāo)準(zhǔn)的Self-Attention一樣,都具有會(huì)消耗大量內(nèi)存的問題构蹬。因?yàn)檫@些計(jì)算量都是由于query與key計(jì)算相似度矩陣多帶來了王暗。目前也有很多工作在嘗試解決這個(gè)問題。