<p>
</p><h1><span style="font-size:16px">
</span></h1><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-7cca89770e970d8d.jpeg" img-data="{"format":"jpeg","size":80477,"height":668,"width":982}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><p>
</p><h1><span style="font-size:16px">本篇分享論文</span><span style="font-size:16px"><strong>『Peripheral Vision Transformer』</strong></span><span style="font-size:16px">,POSTECH&MSRA&中科大提出PerViT单旁,讓神經(jīng)網(wǎng)絡(luò)也能關(guān)注圖片中的重點信息吟温!</span></h1><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">詳細(xì)信息如下:
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-af41f069fb6366d6.jpeg" img-data="{"format":"jpeg","size":34589,"height":342,"width":862}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><p>
</p><ol><li><p style="text-indent:0px"><span style="font-size:15px">論文地址:https://arxiv.org/abs/2206.06801</span></p></li><li><p style="text-indent:0px"><span style="font-size:15px">項目地址:http://cvlab.postech.ac.kr/research/PerViT/ (尚未開源)</span></p></li></ol><h1>
</h1><p>
</p><p><span><strong> </strong></span><span style="font-size:19px"><strong>01 </strong></span><span><strong> </strong></span></p><h1><strong><span style="font-size:18px">摘要</span></strong></h1><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">人類視覺擁有一種特殊類型的視覺處理系統(tǒng)姑尺,稱為</span><span style="font-size:16px"><strong>外圍視覺(peripheral vision)</strong></span><span style="font-size:16px">厂抖。根據(jù)到凝視中心的距離將整個視野劃分為多個輪廓區(qū)域灸眼,外圍視覺為人類提供了感知不同區(qū)域的各種視覺特征的能力卧檐。</span></p><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">在這項工作中,作者采用了一種受生物學(xué)啟發(fā)的方法焰宣,并探索在深度神經(jīng)網(wǎng)絡(luò)中對外圍視覺進行建模以進行視覺識別霉囚。作者提出將外圍位置編碼合并到多頭自注意力層中,以讓網(wǎng)絡(luò)學(xué)習(xí)在給定訓(xùn)練數(shù)據(jù)的情況下將視野劃分為不同的外圍區(qū)域匕积。</span></p><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">作者在大規(guī)模 ImageNet 數(shù)據(jù)集上評估了本文提出的網(wǎng)絡(luò)PerViT盈罐,并系統(tǒng)地研究了機器感知模型的內(nèi)部工作原理,表明該網(wǎng)絡(luò)學(xué)習(xí)感知視覺數(shù)據(jù)的方式類似于人類視覺的方式闪唆。在各種模型大小的圖像分類任務(wù)中的最新性能證明了所提出方法的有效性盅粪。</span></p><p>
</p><p>
</p><p><span><strong> </strong></span><span style="font-size:19px"><strong>02 </strong></span><span><strong> </strong></span></p><h1><strong><span style="font-size:18px">Motivation</span></strong></h1><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">在過去的十年中,卷積一直是視覺識別神經(jīng)網(wǎng)絡(luò)中的主要特征轉(zhuǎn)換悄蕾,因為它在圖像空間配置建模方面具有優(yōu)勢票顾。盡管在學(xué)習(xí)視覺模式方面很有效,但卷積核的局部和靜止特性限制了靈活處理中表示能力的最大程度帆调,例如奠骄,具有全局感受野的動態(tài)變換。</span></p><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">自注意力最初是為自然語言處理 (NLP) 設(shè)計的番刊,它闡明了這個方向含鳞;配備自適應(yīng)輸入處理和捕獲遠(yuǎn)程交互的能力,它已成為計算機視覺的替代特征變換芹务,被廣泛用作核心構(gòu)建塊蝉绷。</span></p><p><span style="font-size:16px">
然而,獨立的自注意模型枣抱,例如 ViT熔吗,需要更多的訓(xùn)練數(shù)據(jù)才能與其卷積對應(yīng)物的競爭性能,因為它們錯過了卷積的某些理想屬性沃但,例如磁滚,局部性。卷積和自注意力的這些固有優(yōu)缺點鼓勵了最近對兩者結(jié)合的研究宵晚,以便享受兩全其美,但哪一種最適合有效的視覺處理维雇,但在文獻中尚有爭議淤刃。</span></p><p><span style="font-size:16px">
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-ee265106905a18a1.jpeg" img-data="{"format":"jpeg","size":33322,"height":481,"width":329}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">與機器視覺中占主導(dǎo)地位的視覺特征轉(zhuǎn)換不同,人類視覺擁有一種特殊類型的視覺處理系統(tǒng)吱型,稱為</span><span style="font-size:16px"><strong>外圍視覺(peripheral vision)</strong></span><span style="font-size:16px">逸贾。它根據(jù)到凝視中心的距離將整個視覺劃分為多個輪廓區(qū)域,其中每個區(qū)域標(biāo)識不同的視覺方面。如上圖所示铝侵,人類在注視中心附近(即中心和準(zhǔn)中心區(qū)域)進行了高分辨率處理灼伤,以識別高度詳細(xì)的視覺元素,例如幾何形狀和低級細(xì)節(jié)咪鲜。</span></p><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">對于距離注視更遠(yuǎn)的區(qū)域狐赡,即中部和遠(yuǎn)邊緣區(qū)域,分辨率會降低以識別抽象的視覺特征疟丙,例如運動和高級上下文颖侄。這種系統(tǒng)化的策略使人類能夠有效地感知一小部分(1%)視野內(nèi)的重要細(xì)節(jié),同時最大限度地減少對其余部分(99%)背景雜波的不必要處理享郊,從而促進人腦的高效視覺處理览祖。</span></p><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">根據(jù)最近對視覺Transformer內(nèi)部工作原理的研究,它們的行為實際上與外圍視覺的功能密切相關(guān)炊琉。學(xué)習(xí)早期層的注意力圖以局部捕獲中心區(qū)域的細(xì)粒度幾何細(xì)節(jié)展蒂,而后面層的注意力圖則執(zhí)行全局注意力以從整個視野中識別粗粒度語義和上下文,覆蓋外圍區(qū)域苔咪。
</span></p><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">這些發(fā)現(xiàn)表明玄货,模仿生物設(shè)計可能有助于對有效的機器視覺進行建模,并且還支持最近實現(xiàn)卷積和自注意的混合方法悼泌,而不僅僅是獨立的視覺處理松捉。兩種不同感知策略的優(yōu)勢:</span><strong><span style="font-size:16px">細(xì)粒度/局部</span></strong><span style="font-size:16px">和</span><span style="font-size:16px"><strong>粗粒度/全局</strong></span><span style="font-size:16px">。</span></p><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">在這項工作中馆里,作者采用了一種受生物學(xué)啟發(fā)的方法隘世,并提出將外圍歸納偏置注入深度神經(jīng)網(wǎng)絡(luò)以進行圖像識別。作者提出將外圍注意力機制結(jié)合到多頭自注意力中鸠踪,以讓網(wǎng)絡(luò)學(xué)習(xí)在給定訓(xùn)練數(shù)據(jù)的情況下將視野劃分為不同的外圍區(qū)域丙者,其中每個區(qū)域捕獲不同的視覺特征。作者通過實驗表明营密,所提出的網(wǎng)絡(luò)對有效的視覺外圍進行了建模械媒,以實現(xiàn)可靠的視覺識別。</span></p><p><span style="font-size:16px">
</span></p><p><span style="font-size:16px">本文的主要</span><span style="font-size:16px"><strong>貢獻</strong></span><span style="font-size:16px">可以總結(jié)如下:</span></p><ol><li><p><span style="font-size:16px">這項工作探索通過將外圍歸納偏置注入自注意力層來縮小人類和機器視覺之間的差距评汰,并提出了一種稱為多頭外圍注意 (MPA) 的新形式的特征轉(zhuǎn)換纷捞。</span></p></li><li><p><span style="font-size:16px">在 MPA 的基礎(chǔ)上,作者引入 PerViT(PerViT)被去,并通過定性和定量分析 PerViT 的學(xué)習(xí)注意力系統(tǒng)地研究 PerViT 的內(nèi)部工作原理主儡,這揭示了網(wǎng)絡(luò)學(xué)習(xí)感知視覺元素的方式類似于人類視覺沒有的方式任何特殊監(jiān)督。</span></p></li><li><p><span style="font-size:16px">不同模型大小的圖像分類任務(wù)的最新性能驗證了所提出方法的有效性惨缆。</span></p></li></ol><h1><span style="font-size:16px">
</span></h1><p><span style="font-size:16px">
</span></p><p><span><strong> </strong></span><span style="font-size:19px"><strong>03 </strong></span><span><strong> </strong></span></p><h1><strong><span style="font-size:18px">方法</span></strong>
</h1><p><span style="font-size:16px">
</span></p><span style="font-size:16px">具有<span/>個頭的多頭自注意力 (MHSA)通過聚合<span/>個自注意力輸出來執(zhí)行基于注意力的特征轉(zhuǎn)換:</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-446372de7b778e01.jpeg" img-data="{"format":"jpeg","size":5947,"height":56,"width":498}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><span style="font-size:16px">
</span><span style="font-size:16px">其中<span/>是一組輸入token糜值,<span/>和<span/>是轉(zhuǎn)換參數(shù)丰捷。自注意力的<span/>個輸出旨在從輸入表示中提取一組不同的特征。形式上,head h 的 self-attention 定義為:</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-56d98a8d37c6427f.jpeg" img-data="{"format":"jpeg","size":4922,"height":42,"width":454}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><span style="font-size:16px">
</span><span style="font-size:16px">其中 Normalize[·] 表示逐行歸一化,<span/>是一個基于內(nèi)容信息提供空間注意力以聚合值<span/>的函數(shù):</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-e1532249a9fd6d6b.jpeg" img-data="{"format":"jpeg","size":6090,"height":47,"width":544}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">使用<span/>的線性投影分別用于查詢鞠柄、鍵和值。</span><h2><span><strong><span style="font-size:16px">3.1 Peripheral Vision Transformer</span></strong></span></h2><span style="font-size:16px">基于 MHSA 的公式停巷,作者將多頭外圍注意 (MPA) 定義為:</span>
<div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-f5556a1ba86ccd6d.jpeg" img-data="{"format":"jpeg","size":6508,"height":42,"width":565}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><p>
</p><span style="font-size:16px">其中</span><span style="font-size:16px">是具有</span><span style="font-size:16px">通道維度的相對位置編碼。MHSA 中的 self-attention 現(xiàn)在被 Peripheral-Attention 取代累贤,由基于內(nèi)容和位置的注意力函數(shù)</span><span style="font-size:16px">組成叠穆,定義為:</span>
<div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-7323c40a5f3de0d2.jpeg" img-data="{"format":"jpeg","size":7417,"height":53,"width":646}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><span style="font-size:16px">其中</span><span style="font-size:16px">是 Hadamard 積臼膏,它混合了給定的注意力對以提供混合注意力</span><span style="font-size:16px">硼被。對于基于內(nèi)容的注意力</span><span style="font-size:16px">,作者在查詢和鍵之間使用指數(shù)(縮放)點積:</span><span style="font-size:16px">渗磅。對于基于位置的注意力</span><span style="font-size:16px">嚷硫,作者設(shè)計了一個旨在模仿人類視覺系統(tǒng)(例如外圍視覺)的神經(jīng)網(wǎng)絡(luò)。</span><strong><span style="font-size:16px"/></strong><h3><strong><span style="font-size:16px">Modelling peripheral vision: a Roadmap</span></strong></h3><span style="font-size:16px">人類視野可以根據(jù)與注視中心的歐式距離分為幾個區(qū)域始鱼,每個區(qū)域形成如圖1所示的環(huán)形區(qū)域仔掸,其中每個區(qū)域捕獲不同的視覺方面;離凝視越近医清,處理的特征越復(fù)雜起暮,離凝視越遠(yuǎn),感知的視覺特征就越簡單会烙。</span><span style="font-size:16px">
</span><span style="font-size:16px">在二維注意力圖<span/>的上下文中负懦,作者將查詢位置<span/>,即感興趣的特征所在的位置進行變換柏腻,作為注視中心纸厉,局部查詢周圍的區(qū)域為中心/準(zhǔn)中心區(qū)域,其余為中/遠(yuǎn)外圍區(qū)域五嫂。</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-7257e72fd00735fb.jpeg" img-data="{"format":"jpeg","size":32584,"height":369,"width":422}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">也許將視野劃分為多個子區(qū)域的最簡單方法是對歐式距離執(zhí)行單個線性投影颗品,即<span/>,其中<span/>,為了直接模仿外圍視覺沃缘,作者使用歐式距離作為相對位置輸入 R躯枢,并以<span/>種不同方式權(quán)衡距離,以便網(wǎng)絡(luò)學(xué)習(xí)多個尺度的映射:<span/>孩灯,其中<span/>是一組跨層和頭共享的可學(xué)習(xí)參數(shù)闺金,并且<span/>是查詢和鍵位置之間的歐式距離,<span/>峰档。</span><span style="font-size:16px">
對于 σ败匹,作者選擇 sigmoid 來為基于內(nèi)容的注意力<span/>提供歸一化權(quán)重。這種單層公式的一個主要缺點是<span/>只能提供如上圖左上角所示的類似高斯的注意力圖讥巡,因此無法表示不同的外圍區(qū)域掀亩。對于表示不同(環(huán)形)外圍區(qū)域的編碼函數(shù),距離必須由 MLP 處理:</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-a91ec0cf2f2c78d2.jpeg" img-data="{"format":"jpeg","size":8354,"height":59,"width":720}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><span style="font-size:16px">
</span><span style="font-size:16px">其中<span/>和<span/> 是線性投影參數(shù)欢顷,ReLU 賦予函數(shù)非線性槽棍。第一個投影<span/>在頭之間共享以交換信息,因此每個特征都能夠提供對其他頭注意力有效或互補的注意力抬驴。給定固定查詢點<span/>和關(guān)鍵點<span/>之間的相同相對距離炼七,即<span/>,上式提供了相同的注意力分?jǐn)?shù):<span/>布持,如上圖的右上角所示豌拙。</span><span style="font-size:16px">
</span><span style="font-size:16px">然而,在實際場景中并不總是需要此屬性题暖,因為旋轉(zhuǎn)對稱屬性幾乎不適用于大多數(shù)現(xiàn)實世界的對象按傅。為了打破上式中的對稱屬性,并充分保留外圍設(shè)計胧卤,作者引入</span><span style="font-size:16px"><strong>外圍投影(peripheral projection)</strong></span><span style="font-size:16px">唯绍,其中變換參數(shù)被賦予小的空間分辨率,使得<span/>和<span/>枝誊,因此它們提供相似但不同的注意力分?jǐn)?shù)况芒,<span/>。給定<span/>叶撒,通過參考鍵周圍的相鄰相對距離:</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-1d51a3ec25d3585e.jpeg" img-data="{"format":"jpeg","size":8578,"height":81,"width":665}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><span style="font-size:16px">
</span><span style="font-size:16px">其中<span/>是一個提供輸入位置周圍的一組鄰域的函數(shù)绝骚。在每個外圍投影之后,作者添加一個實例歸一化層以進行穩(wěn)定優(yōu)化:</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-00b77569742ccd1f.jpeg" img-data="{"format":"jpeg","size":9245,"height":57,"width":795}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><span style="font-size:16px">
</span><span style="font-size:16px">其中<span/>是實例范數(shù)的權(quán)重/偏置痊乾。上圖的中間行描繪了具有外圍投影的<span/>的學(xué)習(xí)注意力皮壁,與沒有 N 的單層和多層對應(yīng)物相比,它提供了更多樣化的外圍注意力圖哪审。</span><h3><strong><span style="font-size:16px">Peripheral initialization</span></strong></h3><span style="font-size:16px">最近的研究觀察到蛾魄,受過訓(xùn)練的視覺Transformer的早期層學(xué)習(xí)局部關(guān)注,而后期層則執(zhí)行全局關(guān)注湿滓。為了促進本文網(wǎng)絡(luò)的訓(xùn)練滴须,作者在訓(xùn)練階段的開始注入這個屬性,為此目的通過初始化 <span/>的參數(shù)叽奥,使靠近查詢的注意力分?jǐn)?shù)大于早期層中較遠(yuǎn)的查詢扔水,同時均勻地分布在后期層中,如上圖的底行所示朝氓。</span><span style="font-size:16px">
</span><span style="font-size:16px">作者將此方法稱為</span><span><strong><span style="font-size:16px">外圍初始化( peripheral initialization)</span></strong></span><span style="font-size:16px">魔市,因為它類似于外圍視覺的特征主届,外圍視覺也可以在局部或全局范圍內(nèi)操作以感知不同的視覺。給定兩個任意選擇的距離<span/>待德,滿足<span/> 君丁,作者希望<span/>,即早期層的局部注意力将宪。</span>
<span style="font-size:16px">對于后期層的全局注意力绘闷,作者希望<span/>。作者首先將<span/>和<span/>的參數(shù)初始化為特定值较坛。具體來說印蔗,對于所有層<span/>和 head <span/>:</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-764bd49585f6ca3b.jpeg" img-data="{"format":"jpeg","size":7274,"height":40,"width":825}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div><span style="font-size:16px">
</span><span style="font-size:16px">其中<span/>是正實數(shù),<span/>指的是大小為 N × M 的全一矩陣丑勤。上述初始化在第二次外圍投影后提供局部注意力华嘹,即給定<span/>,<span/>确封。</span><span style="font-size:16px">
</span><span style="font-size:16px">接下來除呵,基于本文的發(fā)現(xiàn),即第二實例范數(shù)中的偏差<span/>和權(quán)重<span/>分別控制局部注意力的大小和強度爪喘,通過將它們的初始值設(shè)置為<span/>來模擬外圍初始化颜曾,其中<span/>是注意力大小和強度的初始值集。</span><h2><span><strong><span style="font-size:16px">3.2 Overall Architecture</span></strong></span></h2><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-8a7fd40640f15d10.jpeg" img-data="{"format":"jpeg","size":35647,"height":382,"width":433}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">基于提出的外圍投影和初始化秉剑,作者開發(fā)了稱為外圍視覺Transformer的圖像分類模型泛豪,如上圖所示。原始的 patchify stem由于其粗粒度的早期視覺處理而表現(xiàn)出不合標(biāo)準(zhǔn)的可優(yōu)化性侦鹏,因此許多最近的 ViT 模型采用多分辨率金字塔設(shè)計來緩解該問題诡曙。</span><span style="font-size:16px">
</span><span style="font-size:16px">雖然金字塔模型在學(xué)習(xí)可靠的圖像嵌入方面已經(jīng)顯示出它們的功效,但作者堅持使用 PerViT 的原始單分辨率圓柱形設(shè)計略水,因為多分辨率的特征使本文的研究難以解釋价卤。為了進行細(xì)粒度的早期處理,同時保持跨層的單分辨率特征渊涝,作者采用卷積patch嵌入層慎璧,通道尺寸具有多階段布局。卷積嵌入層由四個 3×3 和一個 1×1 卷積組成跨释,其中 3×3 卷積后面是BatchNorm和ReLU胸私。</span><h3><strong><span style="font-size:16px">Peripheral Vision Transformer</span></strong><span style="font-size:16px"> </span></h3><span style="font-size:16px">給定一張圖像,卷積patch嵌入提供了token嵌入<span/>鳖谈。嵌入被饋送到<span/>個塊岁疼,每個塊由一個 MPA 層和一個帶有殘差路徑的前饋網(wǎng)絡(luò)組成:</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-79c79f4675cf91f6.jpeg" img-data="{"format":"jpeg","size":6927,"height":44,"width":700}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">其中 LN 是層歸一化,F(xiàn)FN 是由兩個帶有 GELU 激活的線性變換組成的 MLP缆娃。</span><span style="font-size:16px">作者在第一層歸一化之前采用卷積位置編碼 (CPE)捷绒,即 3 × 3 深</span><span style="font-size:16px">度卷積瑰排。</span><span style="font-size:16px">輸出</span><span style="font-size:16px"/><span style="font-size:16px">被全局平</span><span style="font-size:16px">均池化以形成圖像嵌入。</span><h1><span style="font-size:16px">
</span></h1><p><span style="font-size:16px">
</span></p><p><span><strong> </strong></span><span style="font-size:19px"><strong>04 </strong></span><span><strong> </strong></span></p><h1><strong><span style="font-size:18px">實驗</span></strong></h1><p><span style="font-size:16px">
</span></p><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-002d1b35d3ac1e3a.jpeg" img-data="{"format":"jpeg","size":24584,"height":234,"width":475}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">上圖展示了<span/>學(xué)習(xí)到的注意力圖疙驾,可以觀察到注意力被學(xué)習(xí)到處于不同形狀的外圍區(qū)域中凶伙。</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-32f7c1095e6d765a.jpeg" img-data="{"format":"jpeg","size":17326,"height":221,"width":351}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">上圖的餅圖描述了 Tiny郭毕、Small 和 Medium 模型的外圍區(qū)域的比例它碎,其中條形圖以分層方式顯示它們。</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-50893fe9a3f330f8.jpeg" img-data="{"format":"jpeg","size":62765,"height":404,"width":845}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">為了研究基于位置的注意力<span/>如何對混合注意力<span/> 做出貢显押,作者收集樣本圖像并將其在上圖中的第 3扳肛、4 和 8 層的注意力圖可視化。</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-cec9b99e4d72e944.jpeg" img-data="{"format":"jpeg","size":48139,"height":260,"width":875}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">如上圖所示乘碑,作者觀察到一個明顯的趨勢挖息,即基于位置的注意力的影響在早期處理中顯著更高,半動態(tài)地轉(zhuǎn)換特征兽肤,而后面的層需要較少的位置信息套腹,將<span/>視為較小的位置偏差。這種趨勢隨著更大的模型變得更加明顯资铡,如上圖右側(cè)所示电禀;與 Tiny 模型相比,Small 和 Medium 模型更多地利用動態(tài)轉(zhuǎn)換笤休,尤其是在后面的層中尖飞。</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-15263d690ee1cad6.jpeg" img-data="{"format":"jpeg","size":35017,"height":222,"width":846}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">如上圖所示,作者觀察到<span/>之間相似的局部性趨勢店雅,這表明位置信息在形成用于特征轉(zhuǎn)換的空間注意力 (<span/>) 方面比內(nèi)容信息更占主導(dǎo)地位政基。</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-26be26f03fe5a15a.jpeg" img-data="{"format":"jpeg","size":48475,"height":419,"width":578}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">上表展示了本文方法和SOTA方法的對比結(jié)果。</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-dbecdee52503bf6b.jpeg" img-data="{"format":"jpeg","size":18183,"height":223,"width":322}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">上表展示了不同相對位置編碼的結(jié)果對比闹啦。</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-e4cc6f585ba68dc4.jpeg" img-data="{"format":"jpeg","size":23445,"height":221,"width":523}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">上表展示了本文方法的不同模塊的消融結(jié)果沮明。</span><span style="font-size:16px">
</span><div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/11486041-6af4ae41c6882d92.jpeg" img-data="{"format":"jpeg","size":28742,"height":425,"width":272}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>
<span style="font-size:16px">上表展示了不同的初始化方法和網(wǎng)絡(luò)設(shè)計對實驗結(jié)果的影響。</span><h1><span style="font-size:16px">
</span></h1><p><span style="font-size:16px">
</span></p><p><span><strong> </strong></span><span style="font-size:19px"><strong>05 </strong></span><span><strong> </strong></span></p><h1><strong><span style="font-size:18px">總結(jié)</span></strong>
</h1><p><span style="font-size:16px">
</span></p><span style="font-size:16px">本文探索了將人類周邊視覺與機器視覺相結(jié)合以實現(xiàn)有效的視覺識別窍奋,并提出了周邊視覺Transformer荐健,該Transformer學(xué)習(xí)提供各種基于位置的注意力來使用周邊投影和初始化來模擬周邊視覺。</span>
<span style="font-size:16px">作者系統(tǒng)地研究了所提出網(wǎng)絡(luò)的內(nèi)部工作原理费变,并觀察到網(wǎng)絡(luò)通過學(xué)習(xí)決定特征轉(zhuǎn)換中的局部性和動態(tài)性水平摧扇,通過網(wǎng)絡(luò)本身給定訓(xùn)練數(shù)據(jù),從而享受卷積和自注意力的好處挚歧。在不同模型大小和深入的消融研究中扛稽,ImageNet 上現(xiàn)有技術(shù)的持續(xù)改進證實了所提出方法的有效性。</span><span style="font-size:16px">
</span><h3><span><strong><span style="font-size:16px">參考資料</span></strong></span></h3><span style="font-size:16px">[1]https://arxiv.org/abs/2206.06801</span><span style="font-size:16px">
</span><span><strong>▊ </strong><strong>作者簡介</strong></span><span style="font-size:16px">研究領(lǐng)域:FightingCV公眾號運營者滑负,研究方向為多模態(tài)內(nèi)容理解在张,專注于解決視覺模態(tài)和語言模態(tài)相結(jié)合的任務(wù)用含,促進Vision-Language模型的實地應(yīng)用。</span><span style="font-size:16px">知乎/公眾號:FightingCV</span><span style="font-size:16px">
</span><p><strong><span style="font-size:17px">已建立深度學(xué)習(xí)公眾號——</span><span style="font-size:17px"><strong>FightingCV</strong></span><span style="font-size:17px">帮匾,歡迎大家關(guān)注W暮А!瘟斜!</span></strong></p><p><strong><span style="font-size:17px">
</span></strong></p><p><strong>ICCV</strong>缸夹、<strong>CVPR、NeurIPS螺句、ICML</strong>論文解析匯總:<span><strong>https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading</strong></span></p><p><span><strong>
</strong></span></p><p><strong>面向小白</strong>的<strong>Attention</strong>虽惭、<strong>重參數(shù)</strong>、<strong>MLP</strong>蛇尚、<strong>卷積</strong>核心代碼學(xué)習(xí):<span><strong>https://github.com/xmu-xiaoma666/External-Attention-pytorch</strong></span></p><p>
</p><p>
</p>
神經(jīng)網(wǎng)絡(luò)也能像人類利用外圍視覺一樣觀察圖像
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
- 文/潘曉璐 我一進店門寓盗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人璧函,你說我怎么就攤上這事傀蚌。” “怎么了蘸吓?”我有些...
- 文/不壞的土叔 我叫張陵善炫,是天一觀的道長。 經(jīng)常有香客問我库继,道長箩艺,這世上最難降的妖魔是什么? 我笑而不...
- 正文 為了忘掉前任宪萄,我火速辦了婚禮艺谆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘拜英。我一直安慰自己静汤,他們只是感情好,可當(dāng)我...
- 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著虫给,像睡著了一般藤抡。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上抹估,一...
- 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼湿弦!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起腾夯,我...
- 正文 年R本政府宣布,位于F島的核電站丙笋,受9級特大地震影響谢澈,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜御板,卻給世界環(huán)境...
- 文/蒙蒙 一锥忿、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧怠肋,春花似錦敬鬓、人聲如沸。這莊子的主人今日做“春日...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽瑞你。三九已至,卻和暖如春希痴,著一層夾襖步出監(jiān)牢的瞬間者甲,已是汗流浹背。 一陣腳步聲響...
推薦閱讀更多精彩內(nèi)容
- 第10章 使用Keras搭建人工神經(jīng)網(wǎng)絡(luò)[http://www.reibang.com/p/86626c7981...
- 傳統(tǒng)的文本分類一般都是使用詞袋模型/Tf-idf作為特征+機器學(xué)習(xí)分類器來進行分類的晃洒。隨著深度學(xué)習(xí)的發(fā)展慨灭,越來越多...
- 學(xué)號:17020150084 姓名:安樂 轉(zhuǎn)載自CSDN 原文鏈接:https://blog.csdn.net/...
- Abstract 神經(jīng)架構(gòu)搜索(NAS)的最新進展導(dǎo)致在沒有實質(zhì)性人工監(jiān)督的情況下,為圖像分類球及、目標(biāo)檢測或語義分割...
- 譯者按: 作為 OCR的 經(jīng)典模型之一氧骤,CRNN在自然場景的文本識別方面應(yīng)用很廣,各種變體層出不窮吃引。CRNN主要應(yīng)...