形狀感知文本驅(qū)動分層視頻編輯? ??Shape-aware Text-driven Layered Video Editing
Y Lee, J G Jang, Y Chen, E Qiu, J Huang????
[University of Maryland]
https://arxiv.org/abs/2301.13173
https://text-video-edit.github.io/
要點:擴展了視頻編輯方法以實現(xiàn)形狀感知編輯恐锣;提出一種與幀相關(guān)的形狀變形公式,以處理目標形狀的編輯玷禽;用預訓練擴散模型來指導分層視頻表示中的圖集補全。
一句話總結(jié):提出一種形狀感知的文本驅(qū)動視頻編輯方法坯台,擴展了現(xiàn)有視頻編輯方法的能力蜒蕾,通過使用變形公式和預訓練文本到圖像擴散模型進行指導,實現(xiàn)形狀感知的編輯撤摸。
漸進提示:語言模型的持續(xù)學習????Progressive Prompts: Continual Learning for Language Models
A Razdaibiedina, Y Mao, R Hou, M Khabsa, M Lewis, A Almahairi????
[Meta AI & University of Toronto]
https://arxiv.org/abs/2301.12314
要點:提出一種在語言模型中進行持續(xù)學習(CL)的新方法,稱為漸進提示衫嵌;漸進提示緩解了災難性遺忘楔绞,支持知識遷移到未來任務,同時學習總參數(shù)的一小部分蔫耽;漸進提示適用于任何基于 Transformer 的架構(gòu)针肥,并且在 BERT 和 T5 模型的標準 CL 基準上優(yōu)于最先進的 CL 方法慰枕。
一句話總結(jié):漸進提示是一種新的、模型無關(guān)的蜂厅、高效的語言模型持續(xù)學習方法,在標準基準上優(yōu)于最先進的方法款咖,不依賴數(shù)據(jù)回放或特定任務參數(shù)改橘。
STAIR: Grounded Token稀疏文本和圖像表示學習????STAIR: Learning Sparse Text and Image Representation in Grounded Tokens
C Chen, B Zhang, L Cao, J Shen, T Gunter, A M Jose, A Toshev, J Shlens, R Pang, Y Yang
[Apple Inc]
https://arxiv.org/abs/2301.13081
要點:提出 STAIR,一種稀疏文本和圖像表示方法碌识,將圖像和文本輸入編碼為稀疏 token 空間中的稀疏嵌入;在圖像-文本檢索任務以及零樣本和線性探測分類任務上優(yōu)于CLIP模型胖烛;與稠密嵌入相比佩番,稀疏嵌入對人來說更容易解釋。
一句話總結(jié):STAIR是一種稀疏文本和圖像表示方法赋秀,在圖像-文本檢索任務和零樣本分類任務上優(yōu)于 CLIP 模型绍弟,同時提供可解釋的稀疏嵌入樟遣。
Noise Scheduling 對擴散模型的重要性研究????On the Importance of Noise Scheduling for Diffusion Models
T Chen
[Google Research]
https://arxiv.org/abs/2301.10972
要點:Noise Scheduling 對擴散生成模型的性能至關(guān)重要,而最佳的噪聲規(guī)劃取決于任務瞻佛;當圖像大小增加時伤柄,最佳的 Noise Scheduling 會變得更加嘈雜;縮放輸入數(shù)據(jù)時保持 Noise Scheduling 固定蔗彤,是跨圖像尺寸的一種好策略;將這種簡單的縮放策略與遞歸接口網(wǎng)絡(RIN)架構(gòu)結(jié)合待侵,能為高分辨率圖像生成提供最先進的基于像素的擴散模型。
一句話總結(jié):研究發(fā)現(xiàn)那先,noise scheduling 策略對去噪擴散生成模型的性能起著至關(guān)重要的作用,而最佳策略取決于任務(如圖像大小)揍堕。
面向無監(jiān)督目標檢測和實例分割的剪切和學習????Cut and Learn for Unsupervised Object Detection and Instance Segmentation
X Wang, R Girdhar, S X. Yu, I Misra
[Meta AI & UC Berkeley]
https://arxiv.org/abs/2301.11320
https://github.com/facebookresearch/CutLER
http://people.eecs.berkeley.edu/~xdwang/projects/CutLER/
要點:CutLER 是一種訓練無監(jiān)督目標檢測和分割模型的簡單方法,利用自監(jiān)督模型特性递瑰,在沒有監(jiān)督的情況下"發(fā)現(xiàn)"物體说贝,并將其放大到訓練一個最先進的定位模型言询,無需任何人工標簽;CutLER 使用所提出的 MaskCut 方法為圖像中的多個目標生成粗略掩碼辆憔,用魯棒損失函數(shù)在這些掩碼上學習一個檢測器,并通過對模型的預測進行自訓練進一步提高性能报嵌;CutLER 與不同檢測架構(gòu)兼容虱咧,可以只在 ImageNet 上進行訓練,而不需要領(lǐng)域內(nèi)的無標簽數(shù)據(jù)锚国,因此腕巡,產(chǎn)生了一個能夠檢測和分割不同領(lǐng)域的多個物體的零樣本模型。
一句話總結(jié):提出 Cut-and-LEaRn(CutLER)方法绘沉,用于訓練無監(jiān)督目標檢測和分割模型帖世,該方法簡單盈魁、魯棒,可實習零樣本,在不同領(lǐng)域的11個基準上比之前的工作要好 2.7 倍以上羊苟,與不同的檢測架構(gòu)兼容彭则,并能檢測多個物體。
StyleGAN-T: 基于改進 GAN 的快速大規(guī)模文本到圖像合成????StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis
A Sauer, T Karras, S Laine, A Geiger, T Aila
[University of Tubingen & NVIDIA]
https://arxiv.org/abs/2301.09515
要點:所提出的模型 StyleGAN-T 解決了大規(guī)模文本到圖像合成的具體要求莽龟,如大容量搂赋、在不同數(shù)據(jù)集上的穩(wěn)定訓練、強文本對齊和可控的變化與文本對齊的權(quán)衡掌挚;StyleGAN-T 在樣本質(zhì)量和速度方面比之前的 GAN 有明顯的改進,超過了蒸餾擴散模型——在此之前快速文本到圖像合成的最先進技術(shù)标捺;GAN 在文本-圖像合成方面比其他模型更快,因為只需要一個前向通道凑术。
一句話總結(jié):提出的 StyleGAN-T 模型解決了大規(guī)模文本到圖像合成的具體要求,在樣本質(zhì)量和速度方面優(yōu)于之前的 GAN 和蒸餾擴散模型霉猛,GAN比其他模型的文本到圖像合成速度更快。
摘要:由于大型預訓練語言模型界轩、大規(guī)模訓練數(shù)據(jù)以及可擴展模型族(如擴散模型和自回歸模型)的引入艰额,文本-圖像合成最近取得了重大進展拯欧。然而,表現(xiàn)最好的模型卵皂,需要迭代評估以生成一個樣本凡壤。相比之下串稀,生成對抗網(wǎng)絡(GAN)只需要一次前向傳播滓走。因此速度要快得多,但目前在大規(guī)模文本到圖像合成方面仍然遠落后于最先進的水平间狂。本文旨在確定重新獲得競爭力的必要步驟。所提出的模型 StyleGAN-T 解決了大規(guī)模文本-圖像合成的具體要求,如大容量传趾、在不同數(shù)據(jù)集上的穩(wěn)定訓練、強文本對齊和可控的變化與文本對齊的權(quán)衡。StyleGAN-T在樣本質(zhì)量和速度方面明顯優(yōu)于之前的 GAN庐冯,且優(yōu)于蒸餾擴散模型——這是之前快速文本到圖像合成的最先進技術(shù)惶凝。
Zorro: 掩碼多模態(tài) Transformer????Zorro: the masked multimodal transformer
A Recasens, J Lin, J Carreira, D Jaegle, L Wang, J Alayrac, P Luc, A Miech, L Smaira, R Hemsley, A Zisserman
[DeepMind]
https://arxiv.org/abs/2301.09595
要點:提出 Zorro愿伴,一種新的 Transformer 掩碼配置肉津,可以同時進行單模態(tài)和多模態(tài)的訓練和推理吗铐,以及對比預訓練座菠;提出了用ViT、SWIN和HiP等最先進模型的基于Zorro的架構(gòu)东帅;Zorro 可以以自監(jiān)督的方式,在大規(guī)模音頻-視覺數(shù)據(jù)集上進行預訓練,也可以在單模態(tài)數(shù)據(jù)集上進行預訓練梅掠。
一句話總結(jié):提出一種用于多模態(tài)處理的新型 Transformer 掩碼配置 Zorro穆趴,在基準上展示了最先進的性能导梆,并可同時進行單模態(tài)和多模態(tài)訓練和推理藏斩。
摘要:基于注意力的模型對多模態(tài)處理很有吸引力帆赢,因為來自多種模態(tài)的輸入可以被串聯(lián)起來,并輸入到一個主干網(wǎng)絡中——因此需要很少的融合工程好啰。然而轩娶,所產(chǎn)生的表示在整個網(wǎng)絡中是完全糾纏在一起的,可能并不總是可取的:在學習中框往,對比性的音頻-視覺自監(jiān)督學習鳄抒,需要獨立的音頻和視覺特征來操作,否則學習會坍縮椰弊;在推理中许溅,音頻-視覺模型的評估應該可以在只有音頻或只有視頻的基準上進行。本文提出 Zorro秉版,一種使用掩碼來控制每種模態(tài)輸入如何在 Transformer 內(nèi)被路由的技術(shù)贤重,以保持表示的某些部分是純模態(tài)的。將這種技術(shù)應用于三種流行的基于 Transformer 的架構(gòu)(ViT清焕、Swin和HiP)并蝗,并表明在對比性預訓練下,Zorro在大多數(shù)相關(guān)的多模態(tài)任務(AudioSet和VGGSound)的基準上取得了最先進的結(jié)果秸妥。此外滚停,所得到的模型能在視頻和音頻基準上進行單模態(tài)推理,如Kinetics-400或ESC-50粥惧。
未見數(shù)據(jù)集上的蒸餾感知NAS元預測模型????Meta-prediction Model for Distillation-Aware NAS on Unseen Datasets
https://openreview.net/forum?id=SEh5SfEQtqB
要點:提出一種跨數(shù)據(jù)集键畴、架構(gòu)和教師泛化的新的元預測模型,可以在蒸餾給定教師知識時準確預測架構(gòu)性能影晓;基于特定教師對學生的參數(shù)重映射和重映射學生的功能性嵌入镰吵,提出一種新的蒸餾感知任務編碼;在異構(gòu)不可見 DaNAS 任務的準確性估計方面優(yōu)于現(xiàn)有的快速 NAS 方法挂签。
一句話總結(jié):提出一種跨數(shù)據(jù)集疤祭、體系結(jié)構(gòu)和教師泛化的新的元預測模型,以便在蒸餾給定教師網(wǎng)絡的知識時準確預測架構(gòu)性能饵婆,在看未見數(shù)據(jù)集上優(yōu)于現(xiàn)有的快速 NAS 方法勺馆。
摘要:蒸餾感知網(wǎng)絡架構(gòu)搜索(DaNAS),旨在搜索在從給定教師模型中蒸餾知識時,可獲得最佳性能和/或效率的最佳學生架構(gòu)草穆。之前的 DaNAS 方法主要涉及尋找固定源/目標任務和教師的網(wǎng)絡架構(gòu)灌灾,這些任務在新任務上沒有很好地泛化,因此需要對域和教師的新組合進行昂貴的搜索悲柱。對于沒有 KD 的標準 NAS 任務锋喜,提出了基于元學習的計算高效 NAS 方法,該方法學習多個任務的廣義搜索過程豌鸡,并將這些任務獲得的知識遷移到新任務中嘿般。然而,由于假設(shè)在沒有老師 KD 的情況下從頭開始學習涯冠,它們可能不適合 DaNAS 場景炉奴,這可能會顯著影響從搜索中獲得的架構(gòu)的最終準確性。為了消除 DaNAS 方法的過度計算成本和快速 NAS 方法的次優(yōu)性蛇更,本文提出一種基于蒸餾感知的元精度預測模型瞻赶,可以預測給定架構(gòu)在與給定教師執(zhí)行 KD 時在數(shù)據(jù)集上的最終性能,而無需在目標任務上進行實際訓練派任。實驗結(jié)果表明砸逊,所提出的元預測模型成功地泛化到 DaNAS 任務的多個未見數(shù)據(jù)集,在很大程度上優(yōu)于現(xiàn)有的元 NAS 方法和快速 NAS 基線痹兜。
基于聯(lián)合嵌入預測架構(gòu)的圖像自監(jiān)督學習????Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
M Assran, Q Duval, I Misra, P Bojanowski, P Vincent, M Rabbat, Y LeCun, N Ballas
[Meta AI]
https://arxiv.org/abs/2301.08243
要點:提出基于圖像的聯(lián)合嵌入預測架構(gòu)(I-JEPA),一種從圖像中自監(jiān)督學習的非生成式方法颤诀;用掩碼策略來預測圖像中的多個目標塊心傀,用足夠大規(guī)模屈暗、以及空間分布充分的上下文塊;當與視覺 Transformer 相結(jié)合時脂男,I-JEPA 在一系列任務中的可擴展性和強大的下游性能得到了實證演示养叛。
一句話總結(jié):I-JEPA 是一種非生成式方法,用于從圖像進行自監(jiān)督學習宰翅,采用掩碼策略預測同一圖像中多個目標塊的表示弃甥,以高可擴展性和高效率在廣泛的任務中實現(xiàn)了強大的下游性能。
摘要:本文展示了一種在不依賴手工制作的數(shù)據(jù)增強的情況下學習高度語義化圖像表示的方法汁讼。提出了基于圖像的聯(lián)合嵌入預測架構(gòu)(I-JEPA)淆攻,一種從圖像自監(jiān)督學習的非生成式方法阔墩。I-JEPA 背后的想法很簡單:從單個上下文塊中預測同一圖像中多個目標塊的表示。指導 I-JEPA 產(chǎn)生語義表示的核心設(shè)計選擇是掩碼策略瓶珊;最重要的是:(a) 預測圖像中的多個目標塊啸箫,(b) 足夠大規(guī)模的目標塊采樣(占整個圖像的15%-20%),以及 (c) 用信息量充足(空間分布足夠分散)的上下文塊伞芹。從經(jīng)驗上講忘苛,當與視覺 Transformer 相結(jié)合時,I-JEPA 具有高度可擴展性唱较。例如柑土,在38小時內(nèi)用32個 A100 GPU 在 ImageNet 上訓練 ViT-Huge/16,以便在需要不同抽象級別的廣泛任務中實現(xiàn)強大的下游性能绊汹,從線性分類到目標計數(shù)和深度預測。
圖神經(jīng)網(wǎng)絡(GNN)綜述????Everything is Connected: Graph Neural Networks
P Veli?kovi?
[DeepMind]
https://arxiv.org/abs/2301.08210
要點:圖是自然界中數(shù)據(jù)的主要模態(tài)扮宠,用圖結(jié)構(gòu)的語言可以優(yōu)雅地表示西乖;圖已經(jīng)在關(guān)鍵的科學和工業(yè)領(lǐng)域使用,其應用包括交通預測坛增、藥物發(fā)現(xiàn)获雕、社交網(wǎng)絡分析和推薦系統(tǒng)等;前幾年最成功的機器學習應用領(lǐng)域——圖像收捣、文本和語音處理——可以視為圖表示學習的特殊案例届案;本文的主要目的,是使讀者能夠吸收該領(lǐng)域的關(guān)鍵概念罢艾,并在相關(guān)領(lǐng)域的適當背景下應用圖表示學習楣颠。
一句話總結(jié):圖是自然界數(shù)據(jù)的主要模態(tài),可用于多個領(lǐng)域咐蚯,最成功的機器學習領(lǐng)域是圖表示學習的特殊情況童漩。本文旨在幫助讀者了解該領(lǐng)域的關(guān)鍵概念和背景,并在合適的場景加以利用春锋。
自監(jiān)督無助于大規(guī)模自然語言監(jiān)督????Self Supervision Does Not Help Natural Language Supervision at Scale
F Weers, V Shankar, A Katharopoulos, Y Yang, T Gunter
[Apple]
https://arxiv.org/abs/2301.07836
要點:調(diào)研自監(jiān)督對大規(guī)模圖像-文本訓練的有效性矫膨,發(fā)現(xiàn)在14億張圖像的大型語料庫上進訓練時,自監(jiān)督幾乎沒有收益期奔;引入一種將標準自監(jiān)督和語言監(jiān)督技術(shù)相結(jié)合的直截了當?shù)幕€方法MAE-CLIP侧馅;實驗發(fā)現(xiàn),在高樣本量狀態(tài)下呐萌,ImageNet馁痴、VTAB和VQA任務的MAE-CLIP和CLIP之間的性能幾乎沒有差異。
一句話總結(jié):這項工作發(fā)現(xiàn)大規(guī)模圖像-文本訓練的自監(jiān)督幾乎沒有好處搁胆,研究了最先進的方法在低樣本量和高樣本量場景下的性能弥搞,自監(jiān)督在高樣本量場景下效果較差邮绿。
面向單視圖重建的密度場????Behind the Scenes: Density Fields for Single View Reconstruction
F Wimbauer, N Yang, C Rupprecht, D Cremers
[Technical University of Munich & University of Oxford]
https://arxiv.org/abs/2301.07668
https://fwmb.github.io/bts/
要點:提出一種用預測隱密度場的神經(jīng)網(wǎng)絡,從單幅圖像推斷有意義幾何場景表示的新方法攀例;能捕捉真實的3D幾何形狀船逮,包括顏色,但比神經(jīng)輻射場(NeRF)等其他方法更簡單粤铭、更易于處理挖胃;僅用視頻數(shù)據(jù)的自監(jiān)督進行訓練,使得網(wǎng)絡能在具有挑戰(zhàn)性場景的大型實際場景數(shù)據(jù)集上進行訓練梆惯;該方法能預測輸入圖像中被遮擋區(qū)域有意義的幾何形狀酱鸭,并實現(xiàn)深度預測和新視圖合成,達到與最先進方法可比的水平垛吗。
一句話總結(jié):提出一種用預測隱密度場的神經(jīng)網(wǎng)絡從單幅圖像推斷 3D 幾何的新方法凹髓,比其他方法更簡單、更易于處理怯屉,僅用視頻數(shù)據(jù)的自監(jiān)督進行訓練蔚舀,能預測遮擋區(qū)域有意義的幾何形狀。
摘要:從單幅圖像推斷有意義的幾何場景表示锨络,是計算機視覺的一個基本問題赌躺。基于傳統(tǒng)深度圖預測的方法羡儿,只能推理圖像中的可見區(qū)域礼患。目前,神經(jīng)輻射場(NeRF)可以捕獲包括顏色在內(nèi)的真實3D掠归,但過于復雜缅叠,無法用單幅圖像生成。作為替代方案拂到,本文提出一種神經(jīng)網(wǎng)絡痪署,從單幅圖像預測隱密度場,將圖像截頭錐體每個位置映射成體密度兄旬。所提網(wǎng)絡能通過僅視頻數(shù)據(jù)的自監(jiān)督進行訓練狼犯。不將顏色存儲在隱式體,而在訓練期間直接從可用視圖中采樣顏色领铐,相比 NeRF悯森,所提場景表示不那么復雜,可以訓練神經(jīng)網(wǎng)絡來進行預測绪撵∑耙觯可以應用體渲染來執(zhí)行深度預測和新視圖合成。在所做的實驗中音诈,本文證明幻碱,所提出方法能預測輸入圖像中遮擋的區(qū)域的有意義的幾何形狀绎狭。本文還展示了在三個數(shù)據(jù)集上所提出方法在深度預測和新視圖合成方面的潛力。
Laser: 3D生成建模的集值潛表示????Laser: Latent Set Representations for 3D Generative Modeling
P Moreno, A R. Kosiorek, H Strathmann, D Zoran, R G. Schneider, B Winckler, L Markeeva, T Weber, D J. Rezende
[DeepMind]
https://arxiv.org/abs/2301.05747
https://laser-nv-paper.github.io/
要點:提出一種由基于上下文視圖的專用置換不變歸一化流建模的新型集值潛表示褥傍;提出一種新的注意力機制儡嘶,以設(shè)置值潛在以及從上下文視圖計算的其他局部特征來調(diào)節(jié)場景功能。在各種數(shù)據(jù)集上的表現(xiàn)優(yōu)于之前的模型恍风,尤其是場景未觀察部分存在高度不確定性時蹦狂。
一句話總結(jié):LASER-NV 是一種用歸一化流建模的新型集值潛表示,采用幾何感知注意力機制來實現(xiàn)高保真新視圖合成朋贬,在各種數(shù)據(jù)集上的表現(xiàn)優(yōu)于之前的模型凯楔,尤其是場景未觀察部分存在高度不確定性時。
摘要:NeRF為新視圖合成提供了優(yōu)秀的保真度:從任意角度渲染3D場景锦募。NeRF需要對大量完全覆蓋場景的視圖進行訓練摆屯,這限制了其適用性。雖然這些問題可以通過以各種形式學習先驗場景來解決糠亩,但之前的方法要么適用于過于簡單的場景鸥拧,要么努力渲染未觀察到的部分。本文提出 Laser-NV:一種實現(xiàn)高建模能力的生成模型削解,基于通用歸一化流建模的集值潛表示。與之前的攤銷方法類似沟娱,Laser-NV 從多個場景中學習結(jié)構(gòu)氛驮,并能從很少的視圖中快速、前饋推斷济似。為了鼓勵更高的渲染保真度和與觀測視圖的一致性矫废,Laser-NV 進一步在觀測視圖上集成了幾何感知的注意力機制。Laser-NV 進一步產(chǎn)生場景中被遮擋部分的多樣化和可信的補全砰蠢,同時與觀察保持一致蓖扑。在 ShapeNet 和新模擬城市數(shù)據(jù)集上進行評估時,Laser-NV 顯示出最先進的新視圖合成質(zhì)量台舱,該數(shù)據(jù)集在場景中未觀察區(qū)域具有很高的不確定性律杠。
GLIGEN: 開放世界 Grounded 文本到圖像生成????GLIGEN: Open-Set Grounded Text-to-Image Generation
Y Li, H Liu, Q Wu, F Mu, J Yang, J Gao, C Li, Y J Lee
[University of Wisconsin-Madison & Columbia University & Microsoft]
https://arxiv.org/abs/2301.07093
要點:提出GLIGEN,一種新方法竞惋,基于并擴展了現(xiàn)有預訓練文本到圖像擴散模型柜去,使其也以 grounding 輸入為條件,以提高可控性拆宛;通過凍結(jié)預訓練模型所有權(quán)重嗓奢,并通過門控機制將 grounding 信息注入新的可訓練層,來保存預訓練模型的大量概念知識浑厚;實現(xiàn)了基于描述和邊框條件輸入的開放世界 grounded text2img 生成股耽,grounding 能力很好地推廣到新的空間配置和概念根盒。
一句話總結(jié):GLIGEN 是一種新方法,允許在邊框等 grounding 輸入上調(diào)節(jié)預訓練文本到圖像擴散模型物蝙,實現(xiàn)開放世界 grounded text2img 生成炎滞,可很好地推廣到新的空間配置和概念,并在零樣本任務中顯著優(yōu)于現(xiàn)有的有監(jiān)督 layout-to-image 基線茬末。
摘要:大規(guī)模文本到圖像擴散模型取得了驚人的進步厂榛。然而,現(xiàn)狀是僅使用文本輸入丽惭,這可能會阻礙可控性深夯。本文提出 GLIGEN,Grounded 語言到圖像生成怒竿,一種基于并擴展現(xiàn)有預訓練文本到圖像擴散模型的新方法轩拨,使它們也以 grounding 的輸入為條件。為了保留預訓練模型的大量概念知識换衬,凍結(jié)其所有權(quán)重痰驱,通過門控機制將 grounding 信息注入新的可訓練層。所提出模型實現(xiàn)了基于描述和邊框條件輸入的開放世界 grounded text2img 生成瞳浦,grounding 能力很好地推廣到新的空間配置和概念担映。GLIGEN 在 COCO 和 LVIS 上的零樣本性能大大優(yōu)于現(xiàn)有的有監(jiān)督 layout-to-image 基線。
基于檢索增強知識的定制視覺模型學習????Learning Customized Visual Models with Retrieval-Augmented Knowledge
H Liu, K Son, J Yang, C Liu, J Gao, Y J Lee, C Li
[Microsoft & University of Wisconsin–Madison]
https://arxiv.org/abs/2301.07094
https://react-vl.github.io/
要點:提出一種新框架REACT(檢索增強定制)叫潦,用于用網(wǎng)絡級圖像文本數(shù)據(jù)為目標域構(gòu)建定制視覺模型蝇完;對各種任務的廣泛實驗,包括在零樣本和少樣本的設(shè)置下進行分類矗蕊、檢索短蜕、檢測和分割,展示了REACT的有效性傻咖;與當前最先進的模型 CLIP 相比朋魔,REACT 可以在 ImageNet 上實現(xiàn)高達 5.4% 的改進,在 ELEVATER 基準(20個數(shù)據(jù)集)上實現(xiàn) 3.7% 的零樣本分類任務卿操。
一句話總結(jié):提出REACT警检,一個獲取相關(guān)網(wǎng)絡知識的框架,為目標域構(gòu)建定制的視覺模型害淤,與現(xiàn)有模型相比解滓,在零樣本分類任務方面實現(xiàn)了高達 5.4% 的改進。
摘要:CLIP等圖像文本對比學習模型表現(xiàn)出很強的任務遷移能力筝家。這些視覺模型的高度通用性和可用性是通過網(wǎng)絡級的數(shù)據(jù)收集過程實現(xiàn)的洼裤,以確保廣泛的概念覆蓋,然后是昂貴的預訓練,將所有知識注入模型權(quán)重腮鞍。本文提出 REACT值骇,檢索增強定制,一種獲取相關(guān)網(wǎng)絡知識的框架移国,為目標域構(gòu)建定制的視覺模型吱瘩。作為外部知識,從網(wǎng)絡級數(shù)據(jù)庫中檢索最相關(guān)的圖像文本對(約占CLIP預訓練數(shù)據(jù)的3%)迹缀,提出僅通過訓練新的修改塊來自定義模型使碾,同時凍結(jié)所有原始權(quán)重。REACT 的有效性通過對分類票摇、檢索、檢測和分割任務(包括零樣本砚蓬、少樣本和全樣本設(shè)置)的廣泛實驗得到了證明矢门。特別是,在零樣本分類任務上灰蛙,與CLIP相比祟剔,在ImageNet上實現(xiàn)了高達5.4%的改進,在ELEVATER基準(20個數(shù)據(jù)集)上實現(xiàn)了3.7%的改進摩梧。https://react-vl.github.io/
大型生成式AI模型前沿綜述????ChatGPT is not all you need. A State of the Art Review of large Generative AI models
R Gozalo-Brizuela, E C. Garrido-Merchan
[Universidad Pontificia Comillas]
https://arxiv.org/abs/2301.04655
要點:ChatGPT 和 Stable Diffusion 等大型生成模型在數(shù)據(jù)集物延、計算、偏差和對倫理的理解以及必要約束方面存在局限性仅父;局限性包括難以為某些任務找到數(shù)據(jù)教届,以及需要大型數(shù)據(jù)集和計算資源;提供了最近生成模型的分類驾霜,并總結(jié)了其能力和局限性。
一句話總結(jié):ChatGPT 和 Stable Diffusion 等大型生成模型正在通過執(zhí)行文本到圖像和文本到音頻等任務徹底改變幾個行業(yè)买置,但它們在數(shù)據(jù)集粪糙、計算、偏差和對倫理的理解以及必要約束方面具有局限性忿项。
機器學習損失函數(shù)綜述????A survey and taxonomy of loss functions in machine learning
L Ciampiconi, A Elwood, M Leonardi, A Mohamed, A Rozza
[lastminute.com group]
https://arxiv.org/abs/2301.05579
要點:對各種機器學習應用的33種常用損失函數(shù)進行調(diào)研蓉冈,包括分類、回歸轩触、排序寞酿、樣本生成和基于能源建模;損失函數(shù)的直觀分類脱柱,按任務伐弹、學習范式和基本策略來進行組織;為初學者和高級機器學習從業(yè)者在為他們的問題定義適當損失函數(shù)時提供使用參考榨为。
一句話總結(jié):對各種機器學習應用的33種常用損失函數(shù)進行調(diào)研惨好,按易于理解的分類進行整理煌茴,作為從業(yè)者在為問題定義適當損失函數(shù)時提供參考。
摘要:大多數(shù)最先進的機器學習技術(shù)日川,都圍繞著損失函數(shù)的優(yōu)化蔓腐。因此,定義適當?shù)膿p失函數(shù)對于成功解決該領(lǐng)域的問題至關(guān)重要龄句。本文對各種不同應用中最常用的損失函數(shù)進行了調(diào)研回论,分為分類、回歸分歇、排序傀蓉、樣本生成和基于能源建模。本文將33種不同的損失函數(shù)卿樱,組織成容易理解的分類僚害。每種損失函數(shù)都有其理論支持,本文描述了其最適合使用的場景繁调。本綜述旨在為初學者和高級機器學習從業(yè)者提供最基本的損失函數(shù)參考萨蚕。
面向Grounded生成的文本到圖像擴散模型引導????Guiding Text-to-Image Diffusion Model Towards Grounded Generation
Z Li, Q Zhou, X Zhang, Y Zhang, Y Wang, W Xie
[Shanghai Jiao Tong University]
https://arxiv.org/abs/2301.05221
https://lipurple.github.io/Grounded_Diffusion/
要點:在現(xiàn)有的擴散模型中插入一個 grounding 模塊,該模塊可進行訓練蹄胰,使擴散模型的視覺和文本嵌入空間僅與少數(shù)目標類別對齊岳遥;提出一種由 {圖像、分割掩碼裕寨、文本提示} 三元組組成的數(shù)據(jù)集的自動化管線浩蓉,以訓練所提出的 grounding 模塊;評估從文本到圖像擴散模型生成的圖像上的開放詞匯 grounding 性能宾袜,該模塊可以很好地分割訓練時看到的類別的對象捻艳。
一句話總結(jié):提出一種用 grounding 模塊將開放詞匯對象 grounding 加入文本到圖像擴散模型的方法,以及相應的數(shù)據(jù)集構(gòu)建管線庆猫,顯示出分割未見過對象的良好性能认轨,以及用于零樣本語義分割的潛力。
摘要:本文的目標是增強預訓練的文本到圖像擴散模型月培,該模型具有開放世界目標 grounding 的能力嘁字,即同時為文本提示符中描述的相應視覺實體生成圖像和分割掩碼。本文貢獻如下:(i) 在現(xiàn)有的擴散模型中插入一個 grounding 模塊杉畜,該模塊可進行訓練纪蜒,使擴散模型的視覺和文本嵌入空間僅與少數(shù)目標類別對齊;(ii) 提出一種由 {圖像此叠、分割掩碼纯续、文本提示} 三元組組成的數(shù)據(jù)集的自動化管線,以訓練所提出的 grounding 模塊;(iii) 評估從文本到圖像擴散模型生成的圖像上的開放詞匯 grounding 性能杆烁,該模塊可以很好地分割訓練時看到的類別的對象牙丽;(iv) 用引導擴散模型構(gòu)建合成語義分割數(shù)據(jù)集,在此類數(shù)據(jù)集上訓練標準分割模型表明兔魂,在零樣本分割(ZS3)基準上具有競爭力烤芦,為采用強大的擴散模型進行判別性任務提供了新的思路。
Box2Mask: 基于水平集演化的框監(jiān)督實例分割????Box2Mask: Box-supervised Instance Segmentation via Level-set Evolution
W Li, W Liu, J Zhu, M Cui, R Yu, X Hua, L Zhang
[Zhejiang University & Alibaba Group & The Hong Kong Polytechnic University]
https://arxiv.org/abs/2212.01579
https://github.com/LiWentomng/boxlevelset
要點:提出一種新的單樣本實例分割方法Box2Mask析校,使用邊框標注而不是像素級掩碼標記构罗;Box2Mask 用水平集演化模型來實現(xiàn)準確的掩模預測,并將深度神經(jīng)網(wǎng)絡集成到學習水平集曲線中智玻;用基于像素親和力核的局部一致性模塊來挖掘局部上下文和空間關(guān)系遂唧。
一句話總結(jié):Box2Mask方法是一種新的單樣本實例分割方法,使用邊框標注并集成水平集演化和深度神經(jīng)網(wǎng)絡吊奢,實現(xiàn)了在各種數(shù)據(jù)集上準確的掩模預測盖彭,超越全掩碼監(jiān)督方法。
摘要:與使用像素掩碼標記的全監(jiān)督方法不同页滚,框監(jiān)督實例分割利用了簡單的框標注召边,這種方法正引來越來越多的研究關(guān)注。本文提出一種新的單樣本實例分割方法Box2Mask裹驰,將經(jīng)典的水平集(Level-Set)演化模型集成到深度神經(jīng)網(wǎng)絡學習中隧熙,只需邊框監(jiān)督即可實現(xiàn)準確的掩碼預測。輸入圖像及其深度特征都用于隱式地進化水平集曲線幻林,用基于像素親和力核的局部一致性模塊來挖掘局部上下文和空間關(guān)系贞盯。提出了兩種類型的單級框架,即基于CNN和基于 Transformer 的框架沪饺,以增強框監(jiān)督實例分割的水平集進化躏敢,每個框架由三個基本組件組成:實例感知解碼器、框級匹配分配和水平集進化整葡。通過最小化水平集能量函數(shù)件余,可以在其邊框標注中迭代優(yōu)化每個實例的掩碼映射。五個具有挑戰(zhàn)性的測試平臺的實驗結(jié)果涵蓋了一般場景掘宪、遙感、醫(yī)療和場景文本圖像攘烛,展示了所提出的Box2Mask方法在框監(jiān)督實例分割方面的出色表現(xiàn)魏滚。特別是,使用 Swin-Transformer 大規(guī)模主干坟漱,Box2Mask在COCO上獲得了42.4%的掩碼AP鼠次,與最近提出的全掩碼監(jiān)督方法相當。
SemPPL: 面向更好對比性表示的偽標簽預測????SemPPL: Predicting pseudo-labels for better contrastive representations
M Bo?njak, P H. Richemond, N Tomasev, F Strub, J C. Walker, F Hill, L H Buesing, R Pascanu, C Blundell, J Mitrovic
[DeepMind]
https://arxiv.org/abs/2301.05158
要點:提出一種新的半監(jiān)督學習方法,Semantic Positives via Pseudo-Labels (SemPPL)腥寇,結(jié)合標記和無標記的數(shù)據(jù)來學習信息性表示成翩;通過使用k近鄰分類器來擴展自監(jiān)督對比學習,以預測缺失標簽(偽標簽)赦役,用具有相同偽標簽(語義正樣本)的數(shù)據(jù)點豐富一組正樣本麻敌;聯(lián)合學習表示和預測 bootstrapped 偽標簽,從而提高與競爭的半監(jiān)督方法相比的性能掂摔。
一句話總結(jié):提出一種新的半監(jiān)督學習方法Semantic Positives via Pseudo-Labels (SemPPL)术羔,結(jié)合了標記和未標記數(shù)據(jù),通過預測缺失標簽來學習信息豐富的表示乙漓,在 ImageNet 數(shù)據(jù)集上取得了新的最佳性能级历。
摘要:從大量非監(jiān)督數(shù)據(jù)和少量監(jiān)督中學習,是計算機視覺中的一個重要開放問題叭披。本文提出一種新的半監(jiān)督學習方法寥殖,Semantic Positives via Pseudo-Labels (SemPPL)),結(jié)合了標記和無標記數(shù)據(jù)來學習信息性表示涩蜘。該方法擴展了自監(jiān)督對比學習——通過區(qū)分兩個樣本是否代表相同的底層基準(正性)來塑造表示——并采用一種選擇正樣本的新方法嚼贡。為了豐富一組正樣本,利用現(xiàn)有的少數(shù)真實標簽皱坛,通過k近鄰分類器编曼,用標記數(shù)據(jù)的習得嵌入來預測缺失標簽。用具有相同偽標簽的數(shù)據(jù)點擴展正樣本剩辟,叫做語義正樣本掐场。聯(lián)合學習表征和預測 bootstrapped 偽標簽。這創(chuàng)造了一個強化循環(huán)贩猎。強大的初始表示可以實現(xiàn)更好的偽標簽預測熊户,從而改善語義正樣本的選擇,并導致更好的表示吭服。
視覺 Transformer 是優(yōu)秀的掩碼自標記器? ??Vision Transformers Are Good Mask Auto-Labelers
S Lan, X Yang, Z Yu, Z Wu, J M. Alvarez, A Anandkumar
[NVIDIA & Meta AI & Fudan University]
https://arxiv.org/abs/2301.03992
https://github.com/NVlabs/mask-auto-labeler
要點:提出一種新的基于框監(jiān)督的實例分割兩階段框架——掩碼自標記器(MAL)嚷堡,簡單且與實例分割模塊設(shè)計無關(guān);用視覺Transformers(ViTs)作為圖像編碼器會產(chǎn)生較強的自動標記效果艇棕;MAL的特定設(shè)計元素——例如基于注意力的解碼器蝌戒,基于框擴展的多實例學習和類別無關(guān)訓練——對自動標記性能有重要影響。
一句話總結(jié):提出一種新的基于框監(jiān)督的實例分割的兩階段框架MAL沼琉,利用視覺 Transformer 生成高質(zhì)量的掩碼偽標記北苟,確定了增強MAL性能的關(guān)鍵設(shè)計元素,縮小了框監(jiān)督和全監(jiān)督方法之間的差距打瘪,可以達到幾乎人類水平的表現(xiàn)友鼻,并能很好地泛化到未見過的新類別傻昙。
摘要:提出了一種基于Transformer的高質(zhì)量掩碼自標注框架掩碼自標記器(MAL),只用框標注進行實例分割彩扔。MAL將框裁剪圖像作為輸入妆档,并有條件地生成其掩碼偽標簽。視覺Transformer是優(yōu)秀的掩碼自標注器虫碉。所提出方法顯著減少了自動標記與人工標記之間關(guān)于掩碼質(zhì)量的差距贾惦。用MAL生成的掩碼訓練的實例分割模型可以接近與其全監(jiān)督對應模型的性能相匹配,保留了高達 97.4% 的全監(jiān)督模型性能蔗衡。最佳模型在COCO實例分割上(test-dev 2017)達到 44.1% mAP纤虽,顯著優(yōu)于最先進的框監(jiān)督方法。定性結(jié)果表明绞惦,MAL生成的掩碼在某些情況下甚至比人工標注更好逼纸。
訓練軌跡、mini-batch損失和學習率的獨特特性????Training trajectories, mini-batch losses and the curious role of the learning rate
M Sandler, A Zhmoginov, M Vladymyrov, N Miller
[Google Research]
https://arxiv.org/abs/2301.02312
要點:在用隨機梯度下降訓練深度學習網(wǎng)絡時济蝉,mini-batch損失函數(shù)可以通過二次函數(shù)準確模擬杰刽;大的學習率可以在單次梯度下降步達到非常低的損失值;一個簡單的模型和幾何解釋可以分析mini-batch梯度與全批量梯度之間的關(guān)系以及學習率如何影響這種關(guān)系王滤;迭代平均和學習率規(guī)劃之間的聯(lián)系贺嫂,可以在理論模型和大規(guī)模多數(shù)據(jù)集訓練中同時觀察到。
一句話總結(jié):隨機梯度下降學習率具有獨特的特性雁乡,可以通過簡單的模型和幾何解釋進行分析第喳,并且與迭代平均的聯(lián)系可以在理論模型和大規(guī)模多數(shù)據(jù)集訓練中同時觀察到。
摘要:隨機梯度下降(SGD)在幾乎所有深度學習應用中都起著基礎(chǔ)性的作用踱稍。然而曲饱,它的效率以及收斂于全局最小值的顯著能力依然很神秘。在大型網(wǎng)絡上定義的損失函數(shù)在大量數(shù)據(jù)中已知是非凸的珠月。然而扩淀,關(guān)于單個批次的損失函數(shù)的行為探討相對較少。本文表明啤挎,對ResNet而言驻谆,任何固定的mini-batch在SGD軌跡旁測量時的損失似乎可以通過二次函數(shù)準確建模。特別地庆聘,在單步梯度下降中胜臊,可以通過足夠大的學習率達到非常低的損失值。本文提出一個簡單的模型和幾何解釋伙判,可以分析隨機mini-batch梯度與全批量梯度間的關(guān)系以及學習率如何影響這種關(guān)系象对。該分析使得能發(fā)現(xiàn)迭代聚合與特定學習率規(guī)劃之間的等價性。特別地澳腹,對于指數(shù)移動平均(EMA)和隨機權(quán)重平均织盼,所提出的模型與ImageNet上觀察到的訓練軌跡相匹配。本文的理論模型預測酱塔,即使用更簡單的平均技術(shù)沥邻,平均僅幾步外的兩個點,也相對于基線顯著提高了精度羊娃。用ResNet架構(gòu)在ImageNet和其他數(shù)據(jù)集上也驗證了該發(fā)現(xiàn)唐全。
面向視覺語言預訓練的過濾、蒸餾和硬負樣本????Filtering, Distillation, and Hard Negatives for Vision-Language Pre-Training
F Radenovic, A Dubey, A Kadian, T Mihaylov, S Vandenhende, Y Patel, Y Wen, V Ramanathan, D Mahajan
[Meta AI]
https://arxiv.org/abs/2301.02280
https://github.com/facebookresearch/diht
要點:提出復雜度蕊玷、動作和文本定位(Complexity, Action, and Text-spotting - CAT)數(shù)據(jù)集過濾策略邮利,可以減少數(shù)據(jù)集大小,并提高零樣本視覺-語言任務上的性能垃帅;概念蒸餾是一種用強大的單模態(tài)表示進行對比訓練的技術(shù)延届,不會增加訓練復雜度;提出一種重要性采樣方法贸诚,用于對硬負樣本進行上采樣方庭,作為對傳統(tǒng)對比對齊目標的修改;一種新的少樣本線性探測方法彌合了零樣本和少樣本學習之間的差距酱固。
一句話總結(jié):通過精心的數(shù)據(jù)集過濾和簡單的建模改進械念,可以通過大規(guī)模預訓練在檢索和分類任務中實現(xiàn)零樣本性能的顯著提高。CAT 過濾可以應用于任意大規(guī)模數(shù)據(jù)集运悲,概念蒸餾是利用大容量預訓練圖像模型進行多模態(tài)訓練的計算和存儲高效的方法龄减,提出少樣本線性探測方法比之前的工作有所改進。
摘要:用大規(guī)模含噪數(shù)據(jù)對比學習訓練的視覺-語言模型越來越受歡迎班眯,用于零樣本識別問題希停。本文改進了對比預訓練流水線的以下三方面:數(shù)據(jù)集噪聲、模型初始化和訓練目標鳖敷。本文提出一種簡單的過濾策略脖苏,名為復雜度,動作和文本定位(CAT)定踱,它顯著減少了數(shù)據(jù)集大小棍潘,同時在零樣本視覺-語言任務中實現(xiàn)了性能改進。本文提出一種名為概念蒸餾的方法崖媚,利用強大的單模態(tài)表示進行對比訓練亦歉,在性能優(yōu)于之前工作的同時不會增加訓練復雜度。本文修改了傳統(tǒng)的對比對齊目標畅哑,并提出一種重要性采樣方法肴楷,用于對硬負樣本進行上采樣,而不會增加額外的復雜度荠呐。在29項任務的廣泛零樣本基準測試中赛蔫,所提出的蒸餾和硬負訓練(DiHT)方法相比基線在20項任務中取得了改進砂客。此外,對于少樣本線性探測呵恢,本文提出一種新的方法鞠值,該方法彌合了零樣本和少樣本性能之間的差距,大大改善了之前的工作渗钉。
高性能計算的迷思和傳說????Myths and Legends in High-Performance Computing
S Matsuoka, J Domke, M Wahib, A Drozd, T Hoefler
[RIKEN Center for Computational Science & ETH Zurich]
https://arxiv.org/abs/2301.02432
要點:討論高性能計算社區(qū)內(nèi)外流傳的迷思和傳言彤恶。這些迷思代表了該領(lǐng)域當前經(jīng)歷巨大變化的時代,可以作為未來研究和投資的潛在新方向鳄橘。
一句話總結(jié):本文提出了高性能計算社區(qū)內(nèi)外的一系列迷思和傳言声离,并鼓勵就這些迷思進行討論和爭論,作為未來研究和投資的潛在新方向瘫怜。
摘要:這篇幽默而發(fā)人深省的文章术徊,討論了高性能計算社區(qū)中流傳的某些迷思和傳言。本文從會議和活動的對話鲸湃、產(chǎn)品廣告弧关、論文以及其他媒介(如推文、博客和新聞文章)中收集了這些迷思唤锉。相信它們代表了由 Dennard 擴展和摩爾定律等許多擴展律終結(jié)引發(fā)的當前大變革的時代精神世囊。雖然一些定律終結(jié),但也打開了新的方向窿祥,如算法擴展或新的體系結(jié)構(gòu)研究株憾。但是,這些迷思很少基于科學事實晒衩,而往往基于某些證據(jù)或論證嗤瞎。本文認為這就是許多迷思存在的原因,也是它們無法明確回答的原因听系。雖然感覺上應該為每個迷思都有明確的答案贝奇,但有些可能會成為無休止的哲學辯論,比如貝多芬是否比莫扎特更優(yōu)秀的問題靠胜。希望將這些迷思作為可能的新研究方向和產(chǎn)業(yè)投資的討論掉瞳。
StitchNet: 用預訓練片段創(chuàng)建高性能神經(jīng)網(wǎng)絡????StitchNet: Composing Neural Networks from Pre-Trained Fragments
S Teerapittayanon, M Comiter, B McDanel, H.T. Kung (2023)
https://arxiv.org/abs/2301.01947
要點:StitchNet 范式:一種通過組合多個預訓練網(wǎng)絡的片段來創(chuàng)建高性能神經(jīng)網(wǎng)絡的方法;在評估片段的可組合性時浪漠,采用居中內(nèi)核對齊(CKA)的新方法陕习;提出用于線性層和卷積層的可組合片段的組合技術(shù)。
一句話總結(jié):StitchNet 是通過結(jié)合多個預訓練網(wǎng)絡的片段來創(chuàng)建高性能神經(jīng)網(wǎng)絡的方法址愿,用居中內(nèi)核對齊(CKA)來評估兼容性并指導選擇该镣。StitchNets 可以在較少的計算和數(shù)據(jù)資源的情況下實現(xiàn)與傳統(tǒng)訓練網(wǎng)絡相當?shù)木龋⒖捎糜诩磿r個性化模型創(chuàng)建和推理效率的提升响谓。
摘要:提出了 StitchNet损合,一種新的神經(jīng)網(wǎng)絡創(chuàng)建范式省艳,將來自多個預訓練神經(jīng)網(wǎng)絡的片段(一個或多個連續(xù)網(wǎng)絡層)拼接在一起。StitchNet 可以不需要傳統(tǒng)模型創(chuàng)建過程中反向傳播所需大量計算和數(shù)據(jù)要求而創(chuàng)建高性能神經(jīng)網(wǎng)絡嫁审。利用居中內(nèi)核對齊(CKA)作為兼容性度量拍埠,有效地指導這些片段在組成針對特定精度需求和計算資源約束的給定任務的網(wǎng)絡的選擇。本文展示了這些片段可以被拼接在一起土居,以創(chuàng)建與傳統(tǒng)訓練網(wǎng)絡相當精度的神經(jīng)網(wǎng)絡,而計算資源和數(shù)據(jù)要求的比例小得多嬉探。本文還探索了這種新范式激活的新型即時個性化模型創(chuàng)建和推理應用擦耀。
重新思考高效神經(jīng)模型的移動端塊????Rethinking Mobile Block for Efficient Neural Models
J Zhang, X Li, J Li, L Liu, Z Xue, B Zhang, Z Jiang, T Huang, Y Wang, C Wang
[Tencent & Peking University & Wuhan University]
https://arxiv.org/abs/2301.01146
要點:本文專注于設(shè)計具有低參數(shù)低 FLOPs 的高效模型,用于稠密預測涩堤;提出Meta-Mobile Block眷蜓,一種統(tǒng)一 MobileNetv2 中高效逆殘差塊和 ViT 中有效Transformer的通用概念;提出了用于移動和稠密應用的逆殘差移動塊(iRMB)和高效模塊(EMO)胎围,基于Meta-Mobile Block概念吁系,并在多個基準測試上實現(xiàn)了強大的性能。
一句話總結(jié):本文提出 Meta-Mobile Block 概念和 iRMB 和 EMO 模型白魂,用于高效稠密預測汽纤,在多個基準測試中證明了其優(yōu)于最先進的方法。
摘要:本文致力于設(shè)計低參數(shù)低 FLOPs 的高效模型福荸,用于稠密預測叠聋。盡管基于 CNN 的輕量方法在多年的研究后取得了令人矚目的成果件舵,但在準確性和受限資源之間權(quán)衡的模型仍需進一步改進。本研究重新思考了 MobileNetv2 中高效逆殘差塊和 ViT 中有效 Transformer 的基本統(tǒng)一性,通過歸納抽象出 Meta-Mobile Block 的一般概念汗侵,即使共享相同的框架,具體實例化也對模型性能非常重要财松。受這一現(xiàn)象的啟發(fā)辽聊,本文推導出了一種簡單而高效的現(xiàn)代逆殘差移動塊(iRMB),用于移動應用颤介,其吸收了 CNN 的效率梳星,用于模擬短程依賴關(guān)系,并具有 Transformer 類似的動態(tài)建模能力滚朵,用于學習長程交互丰泊。本文還設(shè)計了一種僅基于一系列 iRMB 的 ResNet 類 4 階段高效模塊(EMO),用于稠密應用始绍。在 ImageNet-1K瞳购、COCO2017 和 ADE20K 基準測試中進行的大量實驗證明了 EMO 優(yōu)于最先進的方法,同時很好地平衡了模型準確性和效率亏推。
魯棒動態(tài)輻射場????Robust Dynamic Radiance Fields
Y Liu, C Gao, A Meuleman, H Tseng, A Saraf, C Kim, Y Chuang, J Kopf, J Huang
[Meta & National Taiwan University & KAIST]
https://arxiv.org/abs/2301.02239
https://robust-dynrf.github.io/
要點:提出一種不需要已知相機姿態(tài)作為輸入的動態(tài)單目視頻時空合成算法学赛;經(jīng)過精心設(shè)計的架構(gòu)和輔助損失年堆,提高了相機姿態(tài)估計和動態(tài)輻射場重建的魯棒性;在典型的 SfM 系統(tǒng)無法估計相機姿態(tài)的挑戰(zhàn)性數(shù)據(jù)集上表現(xiàn)出良好的魯棒性盏浇。
一句話總結(jié):提出了一種在不需要已知相機姿態(tài)的情況下魯棒重建動態(tài)輻射場的方法变丧,通過精心設(shè)計的模型和輔助損失有效提升了魯棒性。
摘要:動態(tài)輻射場重建方法旨在對動態(tài)場景的時變結(jié)構(gòu)和外觀進行建模绢掰。然而痒蓬,現(xiàn)有方法假設(shè)通過運動結(jié)構(gòu)(SfM)算法可以可靠地估計準確的相機姿態(tài)。因此滴劲,這些方法不可靠攻晒,因為 SfM 算法常常在具有高動態(tài)對象、紋理質(zhì)量差的表面和旋轉(zhuǎn)相機運動的挑戰(zhàn)性視頻中失敗或產(chǎn)生錯誤的姿態(tài)班挖。本文通過聯(lián)合估計靜態(tài)和動態(tài)輻射場以及相機參數(shù)(姿態(tài)和焦距)來解決該魯棒性問題鲁捏。本文通過大量的定量和定性實驗來展示該方法的魯棒性。實驗結(jié)果顯示萧芙,與最先進的動態(tài)視圖合成方法相比具有良好的性能给梅。
All in Tokens: 通過軟Token統(tǒng)一視覺任務輸出空間????All in Tokens: Unifying Output Space of Visual Tasks via Soft Token
J Ning, C Li, Z Zhang, Z Geng, Q Dai, K He, H Hu
[Microsoft Research Asia & Huazhong University of Science and Technology & ...]
https://arxiv.org/abs/2301.02229
https://github.com/SwinTransformer/AiT
要點:引入軟Token來表示視覺任務的輸出;用掩碼增強來提高存在標簽標記值損壞或未定義的任務的性能双揪;提出一個統(tǒng)一的自回歸編-解碼器模型动羽,可同時處理多個視覺任務。
一句話總結(jié):提出用軟Token表示視覺任務輸出的新方法渔期,以及多視覺任務的統(tǒng)一模型曹质,在深度估計數(shù)據(jù)集上實現(xiàn)了最先進的性能,并在目標檢測和實例分割方面實現(xiàn)了有競爭力的結(jié)果擎场。
BiMLP: 視覺多層感知器緊湊二值架構(gòu)????BiMLP: Compact Binary Architectures for Vision Multi-Layer Perceptrons
Y Xu, X Chen, Y Wang
[Huawei Noah’s Ark Lab]
https://arxiv.org/abs/2212.14158
https://gitee.com/mindspore/models/tree/master/research/cv/BiMLP
要點:二值化多層感知器(MLP)模型的主要困難羽德,在于FC層的表示能力比卷積網(wǎng)絡模型中具有更大核尺寸的卷積操作要差;引入一種多分支二值MLP塊(MBB塊)和Uni-shortcut操作來提高二值MLP模型的表示能力迅办;修改下采樣層架構(gòu)以降低計算復雜度宅静;在ImageNet-1K數(shù)據(jù)集上的實驗結(jié)果表明,所提出的BiMLP模型比最先進的ReActNet模型在top-1精度上有1.3%的提高站欺,操作次數(shù)減少了12.1%姨夹。
SinDDM: 單圖像去噪擴散模型????SinDDM: A Single Image Denoising Diffusion Model
V Kulikov, S Yadin, M Kleiner, T Michaeli
[Technion – Israel Institute of Technology]
https://arxiv.org/abs/2211.16582
https://matankleiner.github.io/sinddm/
要點:去噪擴散模型(DDM)為圖像生成、編輯和恢復帶來了顯著的性能提升矾策;提出一種在單幅圖像上訓練DDM的框架SinDDM磷账,用多尺度擴散過程和輕量去噪器來驅(qū)動反向擴散過程;SinDDM適用于各種任務贾虽,如風格遷移和用單幅圖像引導生成逃糟,并且能生成任意維的多樣高質(zhì)量樣本。
摘要:去噪擴散模型(DDM)帶來了圖像生成、編輯和恢復方面的驚人性能飛躍绰咽。然而菇肃,現(xiàn)有的DDM用非常大的數(shù)據(jù)集進行訓練。本文提出一種在單幅圖像上訓練DDM的框架取募。創(chuàng)建SinDDM的方法通過用多尺度擴散過程學習訓練圖像的內(nèi)部統(tǒng)計信息琐谤。為了推動反向擴散過程,用全卷積輕量去噪器玩敏,該去噪器取決于噪音水平和規(guī)模斗忌。該架構(gòu)允許以從粗到細的方式生成任意維的樣本。SinDDM可生成各種高質(zhì)量樣本旺聚,并適用于各種任務织阳,包括樣式遷移和協(xié)調(diào)。此外翻屈,它很容易受到外部監(jiān)督的指導。特別是妻坝,用預訓練的CLIP模型演示了從單幅圖像進行文本引導生成伸眶。
Imagen編輯器和EditBench:文本引導圖像補齊的推進與評估????Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting
S Wang, C Saharia, C Montgomery, J Pont-Tuset, S Noy, S Pellegrini, Y Onoe, S Laszlo, D J. Fleet, R Soricut...
[Google Research]
https://arxiv.org/abs/2212.06909
要點:Imagen Editor是一種級聯(lián)擴散模型,可在文本引導圖像補全上微調(diào)刽宪,用目標檢測器在訓練期間提出補全掩碼厘贼;EditBench是一種系統(tǒng)的文本引導圖像補全基準,可對自然圖像和生成圖像的補全編輯進行細粒度評估圣拄,探索對象嘴秸、屬性和場景;EditBench上的人工評估表明庇谆,訓練期間的目標掩碼可以改善文本圖像對齊岳掐,當前模型比文本渲染更擅長對象渲染。
摘要:文本引導圖像編輯可在支持創(chuàng)意應用方面產(chǎn)生變革性影響饭耳。一個關(guān)鍵的挑戰(zhàn)是生成忠實于輸入文本提示的編輯串述,同時與輸入圖像保持一致。本文提出Imagen編輯器寞肖,一種通過在文本引導圖像補全上微調(diào)Imagen構(gòu)建的級聯(lián)擴散模型纲酗。Imagen編輯器的編輯忠實于文本提示,這是通過在訓練期間使用目標檢測器提出補全掩碼來完成的新蟆。此外觅赊,圖像編輯器通過調(diào)節(jié)原始高分辨率圖像上的級聯(lián)管道來捕獲輸入圖像中的精細細節(jié)。為了改進定性和定量評估琼稻,引入了EditBench吮螺,文本引導圖像補全的系統(tǒng)基準。EditBench評估自然和生成圖像的補全編輯,探索對象规脸、屬性和場景坯约。通過對EditBench的廣泛人工評估,發(fā)現(xiàn)訓練期間的目標掩碼導致文本圖像對齊的全面改進——例如莫鸭,圖像編輯器優(yōu)于DALL-E 2和Stable Diffusion——作為一個隊列闹丐,這些模型更擅長目標渲染而不是文本渲染,并且比計數(shù)/形狀屬性更好地處理材料/顏色/大小屬性被因。