3D Moments from Near-Duplicate Photos
Q Wang, Z Li, D Salesin, N Snavely, B Curless, J Kontkanen
高度近似照片的3D時刻矛纹。我們介紹3D時刻(3D Moments)抵栈,一種新的計算攝影效果溪掀。用一對近乎重復(fù)的照片作為輸入事镣,即在人們的照片集中常見的從類似視角拍攝的移動目標的照片。制作一個視頻作為輸出揪胃,將場景的運動從第一張照片平滑地插到第二張照片上璃哟,同時產(chǎn)生具有視差的相機運動,給人以更高的3D感喊递。為達到這種效果随闪,將場景表示為一對基于特征的分層深度圖像,并輔以場景流册舞。該表示方法使運動插值與攝像機視角的獨立控制相結(jié)合蕴掏。該系統(tǒng)產(chǎn)生了具有運動視差和場景動態(tài)的逼真的時空視頻,同時合理恢復(fù)了原始視圖中被遮擋的區(qū)域。廣泛的實驗證明盛杰,在公共數(shù)據(jù)集和野外照片上的性能均優(yōu)于基線挽荡。
A Generalist Agent
https://arxiv.org/abs/2205.06175????[DeepMind]
全能型智能體。受大規(guī)模語言建模進展的啟發(fā)即供,本文采用類似方法建立了一個超越文本輸出域的單個通用智能體定拟,稱為Gato,作為一個多模態(tài)逗嫡、多任務(wù)青自、多具身通用策略工作。具有相同權(quán)重的同一個網(wǎng)絡(luò)可以玩雅達利游戲驱证、對圖像進行描述延窜、聊天、用真正的機器手臂堆積木等等抹锄,根據(jù)其上下文決定是否輸出文本逆瑞、關(guān)節(jié)扭力、按按鈕或其他Token伙单。本報告描述了模型和數(shù)據(jù)获高,并記錄了Gato的當(dāng)前能力。
Unifying Language Learning Paradigms
https://arxiv.org/abs/2205.05131????[Google Research]
統(tǒng)一的語言學(xué)習(xí)范式∥怯現(xiàn)有的預(yù)訓(xùn)練模型念秧,一般都是針對某一類問題的。到目前為止布疼,對于什么是正確的架構(gòu)和預(yù)訓(xùn)練設(shè)置摊趾,似乎仍然沒有共識。本文提出一種統(tǒng)一的預(yù)訓(xùn)練模型框架缎除,在不同的數(shù)據(jù)集和設(shè)置中都是有效的严就。將架構(gòu)原型與預(yù)訓(xùn)練目標分開总寻,這兩個概念通常被混為一談器罐。為NLP中的自監(jiān)督提出一種普遍而統(tǒng)一的觀點,并展示了不同的預(yù)訓(xùn)練目標是如何相互投射的渐行,以及不同目標之間的插值是如何奏效的轰坊。本文提出Mixture-of-Denoisers(MoD),一種將不同的預(yù)訓(xùn)練范式結(jié)合起來的預(yù)訓(xùn)練目標祟印。提出了模式切換的概念肴沫,下游的微調(diào)與特定的預(yù)訓(xùn)練方案相關(guān)。進行了廣泛的消融實驗來比較多種預(yù)訓(xùn)練目標蕴忆,發(fā)現(xiàn)所提出方法在多種不同的設(shè)置中超越了T5和/或類似GPT的模型颤芬,從而推動了Pareto-frontier的發(fā)展。將所提出模型擴展到20B參數(shù),在50個公認的有監(jiān)督NLP任務(wù)上取得了SOTA性能站蝠,這些任務(wù)包括語言生成(自動和人工評估)汰具、語言理解、文本分類菱魔、問題回答留荔、常識推理、長文本推理澜倦、結(jié)構(gòu)化知識基礎(chǔ)和信息檢索聚蝶。所提出模型在語境學(xué)習(xí)方面也取得了很好的效果,在零次SuperGLUE上超過了175B GPT-3藻治,在單次摘要上是T5-XXL性能的三倍碘勉。
Data Distributional Properties Drive Emergent Few-Shot Learning in Transformers
https://arxiv.org/abs/2205.05055????[DeepMind & University College London]
數(shù)據(jù)分布特性有助于Transformer的少次學(xué)習(xí)∽眩基于Transformer的大型語言模型能進行少次學(xué)習(xí)(也稱為上下文學(xué)習(xí))恰聘,而無需經(jīng)過明確的訓(xùn)練。本文假設(shè)吸占,自然語言的特定分布特性可能會驅(qū)動這一新興現(xiàn)象晴叨,因為這些特性可能會導(dǎo)致一種介于少次元訓(xùn)練(旨在引發(fā)快速的少次學(xué)習(xí))和標準的監(jiān)督訓(xùn)練(旨在引起漸進的上下文學(xué)習(xí))之間的訓(xùn)練。本文還假設(shè)矾屯,這些分布特性可能導(dǎo)致在語言以外的領(lǐng)域出現(xiàn)少次學(xué)習(xí)兼蕊。在該想法的啟發(fā)下,在一個標準的基于圖像的少次數(shù)據(jù)集上進行了一系列實驗件蚕。發(fā)現(xiàn)一些數(shù)據(jù)屬性確實促進了Transformer模型中少次學(xué)習(xí)的出現(xiàn)孙技。所有這些屬性都存在于自然語言中——突發(fā)性、長尾性排作、以及多對一或一對多的標簽映射牵啦。這些數(shù)據(jù)影響了模型是否偏向于少次學(xué)習(xí)和記憶其權(quán)重中的信息;模型通常只能在其中一個方面表現(xiàn)良好妄痪。一個額外的分布屬性可以讓這兩種能力在同一個模型中共存——一種傾斜的哈雏、Zipfian的類別分布——這也發(fā)生在語言中。值得注意的是衫生,能在Transformer中引起少次學(xué)習(xí)的訓(xùn)練數(shù)據(jù)無法在遞歸模型中引起少次學(xué)習(xí)裳瘪。本文發(fā)現(xiàn),只有將正確的架構(gòu)應(yīng)用于正確的數(shù)據(jù)分布罪针,才會達成少次學(xué)習(xí)彭羹;任何一個組成部分單獨來看都是不夠的。
KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative Spatial Encoding of Keypoints
https://arxiv.org/abs/2205.04992????[ETH Zurich & Reality Labs Research]
KeypointNeRF:基于關(guān)鍵點相對空間編碼的圖像體化頭像泛化泪酱∨梢螅基于圖像的體化頭像还最,使用像素對齊的特征,有望泛化為未見過的姿態(tài)和身份毡惜。先前的工作利用全局空間編碼和多視圖幾何一致性來減少空間歧義性憋活。然而,全局編碼經(jīng)常收到對訓(xùn)練數(shù)據(jù)分布過擬合的影響虱黄,而且很難從稀疏視圖中學(xué)習(xí)多視圖一致性重建悦即。本文研究了現(xiàn)有空間編碼的常見問題,提出一種簡單高效的方法橱乱,從僅有的兩張輸入圖像中建立高保真體化頭像模型辜梳。其中一個關(guān)鍵想法是通過稀疏3D關(guān)鍵點來編碼相對空間3D信息,該方法對視角的稀疏性和跨數(shù)據(jù)集領(lǐng)域的差距具有魯棒性泳叠,能更好地適用于具有挑戰(zhàn)性的域外輸入作瞄,如在真實場景用iPhone拍攝的自拍。所提出方法在頭部重建方面優(yōu)于最先進的方法危纫,由于不需要參數(shù)化的模板網(wǎng)格宗挥,可以不加修改地應(yīng)用于人體重建的任務(wù),并取得與更復(fù)雜的种蝶、必須依靠參數(shù)化人體模型和時間特征聚合的之前工作相媲美的性能契耿。在對未見過的受試者進行人體重建時,也取得了與之前用參數(shù)化人體模型和時間特征聚合的工作相當(dāng)?shù)男阅荏φ鳌嶒灡砻魈鹿穑肮ぷ髦械拇蟛糠皱e誤都源于對空間編碼的不恰當(dāng)選擇,本文為基于圖像的高保真頭像建模提出了一個新的方向盯滚。
Panoptic Neural Fields: A Semantic Object-Aware Neural Scene Representation
https://arxiv.org/abs/2205.04334????[Google Research]? ? CVPR? ? 2022
泛視神經(jīng)場:語義對象感知神經(jīng)場景表示踢械。本文提出了泛視神經(jīng)場(PNF),一種物體感知神經(jīng)場景表示魄藕,將場景分解為一組對象(事物)和背景(東西)内列。每個對象由一個定向的三維邊框和一個多層感知器(MLP)表示,該感知器獲取位置背率、方向和時間并輸出密度和輻射度话瞧。背景的東西由一個類似的MLP表示,另外還輸出語義標簽退渗。每個對象的MLP都是特定于實例的移稳,因此比之前的對象感知方法更小蕴纳、更快会油,同時仍然利用通過元學(xué)習(xí)初始化納入的特定類別先驗。該模型僅從彩色圖像中建立任意場景的全景輻射場表示古毛。該可以被查詢以獲得任何3D點的顏色翻翩、密度都许、實例和類標簽。用現(xiàn)成的算法來預(yù)測相機位置嫂冻、目標軌跡和2D圖像語義分割胶征。利用彩色圖像自監(jiān)督和預(yù)測的語義分割的偽監(jiān)督,通過綜合分析來聯(lián)合優(yōu)化MLP權(quán)重和邊框參數(shù)桨仿。在真實世界動態(tài)場景的實驗中睛低,該模型可有效地用于一些任務(wù),如新視圖合成服傍、2D全景分割钱雷、3D場景編輯和多視圖深度預(yù)測。
NeuralHDHair: Automatic High-fidelity Hair Modeling from a Single Image Using Implicit Neural Representations
https://arxiv.org/abs/2205.04175????[Zhejiang University & ETH Zurich & City University of Hong Kong]
NeuralHDHair:用隱神經(jīng)表示從單幅圖像中自動建立高保真頭發(fā)模型吹零。毋庸置疑罩抗,高保真3D維頭發(fā)在數(shù)字人中扮演著不可或缺的角色。然而灿椅,現(xiàn)有的單目毛發(fā)建模方法要么難以在數(shù)字系統(tǒng)中部署(例如套蒂,由于依賴于復(fù)雜的用戶交互或大型數(shù)據(jù)庫),要么只能產(chǎn)生一個粗略的幾何形狀茫蛹。本文提出NeuralHDHair操刀,一種靈活的、全自動的系統(tǒng)婴洼,用于從單幅圖像建立高保真頭發(fā)模型馍刮。該系統(tǒng)的關(guān)鍵是兩個精心設(shè)計的神經(jīng)網(wǎng)絡(luò):IRHairNet(神經(jīng)網(wǎng)絡(luò)頭發(fā)隱表示法),用于分層推斷高保真3D頭發(fā)的幾何特征(3D方向場和3D占位場)窃蹋;GrowingNet(用神經(jīng)網(wǎng)絡(luò)生長發(fā)絲)卡啰,用于有效并行生成3D發(fā)絲。以從粗到細的方式警没,并提出了一種新的體素對齊隱函數(shù)(VIFu)來表示全局頭發(fā)特征匈辱,通過從頭發(fā)亮度圖中提取的局部細節(jié)來進一步加強。為提高傳統(tǒng)頭發(fā)生長算法的效率杀迹,采用一種局部神經(jīng)隱函數(shù)亡脸,根據(jù)估計的3D頭發(fā)幾何特征來生長發(fā)絲。大量實驗表明树酪,所提出方法能有效地從單幅圖像構(gòu)建高保真3D頭發(fā)模型浅碾,并達到了最先進的性能。
Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning
超越預(yù)訓(xùn)練目標檢測器:面向圖像描述的跨模態(tài)文本和視覺上下文
[Georgia Tech]????https://arxiv.org/abs/2205.04363
CLIP-CLOP: CLIP-Guided Collage and Photomontage
https://arxiv.org/abs/2205.03146????[DeepMind]
CLIP-CLOP:CLIP引導(dǎo)的拼貼和合成照片续语。大規(guī)模神經(jīng)網(wǎng)絡(luò)有增無減的神秘感垂谢,如CLIP圖像-文本雙向編碼器,普及了自動生成的藝術(shù)疮茄。越來越復(fù)雜的生成器增強了藝術(shù)作品的真實性和視覺外觀滥朱,而創(chuàng)造性提示工程使風(fēng)格表達成為可能根暑。在藝術(shù)家的理想指導(dǎo)下,本文設(shè)計了一種基于梯度的生成器來制作拼貼畫徙邻,并將其與流行的圖像-文本雙向編碼器(如CLIP)結(jié)合起來排嫌,它要求人類藝術(shù)家策劃圖像補塊庫,并(通過提示)描述整個圖像構(gòu)成缰犁,在生成過程中可以選擇手動調(diào)整圖塊位置淳地,從而使人類能夠重新獲得對過程的一些控制權(quán),實現(xiàn)更大的創(chuàng)作自由帅容。
Data Determines Distributional Robustness in Contrastive Language Image Pre-training (CLIP)
https://arxiv.org/abs/2205.01397????[University of Washington & Amazon & Allen Institute for Artificial Intelligence]
數(shù)據(jù)決定了對比語言圖像預(yù)訓(xùn)練(CLIP)的分布魯棒性薇芝。對比訓(xùn)練的圖像-文本模型,如CLIP丰嘉、ALIGN和BASIC夯到,對多種具有挑戰(zhàn)性的自然分布變化表現(xiàn)出前所未有的魯棒性。由于這些圖像-文本模型在幾個方面與之前的訓(xùn)練方法不同饮亏,一個重要的問題是什么帶來了巨大的魯棒性收益耍贾。本文通過一個系統(tǒng)的實驗調(diào)查來回答這個問題,研究了導(dǎo)致魯棒性提高的五種不同的可能原因:(i)訓(xùn)練集大小路幸,(ii)訓(xùn)練分布荐开,(iii)訓(xùn)練時的語言監(jiān)督,(iv)測試時的語言監(jiān)督简肴,以及(v)對比損失函數(shù)晃听。實驗表明,更多樣化的訓(xùn)練分布是魯棒性提高的主要原因砰识,其他因素對魯棒性的貢獻很小甚至沒有能扒。除了實驗結(jié)果,本文還介紹了ImageNet-Captions辫狼,一個帶有Flickr原始文本標注的ImageNet版本初斑,以便對語言-圖像訓(xùn)練進行進一步的控制實驗。
CoCa: Contrastive Captioners are Image-Text Foundation Models
https://arxiv.org/abs/2205.01917????[Google Research]
CoCa: 視覺預(yù)訓(xùn)練范式與自然語言監(jiān)督相結(jié)合的圖像-文本基礎(chǔ)模型族膨处。探索大規(guī)的預(yù)訓(xùn)練基礎(chǔ)模型在計算機視覺中具有重要的意義见秤,因為這些模型可以快速遷移到許多下游任務(wù)中。本文提出對比圖像描述器(CoCa)真椿,一種最小化設(shè)計鹃答,將圖像-文本編-解碼器基礎(chǔ)模型與對比損失和圖片描述損失聯(lián)合起來進行預(yù)訓(xùn)練,從而將來自CLIP等對比方法和SimVLM等生成方法的模型能力歸納起來突硝。與標準的編-解碼器Transformer相比测摔,所有解碼器層都關(guān)注編碼器的輸出,CoCa在解碼器層的前半部分省略了交叉注意力狞换,以編碼單模態(tài)文本表示避咆,并將其余的解碼器層級聯(lián)起來舟肉,交叉關(guān)注圖像編碼器的多模態(tài)圖像-文本表示修噪。在單模態(tài)圖像和文本嵌入之間應(yīng)用了對比損失查库,此外還在多模態(tài)解碼器輸出上應(yīng)用了描述損失,該損失可自動預(yù)測文本Token黄琼。通過共享相同的計算圖樊销,這兩個訓(xùn)練目標的計算效率很高,開銷最小脏款。CoCa在網(wǎng)絡(luò)規(guī)模的alt-text數(shù)據(jù)和有標注的圖像上進行了端到端的預(yù)訓(xùn)練围苫,將所有標簽簡單地視為文本,無縫地將自然語言監(jiān)督與表示學(xué)習(xí)統(tǒng)一起來撤师。從經(jīng)驗上看剂府,CoCa在廣泛的下游任務(wù)上實現(xiàn)了最先進的性能,包括視覺識別(ImageNet剃盾、Kinetics400/600/700腺占、Moments-in-Time)、跨模態(tài)檢索(MSCOCO痒谴、Flickr30K衰伯、MSR-VTT)、多模態(tài)理解(VQA积蔚、SNLI-VE意鲸、NLVR2)和圖像描述(MSCOCO、NoCaps)尽爆。值得注意的是怎顾,在ImageNet的分類中,CoCa獲得了86.3%的零次頂級準確率漱贱,使用凍結(jié)的編碼器和學(xué)習(xí)的分類頭獲得了90.6%的準確率杆勇,使用微調(diào)的編碼器在ImageNet上獲得了最新的91.0%頂級準確率。
A Probabilistic Interpretation of Transformers
https://arxiv.org/abs/2205.01080????[ML Collective]
Transformer的概率解釋饱亿。本文提出對Transformer的指數(shù)點積注意力的概率解釋蚜退,以及基于指數(shù)族的對比學(xué)習(xí)。Transformer的注意力子層相當(dāng)于對數(shù)規(guī)范化器的梯度上升步驟彪笼,也就是注意力的Hopfield理論中的對數(shù)和exp項钻注。這個上升步驟帶來了點的平行擴展,被來自層歸一化的收縮所抵消了配猫。本文還說明了所述理論和Hopfield理論的理論局限性幅恋,并提出了解決的方向。
Depth Estimation with Simplified Transformer
基于簡化Transformer的深度估計????[NVIDIA]????https://arxiv.org/abs/2204.13791
ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
https://arxiv.org/abs/2204.12484????[The University of Sydney & JD Explore Academy]
ViTPose:人體姿態(tài)估計的簡單視覺Transformer基線泵肄。最近捆交,定制的視覺Transformer被用于人體種姿態(tài)估計淑翼,并通過精心設(shè)計的結(jié)構(gòu)取得了卓越的性能。然而品追,目前還不清楚普通的視覺Transformer是否能促進姿態(tài)估計玄括。本文邁出了回答這個問題的第一步,采用一個普通的肉瓦、非層次化的視覺Transformer和簡單的去卷積解碼器遭京,稱為ViTPose,用于人體姿態(tài)估計泞莉。證明了一個帶有MAE預(yù)訓(xùn)練的普通視覺Transformer在人體姿態(tài)估計數(shù)據(jù)集上進行微調(diào)后可以獲得卓越的性能哪雕。ViTPose在模型大小方面具有良好的可擴展性,在輸入分辨率和標記數(shù)量方面具有靈活性鲫趁。此外斯嚎,它可以很容易地使用未標記的種姿態(tài)數(shù)據(jù)進行預(yù)訓(xùn)練,而不需要大規(guī)模的上游ImageNet數(shù)據(jù)挨厚。最大的ViTPose模型基于ViTAE-G主干堡僻,有10億參數(shù),在MS COCO測試開發(fā)集上獲得了最好的80.9 mAP幽崩,而集成模型進一步創(chuàng)造了人體姿態(tài)估計的新的最先進水平苦始,81.1 mAP。
OPT: Open Pre-trained Transformer Language Models
OPT:開放預(yù)訓(xùn)練Transformer語言模型????[Meta AI]????https://arxiv.org/abs/2205.01068
CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers
https://arxiv.org/abs/2204.14217????[Tsinghua University]
CogView2:基于層次Transformer的更快更好文本-圖像生成慌申∧把。基于Transformer的文本到圖像模型的發(fā)展,因其緩慢的生成和對高分辨率圖像的復(fù)雜性而受到阻礙蹄溉。本文提出一種基于層次Transformer和局部平行自回歸生成的解決方案咨油。用一個簡單而靈活的自監(jiān)督任務(wù)——跨模態(tài)通用語言模型(CogLM)來預(yù)訓(xùn)練一個6B參數(shù)的Transformer,并對其進行微調(diào)以實現(xiàn)快速的超分辨率柒爵。新的文本到圖像系統(tǒng)CogView2役电,與目前最先進的DALLE-2相比,顯示出非常有競爭力的生成棉胀,并自然支持圖像上交互式文本指導(dǎo)的編輯法瑟。
Learning strides in convolutional neural networks
https://arxiv.org/abs/2202.01653????[PSL Research University & Google Research]
卷積神經(jīng)網(wǎng)絡(luò)步長學(xué)習(xí)。卷積神經(jīng)網(wǎng)絡(luò)通常包含幾個降采樣運算子唁奢,如步長卷積或池化層霎挟,用來逐步降低中間表示的分辨率。這提供了一些移位變量麻掸,同時降低了整個架構(gòu)的計算復(fù)雜性酥夭。這種層的一個關(guān)鍵超參數(shù)是步長:下采樣的整數(shù)因子。由于步長不可微,尋找最佳配置需要交叉驗證或離散優(yōu)化(如架構(gòu)搜索)熬北,會迅速變得難以承受疙描,因為搜索空間隨著下采樣層的數(shù)量呈指數(shù)增長。因此讶隐,通過梯度下降探索該搜索空間膝舅,可以以較低的計算成本找到更好的配置议惰。本文提出DiffStride厢漩,第一個具有可學(xué)習(xí)步長的下采樣層褐澎,在傅里葉域中學(xué)習(xí)cropping mask的大小籽孙,從而有效地以可微方式是實現(xiàn)大小調(diào)整烈评。在音頻和圖像分類方面的實驗,表明了所提出解決方案的通用性和有效性:用DiffStride作為標準下采樣層的替代犯建,實現(xiàn)了更好的性能讲冠。在ResNet-18架構(gòu)中引入DiffStride層可以在CIFAR10、CIFAR100和ImageNet上保持一致的高性能适瓦,即使訓(xùn)練從糟糕的隨機步長配置開始竿开。此外,將步長表述為可學(xué)習(xí)的變量能引入一個正則化項玻熙,以控制架構(gòu)的計算復(fù)雜性否彩。
PP-Matting: High-Accuracy Natural Image Matting
PP-Matting:高精度自然圖像摳圖????[Baidu Inc]????https://arxiv.org/abs/2204.09433
Temporally Efficient Vision Transformer for Video Instance Segmentation
https://arxiv.org/abs/2204.08412
[Huazhong University of Science & Technology & Tencent PCG & International Digital Economy Academy (IDEA)]
面向視頻實例分割的時間高效視覺Transformer。最近嗦随,視覺Transformer在圖片級視覺識別任務(wù)上取得了巨大的成功列荔。為高效模擬視頻片段中的關(guān)鍵時間信息,本文提出一種用于視頻實例分割的時間高效視覺Transformer(TeViT)枚尼。與之前基于Transformer的視覺方法不同贴浙,TeViT幾乎是無卷積的,包含一個Transformer主干和一個基于查詢的視頻實例分割頭署恍。在骨干階段崎溃,提出一種幾乎無參數(shù)的messenger偏移機制,用于早期的時間上下文融合盯质。在頭部階段袁串,提出一種參數(shù)共享的時空查詢交互機制,以建立視頻實例和查詢之間的一對一對應(yīng)關(guān)系呼巷。TeViT充分利用了幀級和實例級的時空信息囱修,以可忽略不計的額外計算成本獲得了強大的時空建模能力。在三個廣泛采用的VIS基準朵逝,即YouTube-VIS-2019蔚袍、YouTube-VIS-2021和OVIS上,TeViT獲得了最先進的結(jié)果,并保持了較高的推理速度啤咽,例如晋辆,在YouTube-VIS-2019上以68.9 FPS獲得46.6 AP。
An Extendable, Efficient and Effective Transformer-based Object Detector
https://arxiv.org/abs/2204.07962????[NAVER AI Lab & Google]
可擴展有效且高效的Transformer目標檢測器宇整。Transformer已被廣泛用于許多視覺問題中瓶佳,特別是視覺識別和檢測。檢測Transformer是第一個用于目標檢測的完全端到端的學(xué)習(xí)系統(tǒng)鳞青,而視覺Transformer是第一個用于圖像分類的完全基于Transformer的架構(gòu)霸饲。本文整合了視覺和檢測Transformer(ViDT)來構(gòu)建一個有效和高效的目標檢測器。ViDT引入一個重新配置的注意力模塊臂拓,將最近的Swin Transformer擴展為一個獨立的目標檢測器厚脉,然后是一個計算高效的Transformer解碼器,利用多尺度特征和輔助技術(shù)來提高檢測性能胶惰,而不增加太多計算負荷傻工。將其擴展到ViDT+,以支持目標檢測和實例分割的聯(lián)合任務(wù)學(xué)習(xí)孵滞。附加了一個有效的多尺度特征融合層中捆,并利用兩個更多的輔助訓(xùn)練損失,即IoU感知損失和標記損失坊饶。對微軟COCO基準數(shù)據(jù)集的廣泛評估結(jié)果表明泄伪,ViDT在現(xiàn)有的完全基于Transformer的目標檢測器中獲得了最佳的AP和延遲權(quán)衡,由于其對大型模型的高可擴展性匿级,其擴展的ViDT+實現(xiàn)了53.2AP蟋滴。
Masked Siamese Networks for Label-Efficient Learning
https://arxiv.org/abs/2204.07141????[Facebook AI Research]
基于掩碼孿生網(wǎng)絡(luò)的標簽高效學(xué)習(xí)。本文提出掩碼孿生網(wǎng)絡(luò)(MSN)根蟹,一種用于學(xué)習(xí)圖像表示的自監(jiān)督學(xué)習(xí)框架脓杉。所提出方法將包含隨機掩碼圖塊的圖像視圖表示與原始未掩碼圖像表示相匹配。這種自監(jiān)督預(yù)訓(xùn)練策略在應(yīng)用于視覺Transformers時特別具有可擴展性简逮,因為網(wǎng)絡(luò)只處理未被掩碼的圖塊球散。因此,MSN提高了聯(lián)合嵌入架構(gòu)的可擴展性散庶,同時產(chǎn)生了高語義水平的表示蕉堰,在低照度圖像分類中表現(xiàn)出競爭性。例如悲龟,在ImageNet-1K上屋讶,只有5,000張標注圖像,所提出的基礎(chǔ)MSN模型達到了72.4%的最高準確率须教,而在ImageNet-1K的1%的標簽下皿渗,達到了75.7%的最高準確率斩芭,為這個基準的自監(jiān)督學(xué)習(xí)設(shè)定了一個新的先進水平。
Open-World Instance Segmentation: Exploiting Pseudo Ground Truth From Learned Pairwise Affinity
開放世界實例分割:基于習(xí)得成對親和力的偽真值利用????https://arxiv.org/abs/2204.06107
Unified Contrastive Learning in Image-Text-Label Space
https://arxiv.org/abs/2204.03610????[Microsoft Research at Redmond & Microsoft Cloud + AI]
圖像-文本-標簽空間統(tǒng)一對比學(xué)習(xí)乐疆。視覺識別最近通過對rren人工標注的圖像標簽數(shù)據(jù)進行監(jiān)督學(xué)習(xí)划乖,或者通過網(wǎng)絡(luò)抓取圖像-文本對進行語言-圖像對比學(xué)習(xí)。雖然監(jiān)督學(xué)習(xí)可能會產(chǎn)生一個更具鑒別力的表示挤土,但語言-圖像預(yù)訓(xùn)練顯示出前所未有的零次識別能力琴庵,這主要是由于數(shù)據(jù)源和學(xué)習(xí)目標的不同特性。本文通過將兩個數(shù)據(jù)源合并到一個共同的圖像-文本-標簽空間仰美,引入一個新的表述迷殿。在該空間中,提出了一種新的學(xué)習(xí)范式咖杂,統(tǒng)一對比學(xué)習(xí)(UniCL)庆寺,具有單一的學(xué)習(xí)目標,可以無縫地促使兩種數(shù)據(jù)類型協(xié)同作用翰苫。實驗表明止邮,UniCL是一種學(xué)習(xí)語義豐富又有鑒別力的表示的有效方式这橙,普遍適用于零次奏窑、線性探測、全微調(diào)和遷移學(xué)習(xí)場景下的圖像識別屈扎。在零次識別基準上埃唯,比語言-圖像對比學(xué)習(xí)和監(jiān)督學(xué)習(xí)方法分別獲得了高達9.2%和14.5%的平均收益。在線性探測設(shè)置中鹰晨,也比這兩種方法分別提高了7.3%和3.4%的性能墨叛。UniCL在純圖像標簽數(shù)據(jù)上是一個很好的學(xué)習(xí)器,在三個圖像分類數(shù)據(jù)集和兩種類型的視覺骨干--ResNet和Swin Transformer中模蜡,可與監(jiān)督學(xué)習(xí)方法相媲美漠趁。
Solving ImageNet: a Unified Scheme for Training any Backbone to Top Results
搞定ImageNet:訓(xùn)練任意主干獲得最佳結(jié)果的統(tǒng)一方案????[DAMO Academy, Alibaba Group]????https://arxiv.org/abs/2204.03475
The Effects of Regularization and Data Augmentation are Class Dependent
正則化和數(shù)據(jù)增強會犧牲在某些類上的性能????[Meta AI Research]????https://arxiv.org/abs/2204.03632
Scaling Up Models and Data with t5x and seqio
用t5x和seqio擴展模型和數(shù)據(jù)????https://arxiv.org/abs/2203.17189
Last Layer Re-Training is Sufficient for Robustness to Spurious Correlations
[New York University]
用最后一層重訓(xùn)練提高對虛假相關(guān)的魯棒性。神經(jīng)網(wǎng)絡(luò)分類器可能在很大程度上靠簡單的虛假特征忍疾,如背景闯传,來進行預(yù)測。然而卤妒,即使在這些情況下甥绿,本文表明它們?nèi)匀唤?jīng)常學(xué)習(xí)與數(shù)據(jù)的期望屬性相關(guān)的核心特征,這與最近的研究結(jié)果相反则披。在這一見解的啟發(fā)下共缕,本文證明了簡單的最后一層重訓(xùn)練可以在虛假相關(guān)基準上匹配或超過最先進的方法,但復(fù)雜性和計算費用卻大大降低士复。對大型ImageNet訓(xùn)練模型進行最后一層重訓(xùn)練图谷,也可以大大減少對背景和紋理信息的依賴,提高對協(xié)變量漂移的魯棒性,而在單個GPU上的訓(xùn)練只需要幾分鐘便贵。
Hierarchical Text-Conditional Image Generation with CLIP Latents
https://cdn.openai.com/papers/dall-e-2.pdf????[OpenAI]
基于CLIP潛表示的層次文本條件圖像生成隅茎。像CLIP這樣的對比性模型已經(jīng)證明可以學(xué)習(xí)魯棒的圖像表示,可以捕捉語義和風(fēng)格嫉沽。為了利用這些表示來生成圖像辟犀,本文提出一個兩階段模型:一個給定文本標題生成CLIP圖像嵌入的先驗,以及一個以圖像嵌入為條件生成圖像的解碼器绸硕。明確地生成圖像表示提高了圖像的多樣性堂竟,在逼真度和標題的相似性方面損失最小。以圖像表示為條件的解碼器也可以產(chǎn)生圖像變化玻佩,保留其語義和風(fēng)格出嘹,同時改變圖像表示中沒有的非必要細節(jié)。對解碼器使用擴散模型咬崔,并對先驗的自回歸和擴散模型進行實驗税稼,發(fā)現(xiàn)后者在計算上更有效,并能產(chǎn)生更高質(zhì)量的樣本垮斯。
SinNeRF: Training Neural Radiance Fields on Complex Scenes from a Single Image
SinNeRF:用單幅圖像訓(xùn)練復(fù)雜場景神經(jīng)輻射場郎仆。盡管神經(jīng)輻射場(NeRF)發(fā)展迅速,但稠密覆蓋的必要性在很大程度上阻礙了其更廣泛的應(yīng)用兜蠕。雖然最近有幾項工作試圖解決該問題扰肌,但它們要么是在稀疏的視圖上操作,要么是在簡單的目標/場景上操作熊杨。本文考慮了一個更加艱巨的任務(wù):通過"只看一次"曙旭,即只用一個視圖,在現(xiàn)實的復(fù)雜視覺場景中訓(xùn)練神經(jīng)輻射場晶府。為實現(xiàn)這一目標桂躏,本文提出一個由經(jīng)過周到設(shè)計的語義和幾何正則化組成的單視圖NeRF(SinNeRF)框架。SinNeRF構(gòu)建了一個半監(jiān)督學(xué)習(xí)過程川陆,引入并傳播幾何偽標記和語義偽標記來指導(dǎo)漸進訓(xùn)練過程剂习。在復(fù)雜場景基準上進行了廣泛的實驗,包括NeRF合成數(shù)據(jù)集书劝、局部光場融合數(shù)據(jù)集和DTU數(shù)據(jù)集进倍。即使不對多視圖數(shù)據(jù)集進行預(yù)訓(xùn)練,SinNeRF也能產(chǎn)生照片級真實的新視圖合成結(jié)果购对。在單幅圖像設(shè)置下猾昆,SinNeRF在所有情況下都明顯優(yōu)于目前最先進的NeRF基線。
https://arxiv.org/abs/2204.00928
SqueezeNeRF: Further factorized FastNeRF for memory-efficient inference
SqueezeNeRF:進一步分解FastNeRF以實現(xiàn)記憶高效推理????[Sony Group Corporation]????https://arxiv.org/abs/2204.02585
Benchmarking Graphormer on Large-Scale Molecular Modeling Datasets
https://arxiv.org/abs/2203.04810
大規(guī)模分子建模數(shù)據(jù)集上的Graphormer基準測試骡苞。本文介紹了Graphormer最近的更新垂蜗,包括架構(gòu)設(shè)計的修改楷扬,以及對3D分子動力學(xué)模擬的自適應(yīng)。通過這些簡單的修改贴见,Graphormer可以在大規(guī)模分子建模數(shù)據(jù)集上獲得比vanilla架構(gòu)更好的結(jié)果烘苹,并且在2D和3D分子圖建模任務(wù)上可持續(xù)獲得性能提升。在全局感受野和自適應(yīng)聚合策略下片部,Graphormer比基于消息傳遞的經(jīng)典GNN更強大镣衡。根據(jù)經(jīng)驗,Graphormer在KDD Cup 2021中使用的PCQM4M量子化學(xué)數(shù)據(jù)集上取得的MAE比最初報告的結(jié)果要小得多档悠。同時廊鸥,在最近的"開放催化劑挑戰(zhàn)賽 "中大大超過了競爭對手,該挑戰(zhàn)賽是NeurIPS 2021研討會的一個競賽項目辖所,旨在用先進的人工智能模型為催化劑-吸附劑反應(yīng)系統(tǒng)建模惰说。
Neural Neighbor Style Transfer
神經(jīng)近鄰畫風(fēng)遷移。本文提出神經(jīng)近鄰畫風(fēng)遷移(NNST)缘回,一條為藝術(shù)風(fēng)格遷移提供最先進的質(zhì)量吆视、泛化性和競爭效率的管道。該方法是將從(待風(fēng)格化)內(nèi)容輸入中提取的神經(jīng)特征顯式替換為風(fēng)格樣例的特征酥宴,再根據(jù)這些重新排列的特征合成最終輸出啦吧。雖然該方法的核心與先前工作相似,但所提出的設(shè)計決定極大提高了最終的視覺質(zhì)量幅虑。所提出方法有兩個變種丰滑。NNST-D使用一個CNN來直接解碼來自重新排列的風(fēng)格特征的風(fēng)格化輸出;比基于優(yōu)化的慢得多的方法提供了類似或更好的質(zhì)量倒庵,超過了之前的快速前饋方法,只需要幾秒鐘就能完成512×512像素的輸出風(fēng)格化炫刷,對許多應(yīng)用來說足夠快擎宝。NNST-Opt,基于優(yōu)化的變體浑玛,提供了更高的質(zhì)量绍申,盡管速度較低,在相同輸入尺寸下需要超過30秒顾彰。將這兩種NNST變體的風(fēng)格化質(zhì)量與之前的工作進行定性比較极阅,并通過一個有400名參與者的大型用戶研究,證實了所提出方法的優(yōu)越性涨享,還證明了NNST可用于視頻風(fēng)格化或擴展以支持額外的指導(dǎo)和更高的輸出分辨率筋搏。
https://arxiv.org/abs/2203.13215
Visual Prompting: Modifying Pixel Space to Adapt Pre-trained Models
https://arxiv.org/abs/2203.17274
視覺提示:修改像素空間以自適應(yīng)預(yù)訓(xùn)練模型。提示最近成為一種流行的范式厕隧,用于使語言模型自適應(yīng)下游任務(wù)奔脐。這種方法不是對模型參數(shù)進行調(diào)整俄周,也不添加特定任務(wù)的頭,而是通過在模型輸入中添加文本提示髓迎,來引導(dǎo)模型執(zhí)行一個新任務(wù)峦朗。本文探討了這樣一個問題:能否用像素來創(chuàng)建提示?預(yù)訓(xùn)練好的視覺模型排龄,能否僅通過在其輸入中添加像素波势,來自適應(yīng)一項新任務(wù)?提出了視覺提示橄维,學(xué)習(xí)一個特定任務(wù)的圖像擾動艰亮,從而使一個凍結(jié)的預(yù)訓(xùn)練模型在這個擾動的提示下執(zhí)行一項新任務(wù)。只需改變幾個像素挣郭,就足以使模型自適應(yīng)新的任務(wù)和數(shù)據(jù)集迄埃,其表現(xiàn)與目前事實上的輕量級自適應(yīng)方法——線性探測相當(dāng)。視覺提示的驚人有效性為如何自適應(yīng)視覺預(yù)訓(xùn)練模型提供了一種新視角兑障,開辟了僅通過輸入來自適應(yīng)模型的可能性侄非,與模型參數(shù)或輸出不同,輸入通常是在最終用戶的控制之下流译。
Transformer Language Models without Positional Encodings Still Learn Positional Information
https://arxiv.org/abs/2203.16634
無明確位置編碼的Transformer語言模型仍可學(xué)到位置信息逞怨。Transformer通常需要某種形式的位置編碼,如位置嵌入福澡,以處理自然語言序列叠赦。令人驚訝的是,本文發(fā)現(xiàn)沒有任何明確位置編碼的Transformer語言模型仍然可以與標準模型競爭革砸,而且這種現(xiàn)象在不同的數(shù)據(jù)集除秀、模型大小和序列長度中是魯棒的。探測實驗顯示算利,這種模型在整個網(wǎng)絡(luò)中獲得了一種隱性的絕對位置概念册踩,有效補償了缺失信息。本文猜想效拭,將注意力限制在序列一個方向上的因果注意力機制暂吉,將位置信息隱性注入到了Transformer。
Practical tradeoffs between memory, compute, and performance in learned optimizers
https://arxiv.org/abs/2203.11860????[Google Research & Meta]
習(xí)得優(yōu)化器記憶計算與性能權(quán)衡缎患。優(yōu)化在開發(fā)機器學(xué)習(xí)系統(tǒng)中起著昂貴而關(guān)鍵的作用慕的。對于習(xí)得優(yōu)化器,常用的手工設(shè)計的優(yōu)化器(如Adam或SGD)的少量超參數(shù)挤渔,被靈活的參數(shù)化函數(shù)所取代肮街。對這些函數(shù)的參數(shù)進行優(yōu)化,從而使所產(chǎn)生的習(xí)得優(yōu)化器在選定的一類模型上滿足目標損失最小化蚂蕴。習(xí)得優(yōu)化器可以減少所需的訓(xùn)練步驟低散,改善最終的測試損失俯邓。但其訓(xùn)練成本很高,而且一旦訓(xùn)練完成熔号,由于優(yōu)化器本身的計算和記憶開銷稽鞭,使用起來也很昂貴。本文確定并量化了許多習(xí)得和手工設(shè)計的優(yōu)化器的記憶引镊、計算和性能權(quán)衡的設(shè)計特征朦蕴,包括優(yōu)化目標任務(wù)性能、與習(xí)得優(yōu)化器相關(guān)的計算和記憶開銷弟头、訓(xùn)練時間吩抓、目標任務(wù)的選擇以及對新任務(wù)的泛化。進一步利用這些分析來構(gòu)建一個習(xí)得優(yōu)化器赴恨,比之前的工作更快疹娶、更加內(nèi)存高效。
MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction Detection
MSTR:面向端到端人-物交互檢測的多尺度Transformer????https://arxiv.org/abs/2203.14709
SharpContour: A Contour-based Boundary Refinement Approach for Efficient and Accurate Instance Segmentation
https://arxiv.org/abs/2203.13312 ????????CVPR2022
SharpContour: 面向準確高效實例分割的基于輪廓邊界細化方法伦连。在實例分割方面已經(jīng)取得了很好的性能雨饺,但邊界區(qū)域的質(zhì)量仍然不能令人滿意,這導(dǎo)致了對邊界細化的關(guān)注惑淳。在實際應(yīng)用中额港,一個理想的后處理細化方案需要準確、通用和高效歧焦。然而移斩,現(xiàn)有的大多數(shù)方法都提出了像素化的細化方案,這些方案要么引入大量的計算成本绢馍,要么專門為不同的骨干模型設(shè)計向瓷。基于輪廓的模型是高效和通用的痕貌,可以與任何現(xiàn)有分割方法結(jié)合在一起风罩,但它們經(jīng)常產(chǎn)生過度平滑的輪廓,并傾向于在角區(qū)域失敗舵稠。本文提出一種高效的基于輪廓的邊界細化方法SharpContour,以解決邊界區(qū)域的分割問題入宦。設(shè)計了新的輪廓演化過程和實例感知的點分類器哺徊。所提出方法通過以離散方式更新偏移量來迭代變形輪廓。與現(xiàn)有輪廓演化方法不同乾闰,SharpContour更獨立地估計每個偏移量落追,因此能預(yù)測出更清晰和準確的輪廓。值得注意的是涯肩,該方法是通用的轿钠,能以較小的計算成本與各種現(xiàn)有模型無縫銜接巢钓。實驗表明,SharpContour在保持高效的同時實現(xiàn)了有競爭力的收益疗垛。
NeuMan: Neural Human Radiance Field from a Single Video
NeuMan:單個視頻的神經(jīng)人體輻射場學(xué)習(xí)????https://arxiv.org/abs/2203.12575
Language modeling via stochastic processes
基于隨機過程的語言建模????https://arxiv.org/abs/2203.11370
MotionCLIP: Exposing Human Motion Generation to CLIP Space
MotionCLIP:結(jié)合CLIP潛空間的人體運動生成????https://arxiv.org/abs/2203.08063
Pseudo Label Is Better Than Human Label
https://arxiv.org/abs/2203.12668
偽標簽勝過人工標簽症汹。最先進的自動語音識別(ASR)系統(tǒng)是用數(shù)萬小時的標注語音數(shù)據(jù)訓(xùn)練的。人工轉(zhuǎn)錄是昂貴而耗時的贷腕。轉(zhuǎn)錄質(zhì)量和一致性等因素會大大影響用這些數(shù)據(jù)訓(xùn)練的ASR模型的性能背镇。本文表明可以通過利用最近的自監(jiān)督和半監(jiān)督學(xué)習(xí)技術(shù)來訓(xùn)練一個強大的教師模型,以產(chǎn)生高質(zhì)量的偽標簽泽裳。用JUST(無監(jiān)督/有監(jiān)督聯(lián)合訓(xùn)練)和迭代的含噪學(xué)生教師訓(xùn)練來訓(xùn)練一個6億參數(shù)的雙向教師模型瞒斩。該模型在語音搜索任務(wù)中取得了4.0%的單詞錯誤率(WER),比基準線相對好11.1%涮总。通過使用這個強大的教師模型來產(chǎn)生高質(zhì)量的偽標簽進行訓(xùn)練胸囱,與使用人工標簽相比,可以使流媒體模型的相對誤碼率減少13.6%(從5.9%到5.1%)瀑梗。
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors
https://arxiv.org/abs/2203.13131????[Meta AI Research]
制造場景:結(jié)合人工先驗的基于場景文本-圖像生成烹笔。最近的文本-圖像生成方法在文本域和圖像域之間提供了一種簡單而令人興奮的轉(zhuǎn)換能力。雖然這些方法已經(jīng)逐步提高了生成圖像的保真度和文本的相關(guān)性夺克,但仍有幾個關(guān)鍵的問題沒得到解決箕宙,限制了適用性和質(zhì)量。本文提出一種新的文本到圖像方法铺纽,通過以下方式解決這些問題:(1)啟用一種簡單的控制機制柬帕,以場景的形式補充文本;(2)引入一些元素狡门,通過對關(guān)鍵圖像區(qū)域(人臉和突出目標)采用特定領(lǐng)域知識陷寝,大大改善Token化過程;(3)為Transformer用例自適應(yīng)無分類指導(dǎo)其馏。所提出模型實現(xiàn)了最先進的FID和人工評估結(jié)果凤跑,具備生成512×512像素分辨率的高保真圖像的能力,大大提高了視覺質(zhì)量叛复。通過場景可控性仔引,引入了幾種新的能力。(i) 場景編輯褐奥,(ii) 帶錨點場景的文本編輯咖耘,(iii) 克服分布不均的文本提示,以及(iv) 故事插圖的生成撬码。
BigDetection: A Large-scale Benchmark for Improved Object Detector Pre-training
BigDetection:用于改進目標檢測器預(yù)訓(xùn)練的大規(guī)亩梗基準????[Fudan University & Amazon Inc]????https://arxiv.org/abs/2203.13249
TinyMLOps: Operational Challenges for Widespread Edge AI Adoption
https://weibo.com/1402400261/Ll0lT8bib
4th Workshop on Parallel AI and Systems for the Edge (PAISE2022) paper
TinyMLOps:廣泛邊緣AI應(yīng)用的運行挑戰(zhàn)。在邊緣設(shè)備上部署機器學(xué)習(xí)應(yīng)用可以帶來明顯的好處呜笑,如改善可靠性夫否、延遲和隱私彻犁,但也引入了一系列挑戰(zhàn)。大多數(shù)工作都集中在邊緣平臺的有限計算資源上凰慈,但這并不是阻礙廣泛采用的唯一瓶頸汞幢。本文列出了TinyML從業(yè)者在邊緣設(shè)備上操作應(yīng)用時可能需要考慮的其他幾個挑戰(zhàn)。本文專注于監(jiān)測和管理應(yīng)用等任務(wù)溉瓶,也是MLOps平臺的常見功能急鳄,展示了它們?nèi)绾我蜻吘壊渴鸬姆植际叫再|(zhì)而變得復(fù)雜。討論了邊緣應(yīng)用特有的問題堰酿,如保護模型的知識產(chǎn)權(quán)和驗證其完整性疾宏。作為一個領(lǐng)域,TinyML仍然非常年輕触创,大多數(shù)工具和框架仍然處于早期階段坎藐。希望本文能啟發(fā)和指導(dǎo)TinyMLOps平臺的發(fā)展,使TinyML能為開發(fā)者所接受哼绑,并可擴展到數(shù)十億的邊緣設(shè)備岩馍。
Transframer: Arbitrary Frame Prediction with Generative Models
https://weibo.com/1402400261/LkQNzrlu9????[DeepMind]
Transframer: 基于生成模型的任意幀預(yù)測。本文提出一種基于概率幀預(yù)測的圖像建模和視覺任務(wù)通用框架抖韩。該方法統(tǒng)一了一系列廣泛的任務(wù)蛀恩,從圖像分割到新視圖合成和視頻插值。將該框架與叫做Transframer的架構(gòu)搭配茂浮,用U-Net和Transformer組件對標注的上下文幀進行調(diào)節(jié)双谆,并輸出稀疏、壓縮圖像特征的序列席揽。Transframer在各種視頻生成基準上都是最先進的顽馋,在少樣本合成上與最強的模型相競爭,并能從一張圖像中生成連貫的30秒視頻幌羞,而沒有任何顯式的幾何信息寸谜。一個單一的通用Transframer同時在8個任務(wù)上產(chǎn)生了有希望的結(jié)果,包括語義分割属桦、圖像分類和光流預(yù)測熊痴,沒有任務(wù)特定架構(gòu)組件,表明多任務(wù)計算機視覺可以用概率圖像模型來解決聂宾。所提出方法原則上可應(yīng)用于需要學(xué)習(xí)標注的圖像格式化數(shù)據(jù)的條件結(jié)構(gòu)的廣泛應(yīng)用愁拭。
The Mathematics of Artificial Intelligence
G Kutyniok????https://weibo.com/1402400261/LkxVtrEs8
人工智能的數(shù)學(xué)基礎(chǔ)。目前亏吝,我們見證了人工智能在科學(xué)和公共生活中的驚人成功。然而盏混,嚴格的數(shù)學(xué)基礎(chǔ)的發(fā)展仍處于早期階段蔚鸥。在這篇基于2022年國際數(shù)學(xué)家大會特邀演講的綜述文章中惜论,將特別關(guān)注目前人工智能的"主力",即深度神經(jīng)網(wǎng)絡(luò)止喷,重點介紹主要的理論方向以及幾個示范性的結(jié)果馆类,并討論關(guān)鍵的開放問題。以人工智能的七個數(shù)學(xué)關(guān)鍵問題作為結(jié)論弹谁,這些問題構(gòu)成了人工智能的數(shù)學(xué)基礎(chǔ)及其子領(lǐng)域的表達性乾巧、優(yōu)化、泛化和可解釋性的主要障礙预愤,也構(gòu)成了面向數(shù)學(xué)問題的人工智能的主要障礙沟于,后者側(cè)重應(yīng)用于逆問題和偏微分方程。
(1) 深度的作用是什么植康?
(2) 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的哪些方面影響深度學(xué)習(xí)的性能旷太?
(3) 為什么隨機梯度下降能在問題的非凸性下收斂到良好的局部最小值?
(4) 為什么大型神經(jīng)網(wǎng)絡(luò)不會過擬合销睁?
(5) 為什么神經(jīng)網(wǎng)絡(luò)在非常高維的環(huán)境中表現(xiàn)良好供璧?
(6) 深度架構(gòu)學(xué)習(xí)到數(shù)據(jù)的哪些特征?
(7) 神經(jīng)網(wǎng)絡(luò)是否能夠取代自然科學(xué)中高度專業(yè)化的數(shù)值算法冻记?
TensoRF: Tensorial Radiance Fields
TensoRF:張量輻射場睡毒。本文提出TensoRF,一種對輻射場進行建模和重建的新方法冗栗,利用張量分解技術(shù)演顾,將輻射場緊湊地建模為因子化的低秩張量組件。與純粹使用MLP的NeRF不同贞瞒,將場景輻射場建模為一個4D張量偶房,表示一個具有每體素多通道特征的3D體素網(wǎng)格。其核心思想是將4D場景張量分解為多個緊湊低秩張量成分军浆。證明了在該框架中應(yīng)用傳統(tǒng)的CP分解——將張量分解為具有緊湊向量的單秩成分——會帶來比普通NeRF更好的性能棕洋。為進一步提高性能,引入了一種新的矢量-矩陣(VM)分解乒融,放松了張量兩種模式的低秩約束掰盘,并將張量分解為緊湊的矢量和矩陣因子。除了卓越的渲染質(zhì)量赞季,所提出模型與CP和VM分解相比愧捕,直接優(yōu)化每體素特征的之前和最新工作帶來的顯著的內(nèi)存占用。實驗證明申钩,與NeRF相比次绘,采用CP分解的TensoRF實現(xiàn)了快速重建(<30分鐘),具有更好的渲染質(zhì)量,甚至更小的模型大小(<4 MB)邮偎。此外管跺,采用VM分解的TensoRF進一步提高了渲染質(zhì)量,超過了之前的最先進方法禾进,同時減少了重建時間(<10分鐘)并保留了緊湊的模型大小(<75 MB)豁跑。
Diffusion Probabilistic Modeling for Video Generation
面向視頻生成的擴散概率建模????https://weibo.com/1402400261/LkoUCifSd
One Network Doesn't Rule Them All: Moving Beyond Handcrafted Architectures in Self-Supervised Learning
單個網(wǎng)絡(luò)不能“包打天下”:面向自監(jiān)督學(xué)習(xí)的“自監(jiān)督架構(gòu)”。目前關(guān)于自監(jiān)督學(xué)習(xí)(SSL)的文獻集中在開發(fā)學(xué)習(xí)目標泻云,以便在未標記數(shù)據(jù)上更有效地訓(xùn)練神經(jīng)網(wǎng)絡(luò)艇拍。典型的開發(fā)過程包括采用成熟的架構(gòu),例如在ImageNet上展示的ResNet宠纯,并用它們來評估在下游場景中新開發(fā)的目標卸夕。雖然方便,但這并沒有考慮到架構(gòu)的作用征椒,而架構(gòu)在監(jiān)督學(xué)習(xí)文獻中已被證明是至關(guān)重要的娇哆。本文建立了廣泛的經(jīng)驗證據(jù),表明網(wǎng)絡(luò)架構(gòu)在SSL中發(fā)揮著重要作用勃救,對超過100種ResNet和MobileNet架構(gòu)的變體進行了大規(guī)模的研究碍讨,并在SSL環(huán)境下的11個下游場景中對它們進行了評估。沒有一個網(wǎng)絡(luò)在各個場景中表現(xiàn)得一致良好蒙秒。在此基礎(chǔ)上勃黍,建議在SSL機制中不僅要學(xué)習(xí)網(wǎng)絡(luò)權(quán)重,還要學(xué)習(xí)架構(gòu)拓撲晕讲。"自監(jiān)督架構(gòu)"優(yōu)于流行的手工設(shè)計的架構(gòu)(ResNet18和MobileNetV2)覆获,同時在主要的圖像分類基準(ImageNet-1K、iNat2021等)上與較大且計算量大的ResNet50競爭瓢省。結(jié)果表明弄息,現(xiàn)在是時候考慮超越SSL中的手工架構(gòu),開始考慮將架構(gòu)搜索納入自監(jiān)督學(xué)習(xí)目標勤婚。
Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models
Delta Tuning:預(yù)訓(xùn)練語言模型參數(shù)高效方法綜合研究
https://weibo.com/1402400261/Lkfh4r6gJ
Unsupervised Semantic Segmentation by Distilling Feature Correspondences
基于特征對應(yīng)提煉的無監(jiān)督語義分割????https://weibo.com/1402400261/LkfkpiVXw
CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment
[Harbin Institute of Technology & Microsoft Research]
CLIP模型是少次學(xué)習(xí)器:對VQA和視覺蘊涵的實證研究摹量。在廣泛的視覺任務(wù)上,CLIP已經(jīng)顯示出了非凡的零次學(xué)習(xí)能力馒胆。以前缨称,CLIP只被認為是一個強大的視覺編碼器。然而,在通過語言監(jiān)督對大量的圖像-標題對進行預(yù)訓(xùn)練后,CLIP本身也應(yīng)該獲得一些視覺-語言任務(wù)的少次能力宇攻。本文通過經(jīng)驗表明,CLIP可通過利用語言的力量成為一個強大的視覺-語言的少次學(xué)習(xí)器当凡。評估了CLIP在一個典型的視覺問答任務(wù)上的零次性能山害,并證明了CLIP在視覺蘊涵任務(wù)上的零次跨模態(tài)遷移能力。提出一種參數(shù)高效的微調(diào)策略宁玫,以提高在VQA任務(wù)上的少次性能粗恢。在不引入任何額外的預(yù)訓(xùn)練程序的情況下,在視覺問答和視覺蘊涵任務(wù)上取得了有競爭力的零/少次結(jié)果欧瘪。
The Role of ImageNet Classes in Fréchet Inception Distance
Fréchet Inception距離在ImageNet類上的真正作用。Fréchet Inception Distance(FID)是一個量化兩個圖像分布間距離的度量匙赞。鑒于其在數(shù)據(jù)驅(qū)動的生成模型研究中作為模型排續(xù)的標準尺度佛掖,該距離由一般的、與"視覺相關(guān)"的特征計算出來似乎很重要涌庭。但這是真的嗎芥被?本文觀察到,F(xiàn)ID本質(zhì)上是ImageNet類概率集合間的距離坐榆。將原因追溯到這樣一個事實:標準特征空間拴魄,即特定Inception-V3分類器網(wǎng)絡(luò)的倒數(shù)第二"pre-logit"層,與logit(即ImageNet類)只有一次仿生變換的距離席镀,因此匹中,這些特征必然對其高度特定化。這對指標的敏感性有不直觀的影響豪诲。例如顶捷,在評估人臉模型時,平均而言屎篱,F(xiàn)ID實際上對人臉區(qū)域非常不敏感服赎,而像 "領(lǐng)結(jié)"或"安全帶 "這樣類的概率則發(fā)揮了更大的作用。FID可以被大大降低——而實際上并沒有提高結(jié)果的質(zhì)量——通過一種攻擊交播,首先產(chǎn)生一個稍大的候選集合重虑,然后選擇一個恰好與真實數(shù)據(jù)中這種"邊緣特征"的直方圖相匹配的子集。本文證明了這一觀察在ImageNet預(yù)訓(xùn)練GANs的情況下具有實際意義秦士,其中一部分觀察到的FID改進被證明是不真實的缺厉。實驗結(jié)果表明,要警惕對FID改進的過度解釋伍宦,并強調(diào)需要有更多感知上統(tǒng)一的分布指標芽死。
Conditional Prompt Learning for Vision-Language Models
視覺-語言模型的條件提示學(xué)習(xí)。隨著像CLIP這樣強大的預(yù)訓(xùn)練視覺-語言模型的興起次洼,研究如何使這些模型適應(yīng)下游數(shù)據(jù)集變得至關(guān)重要关贵。最近提出的一種名為"上下文優(yōu)化"(CoOp)的方法將提示學(xué)習(xí)的概念——NLP的最新趨勢引入視覺領(lǐng)域,以自適應(yīng)預(yù)訓(xùn)練視覺-語言模型卖毁。具體來說揖曾,CoOp將提示中的上下文詞轉(zhuǎn)化為一組可學(xué)習(xí)的向量落萎,并且只需要幾張標記圖像進行學(xué)習(xí),就可以比稠密微調(diào)的人工提示有巨大的改進炭剪。本文發(fā)現(xiàn)CoOp的一個關(guān)鍵問題:學(xué)到的上下文不能推廣到同一數(shù)據(jù)集內(nèi)更多未見過的類別练链,這表明CoOp過擬合了訓(xùn)練期間觀察到的基礎(chǔ)類。為解決該問題奴拦,本文提出條件上下文優(yōu)化(CoCoOp)媒鼓,通過進一步學(xué)習(xí)一個輕量級的神經(jīng)網(wǎng)絡(luò),為每張圖片生成一個輸入條件Token(向量)來擴展CoOp错妖。與CoOp的靜態(tài)提示相比绿鸣,所提出的動態(tài)提示自適應(yīng)于每個實例,因此對類的漂移不那么敏感暂氯。實驗表明潮模,CoCoP比CoOp對未見過類的泛化性要好得多,甚至顯示出有望超越單一數(shù)據(jù)集的遷移性痴施;并且產(chǎn)生更強的領(lǐng)域泛化性能擎厢。
Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time
模型湯:多個微調(diào)模型的平均權(quán)重可在不增加推理時間的情況下提高精度。傳統(tǒng)最大化模型精度的方法是:(1)用不同的超參數(shù)訓(xùn)練多個模型辣吃;(2)挑選在保留驗證集上表現(xiàn)最好的單個模型动遭,拋棄其余模型。本文在微調(diào)大型預(yù)訓(xùn)練模型的背景下齿尽,重新審視了這一程序的第二步沽损,微調(diào)后的模型往往位于一個單一的低誤差盆地中。用不同的超參數(shù)配置對多個模型進行微調(diào)后循头,其權(quán)重的均值往往能提高精度和魯棒性绵估。與傳統(tǒng)集合不同,可以在不產(chǎn)生任何額外推理或內(nèi)存成本的情況下對許多模型進行平均化——把這種結(jié)果稱為"模型湯"卡骂。當(dāng)微調(diào)大型預(yù)訓(xùn)練模型国裳,如CLIP、ALIGN和在JFT上預(yù)訓(xùn)練的ViT-G時全跨,所提出的湯配方提供了比ImageNet上超參數(shù)掃描中的最佳模型更顯著的改進缝左。作為亮點,所產(chǎn)生的ViT-G模型在ImageNet上達到了90.94%的最高精度浓若。該模型湯的方法可擴展到多個圖像分類和自然語言處理任務(wù)渺杉,改善了分布外性能,并提高了新的下游任務(wù)的零樣本性能挪钓。從分析上將加權(quán)平均法和Logit-ensembling的性能相似性與損失的平坦性和預(yù)測的置信聯(lián)系起來是越,并從經(jīng)驗上驗證了這種關(guān)系。
Towards Efficient and Scalable Sharpness-Aware Minimization
高效可擴展銳度感知最小化研究碌上。最近倚评,銳度感知最小化(SAM)將損失景觀的幾何形狀和泛化聯(lián)系在一起浦徊,在訓(xùn)練大規(guī)模模型(如視覺Transformer)時表現(xiàn)出明顯的性能提升。然而天梧,SAM的更新規(guī)則需要在每一步進行兩次連續(xù)的(非并行)梯度計算盔性,可能使計算開銷增加一倍。本文提出一種新算法LookSAM呢岗,只周期性地計算內(nèi)部梯度上升冕香,可顯著減少SAM的額外訓(xùn)練成本。經(jīng)驗結(jié)果表明敷燎,LookSAM實現(xiàn)了與SAM相似的精度提升暂筝,同時速度大大加快,享有與SGD或Adam等一階優(yōu)化器相當(dāng)?shù)挠嬎銖?fù)雜度硬贯。為進一步評估LookSAM的性能和可擴展性,加入了一個分層的修改陨收,并在大批量訓(xùn)練的情況下進行了實驗饭豹,這更容易收斂到尖銳的局部最小值。通過64k的批處理規(guī)模务漩,能在幾分鐘內(nèi)從頭開始訓(xùn)練ViT拄衰,同時保持有競爭力的性能。
On the surprising tradeoff between ImageNet accuracy and perceptual similarity
[Google Research]
ImageNet上精度和感知相似度間意外的反相關(guān)關(guān)系饵骨。在預(yù)訓(xùn)練深度特征空間中測量的圖像間的感知距離翘悉,在評估圖像相似度方面已經(jīng)超過了先前的低層的、基于像素的衡量標準居触。雖然舊的和不太準確的模型妖混,如AlexNet和VGG捕捉感知相似性的能力是眾所周知的,但現(xiàn)代的和更準確的模型卻沒有被研究轮洋。本文觀察到現(xiàn)代網(wǎng)絡(luò)如ResNets制市、EfficientNets和Vision Transformers在ImageNet上的精度和感知得分間存在驚人的反相關(guān)關(guān)系:即更好的分類器獲得的感知得分更差。本文進行了一項大規(guī)模研究弊予,考察了ImageNet的精度/感知分數(shù)在不同的深度祥楣、寬度、訓(xùn)練步數(shù)汉柒、權(quán)重衰退误褪、標簽平滑和dropout等方面的關(guān)系。更高的精度在一定程度上提高了感知分數(shù)碾褂,但在中高精度的情況下兽间,精度和感知分數(shù)之間存在一個帕累托前沿。用失真不變性斋扰、空間頻率敏感性和其他感知函數(shù)進一步探索這種關(guān)系渡八,發(fā)現(xiàn)淺層ResNets啃洋,只在ImageNet上訓(xùn)練了不到5輪,其出現(xiàn)的Perceptual Score與之前直接在有監(jiān)督人類知覺判斷上訓(xùn)練的最佳網(wǎng)絡(luò)相匹配屎鳍。
Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer
基于零樣本超參數(shù)遷移的大型神經(jīng)網(wǎng)絡(luò)調(diào)優(yōu)宏娄。深度學(xué)習(xí)中的超參數(shù)(HP)調(diào)整是個昂貴的過程,對于具有數(shù)十億參數(shù)的神經(jīng)網(wǎng)絡(luò)(NN)來說逮壁,這個過程令人望而卻步孵坚。在最近發(fā)現(xiàn)的Maximal Update Parametrization(μP)中,即使模型大小發(fā)生變化窥淆,許多最優(yōu)的超參數(shù)也保持穩(wěn)定卖宠,有可能跨深度、批量大小忧饭、序列長度和訓(xùn)練時間進行遷移扛伍,這就導(dǎo)致了一種新的超參數(shù)調(diào)優(yōu)范式μTransfer:在μP中對目標模型進行參數(shù)化,在較小的模型上間接地調(diào)優(yōu)超參數(shù)词裤,將它們零散地遷移到全尺寸模型上刺洒,根本無需直接調(diào)優(yōu)后者。在Transformer和ResNet上驗證了μTransfer吼砂。例如逆航,1)通過從13M參數(shù)的模型中遷移預(yù)訓(xùn)練超參數(shù),超過了BERT-large(350M參數(shù))的公開指標渔肩,總的調(diào)優(yōu)成本相當(dāng)于預(yù)訓(xùn)練BERT-large一次因俐;2)通過從40M參數(shù)遷移,超過了6.7B GPT-3模型的公開指標周偎,調(diào)優(yōu)成本僅占總預(yù)訓(xùn)練成本的7%抹剩。