愛可可老師7月到9月的推薦(不包括MLPs和Vision Transformers,這兩類單獨(dú)一個專題)
Effective gene expression prediction from sequence by integrating long-range interactions
Z Avsec, V Agarwal, D Visentin, JR Ledsam...
[DeepMind]
基于長程交互整合的序列基因表達(dá)有效預(yù)測走芋。非編碼DNA如何決定不同類型細(xì)胞的基因表達(dá)是一個尚未解決的主要問題绩郎,人類遺傳學(xué)的關(guān)鍵下游應(yīng)用取決于改進(jìn)的解決方案潘鲫。本文通過使用一種稱為Enformer的深度學(xué)習(xí)架構(gòu),整合基因組中的長程交互(長達(dá)100kb)信息肋杖,大幅提高DNA序列基因表達(dá)預(yù)測精度溉仑。這一改進(jìn)產(chǎn)生了對通過大規(guī)模平行報告測定的自然遺傳變體和飽和突變基因表達(dá)的更準(zhǔn)確的變體效應(yīng)預(yù)測。此外状植,Enformer學(xué)會了直接從DNA序列中預(yù)測增強(qiáng)子-促進(jìn)子的交互浊竟,與直接將實驗數(shù)據(jù)作為輸入的方法相比具有競爭力。預(yù)計這些進(jìn)展將使人類疾病關(guān)聯(lián)的精細(xì)測繪更加有效津畸,并提供一個框架來解釋順式調(diào)控進(jìn)化振定。
Exploring the Limits of Large Scale Pre-training
大規(guī)模預(yù)訓(xùn)練局限性探索
S Abnar, M Dehghani, B Neyshabur, H Sedghi
[Google Research]
Do Self-Supervised and Supervised Methods Learn Similar Visual Representations?
T G Grigg, D Busbridge, J Ramapuram, R Webb
[Apple]
自監(jiān)督和監(jiān)督方法學(xué)到的視覺表示是否類似?盡管最近一些視覺自監(jiān)督深度學(xué)習(xí)的技術(shù)取得了成功肉拓,但對最終學(xué)到的表示的研究仍然有限后频。通過利用最近在比較神經(jīng)表示方面的進(jìn)展,本文在這個方向上進(jìn)行了探索暖途,在一個共同的架構(gòu)中卑惜,對簡單的圖像數(shù)據(jù)的約束性SSL算法(SimCLR)和監(jiān)督進(jìn)行比較。發(fā)現(xiàn)這兩種方法通過不同的方式學(xué)習(xí)相似的中間表示驻售,并且表示在最后幾層迅速發(fā)散露久。對這種分歧進(jìn)行了研究,發(fā)現(xiàn)它是由這些層對不同的學(xué)習(xí)目標(biāo)的強(qiáng)烈反應(yīng)造成的欺栗。SimCLR的目標(biāo)隱含了中間層的監(jiān)督目標(biāo)毫痕,但反過來卻不是這樣。SimCLR學(xué)習(xí)了增強(qiáng)不變性迟几,與監(jiān)督學(xué)習(xí)形成了鮮明的對比镇草,監(jiān)督學(xué)習(xí)則強(qiáng)烈地投射到類的單純性。這表明瘤旨,不是解決SimCLR目標(biāo)的最終表示結(jié)構(gòu)的相似性促進(jìn)了強(qiáng)大的經(jīng)驗性能。相反竖伯,是中間表示的相似性存哲,即沿途碰巧學(xué)到的類信息特征。本文工作特別強(qiáng)調(diào)了學(xué)習(xí)的中間表示的重要性七婴,并提出了輔助任務(wù)設(shè)計的重要問題祟偷。
Stochastic Contrastive Learning
J Ramapuram, D BusBridge, X Suau, R Webb
[Apple]
隨機(jī)對比學(xué)習(xí)。雖然最先進(jìn)的對比學(xué)習(xí)(Self-Supervised Learning打厘,SSL)模型產(chǎn)生的結(jié)果與有監(jiān)督的同類模型相比具有競爭力修肠,但它們?nèi)狈ν茢酀撟兞康哪芰ΑO啾戎禄Фⅲ?guī)定的潛變量(LV)模型能歸因于不確定性嵌施,誘發(fā)特定任務(wù)的壓縮饲化,并在總體上允許更多的可解釋性表示。本文在大規(guī)模對比性SSL模型中引入了LV近似值吗伤。證明了這一補(bǔ)充可以提高下游性能(在CIFAR10和ImageNet上使用ResNet50的測試top-1微調(diào)性能分別達(dá)到96.42%和77.49)吃靠,并產(chǎn)生高度壓縮的表示(減少588倍),對可解釋性足淆、分類和回歸的下游任務(wù)很有用巢块。
Localizing Objects with Self-Supervised Transformers and no Labels
O Siméoni, G Puy, H V. Vo, S Roburin, S Gidaris, A Bursuc, P Pérez, R Marlet, J Ponce
[Valeo.ai & Inria and DIENS]
自監(jiān)督Transformer免標(biāo)簽?zāi)繕?biāo)定位。在沒有監(jiān)督的情況下對圖像集合中的物體進(jìn)行定位巧号,有助于避免昂貴的標(biāo)注族奢。本文為該問題提出一種簡單方法,利用以自監(jiān)督方式預(yù)訓(xùn)練的視覺Transformer的激活特征丹鸿。所提出的方法LOST越走,不需要任何外部的候選目標(biāo),也不需要對圖像集進(jìn)行任何探索卜高;只對一張圖像進(jìn)行操作弥姻。然而,在PASCAL VOC 2012上掺涛,所提出方法比最先進(jìn)的目標(biāo)發(fā)現(xiàn)方法多出了8個CorLoc點庭敦。在被發(fā)現(xiàn)的物體上訓(xùn)練一個與類別無關(guān)的檢測器可以將結(jié)果再提高7分。在無監(jiān)督目標(biāo)發(fā)現(xiàn)任務(wù)上顯示了很好的結(jié)果薪缆。LOST發(fā)現(xiàn)的框具有很高的精度秧廉,可以作為偽真值來訓(xùn)練一個類別診斷檢測器,從而進(jìn)一步提高物體發(fā)現(xiàn)的性能拣帽。LOST框也可以用來訓(xùn)練一個無監(jiān)督目標(biāo)檢測器疼电,與弱監(jiān)督的同類檢測器相比,在幾個類別中產(chǎn)生了有競爭力的結(jié)果减拭。
CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations
M Zolfaghari, Y Zhu, P Gehler, T Brox
[University of Freiburg & Amazon]
CrossCLR:多模態(tài)視頻表示跨模態(tài)對比學(xué)習(xí)蔽豺。對比學(xué)習(xí)能通過從負(fù)樣本集中對比出正配對來靈活定義強(qiáng)大的損失。最近拧粪,這一原則也被用于學(xué)習(xí)視頻和文本的跨模態(tài)嵌入修陡,但沒有充分挖掘其潛力。特別是可霎,之前的損失沒有考慮到模態(tài)內(nèi)部的相似性洋魂,導(dǎo)致了低效的嵌入疙驾,因為同一內(nèi)容被映射到嵌入空間的多個點患雏。通過CrossCLR或渤,提出一種對比性損失,解決了該問題。根據(jù)輸入嵌入定義了高度相關(guān)的樣本集绢记,并將它們從負(fù)樣本中排除扁达,以避免出現(xiàn)假陰性問題。這些原則能夠持續(xù)改善所學(xué)到嵌入的質(zhì)量庭惜。用CrossCLR學(xué)習(xí)的聯(lián)合嵌入在Youcook2和LSMDC數(shù)據(jù)集的視頻文本檢索和Youcook2數(shù)據(jù)集的視頻字幕方面的技術(shù)水平有了很大提高罩驻。還通過為其他模式對學(xué)習(xí)改進(jìn)的聯(lián)合嵌入來證明這一概念的通用性。
PP-LCNet: A Lightweight CPU Convolutional Neural Network
PP-LCNet:輕量CPU卷積神經(jīng)網(wǎng)絡(luò)
A Comprehensive Survey and Performance Analysis of Activation Functions in Deep Learning
S R Dubey, S K Singh, B B Chaudhuri
[Indian Institute of Information Technology & Indian Statistical Institute]
深度學(xué)習(xí)激活函數(shù)全面綜述與性能分析护赊。近年來惠遏,神經(jīng)網(wǎng)絡(luò)在解決眾多問題方面有了巨大的發(fā)展。各種類型的神經(jīng)網(wǎng)絡(luò)已被引入以處理不同類型的問題骏啰。然而节吮,所有神經(jīng)網(wǎng)絡(luò)的主要目標(biāo)都是利用層的層次結(jié)構(gòu)將非線性可分的輸入數(shù)據(jù)轉(zhuǎn)化為更線性可分的抽象特征。這些層是線性和非線性函數(shù)的組合判耕。最流行和常見的非線性層是激活函數(shù)(AF)透绩,如Logistic Sigmoid、Tanh壁熄、ReLU帚豪、ELU、Swish和Mish草丧。本文對深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)做了全面的調(diào)研和總結(jié)狸臣。涵蓋了不同類別的激活函數(shù),如基于Logistic Sigmoid和Tanh昌执、基于ReLU烛亦、基于ELU和基于學(xué)習(xí)。還指出了激活函數(shù)的幾個特點懂拾,如輸出范圍煤禽、單調(diào)性和平滑性。在不同類型的數(shù)據(jù)上岖赋,對18種先進(jìn)的激活函數(shù)技術(shù)與不同的網(wǎng)絡(luò)進(jìn)行了性能比較檬果。對激活函數(shù)的深入了解有助于研究人員做進(jìn)一步的研究,也有助于從業(yè)人員做出不同的選擇唐断。
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
H Xu, G Ghosh, P Huang, D Okhonko, A Aghajanyan, F M L Z C Feichtenhofer
[Facebook AI]
VideoCLIP:面向零樣本視頻文本理解的對比預(yù)訓(xùn)練汁汗。本文提出VideoCLIP,一種對比性方法栗涂,用于預(yù)訓(xùn)練一個統(tǒng)一模型,用于零樣本視頻-文本理解祈争,不使用下游任務(wù)的任何標(biāo)簽斤程。VideoCLIP通過對比時間上重疊的正面視頻-文本對和來自近鄰檢索的硬負(fù)面信息,為視頻和文本訓(xùn)練一個transformer。在一系列不同的下游任務(wù)上進(jìn)行了實驗忿墅,包括序列級文本-視頻檢索扁藕、VideoQA、標(biāo)記級動作定位和動作分割疚脐,顯示了最先進(jìn)的性能亿柑,超過了之前的工作,在某些情況下甚至超過了有監(jiān)督方法棍弄。
MLIM: Vision-and-Language Model Pre-training with Masked Language and Image Modeling
T Arici, M S Seyfioglu, T Neiman, Y Xu, S Train, T Chilimbi, B Zeng, I Tutar
[Amazon.com Inc]
MLIM: 基于掩碼語言和圖像建模的視覺及語言模型預(yù)訓(xùn)練望薄。視覺及語言預(yù)訓(xùn)練(VLP)提高了需要圖像和文本輸入的下游任務(wù)的模型性能。目前的VLP方法在(i)模型結(jié)構(gòu)(尤其是圖像嵌入器)呼畸、(ii)損失函數(shù)和(iii)掩碼策略上有所不同痕支。圖像嵌入器要么是像ResNet這樣的深度模型,要么是通過直接將圖像像素送入transformer實現(xiàn)的線性投影蛮原。通常卧须,除了掩碼語言建模(MLM)損失外,基于對齊的目標(biāo)用于跨模式的交互儒陨,以及RoI特征回歸和分類任務(wù)用于掩碼圖像區(qū)域建模(MIRM)花嘶。對齊和MIRM目標(biāo)大多沒有真值”哪基于對齊的目標(biāo)需要圖像和文本的配對以及啟發(fā)式的目標(biāo)函數(shù)椭员。MIRM依賴于目標(biāo)檢測器。掩碼策略要么不利用多模態(tài)津辩,要么與其他模型產(chǎn)生的對齊方式嚴(yán)格耦合拆撼。本文提出用于VLP的掩碼語言和圖像建模(MLIM),使用掩碼語言建模(MLM)損失和圖像重建(RECON)損失喘沿。提出了模態(tài)感知掩碼(MAM)闸度,以促進(jìn)跨模態(tài)交互,并利用MLM和RECON損失蚜印,分別捕捉文本和圖像重建質(zhì)量莺禁。使用MLM + RECON任務(wù)加上MAM,提出了一種簡化的VLP方法窄赋,并表明它在一個專有的電子商務(wù)多模態(tài)數(shù)據(jù)集上具有更好的下游任務(wù)性能哟冬。
CC-Cert: A Probabilistic Approach to Certify General Robustness of Neural Networks
CC-Cert:驗證神經(jīng)網(wǎng)絡(luò)通用魯棒性的概率方法
Pitfalls in Machine Learning Research: Reexamining the Development Cycle
S Biderman, W J. Scheirer
[The AI Village]
機(jī)器學(xué)習(xí)研究的陷阱:重新審視開發(fā)周期。應(yīng)用機(jī)器學(xué)習(xí)研究有可能推動數(shù)據(jù)科學(xué)的進(jìn)一步發(fā)展忆绰,但由于臨時的設(shè)計過程浩峡、數(shù)據(jù)的骯臟凌亂以及模型評估中缺乏統(tǒng)計學(xué)的嚴(yán)謹(jǐn)性,都使其受到了極大的阻礙错敢。最近翰灾,這些問題開始引起更多的關(guān)注,因為它們在研究和開發(fā)中引起了公共和尷尬的問題。根據(jù)作為機(jī)器學(xué)習(xí)研究人員的經(jīng)驗纸淮,本文遵循應(yīng)用機(jī)器學(xué)習(xí)的過程平斩,從算法設(shè)計到數(shù)據(jù)收集再到模型評估,提請注意常見的陷阱并提供實用的改進(jìn)建議咽块。在每個步驟中绘面,都引入了案例研究,以強(qiáng)調(diào)這些陷阱在實踐中是如何發(fā)生的侈沪,以及在哪些方面可以改進(jìn)揭璃。
Learning Contrastive Representation for Semantic Correspondence
語義對應(yīng)對比表示學(xué)習(xí)
T Xiao, S Liu, S D Mello, Z Yu, J Kautz, M Yang
[University of California, Merced & Nvidia]
An End-to-End Transformer Model for 3D Object Detection
I Misra, R Girdhar, A Joulin
[Facebook AI Research]
端到端Transformer模型3D目標(biāo)檢測。本文提出了3DETR峭竣,一種基于3D點云的端到端Transformer的目標(biāo)檢測模型塘辅。與現(xiàn)有檢測方法相比,3DETR需要對普通Transformer模塊進(jìn)行最小的修改皆撩,這些方法采用了一些特定于3D的感應(yīng)偏置扣墩。具有非參數(shù)查詢和傅里葉位置嵌入的標(biāo)準(zhǔn)Transformer與采用具有手工調(diào)整超參數(shù)的3D特定運(yùn)算器庫的專門架構(gòu)相比,具有競爭力扛吞。然而呻惕,3DETR在概念上很簡單,也很容易實現(xiàn)滥比,能通過納入3D領(lǐng)域知識來進(jìn)一步改進(jìn)亚脆。通過廣泛實驗,發(fā)現(xiàn)3DETR在具有挑戰(zhàn)性的ScanNetV2數(shù)據(jù)集上的表現(xiàn)比成熟的盲泛、高度優(yōu)化的VoteNet基線高出9.5%濒持。此外,3DETR適用于檢測以外的3D任務(wù)寺滚,并可作為未來研究的基石柑营。
Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in Multimodal Transformers
S Frank, E Bugliarello, D Elliott
[University of Trento & University of Copenhagen]
Vision-and-Language還是Vision-for-Language?多模態(tài)轉(zhuǎn)換中的跨模態(tài)影響村视。預(yù)訓(xùn)練的視覺語言BERT旨在學(xué)習(xí)結(jié)合兩種模態(tài)信息的表示官套。本文提出一種基于跨模態(tài)輸入消融的診斷方法,以評估這些模型實際整合跨模態(tài)信息的程度蚁孔。這種方法包括完全或有選擇地消融一種模式的輸入奶赔,并對另一種模式的模型預(yù)測性能進(jìn)行評估。模型的表現(xiàn)是由反映模型預(yù)訓(xùn)練目標(biāo)的特定模態(tài)任務(wù)來衡量的(例如文本的掩碼語言建模)杠氢。已經(jīng)學(xué)會使用兩種模態(tài)構(gòu)建跨模態(tài)表示的模型站刑,預(yù)計在某一模態(tài)的輸入缺失時表現(xiàn)會更差。實驗發(fā)現(xiàn)鼻百,預(yù)訓(xùn)練的視覺和語言模型具有不對稱性:對被掩碼的文本的預(yù)測受到消融的視覺輸入的強(qiáng)烈影響笛钝,而在預(yù)測被掩碼的圖像區(qū)域時质况,消融文本輸入(幾乎)沒有影響。這些結(jié)果與假設(shè)的平衡跨模態(tài)激活假設(shè)相悖玻靡,這些模型并非對稱的跨模態(tài)。
Bootstrapped Meta-Learning
S Flennerhag, Y Schroecker, T Zahavy, H v Hasselt, D Silver, S Singh
[DeepMind]
Bootstrapped元學(xué)習(xí)中贝。元學(xué)習(xí)使AI能夠通過學(xué)習(xí)如何學(xué)習(xí)來提高其效率囤捻。釋放這種潛力需要克服一個具有挑戰(zhàn)性的元優(yōu)化問題,該問題通常表現(xiàn)為條件不足和短視元目標(biāo)邻寿。本文提出一種算法蝎土,通過讓元學(xué)習(xí)器自己教自己來解決這些問題。該算法首先從元學(xué)習(xí)器中bootstrap出一個目標(biāo)绣否,然后通過在一個選定的(偽)度量下最小化與該目標(biāo)距離來優(yōu)化元學(xué)習(xí)器誊涯。圍繞梯度元學(xué)習(xí),建立了保證性能提高的條件蒜撮,并表明這種提高與目標(biāo)距離有關(guān)暴构。因此,通過控制曲率段磨,距離度量可被用來緩解元優(yōu)化取逾,例如通過減少不良條件。此外苹支,bootstrapping機(jī)制可以擴(kuò)展有效的元學(xué)習(xí)范圍砾隅,而不需要通過所有更新進(jìn)行反向傳播。該算法具有通用性债蜜,易于實現(xiàn)晴埂。在Atari ALE基準(zhǔn)上實現(xiàn)了無模型智能體的新技術(shù)水平,在少樣本學(xué)習(xí)中改進(jìn)了MAML寻定,并證明了該方法是如何通過在ε-貪婪的Q-學(xué)習(xí)智能體中進(jìn)行元學(xué)習(xí)的有效探索來開辟新的可能性儒洛。
Data Efficient Masked Language Modeling for Vision and Language
面向視覺和語言的數(shù)據(jù)高效掩碼語言建模
Active label cleaning: Improving dataset quality under resource constraints
主動標(biāo)簽清理:資源受限情況下改善數(shù)據(jù)集質(zhì)量
Revisiting 3D ResNets for Video Recognition
再探3D ResNet視頻識別
Relating Graph Neural Networks to Structural Causal Models
M Ze?evi?, D S Dhami, P Veli?kovi?, K Kersting
[TU Darmstadt & DeepMind]
將圖神經(jīng)網(wǎng)絡(luò)與結(jié)構(gòu)因果模型相聯(lián)系。因果關(guān)系可用結(jié)構(gòu)性因果模型(SCM)來描述特姐,該模型承載了感興趣的變量及其機(jī)制關(guān)系的信息晶丘。對于大多數(shù)感興趣的過程,基本的SCM只能是部分可觀察的唐含,因此浅浮,因果推理試圖利用任何暴露的信息。圖神經(jīng)網(wǎng)絡(luò)(GNN)作為結(jié)構(gòu)化輸入的通用近似器捷枯,為因果學(xué)習(xí)提供了一個可行的候選方案滚秩,可與SCM更緊密地結(jié)合。本文提出一個源自第一性原理的理論分析淮捆,在GNN和SCM之間建立了一個新的聯(lián)系郁油,同時提供了一個關(guān)于一般神經(jīng)-因果模型的擴(kuò)展觀點本股。為基于GNN的因果推斷建立了一個新的模型類,對于因果效應(yīng)的識別是必要和充分的桐腌。
The Power of Scale for Parameter-Efficient Prompt Tuning
B Lester, R Al-Rfou, N Constant
[Google Research]
參數(shù)高效的提示微調(diào)規(guī)闹粝裕化的力量。本文探索了"提示微調(diào)(prompt tuning)"案站,一種簡單有效的機(jī)制躬审,用于學(xué)習(xí)"軟提示(soft prompts)",以調(diào)節(jié)凍結(jié)的語言模型來執(zhí)行特定的下游任務(wù)蟆盐。與GPT-3使用的離散文本提示不同承边,軟提示通過反向傳播學(xué)習(xí),并可進(jìn)行微調(diào)石挂,以納入來自任意數(shù)量標(biāo)記樣本的信號博助。所提出的端到端學(xué)習(xí)方法,在很大程度上優(yōu)于GPT-3的少樣本學(xué)習(xí)痹愚。通過使用T5對模型規(guī)模的消減富岳,表明了提示微調(diào)隨著規(guī)模的擴(kuò)大而變得更有競爭力:當(dāng)模型超過數(shù)十億個參數(shù)時,所提方法"縮小了差距"里伯,與模型微調(diào)(所有模型權(quán)重都被微調(diào))的強(qiáng)大性能相匹配城瞎。這一發(fā)現(xiàn)尤其重要,因為大型模型的共享和服務(wù)成本很高疾瓮,而為多個下游任務(wù)重用一個凍結(jié)模型的能力可以減輕這一負(fù)擔(dān)脖镀。該方法可看作是最近提出的"前綴微調(diào)"的簡化。用軟提示來微調(diào)凍結(jié)的模型狼电,在領(lǐng)域遷移的魯棒性方面有好處蜒灰,并能實現(xiàn)有效的 "提示集成"。
In this work, we explore “prompt tuning,” a simple yet effective mechanism for learning “soft prompts” to condition frozen language models to perform specific downstream tasks. Unlike the discrete text prompts used by GPT-3, soft prompts are learned through backpropagation and can be tuned to incorporate signals from any number of labeled examples. Our end-to-end learned approach outperforms GPT-3’s few-shot learning by a large margin. More remarkably, through ablations on model size using T5, we show that prompt tuning becomes more competitive with scale: as models exceed billions of parameters, our method “closes the gap” and matches the strong performance of model tuning (where all model weights are tuned). This finding is especially relevant because large models are costly to share and serve and the ability to reuse one frozen model for multiple downstream tasks can ease this burden. Our method can be seen as a simplification of the recently proposed “prefix tuning” of Li and Liang (2021) and we provide a comparison to this and other similar approaches. Finally, we show that conditioning a frozen model with soft prompts confers benefits in robustness to domain transfer and enables efficient “prompt ensembling.”
Adapting Language Models for Zero-shot Learning by Meta-tuning on Dataset and Prompt Collections
R Zhong, K Lee, Z Zhang, D Klein
[UC Berkeley]
基于數(shù)據(jù)集和提示集元微調(diào)的零樣本學(xué)習(xí)語言模型自適應(yīng)肩碟。大型預(yù)訓(xùn)練語言模型(LM)强窖,如GPT-3,已經(jīng)獲得了令人驚訝的能力削祈,可以進(jìn)行零樣本學(xué)習(xí)翅溺。例如,為了在沒有任何訓(xùn)練樣本的情況下進(jìn)行情感分類髓抑,可以用評論和標(biāo)簽描述"用戶喜歡這部電影嗎咙崎?"來"提示"語言模型,并詢問下一個詞是"是"還是"不是"吨拍。然而褪猛,下一個詞的預(yù)測訓(xùn)練目標(biāo)仍然與目標(biāo)的零樣本學(xué)習(xí)目標(biāo)不一致。為解決這個弱點羹饰,本文提出元微調(diào)伊滋,通過在一系列數(shù)據(jù)集上對預(yù)訓(xùn)練語言模型進(jìn)行微調(diào)碳却,直接優(yōu)化零樣本學(xué)習(xí)目標(biāo)。本文專注于分類任務(wù)笑旺,通過聚合43個現(xiàn)有的數(shù)據(jù)集和以問答(QA)格式標(biāo)注441個標(biāo)簽描述來構(gòu)建元數(shù)據(jù)集昼浦。當(dāng)對未見過任務(wù)進(jìn)行評估時,元微調(diào)模型表現(xiàn)優(yōu)于相同大小的QA模型和以前基于自然語言推理的SOTA零樣本學(xué)習(xí)系統(tǒng)筒主。此外座柱,將參數(shù)數(shù)從220M增加到770M,AUC-ROC分?jǐn)?shù)提高了6.3%物舒,更大的模型應(yīng)該會表現(xiàn)得更好。衡量語言模型開箱即用的零樣本學(xué)習(xí)性能可能會低估它們的真正潛力戏锹,而整個社區(qū)在聚合數(shù)據(jù)集和統(tǒng)一格式方面的努力可以幫助建立能更好回答提示的模型冠胯。
SLIDE: Single Image 3D Photography with Soft Layering and Depth-aware Inpainting(重點)
V Jampani, H Chang, K Sargent, A Kar, R Tucker, M Krainin, D Kaeser, W T. Freeman, D Salesin, B Curless, C Liu
[Google]
SLIDE:基于軟分層和深度感知補(bǔ)全的單圖像3D攝影。單一圖像3D攝影使觀眾能從新的視角觀看靜止圖像锦针。最近的方法將單目深度網(wǎng)絡(luò)與繪畫網(wǎng)絡(luò)結(jié)合起來荠察,以達(dá)到引人注目的效果。這些技術(shù)的一個缺點是使用硬的深度分層奈搜,使得它們無法對復(fù)雜的外觀細(xì)節(jié)進(jìn)行建模悉盆,如薄的頭發(fā)狀結(jié)構(gòu)。本文提出SLIDE馋吗,一種用于單圖像3D攝影的模塊化統(tǒng)一系統(tǒng)焕盟,用簡單有效的軟分層策略,以更好地保留新視角中的外觀細(xì)節(jié)宏粤。為繪畫模塊提出了一種新的深度感知訓(xùn)練策略脚翘,更適合于3D攝影任務(wù)。由此產(chǎn)生的SLIDE方法是模塊化的绍哎,能使用其他組件来农,如分割和消光來改進(jìn)分層。同時崇堰,SLIDE使用高效的分層深度公式沃于,只需要通過組件網(wǎng)絡(luò)的一次前向傳遞就能產(chǎn)生高質(zhì)量的3D攝影。對三個視圖合成數(shù)據(jù)集的廣泛實驗分析海诲,以及對真實場景圖像集的用戶研究繁莹,證明了該技術(shù)與現(xiàn)有的強(qiáng)大基線相比具有卓越的性能,同時在概念上要簡單得多饿肺。
Digging into Uncertainty in Self-supervised Multi-view Stereo
自監(jiān)督多視立體視覺不確定性挖掘
An Empirical Study of Graph Contrastive Learning
圖對比學(xué)習(xí)實證研究
Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation
短訓(xùn)練蒋困,長測試:基于線性偏差注意力的輸入長度外推
NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-view Stereo
Y Wei, S Liu, Y Rao, W Zhao, J Lu, J Zhou
[Tsinghua University]
NerfingMVS:面向室內(nèi)多視立體視覺的神經(jīng)輻射場指導(dǎo)優(yōu)化。本文提出一種新的多視圖深度估計方法敬辣,利用傳統(tǒng)SfM重建和基于學(xué)習(xí)的先驗雪标,對最近提出的神經(jīng)輻射場(NeRF)進(jìn)行了優(yōu)化零院。與現(xiàn)有的基于神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法不同的是,該方法直接對隱性體進(jìn)行優(yōu)化村刨,消除了在室內(nèi)場景中匹配像素的挑戰(zhàn)性步驟告抄。關(guān)鍵是利用基于學(xué)習(xí)的先驗因素來指導(dǎo)NeRF的優(yōu)化過程。通過對其稀疏SfM重建進(jìn)行微調(diào)將單目深度網(wǎng)絡(luò)適應(yīng)目標(biāo)場景嵌牺,并表明NeRF的形狀-輻射模糊性在室內(nèi)環(huán)境中仍然存在打洼,提出通過用自適應(yīng)的深度先驗來監(jiān)測體渲染的采樣過程來解決該問題。通過對渲染圖像的誤差計算獲得的每像素置信圖進(jìn)一步提高深度質(zhì)量逆粹。實驗表明募疮,所提出的框架在室內(nèi)場景中的表現(xiàn)明顯優(yōu)于最先進(jìn)方法,在基于對應(yīng)關(guān)系的優(yōu)化和基于NeRF的優(yōu)化對適應(yīng)的深度先驗的有效性方面有驚人的發(fā)現(xiàn)僻弹。指導(dǎo)優(yōu)化方案不會犧牲神經(jīng)輻射場的原始合成能力阿浓,從而提高了在已見和新的視圖上的渲染質(zhì)量。
Learning to Prompt for Vision-Language Models
K Zhou, J Yang, C C Loy, Z Liu
[Nanyang Technological University]
視覺語言模型提示學(xué)習(xí)蹋绽。視覺語言預(yù)訓(xùn)練最近作為一種有前途的替代方法出現(xiàn)在表示學(xué)習(xí)領(lǐng)域芭毙。它從使用圖像和離散標(biāo)簽來學(xué)習(xí)一組固定權(quán)重(被視為視覺概念)的傳統(tǒng)范式轉(zhuǎn)變?yōu)閷D像和原始文本對齊兩個獨(dú)立的編碼器。這樣的范式得益于更廣泛的監(jiān)督源卸耘,并允許零樣本遷移到下游任務(wù)退敦,因為視覺概念可以直接從自然語言中生成,即所謂的提示(prompt)蚣抗。本文發(fā)現(xiàn)在實踐中部署這種模型的一個主要挑戰(zhàn)是提示工程侈百。這是因為設(shè)計一個適當(dāng)?shù)奶崾荆貏e是圍繞著一個類名的上下文詞忠聚,需要領(lǐng)域的專業(yè)知識设哗,并且通常需要大量的時間來進(jìn)行詞的調(diào)整,因為措辭的輕微變化可能對性能產(chǎn)生巨大的影響两蟀。此外网梢,不同的下游任務(wù)需要特定的設(shè)計,進(jìn)一步阻礙了部署的效率赂毯。為克服這一挑戰(zhàn)战虏,本文提出一種名為上下文優(yōu)化(CoOp)的新方法。其主要思想是在提示中使用連續(xù)的表示對上下文進(jìn)行建模党涕,并從數(shù)據(jù)中進(jìn)行端到端的學(xué)習(xí)烦感,同時保持預(yù)訓(xùn)練的參數(shù)固定。通過這種方式膛堤,任務(wù)相關(guān)提示的設(shè)計可以完全自動化手趣。在11個數(shù)據(jù)集上的實驗表明,CoOp有效地將預(yù)訓(xùn)練好的視覺語言模型變成了具有數(shù)據(jù)效率的視覺學(xué)習(xí)者,只需要一兩個樣本就能以相當(dāng)大的幅度擊敗手工生成的提示绿渣,在使用更多樣本時能夠獲得顯著的改進(jìn)(例如朝群,在16個樣本時,平均收益約為17%中符,最高達(dá)到50%以上)姜胖。CoOp還表現(xiàn)出對分布遷移的強(qiáng)大魯棒性。
Spatio-Temporal Graph Contrastive Learning
X Liu, Y Liang, Y Zheng, B Hooi, R Zimmermann
[National University of Singapore & JD Tech]
時空圖對比學(xué)習(xí)淀散。深度學(xué)習(xí)模型是用于時空圖(STG)預(yù)測的現(xiàn)代工具右莱。盡管它們很有效,但需要大規(guī)模數(shù)據(jù)集來實現(xiàn)更好的性能档插,并且容易受到噪聲擾動的影響慢蜓。為緩解這些限制,一個直觀的想法是使用流行的數(shù)據(jù)增強(qiáng)和對比學(xué)習(xí)技術(shù)郭膛。然而胀瞪,由于三個原因,現(xiàn)有的圖對比學(xué)習(xí)方法不能直接應(yīng)用于STG預(yù)測饲鄙。首先,從經(jīng)驗上發(fā)現(xiàn)圆雁,預(yù)測任務(wù)無法從對比學(xué)習(xí)得出的預(yù)訓(xùn)練表示中獲益忍级。第二,用于消除噪聲的數(shù)據(jù)增強(qiáng)對STG數(shù)據(jù)的探索較少伪朽。第三轴咱,樣本的語義相似性被忽略了。本文提出一種空間-時間圖對比學(xué)習(xí)框架(STGCL)來解決這些問題烈涮。通過將預(yù)測損失與輔助對比損失相結(jié)合來提高性能朴肺,而不是用預(yù)訓(xùn)練的范式。闡述了四種類型的數(shù)據(jù)增強(qiáng)坚洽,在圖結(jié)構(gòu)戈稿、時域和頻域方面干擾數(shù)據(jù)。通過一個基于規(guī)則的策略擴(kuò)展了經(jīng)典的對比損失讶舰,過濾掉語義上最相似的否定詞鞍盗。該框架在三個真實世界的數(shù)據(jù)集和四個最先進(jìn)的模型上進(jìn)行了評估。一致的改進(jìn)表明跳昼,STGCL可以作為現(xiàn)有深度模型的現(xiàn)成插件使用般甲。
Self-Calibrating Neural Radiance Fields
Y Jeong, S Ahn, C Choy, A Anandkumar, M Cho, J Park
[POSTECH & NVIDIA]
自校準(zhǔn)神經(jīng)輻射場。本文為具有任意非線性畸變的通用相機(jī)提出一種相機(jī)自校準(zhǔn)算法鹅颊。聯(lián)合學(xué)習(xí)場景的幾何形狀和準(zhǔn)確的相機(jī)參數(shù)敷存,不需要任何校準(zhǔn)對象。該相機(jī)模型由針孔模型堪伍、四階徑向畸變和通用噪聲模型組成锚烦,可學(xué)習(xí)任意的非線性相機(jī)畸變觅闽。傳統(tǒng)的自校準(zhǔn)算法大多依賴于幾何約束,本文加入了光度測量一致性挽牢,用神經(jīng)輻射場(NeRF)學(xué)習(xí)場景的幾何形狀谱煤。提出一種新的幾何損失函數(shù),投影射線距離損失禽拔,以納入復(fù)雜的非線性相機(jī)模型的幾何一致性刘离。在標(biāo)準(zhǔn)的真實圖像數(shù)據(jù)集上驗證了提出的方法,并證明該模型可從頭學(xué)習(xí)相機(jī)的內(nèi)涵和外延(姿態(tài))睹栖,而不需要COLMAP初始化硫惕。以可微的方式學(xué)習(xí)準(zhǔn)確的相機(jī)模型,使我們能比基線提高PSNR野来。所提出模塊是一個易于使用的插件恼除,可應(yīng)用于NeRF變體以提高性能。
ScatSimCLR: self-supervised contrastive learning with pretext task regularization for small-scale datasets
V Kinakh, O Taran, S Voloshynovskiy
[University of Geneva]
ScatSimCLR:小規(guī)模數(shù)據(jù)集的自監(jiān)督對比學(xué)習(xí)與前置任務(wù)正則化曼氛。本文考慮一個基于數(shù)據(jù)多視圖間對比損失的小規(guī)模數(shù)據(jù)集自監(jiān)督學(xué)習(xí)問題豁辉,在分類任務(wù)中展示了最先進(jìn)的性能。盡管有報告的結(jié)果舀患,但諸如需要復(fù)雜架構(gòu)的訓(xùn)練的復(fù)雜性徽级、由數(shù)據(jù)增強(qiáng)產(chǎn)生的所需的視圖數(shù)量,以及它們對分類準(zhǔn)確性的影響等因素都是未研究的問題聊浅。為確定這些因素的作用餐抢,本文考慮一個對比損失系統(tǒng)架構(gòu)SimCLR,其中基線模型被幾何不變的"手工"網(wǎng)絡(luò)ScatNet和小型可訓(xùn)練的適配器網(wǎng)絡(luò)取代低匙,并認(rèn)為整個系統(tǒng)的參數(shù)數(shù)量和視圖數(shù)量可大大減少旷痕,同時實際上保持了相同的分類精度。研究了正則化策略的影響顽冶,該策略使用了基于對傳統(tǒng)基線模型和基于ScatNet模型的旋轉(zhuǎn)和拼圖排列等增強(qiáng)變換參數(shù)的估計的前置任務(wù)學(xué)習(xí)欺抗。證明了所提出的帶有前置任務(wù)學(xué)習(xí)正則化的架構(gòu)在可訓(xùn)練參數(shù)數(shù)量較少和視圖數(shù)量減少的情況下達(dá)到了最先進(jìn)的分類性能。
SemIE: Semantically-aware Image Extrapolation
SemIE:語義感知圖像外推
B Khurana, S R Dash, A Bhatia, A Mahapatra, H Singh, K Kulkarni
[IIT Kanpur & Adobe Research India]
Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners
基于可微提示改進(jìn)預(yù)訓(xùn)練語言模型少樣本學(xué)習(xí)
ISNet: Integrate Image-Level and Semantic-Level Context for Semantic Segmentation
ISNet:整合圖像級和語義級上下文的語義分割
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
Z Wang, J Yu, A W Yu, Z Dai, Y Tsvetkov, Y Cao
[CMU & Google Research & University of Washington]
SimVLM:弱監(jiān)督簡單視覺語言模型預(yù)訓(xùn)練强重。隨著最近在視覺和文本表示聯(lián)合建模方面的進(jìn)展佩迟,視覺語言預(yù)訓(xùn)練(VLP)在許多多模態(tài)下游任務(wù)上取得了令人印象深刻的性能。然而竿屹,對昂貴的標(biāo)注(包括干凈的圖像說明和區(qū)域標(biāo)簽)的要求限制了現(xiàn)有方法的可擴(kuò)展性报强,并且由于引入了多個特定的數(shù)據(jù)集目標(biāo),使預(yù)訓(xùn)練程序變得復(fù)雜拱燃。本文放寬了這些限制秉溉,提出一種最小化的預(yù)訓(xùn)練框架——簡單視覺語言模型(SimVLM)。與之前工作不同,SimVLM通過利用大規(guī)模弱監(jiān)督來降低訓(xùn)練的復(fù)雜度召嘶,通過單一前綴語言建模目標(biāo)進(jìn)行端到端訓(xùn)練父晶。在不利用額外數(shù)據(jù)或特定任務(wù)定制的情況下,所產(chǎn)生模型明顯優(yōu)于之前的預(yù)訓(xùn)練方法弄跌,并在廣泛的鑒別性和生成性視覺語言基準(zhǔn)上取得了新的最先進(jìn)結(jié)果甲喝,包括VQA(+3.74% vqa-core)、NLVR2(+1.17%精度)铛只、SNLI-VE(+1.37%精度)和圖像描述任務(wù)(+10.1%平均CIDEr得分)埠胖。證明了SimVLM獲得了強(qiáng)大的泛化和遷移能力,能實現(xiàn)包括開放式視覺問答和跨模式遷移在內(nèi)的零樣本行為淳玩。
Bag of Tricks for Training Deeper Graph Neural Networks: A Comprehensive Benchmark Study
深度圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練技巧集:綜合基準(zhǔn)研究
Generalize then Adapt: Source-Free Domain Adaptive Semantic Segmentation
J N Kundu, A Kulkarni, A Singh, V Jampani, R. V Babu
[Indian Institute of Science & Google Research]
先泛化再適應(yīng):無源域自適應(yīng)語義分割直撤。無監(jiān)督域自適應(yīng)(DA)在語義分割領(lǐng)域獲得了廣泛關(guān)注。然而蜕着,幾乎所有值錢的工作都假定同時訪問標(biāo)記的源和未標(biāo)記的目標(biāo)瑰抵,這使得它們不適合要求無源自適應(yīng)的場景觉义。本文通過將任務(wù)劃分為兩部分來實現(xiàn)無源DA:a)純源域泛化 和b)無源目標(biāo)自適應(yīng)。對于前者坟瓢,本文提供了理論上的見解授瘦,開發(fā)了一個多頭框架闯第,用虛擬擴(kuò)展的多源數(shù)據(jù)集進(jìn)行訓(xùn)練喉酌,目的是平衡泛化和特定性完箩。對于后者,利用多頭框架來提取可靠的目標(biāo)偽標(biāo)簽進(jìn)行自訓(xùn)練宽闲。引入了一個新的條件先驗強(qiáng)制自編碼器,阻止了空間不規(guī)則性握牧,從而提高了偽標(biāo)簽的質(zhì)量容诬。
Robust High-Resolution Video Matting with Temporal Guidance
S Lin, L Yang, I Saleemi, S Sengupta
[University of Washington & ByteDance Inc]
基于時間指導(dǎo)的魯棒高分辨率視頻摳圖。本文提出一種強(qiáng)大的實時高分辨率人像視頻摳圖方法沿腰,實現(xiàn)了新的最先進(jìn)性能览徒。該方法比之前方法要輕量得多,可以在Nvidia GTX 1080Ti GPU上以76 FPS的速度處理4K視頻颂龙、以104 FPS的速度處理高清視頻习蓬。與大多數(shù)現(xiàn)有將視頻逐幀作為獨(dú)立圖像進(jìn)行摳圖處理的方法不同,所提方法用遞歸架構(gòu)利用視頻中的時間信息措嵌,在時間一致性和摳圖質(zhì)量方面取得了重大改進(jìn)躲叼。提出了一種新的訓(xùn)練策略,使網(wǎng)絡(luò)在摳圖和分割目標(biāo)上都得到加強(qiáng)企巢,大大提高了所提出模型的魯棒性枫慷。該方法不需要任何輔助輸入,可廣泛應(yīng)用于現(xiàn)有的人物摳圖應(yīng)用。
Shifted Chunk Transformer for Spatio-Temporal Representational Learning
基于移位塊Transformer的時空表示學(xué)習(xí)
YOLOP: You Only Look Once for Panoptic Driving Perception
D Wu, M Liao, W Zhang, X Wang
[Huazhong University Of Science And Technology]
YOLOP:YOLO全景駕駛感知或听。全景駕駛感知系統(tǒng)是自動駕駛的一個重要組成部分探孝。一個高精度和實時的感知系統(tǒng)可以幫助車輛在行駛中做出合理的決策。本文提出了一種全景駕駛感知網(wǎng)絡(luò)(YOLOP)誉裆,可以同時進(jìn)行交通目標(biāo)檢測顿颅、可駕駛區(qū)域分割和車道檢測。YOLOP由一個用于特征提取的編碼器和三個用于處理具體任務(wù)的解碼器組成足丢。該模型在挑戰(zhàn)性的BDD100K數(shù)據(jù)集上表現(xiàn)非常好粱腻,在所有三個任務(wù)的精度和速度方面都達(dá)到了最先進(jìn)的水平。通過消融研究驗證了多任務(wù)學(xué)習(xí)模型對聯(lián)合訓(xùn)練的有效性霎桅。這是第一個能在嵌入式設(shè)備Jetson TX2(23 FPS)上同時實時處理這三個視覺感知任務(wù)并保持優(yōu)秀精度的工作栖疑,確保了該網(wǎng)絡(luò)可以在現(xiàn)實世界的場景中使用。
Conditional DETR for Fast Training Convergence
D Meng, X Chen, Z Fan, G Zeng, H Li, Y Yuan, L Sun, J Wang
[University of Science and Technology of China & Peking University & Microsoft Research Asia]
基于條件DETR的訓(xùn)練快速收斂滔驶。最近提出的DETR方法將Transformer編碼器和解碼器結(jié)構(gòu)應(yīng)用于目標(biāo)檢測遇革,實現(xiàn)了良好的性能。本文考慮一個關(guān)鍵問題揭糕,即緩慢的訓(xùn)練收斂萝快,提出一種用于快速DETR訓(xùn)練的條件性交叉注意力機(jī)制DETR,其關(guān)鍵是要從相應(yīng)的參考點和解碼器嵌入中學(xué)習(xí)一個空間查詢著角【句觯空間查詢包含在前一個解碼器層中為類和框預(yù)測而挖掘的空間信息,并導(dǎo)致空間注意力權(quán)重圖吏口,縮小了內(nèi)容查詢定位不同區(qū)域的空間范圍奄容,從而放松了對內(nèi)容查詢的依賴,降低了訓(xùn)練難度产徊。經(jīng)驗結(jié)果表明昂勒,條件DETR對于骨干R50和R101的收斂速度快6.7倍,對于更強(qiáng)的骨干DC5-R50和DC5-R101快10倍舟铜。
TOOD: Task-aligned One-stage Object Detection
C Feng, Y Zhong, Y Gao, M R. Scott, W Huang
[Intellifusion Inc & Meituan Inc & ByteDance Inc & Malong LLC & Alibaba Group]
TOOD:任務(wù)對齊的單階段目標(biāo)檢測戈盈。單階段目標(biāo)檢測通常通過優(yōu)化兩個子任務(wù)來實現(xiàn):目標(biāo)分類和定位,用具有兩個平行分支的頭谆刨,可能導(dǎo)致兩個任務(wù)之間的預(yù)測出現(xiàn)一定程度的空間錯位塘娶。本文提出了一種任務(wù)對齊的單階段目標(biāo)檢測(TOOD),以一種基于學(xué)習(xí)的方式明確對齊這兩個任務(wù)痊夭。設(shè)計了一個新的任務(wù)對齊頭(T-Head)刁岸,在學(xué)習(xí)任務(wù)交互特征和特定任務(wù)特征之間提供了更好的平衡,以及通過任務(wù)對齊預(yù)測器學(xué)習(xí)對齊的更大靈活性她我。提出了任務(wù)對齊學(xué)習(xí)(TAL)难捌,通過設(shè)計的樣本分配方案和任務(wù)對齊的損失膝宁,在訓(xùn)練期間明確地拉近(甚至統(tǒng)一)兩個任務(wù)的最佳錨點。在MS-COCO上進(jìn)行了廣泛的實驗根吁,其中TOOD在單模型單規(guī)模測試中取得了51.1的AP员淫,大大超過了最新的單級檢測器,而參數(shù)和FLOPs更少击敌。定性結(jié)果也證明了TOOD對于更好地調(diào)整目標(biāo)分類和定位任務(wù)的有效性介返。
Learning to Match Features with Seeded Graph Matching Network
基于種子圖匹配網(wǎng)絡(luò)的特征匹配學(xué)習(xí)
MicroNet: Improving Image Recognition with Extremely Low FLOPs
MicroNet:極低FLOPs下的圖像識別改善
Learning Open-World Object Proposals without Learning to Classify
D Kim, T Lin, A Angelova, I S Kweon, W Kuo
[KAIST & Google Brain]
無需分類的開放世界候選目標(biāo)建議學(xué)習(xí)。候選目標(biāo)建議(Object Proposals沃斤, OP)已經(jīng)成為許多視覺管線中不可或缺的預(yù)處理步驟圣蝎,包括目標(biāo)檢測、弱監(jiān)督檢測衡瓶、目標(biāo)發(fā)現(xiàn)徘公、跟蹤等。由于人們對目標(biāo)檢測的興趣越來越大哮针,與非學(xué)習(xí)方法相比关面,基于學(xué)習(xí)的OP最近變得很流行。常見的范式是十厢,從標(biāo)有一組物體區(qū)域及其相應(yīng)類別的數(shù)據(jù)中學(xué)習(xí)OP等太。然而,這種方法往往在處理開放世界中不存在于訓(xùn)練集中的新目標(biāo)時很吃力蛮放。本文發(fā)現(xiàn)問題在于現(xiàn)有OP方法中的二元分類器傾向于過擬合訓(xùn)練類缩抡。因此,本文提出一種無需分類的目標(biāo)定位網(wǎng)絡(luò)(OLN)包颁,單純通過一個區(qū)域的位置和形狀與任意已知真實物體(如centerness和IoU)的重疊程度來估計每個區(qū)域的目標(biāo)性瞻想。該簡單策略學(xué)習(xí)了可泛化的目標(biāo)性,并在COCO上的跨類別泛化方面優(yōu)于現(xiàn)有的OP方法娩嚼,在RoboNet蘑险、Object365和EpicKitchens上的跨數(shù)據(jù)集評估方面也是如此。通過實驗證明了OLN在大詞表數(shù)據(jù)集LVIS上進(jìn)行長尾目標(biāo)檢測的優(yōu)點待锈,在罕見和常見類別中都有明顯改進(jìn)。
Solo-learn: A Library of Self-supervised Methods for Visual Representation Learning
SOTR: Segmenting Objects with Transformers
SOTR:基于Transformers的目標(biāo)分割
Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual Representations
多任務(wù)視覺表示的十億級視覺Transformer預(yù)處理
Instance-wise Hard Negative Example Generation for Contrastive Learning in Unpaired Image-to-Image Translation
W Wang, W Zhou, J Bao, D Chen, H Li
[University of Science and Technology of China (USTC) & Microsoft Research Asia]
未配對圖像到圖像變換中的逐實例硬負(fù)樣本生成對比學(xué)習(xí)嘴高。對比學(xué)習(xí)在非配對圖像到圖像變換中顯示出巨大潛力竿音,但有時變換的結(jié)果質(zhì)量很差,內(nèi)容也沒有得到一致的保留拴驮。負(fù)樣本在圖像變換對比學(xué)習(xí)中起著關(guān)鍵作用春瞬。之前方法中的負(fù)樣本是從源圖像中不同位置的圖塊中隨機(jī)抽取的,并不能有效地將正樣本推到查詢樣本附近套啤。為解決該問題宽气,本文提出在非配對圖像-圖像變換中用于對比性學(xué)習(xí)的逐實例硬負(fù)樣本生成(NEGCUT)随常,以挖掘具有挑戰(zhàn)性的負(fù)樣本√蜒模框架中的兩個組成部分绪氛,即編碼器網(wǎng)絡(luò)和負(fù)樣本生成器,被交替更新涝影,以學(xué)習(xí)區(qū)別性的表示來區(qū)分正樣本和生成的硬負(fù)樣本枣察。訓(xùn)練的生成器用來在線生成負(fù)樣本,該生成器:1)是逐實例的燃逻,意味著生成的樣本是基于輸入圖像的序目;2)可以生成硬負(fù)樣本,因為它是用對抗性損失訓(xùn)練的伯襟。使用該生成器猿涨,非配對圖像-圖像變換的性能得到了顯著提高。在三個基準(zhǔn)數(shù)據(jù)集上的實驗表明姆怪,與之前的方法相比叛赚,擬議的NEGCUT框架實現(xiàn)了最先進(jìn)的性能,顯示了源圖像和生成圖像之間更好的對應(yīng)關(guān)系片效。
Paint Transformer: Feed Forward Neural Painting with Stroke Prediction(重點红伦,ICCV2021Oral,有開源)
S Liu, T Lin, D He, F Li, R Deng, X Li, E Ding, H Wang
[Baidu Inc & Rutgers University]
繪畫Transformer:基于筆畫預(yù)測的前饋神經(jīng)繪畫淀衣。神經(jīng)繪畫指的是為給定的圖像產(chǎn)生一系列筆畫昙读,并用神經(jīng)網(wǎng)絡(luò)進(jìn)行非照片式的真實再現(xiàn)的程序。雖然基于強(qiáng)化學(xué)習(xí)的智能體可以為該任務(wù)一步步生成筆畫序列膨桥,但要訓(xùn)練一個穩(wěn)定的強(qiáng)化學(xué)習(xí)智能體并不容易蛮浑。另一方面,筆畫優(yōu)化方法在一個大的搜索空間中反復(fù)搜索一組筆畫參數(shù)只嚣;這種低效率大大限制了它們的普遍性和實用性沮稚。與之前方法不同,本文將任務(wù)表述為一個集合預(yù)測問題册舞,提出一種新的基于Transformer的框架Paint Transformer蕴掏,用前饋網(wǎng)絡(luò)預(yù)測筆畫集合的參數(shù)。該模型可并行生成一組筆畫调鲸,并在接近實時的情況下獲得大小為512*512的最終繪畫盛杰。由于沒有可用的數(shù)據(jù)集來訓(xùn)練繪畫Transformer,設(shè)計了一個自訓(xùn)練管道藐石,可以在沒有任何現(xiàn)成數(shù)據(jù)集的情況下進(jìn)行訓(xùn)練即供,同時還能實現(xiàn)出色的泛化能力。實驗表明于微,與先進(jìn)的方法相比逗嫡,該模型可以在藝術(shù)抽象性和真實性之間產(chǎn)生更好的折衷青自,同時保持高效率。
Impact of Aliasing on Generalization in Deep Convolutional Networks
C Vasconcelos, H Larochelle, V Dumoulin, R Romijnders, N L Roux, R Goroshin
[Google Research & Mila]
深度卷積網(wǎng)絡(luò)中混疊對泛化的影響驱证。本文研究了混疊對深度卷積網(wǎng)絡(luò)泛化的影響延窜,由于廣泛使用架構(gòu)的結(jié)構(gòu)限制,僅靠數(shù)據(jù)增強(qiáng)方案無法防止混疊的產(chǎn)生雷滚。本文從頻率分析理論中得到啟發(fā)需曾,仔細(xì)研究了ResNet和EfficientNet架構(gòu),并回顧了它們每個主要部分的混疊和信息損失之間的權(quán)衡祈远。展示了如何通過在關(guān)鍵位置插入非訓(xùn)練的低通濾波器來緩解混疊呆万,特別是在網(wǎng)絡(luò)缺乏學(xué)習(xí)能力的地方。這些簡單的結(jié)構(gòu)變化導(dǎo)致了泛化性的大幅改善车份,甚至在分布外的條件下有更大的改善谋减,例如在ImageNet-C的自然損壞下的圖像分類和在Meta-Dataset的少樣本學(xué)習(xí)。在這兩個數(shù)據(jù)集上扫沼,無需引入額外的可訓(xùn)練參數(shù)并使用開源代碼庫的默認(rèn)超參數(shù)出爹,就能取得最先進(jìn)的結(jié)果。
Single-image Full-body Human Relighting
單幅圖像人體全身重打光
How to avoid machine learning pitfalls: a guide for academic researchers
M A. Lones
[Heriot-Watt University]
如何避免機(jī)器學(xué)習(xí)陷阱:學(xué)術(shù)研究人員指南缎除。本文簡要介紹了使用機(jī)器學(xué)習(xí)技術(shù)時出現(xiàn)的一些常見錯誤严就,以及如何避免這些錯誤,主要是作為研究學(xué)生的指南器罐,并側(cè)重于學(xué)術(shù)研究中特別關(guān)注的問題梢为,例如需要進(jìn)行嚴(yán)格的比較并得出有效結(jié)論。涵蓋了機(jī)器學(xué)習(xí)過程的五個階段:建立模型前要做什么轰坊,如何可靠地建立模型铸董,如何魯棒地評估模型,如何公平地比較模型肴沫,以及如何報告結(jié)果粟害。這里提到的一些東西可能是錯誤的,或者至少是可爭辯的颤芬,這恐怕就是研究的本質(zhì)悲幅。如何做機(jī)器學(xué)習(xí)的理論幾乎總是滯后于實踐,學(xué)者們總是對做事的最佳方法有不同意見站蝠,我們今天認(rèn)為正確的東西明天可能就不正確了汰具。因此,你必須以對待任何其他方面研究的相同方式來對待機(jī)器學(xué)習(xí):以開放的心態(tài)沉衣,愿意跟上最新的發(fā)展郁副,并謙虛地接受所不知道的一切减牺。
Video Contrastive Learning with Global Context
H Kuang, Y Zhu, Z Zhang, X Li, J Tighe, S Schwertfeger, C Stachniss, M Li
[University of Bonn & Amazon Web Services & ShanghaiTech University]
全局上下文視頻對比學(xué)習(xí)豌习。對比學(xué)習(xí)已經(jīng)徹底改變了自監(jiān)督圖像表示學(xué)習(xí)領(lǐng)域存谎,最近又被應(yīng)用于視頻領(lǐng)域。對比學(xué)習(xí)的最大優(yōu)勢之一肥隆,是允許靈活定義強(qiáng)大的損失目標(biāo)既荚,只要能找到一個合理的方法來制定正負(fù)樣本進(jìn)行對比。然而栋艳,現(xiàn)有的方法恰聘,在很大程度上依賴于短程時空顯著性來形成片段級對比信號,限制了自身對全局上下文的使用吸占。本文提出一種新的基于片段的視頻級對比學(xué)習(xí)方法來制定正向?qū)η邕丁T摫硎瞿懿蹲揭曨l中的全局上下文,對時間內(nèi)容的變化具有魯棒性矾屯。還加入了一個時間順序正則化項兼蕊,以強(qiáng)制執(zhí)行視頻的固有順序結(jié)構(gòu)。廣泛的實驗表明件蚕,所提出的視頻級對比學(xué)習(xí)框架(VCLR)在五個視頻數(shù)據(jù)集的下游動作分類孙技、動作定位和視頻檢索方面優(yōu)于之前的最先進(jìn)技術(shù)。
Fast Convergence of DETR with Spatially Modulated Co-Attention
基于空間調(diào)制協(xié)同注意力的DETR快速收斂
On The State of Data In Computer Vision: Human Annotations Remain Indispensable for Developing Deep Learning Models
Z Emam, A Kondrich, S Harrison, F Lau, Y Wang, A Kim, E Branson
[Scale AI]
計算機(jī)視覺數(shù)據(jù)現(xiàn)狀綜述:開發(fā)深度學(xué)習(xí)模型人工標(biāo)注仍然必不可少排作。高質(zhì)量標(biāo)注數(shù)據(jù)集在推動機(jī)器學(xué)習(xí)(ML)的發(fā)展牵啦,特別是深度學(xué)習(xí)(DL)的發(fā)展中起著關(guān)鍵作用。然而妄痪,自從2012年ImageNet數(shù)據(jù)集和AlexNet模型出現(xiàn)后哈雏,新的開源標(biāo)注視覺數(shù)據(jù)集的規(guī)模基本保持不變拌夏。在計算機(jī)視覺界僧著,只有少數(shù)工作解決了比Imagenet大幾個數(shù)量級的數(shù)據(jù)集上的監(jiān)督學(xué)習(xí)。本文調(diào)研了計算機(jī)視覺研究領(lǐng)域障簿,在這些領(lǐng)域研究了大數(shù)據(jù)集對不同視覺任務(wù)的模型性能的影響盹愚。本文總結(jié)了社區(qū)目前對這些影響的理解,并強(qiáng)調(diào)了一些與海量數(shù)據(jù)集訓(xùn)練有關(guān)的開放性問題站故。特別的皆怕,聚焦于 (a) 目前在計算機(jī)視覺研究中使用的最大的數(shù)據(jù)集,以及在這些數(shù)據(jù)集上訓(xùn)練的有趣收獲西篓;(b) 在大數(shù)據(jù)集上預(yù)訓(xùn)練的有效性愈腾;(c) 合成數(shù)據(jù)集的最新進(jìn)展和面臨的障礙;(d) 雙重下降和樣本非單調(diào)性現(xiàn)象的概述岂津;最后虱黄,(e) 對終身/持續(xù)學(xué)習(xí)的簡要討論,以及它與在離線環(huán)境下從巨大標(biāo)注數(shù)據(jù)集學(xué)習(xí)相比的表現(xiàn)吮成〕髀遥總的來說辜梳,本文的發(fā)現(xiàn)是,關(guān)于深度學(xué)習(xí)的優(yōu)化研究主要集中在完善訓(xùn)練程序泳叠,從而使DL模型的數(shù)據(jù)饑渴度降低作瞄,而關(guān)于合成數(shù)據(jù)集的研究旨在抵消數(shù)據(jù)標(biāo)注的成本。然而危纫,就目前而言宗挥,獲得非合成標(biāo)記的數(shù)據(jù)對于提升性能仍然是不可或缺的。
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback
ProtoTransformer:提供學(xué)生反饋的元學(xué)習(xí)方法
Open-World Entity Segmentation
L Qi, J Kuen, Y Wang, J Gu, H Zhao, Z Lin, P Torr, J Jia
[The Chinese University of Hong Kong & Adobe Research & University of Oxford]
開放世界實體分割种蝶。本文提出一個新的圖像分割任務(wù)——實體分割(ES)契耿,目的是在不考慮語義類別標(biāo)簽的情況下,分割圖像中所有視覺實體螃征,在圖像處理/編輯方面有許多實際應(yīng)用宵喂,其中分割掩膜的質(zhì)量通常很關(guān)鍵,但類別標(biāo)簽卻不那么重要会傲。在這種情況下锅棕,所有語義上有意義的片段,都被平等地視為無類別的實體淌山,沒有事物與物品之間的區(qū)別裸燎。基于統(tǒng)一的實體表示泼疑,提出了一個基于中心的實體分割框架德绿,用兩個新模塊來提高掩膜質(zhì)量。實驗表明退渗,新任務(wù)和框架都顯示出與現(xiàn)有工作相比的優(yōu)勢移稳。ES能做到以下幾點:(1) 合并多個數(shù)據(jù)集以形成一個大的訓(xùn)練集,無需解決標(biāo)簽沖突会油;(2) 任何在一個數(shù)據(jù)集上訓(xùn)練的模型都可以非常好地泛化到其他未見過領(lǐng)域的數(shù)據(jù)集个粱。
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing(重點)
P Liu, W Yuan, J Fu, Z Jiang, H Hayashi, G Neubig
[CMU & National University of Singapore]
預(yù)訓(xùn)練、提示和預(yù)測:自然語言處理中提示方法的系統(tǒng)綜述翻翩。本文調(diào)研并組織了自然語言處理中的一個新范式的研究工作都许,稱為"基于提示的學(xué)習(xí)"。與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同嫂冻,傳統(tǒng)的監(jiān)督學(xué)習(xí)是訓(xùn)練模型接受輸入x并預(yù)測輸出y胶征,以P(y|x)的形式,基于提示的學(xué)習(xí)是基于語言模型桨仿,直接對文本概率進(jìn)行建模睛低。為了使用這些模型來執(zhí)行預(yù)測任務(wù),原始輸入x用模板修改成一個文本字符串提示x′,其中有一些未填充的槽钱雷,語言模型用來概率性地填充未填充的信息莺戒,得到最終字符串x?,從中可以得出最終的輸出y急波。由于以下原因,這個框架是強(qiáng)大和有吸引力的:它允許語言模型在大量原始文本上進(jìn)行預(yù)訓(xùn)練瘪校,并且通過定義一個新的提示函數(shù)澄暮,模型能進(jìn)行少樣本甚至零樣本的學(xué)習(xí),以適應(yīng)只有少數(shù)或沒有標(biāo)記數(shù)據(jù)的新場景阱扬。本文介紹了這種有前途的范式的基本原理泣懊,描述了一套統(tǒng)一的數(shù)學(xué)符號,可以涵蓋現(xiàn)有的各類工作麻惶,并沿著幾個維度組織現(xiàn)有的工作馍刮,如預(yù)訓(xùn)練模型、提示和調(diào)整策略的選擇窃蹋。
H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction
E Ramon, G Triginer, J Escur, A Pumarola, J Garcia, X Giro-i-Nieto, F Moreno-Noguer
[Crisalix SA & Universitat Politecnica de Catalunya & CSIC-UPC]
H3D-Net: 少樣本高保真3D頭部重建卡啰。最近,用基于坐標(biāo)的神經(jīng)表示隱性表示表面幾何的學(xué)習(xí)方法警没,在多視圖3D重建問題上顯示了令人印象深刻的結(jié)果匈辱。然而,這些技術(shù)的有效性受制于大量(幾十個)場景的輸入視圖的可用性杀迹,以及計算上的優(yōu)化要求亡脸。本文為基于坐標(biāo)的表示賦予概率形狀先驗,使其在使用少量輸入圖像(少于三張)時能更快地收斂和更好地泛化树酪,來突破這些局限性浅碾,解決少樣本全3D頭部重建這一具體問題。提出H3D-Net续语,一種從帶有相關(guān)頭部掩膜和攝像機(jī)姿勢的小型真實場景圖像集進(jìn)行高保真3D頭部重建的方法垂谢。首先,用隱性表示從數(shù)千張不完整的原始掃描圖像中學(xué)習(xí)3D頭部形狀模型疮茄。測試時埂陆,聯(lián)合將兩個基于坐標(biāo)的神經(jīng)網(wǎng)絡(luò)過擬合到場景,一個用于幾何建模娃豹,一個用于估計表面輻射焚虱,并使用隱性可微渲染。設(shè)計了一個兩階段的優(yōu)化策略懂版,在初始優(yōu)化階段鹃栽,學(xué)到的先驗被用來初始化和約束幾何。然后,先驗被解凍并根據(jù)場景進(jìn)行微調(diào)民鼓。該方法實現(xiàn)了高保真的頭部重建薇芝,包括頭發(fā)和肩膀,具有很高的細(xì)節(jié)水平丰嘉,在少樣本情況下總是優(yōu)于最先進(jìn)的3D可變形模型方法夯到,在有大量視圖的情況下則優(yōu)于非參數(shù)方法。所提出方法的一個局限性是饮亏,它仍然需要幾分鐘來生成三維重建耍贾。
DOVE: Learning Deformable 3D Objects by Watching Videos
S Wu, T Jakab, C Rupprecht, A Vedaldi
[University of Oxford]
DOVE:通過觀看視頻學(xué)習(xí)可變形3D物體。從2D圖像學(xué)習(xí)可變形3D物體是一個非常棘手的問題÷沸遥現(xiàn)有方法依靠顯式的監(jiān)督來建立多視圖的對應(yīng)關(guān)系荐开,如模板形狀模型和關(guān)鍵點標(biāo)注,這限制了它們對"真實場景"物體的適用性简肴。本文建議使用單目視頻晃听,它自然地提供了跨時間的對應(yīng)關(guān)系,能在沒有顯式關(guān)鍵點或模板形狀的情況下學(xué)習(xí)可變形物體類別的3D形狀砰识。提出DOVE能扒,可從鳥類單一2D圖像中學(xué)習(xí)預(yù)測3D典型形狀、變形辫狼、視角和紋理赫粥,給定鳥類視頻集以及自動獲得的剪影和光流作為訓(xùn)練數(shù)據(jù)。該方法重建了時間上一致的3D形狀和變形予借,能從單一圖像的任意視角對鳥進(jìn)行動畫和重新渲染越平。
Deep Learning on a Data Diet: Finding Important Examples Early in Training
M Paul, S Ganguli, G K Dziugaite
[Stanford University & Element AI]
深度學(xué)習(xí)數(shù)據(jù)"瘦身":在訓(xùn)練早期找到重要樣本。最近深度學(xué)習(xí)的成功部分是由在越來越大的數(shù)據(jù)集上訓(xùn)練越來越多的過參數(shù)化網(wǎng)絡(luò)所推動的灵迫。因此秦叛,我們很自然地會問:有多少數(shù)據(jù)是多余的,哪些樣本對歸納來說是重要的瀑粥,以及我們?nèi)绾握业剿鼈冋醢希勘疚奶岢隽艘粋€特別的觀點:標(biāo)準(zhǔn)視覺基準(zhǔn)單個訓(xùn)練樣本的初始損失梯度范數(shù),在幾次權(quán)重初始化取均值后狞换,可用來識別對泛化很重要的較小的訓(xùn)練數(shù)據(jù)集避咆。此外,只需經(jīng)過幾輪訓(xùn)練修噪,梯度范數(shù)中的信息就會反映在規(guī)范化誤差中——預(yù)測概率和獨(dú)熱標(biāo)簽之間的L2距離——可用來裁剪數(shù)據(jù)集中很大一部分查库,而不犧牲測試精度。在此基礎(chǔ)上黄琼,提出了在訓(xùn)練早期只用局部信息的數(shù)據(jù)修剪方法樊销,并將其與最近的工作聯(lián)系起來,丟棄訓(xùn)練過程中很少被遺忘的樣本來修剪數(shù)據(jù)。該方法還闡明了底層數(shù)據(jù)分布是如何形成訓(xùn)練動態(tài)的:它們根據(jù)樣本對泛化的重要性進(jìn)行排序围苫,檢測含噪的樣本裤园,并確定模型數(shù)據(jù)表示的子空間,這些子空間在訓(xùn)練中是相對穩(wěn)定的剂府。
Understanding self-supervised Learning Dynamics without Contrastive Pairs
Y Tian, X Chen, S Ganguli
[Facebook AI Research]
理解沒有對比對的自監(jiān)督學(xué)習(xí)動態(tài)拧揽。雖然自監(jiān)督學(xué)習(xí)(SSL)的對比性方法通過最小化同一數(shù)據(jù)點的兩個增強(qiáng)視圖(正對)之間的距離和最大化不同數(shù)據(jù)點的視圖(負(fù)對)來學(xué)習(xí)表示,但最近的非對比性SSL(如BYOL和SimSiam)腺占,通過額外的可學(xué)習(xí)預(yù)測器和停止梯度操作淤袜,在沒有負(fù)對的情況下表現(xiàn)出了顯著的性能。一個基本問題出現(xiàn)了:為什么這些方法沒有坍縮成平凡表示湾笛?本文通過一個簡單的理論研究來回答這個問題,并提出一種新方法DirectPred闰歪,直接根據(jù)輸入的統(tǒng)計數(shù)據(jù)來設(shè)置線性預(yù)測器嚎研,而不需要梯度訓(xùn)練。在ImageNet上库倘,它的表現(xiàn)與采用BatchNorm的更復(fù)雜的兩層非線性預(yù)測器相當(dāng)临扮,在300輪的訓(xùn)練中比線性預(yù)測器高出2.5%(在60輪中高出5%)。DirectPred是由對簡單線性網(wǎng)絡(luò)中非對比性SSL的非線性學(xué)習(xí)動態(tài)的理論研究所激發(fā)的教翩。該研究產(chǎn)生了對非對比性SSL方法如何學(xué)習(xí)的概念性見解杆勇,它們?nèi)绾伪苊獗硎咎s,以及多種因素饱亿,如預(yù)測器網(wǎng)絡(luò)蚜退、停止梯度、指數(shù)移動平均線和權(quán)重衰減都是如何發(fā)揮作用的彪笼。
ReSSL: Relational Self-Supervised Learning with Weak Augmentation
ReSSL:弱增強(qiáng)的關(guān)系自監(jiān)督學(xué)習(xí)
Open Problem: Is There an Online Learning Algorithm That Learns Whenever Online Learning Is Possible?
開放問題:有沒有一種在線學(xué)習(xí)算法只要在線學(xué)習(xí)有可能就會學(xué)習(xí)钻注?
YOLOX: Exceeding YOLO Series in 2021
Z Ge, S Liu, F Wang, Z Li, J Sun
[Megvii Technology]
YOLOX:2021超越Y(jié)OLO系列。本文提出對YOLO系列的一些經(jīng)驗性的改進(jìn)配猫,形成了一個新的高性能檢測器——YOLOX幅恋。將YOLO檢測器切換到無錨方式,并采用其他先進(jìn)的檢測技術(shù)泵肄,即解耦頭和先進(jìn)的標(biāo)簽分配策略SimOTA捆交,在所有模型大小上,YOLOX在速度和精度之間實現(xiàn)了比其他同類模型更好的權(quán)衡腐巢,在大規(guī)模模型上實現(xiàn)了最先進(jìn)的結(jié)果品追。對于只有0.91M參數(shù)和1.08G FLOPs的YOLONano,在COCO上得到25.3%的AP冯丙,超過NanoDet 1.8%的AP诵盼;對于YOLOv3,工業(yè)界最廣泛使用的檢測器之一,我們將其在COCO上提升到47.3% AP风宁,比目前的最佳結(jié)果高出3.0% AP洁墙;而YOLOX-L,其參數(shù)數(shù)量與YOLOv4CSP戒财、YOLOv5-L大致相同热监,在Tesla V100上以68.9 FPS的速度在COCO上實現(xiàn)了50.0%的AP,比YOLOv5-L超出1.8%的AP饮寞。此外孝扛,用單個YOLOX-L模型贏得了流感知挑戰(zhàn)賽(CVPR 2021自動駕駛Workshop)的第一名。
Graph Kernel Attention Transformers
K Choromanski, H Lin, H Chen, J Parker-Holder
[Google Brain Robotics & Columbia University & University of Oxford]
圖核注意力Transformer幽崩。本文提出一種新的圖神經(jīng)網(wǎng)絡(luò)(GNN)苦始,結(jié)合了迄今為止單獨(dú)研究的幾個概念:圖核、具有結(jié)構(gòu)先驗的基于注意力的網(wǎng)絡(luò)以及最近通過低秩分解技術(shù)小內(nèi)存占用的隱性注意力方法的高效Transformer架構(gòu)慌申。本文的目標(biāo)有兩方面陌选,所提出的圖核注意力Transformer(或GKAT)比SOTA GNN的表現(xiàn)力要強(qiáng)得多,因為它能在單層內(nèi)模擬較長距離的依賴關(guān)系蹄溉∽捎停可以用更淺的架構(gòu)設(shè)計。此外柒爵,GKAT注意力層在輸入圖的節(jié)點數(shù)量上是線性擴(kuò)展役电,而不是二次擴(kuò)展,即使這些圖是密集的棉胀,需要的計算量也比普通的圖注意力相對應(yīng)的要少法瑟,通過應(yīng)用新的圖核類來實現(xiàn)這一目標(biāo),允許通過圖上的隨機(jī)游走進(jìn)行隨機(jī)特征圖的分解唁奢。作為所提出技術(shù)的副產(chǎn)品瓢谢,得到了一類新的可學(xué)習(xí)的圖抽象,稱為graphot驮瞧,緊湊地編碼了拓?fù)鋱D的屬性以及節(jié)點特征氓扛。對該方法與九種不同的GNN類進(jìn)行了詳盡的實證比較,其任務(wù)范圍從主題檢測到社交網(wǎng)絡(luò)分類论笔,再到生物信息學(xué)挑戰(zhàn)采郎,顯示出GKAT帶來的一致收益。
R-Drop: Regularized Dropout for Neural Networks
R-Drop:神經(jīng)網(wǎng)絡(luò)的正則化Dropout
Per-Pixel Classification is Not All You Need for Semantic Segmentation
B Cheng, A G. Schwing, A Kirillov
[Facebook AI Research (FAIR) & University of Illinois at Urbana-Champaign]
語義分割不必每像素分類】衲В現(xiàn)代方法通常將語義分割表述為每像素分類任務(wù)蒜埋,而實例級分割則通過另一種掩碼分類來處理。掩碼分類具有足夠的通用性最楷,可以用完全相同的模型整份、損失和訓(xùn)練程序待错,以統(tǒng)一方式解決語義層面和實例層面的分割任務(wù)。提出了MaskFormer烈评,一種簡單的掩碼分類模型火俄,預(yù)測一組二進(jìn)制掩碼,每個掩碼都與一個全局類標(biāo)簽預(yù)測有關(guān)讲冠。所提出的基于掩碼分類的方法簡化了語義和全景分割任務(wù)的有效方法瓜客,并顯示了出色的經(jīng)驗結(jié)果。當(dāng)類的數(shù)量很大時竿开,MaskFormer優(yōu)于每像素分類基線谱仪。基于掩碼分類的方法優(yōu)于目前最先進(jìn)的語義(ADE20K上的55.6 mIoU)和全景分割(COCO上的52.7 PQ)模型否彩。
The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning
A Andreassen, Y Bahri, B Neyshabur, R Roelofs
[Google Research]
微調(diào)過程中分布外魯棒性的演進(jìn)疯攒。盡管機(jī)器學(xué)習(xí)模型在分布外數(shù)據(jù)上的性能通常會下降,但在對模型的測試平臺進(jìn)行評估時列荔,普遍觀察到分布外數(shù)據(jù)的準(zhǔn)確性遵循某種單一的線性趨勢敬尺。相對于這個基線,在分布外數(shù)據(jù)上更準(zhǔn)確的模型表現(xiàn)出"有效的魯棒性"肌毅,而且非常罕見筷转。識別這樣的模型磅摹,并了解它們的特性转质,是提高分布外性能的關(guān)鍵零截。本文對微調(diào)期間的有效魯棒性進(jìn)行了徹底的實證調(diào)查,發(fā)現(xiàn)在較大的數(shù)據(jù)集上預(yù)訓(xùn)練的模型在訓(xùn)練期間表現(xiàn)出有效的魯棒性笨奠,但在收斂時卻消失了。研究了數(shù)據(jù)的屬性是如何影響有效魯棒性的唤殴,表明它隨著數(shù)據(jù)集的規(guī)模越大般婆、多樣性越強(qiáng)、樣本難度越高而增加朵逝。顯示出有效魯棒性的模型能夠正確分類10%的樣本蔚袍,而目前其他的測試平臺模型都沒有得到正確的分類。最后配名,討論了幾種將有效魯棒性擴(kuò)展到高準(zhǔn)確率體系的策略啤咽,以提高最先進(jìn)模型的分布外準(zhǔn)確率。
Collaboration of Experts: Achieving 80% Top-1 Accuracy on ImageNet with 100M FLOPs
Y Zhang, Z Chen, Z Zhong
[Huawei]
專家合作:用100M FLOPs在ImageNet上實現(xiàn)80%的Top-1準(zhǔn)確率渠脉。本文提出一種專家協(xié)作(CoE)框架宇整,將多個網(wǎng)絡(luò)的專業(yè)知識匯集到一起,實現(xiàn)一個共同目標(biāo)芋膘。每個專家都是一個單獨(dú)的網(wǎng)絡(luò)鳞青,在數(shù)據(jù)集的一個獨(dú)特部分上有專長霸饲,這增強(qiáng)了協(xié)同能力。給定一個樣本臂拓,由委托人選擇一個專家厚脉,同時輸出一個粗預(yù)測,以支持早期終止埃儿。為了實現(xiàn)這個框架器仗,提出了三個模塊來推動每個模型發(fā)揮其作用,即權(quán)重生成模塊(WGM)童番、標(biāo)簽生成模塊(LGM)和方差計算模塊(VCM)精钮。所提出方法在ImageNet上取得了最先進(jìn)的性能,在194M FLOPs的情況下達(dá)到了80.7%的top-1精度剃斧。結(jié)合PWLU激活函數(shù)和CondConv轨香,CoE首次在只有100M FLOPs的情況下進(jìn)一步實現(xiàn)了80.0%的精度。該方法是硬件友好的幼东,與現(xiàn)有的一些有條件計算方法相比臂容,實現(xiàn)了3~6倍的速度提升。
Depth-supervised NeRF: Fewer Views and Faster Training for Free
K Deng, A Liu, J Zhu, D Ramanan
[CMU & Google]
深度監(jiān)督NeRF:更少的視圖根蟹、更快的訓(xùn)練脓杉。神經(jīng)輻射場(NeRF)模型的一個常見失敗模式是,當(dāng)給定的輸入視圖數(shù)量不足時简逮,擬合出不正確的幾何球散。本文提出深度監(jiān)督神經(jīng)輻射場(DS-NeRF),一種用來學(xué)習(xí)神經(jīng)輻射場的損失散庶,利用了現(xiàn)成的深度監(jiān)督蕉堰。其關(guān)鍵是,稀疏的深度監(jiān)督可以用來正則化學(xué)到的幾何悲龟,這是用NeRF有效渲染新視圖的一個關(guān)鍵組成部分屋讶。利用了這樣一個事實,即目前的NeRF管道需要具有已知攝像機(jī)位置的圖像须教,這些位置通常是通過運(yùn)行從運(yùn)動中獲得的結(jié)構(gòu)(SFM)來估計的皿渗。最重要的是,SFM還能產(chǎn)生稀疏的三維點轻腺,在訓(xùn)練過程中可作為"免費(fèi)"的深度監(jiān)督:只需添加一個損失乐疆,以確保沿與這些三維點相交的射線渲染的深度接近觀察到的深度。在較少的訓(xùn)練視圖下约计,DS-NeRF可以渲染出更準(zhǔn)確的圖像诀拭,同時訓(xùn)練速度也提高了2-6倍。在真實世界的圖像上只有兩個訓(xùn)練視圖的情況下煤蚌,DS-NeRF明顯優(yōu)于NeRF以及其他稀疏視圖的變體耕挨。所提出損失與這些NeRF模型兼容细卧,證明深度是一個廉價且易用的監(jiān)督信號。DS-NeRF支持其他類型的深度監(jiān)督筒占,如掃描的深度傳感器和RGBD重建輸出贪庙。
Predicting trends in the quality of state-of-the-art neural networks without access to training or testing data
C H. Martin, T (Serena)Peng, M W. Mahoney
[Calculation Consulting & UC Berkeley]
在無法獲得訓(xùn)練數(shù)據(jù)或測試數(shù)據(jù)的情況下預(yù)測最先進(jìn)神經(jīng)網(wǎng)絡(luò)的質(zhì)量趨勢。在許多應(yīng)用中翰苫,人們使用由其他人訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型工作止邮。對于這種預(yù)訓(xùn)練的模型,使用者可能無法獲得訓(xùn)練數(shù)據(jù)或測試數(shù)據(jù)奏窑,也不了解模型的細(xì)節(jié)导披,例如,訓(xùn)練數(shù)據(jù)的具體情況埃唯、損失函數(shù)撩匕、超參數(shù)值等∧眩考慮到一個或多個預(yù)訓(xùn)練模型止毕,對模型的預(yù)期性能或質(zhì)量有所了解是個挑戰(zhàn)。本文通過對數(shù)百個公開可用的預(yù)訓(xùn)練模型進(jìn)行詳細(xì)的元分析來應(yīng)對這一挑戰(zhàn)漠趁,研究了基于規(guī)范的能力控制指標(biāo)扁凛,以及最近開發(fā)的重尾自正則化理論中基于冪律的指標(biāo),發(fā)現(xiàn)基于規(guī)范的指標(biāo)與報告的經(jīng)過良好訓(xùn)練的模型的測試精度有很好的相關(guān)性闯传,但它們往往不能區(qū)分訓(xùn)練良好與訓(xùn)練不足的模型谨朝;基于冪律的指標(biāo)可以做得更好——在數(shù)值上可以更好地區(qū)分具有特定結(jié)構(gòu)的一系列訓(xùn)練良好的模型,在質(zhì)量上可以更好地區(qū)分訓(xùn)練良好和訓(xùn)練不足的模型丸边。這些方法可用于識別預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)何時出現(xiàn)問題叠必,而這些問題不能通過檢查訓(xùn)練/測試準(zhǔn)確率來檢測荚孵。
On Robustness and Transferability of Convolutional Neural Networks
J Djolonga, J Yung, M Tschannen, R Romijnders, L Beyer, A Kolesnikov, J Puigcerver, M Minderer, A D'Amour, D Moldovan, S Gelly, N Houlsby, X Zhai, M Lucic
[Google Research]
卷積神經(jīng)網(wǎng)絡(luò)的魯棒性和可遷移性∶媒眩現(xiàn)代深度卷積網(wǎng)絡(luò)(CNN)經(jīng)常被批評為在分布變化的情況下沒有泛化能力。然而收叶,最近在遷移學(xué)習(xí)方面的一些突破表明骄呼,這些網(wǎng)絡(luò)可以應(yīng)對嚴(yán)重的分布變化,并成功地適應(yīng)來自少數(shù)訓(xùn)練樣本的新任務(wù)判没。本文首次研究了現(xiàn)代圖像分類CNN的分布外和遷移性能之間的相互作用蜓萄,并研究了預(yù)訓(xùn)練數(shù)據(jù)大小、模型規(guī)模和數(shù)據(jù)預(yù)處理管道的影響澄峰。增加訓(xùn)練集和模型規(guī)模能明顯改善分布遷移的魯棒性嫉沽。預(yù)處理中的簡單變化,如修改圖像分辨率俏竞,在某些情況下可以大大緩解魯棒性問題绸硕。概述了現(xiàn)有魯棒性評估數(shù)據(jù)集的缺點堂竟,引入了一個合成數(shù)據(jù)集SI-SCORE,用它來系統(tǒng)分析視覺數(shù)據(jù)中常見的變化因素玻佩,如物體大小和位置出嘹。
Self-Damaging Contrastive Learning
自損式對比學(xué)習(xí)
Z Jiang, T Chen, B Mortazavi, Z Wang
Visual Conceptual Blending with Large-scale Language and Vision Models
基于大規(guī)模語言和視覺模型的視覺概念整合
S Ge, D Parikh
[University of Maryland & Facebook AI Research]