aikeke,3月9日-5月16日,transformer相關(guān)

Reducing Activation Recomputation in Large Transformer Models

https://arxiv.org/abs/2205.05198

[NVIDIA]

減輕大型Transformer模型的激活重計算稚配。訓(xùn)練大型Transformer模型是現(xiàn)代人工智能的最重要的計算挑戰(zhàn)之一。本文展示了如何通過減少激活重計算來顯著加速大型Transformer模型的訓(xùn)練港华。激活重計算通常用來解決內(nèi)存容量限制道川。傳統(tǒng)上,不是為反向傳播存儲激活立宜,而是重新計算冒萄,這節(jié)省了內(nèi)存,但增加了冗余的計算橙数。本文表明大部分冗余計算是不必要的尊流,可以在避免其的情況下充分減少內(nèi)存消耗。提出了兩種新的非常簡單的技術(shù):序列并行和選擇性激活重計算灯帮。與張量并行相結(jié)合奠旺,這些技術(shù)幾乎消除了重新計算激活的需要。在規(guī)模達一萬億參數(shù)的語言模型上評估了所提出的方法施流,結(jié)果顯示該方法將激活內(nèi)存減少了5倍响疚,同時將激活重計算的執(zhí)行時間開銷減少了90%以上。例如瞪醋,在2240個NVIDIA A100 GPU上訓(xùn)練一個530B參數(shù)的GPT-3風(fēng)格的模型時忿晕,實現(xiàn)了54.2%的模型Flops利用率,比使用重新計算實現(xiàn)的42.1%快29%银受。


EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers

https://arxiv.org/abs/2205.03436

[The Chinese University of Hong Kong & Samsung AI Cambridge]

EdgeViTs: 用視覺Transformer挑戰(zhàn)移動端輕量CNN践盼⊙徊桑基于自注意力的模型,如視覺Transformer(ViT)咕幻,已經(jīng)成為計算機視覺中卷積神經(jīng)網(wǎng)絡(luò)(CNN)的一個非常有競爭力的架構(gòu)替代品渔伯。盡管越來越強的變體具有越來越高的識別精度,但由于自注意力的二次復(fù)雜性肄程,現(xiàn)有的ViT通常在計算和模型大小方面要求很高锣吼。盡管之前的CNN的幾個成功的設(shè)計選擇(例如,卷積和分層多階段結(jié)構(gòu))已經(jīng)被重新引入到最近的ViT中蓝厌,但仍然不足以滿足移動設(shè)備的有限資源要求玄叠。這促使我們最近嘗試在最先進的MobileNet-v2的基礎(chǔ)上開發(fā)輕量ViTs,但仍然存在性能上的差距拓提。本文沿著這個研究不足的方向進一步推進读恃,提出EdgeViTs,一個新的輕量ViT族代态,首次使基于注意力的視覺模型在準確性和設(shè)備效率的權(quán)衡中與最好的輕量CNN競爭寺惫。通過引入一個基于自注意力和卷積的最佳整合的高成本效益的本地-全局-本地(LGL)信息交換瓶頸來實現(xiàn)。對于設(shè)備專用的評估蹦疑,沒有依賴不準確的代理肌蜻,如FLOPs的數(shù)量或參數(shù),而是采用了一種實用的方法必尼,直接關(guān)注設(shè)備上的延遲蒋搜,并首次關(guān)注能源效率。在圖像分類判莉、目標檢測和語義分割方面的廣泛實驗驗證了所提出的EdgeViTs在移動硬件上與最先進的高效CNN和ViTs相比豆挽,在準確性-效率權(quán)衡方面的高效率。當考慮到準確率-延遲和準確率-能量權(quán)衡時券盅,所提出模型是帕累托最優(yōu)的帮哈,幾乎在所有情況下都實現(xiàn)了對其他ViT的嚴格優(yōu)勢,并與最高效的CNN競爭锰镀。


LongT5: Efficient Text-To-Text Transformer for Long Sequences????LongT5:長序列高效文本-文本Transformer

[Google Research]????https://arxiv.org/abs/2112.07916?????NAACL 2022

最近的研究表明娘侍,(1)增加輸入長度或(2)增加模型大小都可以改善基于變壓器的神經(jīng)模型的性能。在本文中泳炉,我們提出了一個新的模型憾筏,稱為LongT5,我們用它來探索同時縮放輸入長度和模型大小的影響花鹅。具體來說氧腰,我們整合了長輸入變壓器(ETC)的注意力思想,并將總結(jié)預(yù)訓(xùn)練(PEGASUS)的預(yù)訓(xùn)練策略引入到可擴展的T5體系結(jié)構(gòu)中。結(jié)果是一種新的注意機制古拴,我們稱之為{\em Transient Global}(TGlobal)箩帚,它模仿了ETC的局部/全局注意機制,但不需要額外的側(cè)面輸入黄痪。我們能夠在幾個摘要任務(wù)上獲得最先進的結(jié)果紧帕,并且在問答任務(wù)上優(yōu)于原始T5模型。


★★★★★? ??Understanding The Robustness in Vision Transformers

https://arxiv.org/abs/2204.12451

https://github.com/NVlabs/FAN? ????????????ICML2022

[NVIDIA & National University of Singapore & The University of Hong Kong]

理解視覺Transformer的魯棒性桅打。最近的研究表明是嗜,視覺Transformer(ViT)對各種破壞表現(xiàn)出強大的魯棒性。盡管這一特性部分歸因于自注意力機制油额,但仍然缺乏系統(tǒng)理解。本文研究了自注意力在學(xué)習(xí)魯棒表示中的作用刻帚。該研究是由視覺Transformer中新出現(xiàn)的視覺分組的耐人尋味的特性所激發(fā)的潦嘶,這表明自注意力可能通過改善中層表示來促進魯棒性。本文進一步提出一個完全注意力網(wǎng)絡(luò)(FAN)族崇众,通過納入注意力通道處理設(shè)計來加強這種能力掂僵。在各種分層骨架上全面驗證了該設(shè)計。所提出模型在ImageNet-1k和ImageNet-C上實現(xiàn)了最先進的87.1%的精度和35.8%的mCE顷歌,參數(shù)為76.8M锰蓬。還在兩個下游任務(wù)中展示了最先進的精度和魯棒性:語義分割和目標檢測。


On the Representation Collapse of Sparse Mixture of Experts

https://arxiv.org/abs/2204.09179????[Microsoft Corporation]

稀疏專家混合表示坍縮研究眯漩。稀疏專家混合提供了更大的模型容量芹扭,同時需要一個持續(xù)的計算開銷。其采用了路由機制赦抖,根據(jù)專家的隱性表示舱卡,將輸入token分配給最匹配的專家。然而队萤,學(xué)習(xí)這樣的路由機制轮锥,會鼓勵專家中心點周圍的token聚類,這意味著一種表示坍縮的趨勢要尔。本文建議在低維超球上估計token和專家之間的路由分數(shù)舍杜。對跨語言語言模型的預(yù)訓(xùn)練和下游任務(wù)的微調(diào)進行了廣泛的實驗。七個多語言基準的實驗結(jié)果表明赵辕,所提出方法取得了一致的收益既绩。還對該模型的表示和路由行為進行了全面分析,其緩解了表示坍縮的問題还惠,并且比基線的專家混合方法實現(xiàn)了更一致的路由熬词。


Token Dropping for Efficient BERT Pretraining

基于Token Dropping的高效BERT預(yù)訓(xùn)練????[Google]????ACL 2022

基于轉(zhuǎn)換器的模型通常為給定序列中的每個令牌分配相同的計算量。我們開發(fā)了一種簡單但有效的“令牌丟棄”方法來加速變壓器模型(如BERT)的預(yù)訓(xùn)練,而不會降低其在下游任務(wù)中的性能互拾。簡言之歪今,我們從模型的中間層開始丟棄不重要的令牌,使模型關(guān)注重要的令牌颜矿;丟棄的令牌稍后會被模型的最后一層拾取寄猩,這樣模型仍然會生成完整的序列。我們利用已經(jīng)內(nèi)置的蒙面語言建模(MLM)損失來識別不重要的令牌骑疆,幾乎沒有計算開銷田篇。在我們的實驗中,這種簡單的方法將BERT的預(yù)訓(xùn)練成本降低了25%箍铭,同時在標準下游任務(wù)上實現(xiàn)了類似的整體微調(diào)性能泊柬。

https://arxiv.org/abs/2203.13240


MiniViT: Compressing Vision Transformers with Weight Multiplexing

MiniViT:基于權(quán)重復(fù)用的視覺Transformer壓縮

[Microsoft Research & Microsoft Cloud+AI]

https://arxiv.org/abs/2204.07154


Neighborhood Attention Transformer

https://arxiv.org/abs/2204.07143

[U of Oregon & UIUC & Meta/Facebook AI]

近鄰注意力Transformer。本文提出近鄰注意力Transformer(NAT)诈火,一種高效兽赁、準確、可擴展的層次Transformer冷守,在圖像分類和下游視覺任務(wù)中都能很好地工作刀崖。其建立在近鄰注意力(NA)基礎(chǔ)上,這是一種簡單靈活的注意力機制拍摇,將每個查詢的感受野定位到其最近的鄰近像素亮钦。NA是一種自注意力的局部化,隨感受野大小增加而接近充活。在相同感受野大小下蜂莉,它在FLOPs和內(nèi)存使用方面也與Swin Transformer的移窗注意力相當,而受限制較少混卵。此外巡语,NA還包括局部感應(yīng)偏差,從而消除了對像素移位等額外操作的需要淮菠。NAT的實驗結(jié)果是有競爭力的男公;NAT-Tiny在ImageNet上僅用4.3GFLOPs和28M參數(shù)就達到了83.2%的top-1精度,在MS-COCO上達到51.4%的mAP合陵,在ADE20k上達到48.4%的mIoU枢赔。


DaViT: Dual Attention Vision Transformers

DaViT:雙注意力視覺Transformer

[The University of Hong Kong & Microsoft Cloud + AI & Baidu]

https://arxiv.org/abs/2204.03645

https://github.com/dingmyu/davit

在這項工作中,我們介紹了雙注意視覺轉(zhuǎn)換器(DaViT)拥知,這是一種簡單但有效的視覺轉(zhuǎn)換器架構(gòu)踏拜,能夠在保持計算效率的同時捕獲全局上下文。我們建議從一個正交的角度來處理這個問題:利用“空間標記”和“通道標記”的自我注意機制低剔。對于空間令牌速梗,空間維度定義令牌范圍肮塞,通道維度定義令牌特征維度。對于通道令牌姻锁,我們有相反的定義:通道維度定義令牌范圍枕赵,空間維度定義令牌特征維度。我們進一步沿著序列方向?qū)臻g和通道令牌進行分組位隶,以保持整個模型的線性復(fù)雜性拷窜。我們發(fā)現(xiàn),這兩種自我注意是相輔相成的:(i)由于每個通道標記都包含整個圖像的抽象表示涧黄,因此在計算通道之間的注意分數(shù)時篮昧,通道注意通過考慮所有空間位置,自然捕獲全局交互和表示笋妥;(ii)空間注意通過跨空間位置執(zhí)行細粒度交互來細化局部表征懊昨,這反過來有助于通道注意中的全局信息建模。大量的實驗表明春宣,我們的吊柱在四種不同的任務(wù)上都能達到最先進的性能酵颁,并且計算效率很高。在沒有額外數(shù)據(jù)的情況下信认,DaViT Tiny材义、DaViT Small和DaViT Base在ImageNet-1K上分別達到82.8%均抽、84.2%和84.6%的頂級精度嫁赏,參數(shù)分別為28.3M、49.7M和87.9M油挥。當我們進一步放大1.5B弱監(jiān)督圖像和文本對的吊柱時潦蝇,吊柱Gaint在ImageNet-1K上達到了90.4%的頂級精度。


MaxViT: Multi-Axis Vision Transformer

https://arxiv.org/abs/2204.01697

[Google Research & University of Texas at Austin]

MaxViT:多軸視覺Transformer深寥。Transformer最近在計算機視覺領(lǐng)域獲得了極大的關(guān)注攘乒。然而,自注意力機制在圖像尺寸方面缺乏可擴展性惋鹅,限制了它們在最先進的視覺骨干中的廣泛采用则酝。本文提出一種高效可擴展的注意力模型,稱為多軸注意力闰集,包括兩個方面:阻斷的局部注意力和擴張的全局注意力沽讹。這些設(shè)計選擇允許在任意的輸入分辨率上進行全局-局部的空間互動,而且只有線性的復(fù)雜度武鲁。還提出一種新的架構(gòu)元素爽雄,將所提出的注意力模型與卷積有效地融合在一起,并相應(yīng)提出了一種簡單的分層視覺骨架沐鼠,稱為MaxViT挚瘟,通過簡單地在多個階段重復(fù)基本的構(gòu)建塊叹谁。值得注意的是,MaxViT能在整個網(wǎng)絡(luò)中"看到"全局乘盖,甚至在早期的高分辨率階段焰檩。在廣泛的視覺任務(wù)中證明了該模型的有效性。在圖像分類方面侧漓,MaxViT在各種設(shè)置下都達到了最先進的性能锅尘。對于下游任務(wù),MaxViT作為主干在目標檢測和視覺美學(xué)評估方面提供了有利的表現(xiàn)布蔗。所提出的模型在ImageNet上表現(xiàn)出強大的生成建模能力藤违,證明了MaxViT塊作為通用視覺模塊的卓越潛力。


Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object Detection

https://arxiv.org/abs/2204.02964

https://github.com/hustvl/MIMDet

[Huazhong University of Science & Technology & Tencent PCG]

自適應(yīng)掩碼圖像建模預(yù)訓(xùn)練Vanilla視覺Transformer用于目標檢測纵揍。本文提出一種方法來有效地自適應(yīng)掩碼圖像建模(MIM)預(yù)訓(xùn)練的Vanilla視覺Transformer(ViT)用于目標檢測顿乒,基于兩個新觀察:(i) 一個掩碼圖像建模預(yù)訓(xùn)練的Vanilla ViT編碼器可以在具有挑戰(zhàn)性的物體級識別場景中工作得非常好,即使是隨機采樣的部分觀察泽谨,例如璧榄,只有25%~50%的輸入序列。(ii) 為了構(gòu)建用于目標檢測的多尺度表示吧雹,一個隨機初始化的緊湊卷積干代替了預(yù)訓(xùn)練的大核圖塊化干骨杂,其中間特征可以自然地作為特征金字塔的高分辨率輸入,而不需要上采樣雄卷。而預(yù)訓(xùn)練的ViT僅被視為檢測器的3級骨干搓蚪,而不是整個特征提取器,從而形成了ConvNet-ViT混合架構(gòu)丁鹉。所提出的檢測器MIMDET妒潭,使MIM預(yù)訓(xùn)練的vanilla ViT在COCO上的表現(xiàn)優(yōu)于層次化的Swin Transformer 2.3 APbox和2.5 APmask,并且與其他自適應(yīng)的vanilla ViT相比揣钦,使用更適度的微調(diào)配方取得更好的結(jié)果雳灾,同時收斂速度快2.8倍。


MixFormer: Mixing Features across Windows and Dimensions

MixFormer:跨窗口跨維度特征混合

CVPR2022 Oral

[Baidu VIS & Chinese Academy of Sciences]

https://arxiv.org/abs/2204.02557

https://github.com/PaddlePaddle/PaddleClas

雖然局部窗口自我注意在視覺任務(wù)中表現(xiàn)顯著冯凹,但它存在接受域有限和建模能力弱的問題谎亩。這主要是因為它在非重疊窗口內(nèi)進行自我注意,并在通道維度上共享權(quán)重宇姚。我們建議MixFormer找到解決方案匈庭。首先,我們在并行設(shè)計中將局部窗口自我注意與深度卷積相結(jié)合空凸,建暮炕ǎ跨窗口連接以擴大感受野。其次呀洲,我們提出了跨分支的雙向交互紊选,以提供通道和空間維度的補充線索啼止。這兩種設(shè)計相結(jié)合,以實現(xiàn)窗口和維度之間的有效特征混合兵罢。我們的MixFormer在圖像分類方面提供了與EfficientNet競爭的結(jié)果献烦,并且顯示出比RegNet和Swin Transformer更好的結(jié)果。在MS COCO卖词、ADE20k和LVIS上的5個密集預(yù)測任務(wù)中巩那,下游任務(wù)的性能顯著優(yōu)于替代任務(wù),且計算成本較低此蜈。代碼位于\url{this https url}即横。


MultiMAE: Multi-modal Multi-task Masked Autoencoders

https://arxiv.org/abs/2204.01678

MultiMAE:多模態(tài)多任務(wù)掩碼自編碼器。本文提出一種名為多模態(tài)多任務(wù)掩碼自編碼器(MultiMAE)的預(yù)訓(xùn)練策略裆赵。在兩個關(guān)鍵方面與標準掩碼自編碼不同:I)可以選擇接受RGB圖像以外的其他模態(tài)的輸入信息("多模態(tài)")东囚,以及 II)訓(xùn)練目標相應(yīng)地包括預(yù)測RGB圖像以外的多個輸出("多任務(wù)")。利用掩碼(跨圖像塊和輸入模態(tài))使MultiMAE的訓(xùn)練具有可操作性战授,并確币吃澹跨模態(tài)預(yù)測編碼確實被網(wǎng)絡(luò)學(xué)習(xí)。這種預(yù)訓(xùn)練策略得到了一個靈活植兰、簡單份帐、高效的框架,改善了對下游任務(wù)的遷移結(jié)果楣导。當RGB圖像以外的其他信息可用時废境,或者當RGB以外的信息不可用時,可以靈活地使用相同的預(yù)訓(xùn)練網(wǎng)絡(luò)——在所有配置中爷辙,產(chǎn)生與基線競爭或明顯更好的結(jié)果彬坏。為避免需要多種模態(tài)和任務(wù)的訓(xùn)練數(shù)據(jù)集朦促,本文完全用偽標簽來訓(xùn)練MultiMAE膝晾,使得該框架廣泛適用于任何RGB數(shù)據(jù)集。實驗在多個遷移任務(wù)(圖像分類务冕、語義分割血当、深度估計)和數(shù)據(jù)集(ImageNet、ADE20K禀忆、Taskonomy臊旭、Hypersim、NYUv2)上進行箩退。實驗結(jié)果顯示离熏,該模型在跨模態(tài)/任務(wù)預(yù)測編碼和遷移方面的能力令人印象深刻。


Training Compute-Optimal Large Language Models

https://arxiv.org/abs/2203.15556

[DeepMind]

計算優(yōu)化大型語言模型訓(xùn)練戴涝。本文研究了在給定計算預(yù)算下滋戳,訓(xùn)練Transformer語言模型的最佳模型大小和Token數(shù)量钻蔑。目前的大型語言模型訓(xùn)練不足,這是最近關(guān)注在保持訓(xùn)練數(shù)據(jù)量不變的情況下擴展語言模型的結(jié)果奸鸯。通過在5000億個Token上訓(xùn)練7000萬到160億參數(shù)的語言模型咪笑,對于計算最優(yōu)的訓(xùn)練,模型的大小和訓(xùn)練Token的數(shù)量應(yīng)該是等比例的:模型大小每增加一倍娄涩,訓(xùn)練Token的數(shù)量也應(yīng)該增加一倍窗怒。通過訓(xùn)練一個預(yù)測的最佳計算模型chinchilla來測試該假設(shè),使用與gopher相同的計算預(yù)算蓄拣,但有700B的參數(shù)和4倍以上的數(shù)據(jù)扬虚。chinchilla在大范圍的下游評估任務(wù)上均勻且明顯地超過了Gopher(280B)、GPT-3(175B)球恤、Jurassic-1(178B)和Megatron-Turing NLG(530B)孔轴。這也意味著,chinchilla用于微調(diào)和推理的計算量大大減少碎捺,極大促進了下游的使用路鹰。作為亮點,chinchilla在MMLU基準上達到了67.5%的平均精度收厨,比gopher提高了7%以上晋柱。


VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

VideoMAE:掩碼自編碼器是自監(jiān)督視頻預(yù)訓(xùn)練的數(shù)據(jù)高效學(xué)習(xí)器

https://arxiv.org/abs/2203.12602


Focal Modulation Networks

https://arxiv.org/abs/2203.11926????https://github.com/microsoft/FocalNet

[Microsoft Research]

焦點調(diào)制網(wǎng)絡(luò)。本文提出焦點調(diào)制網(wǎng)絡(luò)(FocalNet)诵叁,其中自注意力(SA)完全被焦點調(diào)制模塊所取代雁竞,該模塊在建模Token互動方面更有效也更高效。焦點調(diào)制包括三部分拧额。(i) 分層語境化碑诉,使用深度卷積層堆棧實現(xiàn),以不同粒度水平對短程到長程視覺語境進行編碼侥锦,(ii) 門控聚合进栽,根據(jù)每個視覺Token(查詢)的內(nèi)容有選擇地聚合語境特征,以及(iii) 調(diào)制或元素級仿射變換恭垦,將聚合特征融合到查詢向量中快毛。廣泛實驗表明,F(xiàn)ocalNets在圖像分類番挺、目標檢測和語義分割等任務(wù)上表現(xiàn)優(yōu)于最先進的自注意力模型(如Swin Transformers)唠帝,其時間和內(nèi)存成本相似。FocalNets在ImageNet-1K上的微小尺寸和基礎(chǔ)尺寸分別達到82.3%和83.9%的最高準確率玄柏。在ImageNet-22K上預(yù)訓(xùn)練后襟衰,在分辨率為224×224和384×384的情況下,分別達到了86.5%和87.3%的最高精度粪摘。當遷移到下游任務(wù)時瀑晒,F(xiàn)ocalNets表現(xiàn)出明顯的優(yōu)越性阀湿。對于用UperNet進行的語義分割,以單尺度評估的FocalNet基礎(chǔ)超過了以多尺度評估的Swin(50.5 v. 49.7)瑰妄。這些結(jié)果使焦點調(diào)制成為現(xiàn)實世界應(yīng)用中有效和高效的視覺建模的自注意力的有利替代方案


ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer

ScalableViT:視覺Transformer面向上下文泛化的反思

https://weibo.com/1402400261/Ll0vFfOh6


MetaFormer: A Unified Meta Framework for Fine-Grained Recognition

MetaFormer:細粒度識別統(tǒng)一元框架

https://weibo.com/1402400261/LkHCed29n


Block-Recurrent Transformers

[Google Research & The Swiss AI Lab IDSIA]

https://arxiv.org/abs/2203.07852

塊-遞歸Transformer陷嘴。本文提出塊-遞歸Transformer,以遞歸方式沿序列應(yīng)用Transformer層间坐,相對序列長度具有線性復(fù)雜性灾挨。所提出的遞歸單元對token塊而不是單個token進行操作,利用塊內(nèi)的并行計算竹宋,有效利用加速器硬件劳澄。該單元本身非常簡單,僅僅是一個Transformer層:用自注意力和交叉注意力有效計算一大組狀態(tài)向量和token的循環(huán)函數(shù)蜈七。設(shè)計部分受到了LSTM單元的啟發(fā)秒拔,采用LSTM風(fēng)格的門,但將典型的LSTM單元放大了幾個數(shù)量級飒硅。對遞歸的實現(xiàn)在計算時間和參數(shù)數(shù)量上與傳統(tǒng)的Transformer層有相同的成本砂缩,但在非常長序列上的語言建模任務(wù)中提供了極大的改進。所提出模型比長程的Transformer XL基線要好得多三娩,而運行速度是其兩倍庵芭。


Efficient Language Modeling with Sparse all-MLP

基于稀疏全MLP的高效語言建模。作為基于注意力模型的替代雀监,全MLP架構(gòu)引起了越來越多的興趣双吆。在NLP中,最近的工作如gMLP表明会前,全MLP在語言建模方面可以與Transformer相媲美好乐,但在下游任務(wù)中仍然落后。本文分析了MLP在表現(xiàn)力方面的局限瓦宜,并提出在特征和輸入(Token)維度上具有專家混合(MoE)的稀疏激活MLP蔚万。這種稀疏全MLP大大增加了模型的容量和表現(xiàn)力,同時保持計算量不變歉提。用兩種路由策略來解決納入條件計算的關(guān)鍵挑戰(zhàn)笛坦。與基于Transformer的MoE(GShard区转、Switch Transformer苔巨、Base Layers和HASH Layers)及稠密Transformer和全MLP相比,所提出的稀疏全MLP改善了語言建模的困惑度废离,獲得了高達2倍的訓(xùn)練效率提升侄泽。評估了它在六個下游任務(wù)上的零次學(xué)習(xí)性能,發(fā)現(xiàn)它超過了基于Transformer的MoE和稠密Transformer蜻韭。


ActiveMLP: An MLP-like Architecture with Active Token Mixer

ActiveMLP:基于主動Token混合器的類MLP架構(gòu)悼尾。本文提出ActiveMLP柿扣,一種用于計算機視覺的類似MLP的通用骨干網(wǎng)。現(xiàn)有的三種主流網(wǎng)絡(luò)族闺魏,即CNN未状、Transformers和MLP,主要是在將上下文信息融合到一個給定Token中的方式上有所不同析桥,這使得設(shè)計更有效的Token混合機制司草,成為骨干架構(gòu)發(fā)展的核心問題。在ActiveMLP中福澡,本文提出一種創(chuàng)新的Token混合器救鲤,稱為主動Token混合器(ATM)盼玄,以主動將全局范圍內(nèi)其他Token的上下文信息納入給定Token。這個基礎(chǔ)操作子主動預(yù)測在哪里捕獲有用的上下文搔课,并學(xué)習(xí)如何將捕獲的上下文與給定Token的原始信息在通道層面上融合。這樣截亦,Token混合的空間范圍被擴大爬泥,Token混合的方式被革新。通過這種設(shè)計崩瓤,ActiveMLP被賦予了全局感受野和更靈活的內(nèi)容適應(yīng)性信息融合的優(yōu)點急灭。廣泛的實驗表明,ActiveMLP是普遍適用的谷遂,并且在廣泛的視覺任務(wù)上葬馋,包括視覺識別和稠密預(yù)測任務(wù)上,以明顯的優(yōu)勢全面超越了不同系列的SOTA視覺骨干肾扰。


projUNN: efficient method for training deep networks with unitary matrices

B Kiani, R Balestriero, Y Lecun, S Lloyd

projUNN:基于酉矩陣的深度網(wǎng)絡(luò)高效訓(xùn)練方法畴嘶。在用遞歸或非常深的前饋網(wǎng)絡(luò)學(xué)習(xí)時,在每一層采用酉矩陣可以非常有效地保持長程穩(wěn)定性集晚。然而窗悯,將網(wǎng)絡(luò)參數(shù)限制為酉矩陣通常要以昂貴的參數(shù)化或增加訓(xùn)練運行時間為代價。本文提出一種基于rank-k更新(或rank-k近似)的有效方法——可在接近最優(yōu)訓(xùn)練運行時間保持性能偷拔,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)架構(gòu)時不需要犧牲性能或運行時間蒋院。提出了這種方法的兩個變體,即直接投影神經(jīng)網(wǎng)絡(luò)(projUNN-D)和切線投影神經(jīng)網(wǎng)絡(luò)(projUNN-T)莲绰,以對全N維酉矩陣或正交矩陣進行參數(shù)化欺旧,訓(xùn)練運行時間縮短到O(kN)。該方法是將低秩梯度投射到最接近的酉矩陣上(projUNN-T)蛤签,或者將酉矩陣按照低秩梯度的方向傳輸(projUNN-D)辞友。即使在最快的設(shè)置下(k=1),projUNN也能夠訓(xùn)練模型的單位參數(shù),以達到與基線實現(xiàn)相媲美的性能称龙。通過將projUNN算法整合到遞歸和卷積神經(jīng)網(wǎng)絡(luò)中留拾,模型可以匹配或超過最先進算法的基準結(jié)果。


LiteTransformerSearch: Training-free On-device Search for Efficient Autoregressive Language Models

LiteTransformerSearch:面向高效自回歸語言模型的免訓(xùn)練設(shè)備端搜索

https://weibo.com/1402400261/Ljl056Xjo


HyperMixer: An MLP-based Green AI Alternative to Transformers

HyperMixer:基于MLP替代Transformer邁向綠色人工智能鲫尊〕杖幔基于Transformer的架構(gòu)是自然語言理解的首選模型,但它們的成本很高疫向,因為在輸入長度上具有二次復(fù)雜度竞帽,而且難以微調(diào)。在追求綠色人工智能的過程中鸿捧,本文研究了簡單的基于MLP的架構(gòu)屹篓。發(fā)現(xiàn)現(xiàn)有的架構(gòu),如MLPMixer匙奴,通過獨立應(yīng)用于每個特征的靜態(tài)MLP來實現(xiàn)token混合堆巧,過于脫離自然語言理解所需的歸納偏差。本文提出一種簡單的變體——HyperMixer泼菌,用超網(wǎng)絡(luò)動態(tài)形成標記混合MLP谍肤,具有與Transformer相似的歸納偏差。實驗證明所提出模型比其他基于MLP的模型表現(xiàn)得更好哗伯,且與Transformer相當荒揣。與Transformers相比,HyperMixer在處理時間焊刹、訓(xùn)練數(shù)據(jù)和超參數(shù)調(diào)整方面的成本大大降低系任,標志著在綠色人工智能方面取得了重大進展。


EdgeFormer: Improving Light-weight ConvNets by Learning from Vision Transformers

https://github.com/hkzhang91/EdgeFormer

EdgeFormer:向視覺Transformer學(xué)習(xí)改進輕量卷積網(wǎng)絡(luò)虐块。最近俩滥,視覺Transformer開始顯示出令人印象深刻的結(jié)果,其性能明顯優(yōu)于基于卷積的大型模型贺奠。然而霜旧,在用于移動或資源受限設(shè)備的小型模型領(lǐng)域,ConvNet在性能和模型復(fù)雜度方面仍有自己的優(yōu)勢儡率。本文提出EdgeFormer挂据,一種純粹基于ConvNet的骨干模型,通過將視覺Transformer的優(yōu)點融合到ConvNets中儿普,進一步加強了這些優(yōu)勢崎逃。提出了帶有位置嵌入的全局循環(huán)卷積(GCC),一種輕量卷積運算箕肃,擁有全局感受野婚脱,同時產(chǎn)生了像局部卷積那樣的位置敏感特征。將GCC和squeezeexictation操作結(jié)合起來勺像,形成一個類似于元生成器的模型塊障贸,具有類似于Transformer的注意里機制。上述塊可以用即插即用的方式替代ConvNets或Transformer中的相關(guān)塊吟宦。實驗結(jié)果表明篮洁,在常見的視覺任務(wù)和數(shù)據(jù)集中,所提出的EdgeFormer比流行的輕量ConvNets和基于視覺Transformer的模型取得了更好的性能殃姓,同時參數(shù)更少袁波,推理速度更快。對于ImageNet-1k的分類蜗侈,EdgeFormer以大約500萬個參數(shù)達到了78.6%的最高準確率篷牌,與MobileViT相比,節(jié)省了11%的參數(shù)和13%的計算成本踏幻,但獲得了0.2%的高準確率和23%的快推理速度(基于ARM的Rockchip RK3288)枷颊,與DeIT相比,只使用了0.5倍的參數(shù)该面,但獲得了2.7%的準確率夭苗。在MS-COCO物體檢測和PASCAL VOC分割任務(wù)上,EdgeFormer也顯示出更好的性能隔缀。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末题造,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子猾瘸,更是在濱河造成了極大的恐慌界赔,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件牵触,死亡現(xiàn)場離奇詭異仔蝌,居然都是意外死亡,警方通過查閱死者的電腦和手機荒吏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進店門敛惊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人绰更,你說我怎么就攤上這事瞧挤。” “怎么了儡湾?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵特恬,是天一觀的道長。 經(jīng)常有香客問我徐钠,道長癌刽,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮显拜,結(jié)果婚禮上衡奥,老公的妹妹穿的比我還像新娘。我一直安慰自己远荠,他們只是感情好矮固,可當我...
    茶點故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著譬淳,像睡著了一般档址。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上邻梆,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天守伸,我揣著相機與錄音,去河邊找鬼浦妄。 笑死尼摹,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的校辩。 我是一名探鬼主播窘问,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼宜咒!你這毒婦竟也來了惠赫?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤故黑,失蹤者是張志新(化名)和其女友劉穎儿咱,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體场晶,經(jīng)...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡混埠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了诗轻。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钳宪。...
    茶點故事閱讀 39,731評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖扳炬,靈堂內(nèi)的尸體忽然破棺而出吏颖,到底是詐尸還是另有隱情,我是刑警寧澤恨樟,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布半醉,位于F島的核電站,受9級特大地震影響劝术,放射性物質(zhì)發(fā)生泄漏缩多。R本人自食惡果不足惜呆奕,卻給世界環(huán)境...
    茶點故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望衬吆。 院中可真熱鬧梁钾,春花似錦、人聲如沸咆槽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽秦忿。三九已至,卻和暖如春蛾娶,著一層夾襖步出監(jiān)牢的瞬間灯谣,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工蛔琅, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留胎许,地道東北人。 一個月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓罗售,卻偏偏與公主長得像辜窑,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子寨躁,可洞房花燭夜當晚...
    茶點故事閱讀 44,629評論 2 354

推薦閱讀更多精彩內(nèi)容