發(fā)現(xiàn)鏈接: https://hub.baai.ac.cn/activity/details/136
1.論文題目:LogME: Practical Assessment of Pre-trained Models for Transfer Learning
論文鏈接:arxiv.org/abs/2102.11005
摘要:本文研究任務(wù)自適應(yīng)預(yù)訓(xùn)練模型選擇,這是一個未深入研究的評估預(yù)訓(xùn)練模型的問題囤锉,以便無需微調(diào)就可以從模型庫中選擇適合該任務(wù)的模型丈莺。一項試點(diǎn)工作(Nguyen等人,2020年)解決了將監(jiān)督預(yù)訓(xùn)練模型轉(zhuǎn)移到分類任務(wù)的問題拐迁,但它不能處理新出現(xiàn)的無監(jiān)督預(yù)訓(xùn)練模型或回歸任務(wù)蹭劈。為了尋求一種實用的評估方法,我們建議在給定由預(yù)先訓(xùn)練的模型提取的特征的情況下线召,估計標(biāo)簽的最大證據(jù)(邊際似然)铺韧。最大證據(jù)比似然法更不容易過度擬合,并且通過我們精心設(shè)計的算法可以顯著減少其昂貴的計算缓淹。最大證據(jù)對數(shù)(LogME)可用于評估遷移學(xué)習(xí)的預(yù)訓(xùn)練模型:具有高LogME的預(yù)訓(xùn)練模型可能具有良好的遷移性能哈打。LogME快速、準(zhǔn)確讯壶、通用料仗,是第一種實用的遷移學(xué)習(xí)評估方法。與強(qiáng)力微調(diào)相比伏蚊,LogME在掛鐘時間內(nèi)帶來了3000倍以上的加速立轧。它在設(shè)置方面優(yōu)于現(xiàn)有方法,并且適用于現(xiàn)有方法無法處理的新設(shè)置丙挽。它足夠通用于不同的預(yù)訓(xùn)練模型(有監(jiān)督的預(yù)訓(xùn)練和無監(jiān)督的預(yù)訓(xùn)練)肺孵、下游任務(wù)(分類和回歸)和模態(tài)(視覺和語言)。
論文詳細(xì)介紹:https://mp.weixin.qq.com/s/9lJEcwkXAN4jaENNghjpyw
2.【題目】Random Feature Attention
【作者】Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A. Smith, Lingpeng Kong
【時間】3 Mar 2021颜阐, ICLR 2021
【推薦理由】本文提出了RFA平窘,一種線性時間和空間復(fù)雜度的注意力機(jī)制。使用隨機(jī)特征方法來近似softmax函數(shù)凳怨,并探討了它在Transformer中的應(yīng)用瑰艘。
Transformer是用于各種序列建模任務(wù)的最先進(jìn)模型。核心是注意力機(jī)制肤舞,在每個時間步對輸入之間的相互作用進(jìn)行建模紫新。注意力機(jī)制在序列長度上的二次時間和空間復(fù)雜性,不能有效地擴(kuò)展到長序列李剖。RFA可以作為常規(guī)softmax注意力的替代芒率,并通過可選的門控機(jī)制提供了一種直接的學(xué)習(xí)近因偏差的方式。在語言建模和機(jī)器翻譯方面的實驗表明篙顺,相對于基線偶芍,RFA具有相似或更好的性能充择。在機(jī)器翻譯實驗中,RFA的解碼速度是普通模型的兩倍匪蟀。相對于現(xiàn)有的高效Transformer椎麦,RFA在三個長文本分類數(shù)據(jù)集上的準(zhǔn)確性和效率都具有競爭力。