ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators
https://arxiv.org/abs/2003.10555
https://openreview.net/forum?id=r1xMH1BtvB
掩碼語言建模(MLM)預(yù)訓(xùn)練方法(如BERT)通過用[MASK]替換一些令牌來破壞輸入垦搬,然后訓(xùn)練模型以重建原始令牌奇瘦。雖然它們在遷移到下游NLP任務(wù)時產(chǎn)生了良好的結(jié)果惯悠,但它們通常需要大量的計算才能有效。作為替代方案,我們提出了一種更樣本高效的預(yù)訓(xùn)練任務(wù)赃承,稱為替換令牌檢測踱讨。我們的方法不是掩碼輸入碾篡,而是通過用從小型生成器網(wǎng)絡(luò)采樣的可信替代品替換一些令牌來破壞輸入舰绘。然后蹂喻,我們訓(xùn)練一個判別模型,預(yù)測損壞輸入中的每個令牌是否被生成器樣本替換捂寿,而不是訓(xùn)練一個預(yù)測損壞令牌的原始身份的模型口四。徹底的實驗表明,這種新的預(yù)訓(xùn)練任務(wù)比MLM更有效秦陋,因為該任務(wù)是在所有輸入令牌上定義的蔓彩,而不僅僅是被掩碼掉的小子集。因此驳概,在相同的模型大小赤嚼、數(shù)據(jù)和計算條件下,通過我們的方法學(xué)習(xí)的上下文表示顯著優(yōu)于通過BERT學(xué)習(xí)的上下文表達顺又。小型車型的收益尤其強勁更卒;例如,我們在一個GPU上訓(xùn)練一個模型4天稚照,該模型在GLUE自然語言理解基準(zhǔn)上的表現(xiàn)優(yōu)于GPT(使用30倍以上的計算進行訓(xùn)練)蹂空。我們的方法在規(guī)模上也很好俯萌,它的性能與RoBERTa和XLNet相當(dāng),但使用的計算量不到它們的1/4上枕,并且在使用相同數(shù)量的計算量時性能優(yōu)于它們咐熙。
1簡介
當(dāng)前最先進的語言表示學(xué)習(xí)方法可以被視為學(xué)習(xí)去噪自動編碼器(Vincent等人,2008)辨萍。他們選擇未標(biāo)記輸入序列的一小部分(通常為15%)棋恼,掩碼這些令牌的身份(例如,BERT锈玉;Devlin等人(2019))或關(guān)注這些令牌(例如蘸泻,XLNet;Yang等人(2019年))嘲玫,然后訓(xùn)練網(wǎng)絡(luò)以恢復(fù)原始輸入悦施。盡管由于學(xué)習(xí)雙向表示而比傳統(tǒng)語言模型預(yù)訓(xùn)練更有效,但這些掩碼語言建模(MLM)方法產(chǎn)生了大量的計算成本去团,因為網(wǎng)絡(luò)每個示例僅從15%的令牌中學(xué)習(xí)抡诞。
作為替代方案,我們提出了替換令牌檢測土陪,這是一項預(yù)訓(xùn)練任務(wù)昼汗,在該任務(wù)中,模型學(xué)習(xí)區(qū)分真實輸入令牌和可信但合成生成的替換鬼雀。我們的方法不是掩碼顷窒,而是通過用提案分發(fā)中的樣本替換一些令牌來破壞輸入,提案分發(fā)通常是小型掩碼語言模型的輸出源哩。這種破壞過程解決了BERT中的不匹配(雖然在XLNet中沒有)鞋吉,其中網(wǎng)絡(luò)在預(yù)訓(xùn)練期間看到人工[MASK]令牌,但在對下游任務(wù)進行微調(diào)時沒有励烦。然后谓着,我們將網(wǎng)絡(luò)預(yù)訓(xùn)練為鑒別器,該鑒別器預(yù)測每個令牌是原始令牌還是替換令牌坛掠。相反赊锚,MLM將網(wǎng)絡(luò)訓(xùn)練為一個生成器,用于預(yù)測損壞令牌的原始身份屉栓。我們的區(qū)分性任務(wù)的一個關(guān)鍵優(yōu)勢是舷蒲,模型從所有輸入令牌中學(xué)習(xí),而不僅僅是小的掩碼子集友多,從而提高了計算效率牲平。盡管我們的方法讓人聯(lián)想到訓(xùn)練GAN的鑒別器,但我們的方法不是對抗性的夷陋,因為由于難以將GAN應(yīng)用于文本欠拾,產(chǎn)生損壞令牌的生成器以最大的可能性進行訓(xùn)練(Caccia等人胰锌,2018)。
我們將我們的方法稱為ELECTRA1藐窄,以“高效地學(xué)習(xí)準(zhǔn)確分類令牌替換的編碼器”资昧。與之前的工作一樣,我們將其應(yīng)用于預(yù)訓(xùn)練Transformer文本編碼器(Vaswani等人荆忍,2017)格带,可對下游任務(wù)進行微調(diào)。通過一系列消融刹枉,我們發(fā)現(xiàn)從所有輸入位置學(xué)習(xí)都會使ELECTRA比BERT訓(xùn)練更快叽唱。我們還表明,ELECTRA在經(jīng)過充分訓(xùn)練后微宝,在下游任務(wù)上實現(xiàn)了更高的精度棺亭。
大多數(shù)當(dāng)前的預(yù)訓(xùn)練方法需要大量的計算才能有效,這引發(fā)了人們對其成本和可訪問性的擔(dān)憂蟋软。由于具有更多計算的預(yù)訓(xùn)練幾乎總是導(dǎo)致更好的下游精度镶摘,我們認(rèn)為預(yù)訓(xùn)練方法的一個重要考慮因素應(yīng)該是計算效率以及絕對下游性能。從這個角度來看岳守,我們訓(xùn)練各種大小的ELECTRA模型凄敢,并評估其下游性能與計算需求。特別是湿痢,我們對GLUE自然語言理解基準(zhǔn)(Wang等人涝缝,2019)和SQuAD問答基準(zhǔn)(Rajpurkar等人,2016)進行了實驗譬重。在相同的模型大小拒逮、數(shù)據(jù)和計算條件下,ELECTRA大大優(yōu)于基于MLM的方法害幅,如BERT和XLNet(見圖1)消恍。例如岂昭,我們構(gòu)建了一個ELECTRA Small模型以现,該模型可以在4天內(nèi)在1個GPU上進行訓(xùn)練。2 ELECTRA Small在GLUE上的表現(xiàn)優(yōu)于相對較小的BERT模型5個點约啊,甚至優(yōu)于更大的GPT模型(Radford等人邑遏,2018)。我們的方法在大規(guī)模上也很有效恰矩,我們訓(xùn)練了一個ELECTRA大型模型记盒,該模型的性能與RoBERTa(Liu等人,2019)和XLNet(Yang等人外傅,2019年)相當(dāng)纪吮,盡管參數(shù)較少俩檬,使用了1/4的計算進行訓(xùn)練。訓(xùn)練ELECTRA Large進一步產(chǎn)生了一個更強大的模型碾盟,該模型在GLUE上優(yōu)于ALBERT(Lan等人棚辽,2019),并為SQuAD 2.0設(shè)置了新的最先進水平冰肴∏辏總之,我們的結(jié)果表明熙尉,與現(xiàn)有的語言表示學(xué)習(xí)生成方法相比联逻,區(qū)分真實數(shù)據(jù)和具有挑戰(zhàn)性的負(fù)樣本的區(qū)分任務(wù)更具計算效率和參數(shù)效率。
2方法
我們首先描述替換令牌檢測預(yù)訓(xùn)練任務(wù)检痰;如圖2所示包归。我們在第3.2節(jié)中建議并評估了該方法的幾個建模改進
我們的方法訓(xùn)練兩個神經(jīng)網(wǎng)絡(luò),一個生成器G和一個鑒別器D铅歼。每個神經(jīng)網(wǎng)絡(luò)主要由一個編碼器(例如箫踩,Transformer網(wǎng)絡(luò))組成,該編碼器將輸入令牌x=[x1谭贪,…境钟,xn]上的序列映射成一個上下文化向量表示h(x)=[h1,…俭识,hn]的序列慨削。對于給定的位置t(在我們的情況下,只有xt=[MASK]的位置)套媚,生成器輸出生成具有softmax層的特定令牌xt的概率:
其中e表示令牌嵌入缚态。對于給定位置t,鑒別器預(yù)測令牌xt是否“真實”堤瘤,即它來自數(shù)據(jù)而不是生成器分布玫芦,具有S形輸出層:
生成器被訓(xùn)練為執(zhí)行掩碼語言建模(MLM)。給定輸入x=[x1本辐,x2桥帆,…,xn]慎皱,MLM首先選擇一組隨機位置(介于1和n之間的整數(shù))來掩碼m=[m1老虫,…,mk]茫多。3所選位置中的標(biāo)記被[MASK]標(biāo)記替換:我們將其表示為x MASK=REPLACE(x祈匙,m,[MASK])。然后夺欲,生成器學(xué)習(xí)預(yù)測被掩碼的令牌的原始身份跪帝。鑒別器被訓(xùn)練為將數(shù)據(jù)中的令牌與已被生成器樣本替換的令牌區(qū)分開來。更具體地說些阅,我們通過用生成器樣本替換掩碼掉的令牌來創(chuàng)建一個損壞的示例x損壞歉甚,并訓(xùn)練鑒別器來預(yù)測x損壞中的哪些令牌與原始輸入x匹配
損失函數(shù)為
雖然與GAN的訓(xùn)練目標(biāo)相似,但有幾個關(guān)鍵區(qū)別扑眉。首先纸泄,如果生成器恰好生成了正確的令牌,則該令牌被視為“真實”而不是“假的”腰素;我們發(fā)現(xiàn)這個公式可以適度提高下游任務(wù)的結(jié)果聘裁。更重要的是,生成器以最大的可能性進行訓(xùn)練弓千,而不是進行對抗性訓(xùn)練以愚弄鑒別器衡便。對抗性訓(xùn)練生成器具有挑戰(zhàn)性,因為不可能通過生成器的采樣進行反向傳播洋访。盡管我們嘗試通過使用強化學(xué)習(xí)來訓(xùn)練生成器(參見附錄F)來規(guī)避這個問題镣陕,但這比最大似然訓(xùn)練表現(xiàn)得更差。最后姻政,我們沒有像GAN那樣向生成器提供噪聲矢量作為輸入呆抑。
我們將綜合損失降至最低
在原始文本的大型語料庫X上。我們用一個樣本來估計損失的預(yù)期值汁展。我們不會通過生成器反向傳播鑒別器損失(事實上鹊碍,由于采樣步驟,我們不能)食绿。在預(yù)訓(xùn)練之后侈咕,我們丟棄生成器并在下游任務(wù)上微調(diào)鑒別器。
3個實驗
3.1實驗設(shè)置
我們基于通用語言理解評估(GLUE)基準(zhǔn)(Wang等人器紧,2019)和斯坦福問答(SQuAD)數(shù)據(jù)集(Rajpurkar等人耀销,2016)進行評估。GLUE包含多種任務(wù)铲汪,包括文本蘊含(RTE和MNLI)問答蘊含(QNLI)熊尉、釋義(MRPC)、問題釋義(QQP)桥状、文本相似性(STS)帽揪、情感(SST)和語言可接受性(CoLA)。有關(guān)GLUE任務(wù)的更多詳細信息辅斟,請參見附錄C。我們的評估指標(biāo)是STS的Spearman相關(guān)性芦拿、CoLA的Matthews相關(guān)性以及其他GLUE任務(wù)的準(zhǔn)確性士飒;我們通常報告所有任務(wù)的平均得分查邢。對于SQuAD,我們在1.1版和2.0版上進行評估酵幕,在1.1版中扰藕,模型選擇回答問題的文本范圍,在2.0版中芳撒,有些問題無法通過文章回答邓深。我們使用精確匹配(EM)和F1分?jǐn)?shù)的標(biāo)準(zhǔn)評估指標(biāo)。對于大多數(shù)實驗笔刹,我們使用與BERT相同的數(shù)據(jù)進行預(yù)訓(xùn)練芥备,BERT由來自維基百科和BooksCorpus的33億代幣組成(Zhu等人,2015)舌菜。然而萌壳,對于我們的大型模型,我們對XLNet使用的數(shù)據(jù)進行了預(yù)訓(xùn)練(Yang等人日月,2019)袱瓮,通過包括ClueWeb(Callan等人,2009)爱咬、CommonCrawl和Gigaword(Parker等人尺借,2011)的數(shù)據(jù),將BERT數(shù)據(jù)集擴展到33B代幣精拟。所有的預(yù)訓(xùn)練和評估都基于英語數(shù)據(jù)褐望,盡管我們認(rèn)為將來將我們的方法應(yīng)用于多語言數(shù)據(jù)會很有趣。
我們的模型結(jié)構(gòu)和大多數(shù)超參數(shù)與BERT相同串前。為了對GLUE進行微調(diào)瘫里,我們在ELECTRA上添加了簡單的線性分類器。對于SQuAD荡碾,我們在ELECTRA的基礎(chǔ)上添加了XLNet的問答模塊谨读,該模塊比BERT稍微復(fù)雜一些,因為它聯(lián)合而不是獨立地預(yù)測開始和結(jié)束位置坛吁,并且為SQuAD 2.0添加了“可回答性”分類器劳殖。我們的一些評估數(shù)據(jù)集很小,這意味著微調(diào)模型的精度會因隨機種子的不同而有很大差異拨脉。因此哆姻,對于每個結(jié)果,我們報告了來自同一預(yù)訓(xùn)練檢查點的10次微調(diào)運行的中值玫膀。除非另有說明矛缨,否則結(jié)果在開發(fā)集上。更多訓(xùn)練詳情和超參數(shù)值請參見附錄。
3.2型號擴展
我們通過提出和評估模型的幾個擴展來改進我們的方法箕昭。除非另有說明灵妨,這些實驗使用與BERT Base相同的模型大小和訓(xùn)練數(shù)據(jù)。
權(quán)重分擔(dān)
我們建議通過在生成器和鑒別器之間共享權(quán)重來提高預(yù)訓(xùn)練的效率落竹。如果生成器和鑒別器的尺寸相同泌霍,則所有Transformer的權(quán)重都可以綁定。然而述召,我們發(fā)現(xiàn)使用一個小生成器更有效朱转,在這種情況下,我們只共享生成器和鑒別器的嵌入(令牌和位置嵌入)积暖。在這種情況下藤为,我們使用嵌入鑒別器隱藏狀態(tài)的大小。4生成器的“輸入”和“輸出”令牌嵌入始終與BERT相同呀酸。
當(dāng)生成器與鑒別器大小相同時凉蜂,我們比較權(quán)重綁定策略。我們訓(xùn)練這些模型進行500k步性誉。無權(quán)重綁定的GLUE得分為83.6窿吩,綁定令牌嵌入的GLUE分?jǐn)?shù)為84.3,綁定所有權(quán)重的GLUE評分為84.4错览。我們假設(shè)ELECTRA受益于綁定的令牌嵌入纫雁,因為掩碼語言建模在學(xué)習(xí)這些表示時特別有效:雖然鑒別器僅更新輸入中存在的或由生成器采樣的令牌,但生成器在詞匯表上的softmax密集地更新所有令牌嵌入倾哺。另一方面轧邪,綁定所有編碼器權(quán)重幾乎沒有改善,同時產(chǎn)生了要求生成器和鑒別器大小相同的顯著缺點羞海〖捎蓿基于這些發(fā)現(xiàn),我們在本文中使用綁定嵌入進行進一步的實驗却邓。
較小的生成器
如果生成器和鑒別器的大小相同硕糊,則訓(xùn)練ELECTRA的每一步計算量大約是僅使用掩碼語言建模的訓(xùn)練的兩倍。我們建議使用較小的生成器來降低這一因素腊徙。具體來說简十,我們通過減小層大小,同時保持其他超參數(shù)不變撬腾,使模型變小螟蝙。我們還探索了使用一個極其簡單的“unigram”生成器,該生成器根據(jù)訓(xùn)練語料庫中的偽令牌頻率對其進行采樣民傻。不同大小發(fā)生器和鑒別器的GLUE分?jǐn)?shù)如圖3左側(cè)所示胰默。所有模型都訓(xùn)練了500k步场斑,這使得較小的生成器在計算方面處于劣勢,因為它們每訓(xùn)練一步所需的計算更少初坠。然而和簸,我們發(fā)現(xiàn)彭雾,模型與鑒別器大小為1/4-1/2的發(fā)生器配合使用效果最好碟刺。我們推測,過于強大的生成器可能會給鑒別器帶來太大的挑戰(zhàn)薯酝,使其無法有效地學(xué)習(xí)半沽。特別地,鑒別器可能必須使用其許多參數(shù)來建模生成器吴菠,而不是實際的數(shù)據(jù)分布者填。本文中的進一步實驗使用針對給定鑒別器大小找到的最佳生成器大小。
訓(xùn)練算法
最后做葵,我們探索了ELECTRA的其他訓(xùn)練算法占哟,盡管這些算法最終沒有改善結(jié)果。建議的訓(xùn)練目標(biāo)聯(lián)合訓(xùn)練發(fā)生器和鑒別器酿矢。我們嘗試使用以下兩階段訓(xùn)練程序:
1.僅用LMLM訓(xùn)練生成器n步榨乎。
2.用發(fā)生器的權(quán)重初始化鑒別器的權(quán)重。然后用LDisc訓(xùn)練鑒別器n步瘫筐,保持發(fā)生器的權(quán)重不變蜜暑。
注意,此過程中的權(quán)重初始化要求生成器和鑒別器具有相同的大小策肝。我們發(fā)現(xiàn)肛捍,如果沒有權(quán)重初始化,鑒別器有時會在大多數(shù)類之外根本無法學(xué)習(xí)之众,可能是因為生成器比鑒別器啟動得早拙毫。另一方面,聯(lián)合訓(xùn)練自然為鑒別器提供了一個課程棺禾,其中生成器開始時很弱缀蹄,但在整個訓(xùn)練過程中會變得更好。我們還探索了在GAN中對生成器進行對抗性訓(xùn)練帘睦,使用強化學(xué)習(xí)來適應(yīng)生成器采樣的離散操作袍患。詳見附錄F。
結(jié)果如圖3右側(cè)所示竣付。在兩階段訓(xùn)練中诡延,從生成性目標(biāo)轉(zhuǎn)換為辨別性目標(biāo)后,下游任務(wù)表現(xiàn)顯著改善古胆,但最終不會超過聯(lián)合訓(xùn)練肆良。盡管仍優(yōu)于BERT筛璧,但我們發(fā)現(xiàn)對抗性訓(xùn)練的表現(xiàn)低于最大似然訓(xùn)練。進一步分析表明惹恃,這種差距是由對抗性訓(xùn)練的兩個問題造成的夭谤。首先,對抗性生成器在掩碼語言建模方面更差巫糙;與MLE訓(xùn)練的模型的65%準(zhǔn)確度相比朗儒,它在掩碼語言建模中實現(xiàn)了58%的準(zhǔn)確度。我們認(rèn)為参淹,更差的準(zhǔn)確性主要是由于在生成文本的大動作空間中工作時醉锄,強化學(xué)習(xí)的樣本效率較差。其次浙值,對抗訓(xùn)練的生成器生成低熵輸出分布恳不,其中大多數(shù)概率質(zhì)量都在單個令牌上,這意味著生成器樣本中沒有太多的多樣性开呐。這兩個問題都已在先前工作中的GAN文本中觀察到(Caccia等人烟勋,2018)。
3.3小型號
由于這項工作的目標(biāo)是提高預(yù)訓(xùn)練的效率筐付,我們開發(fā)了一個可以在單個GPU上快速訓(xùn)練的小模型卵惦。從BERT Base超參數(shù)開始,我們縮短了序列長度(從512到128)家妆,減少了批量大型臆(從256到128)、減少了模型的隱藏維度大猩思(從768到256)蛹找,并使用了更小的令牌嵌入(從768至128)。為了提供公平的比較哨坪,我們還使用相同的超參數(shù)訓(xùn)練BERT Small模型庸疾。我們對BERT Small進行了1.5M步的訓(xùn)練,因此它使用了與ELECTRA Small相同的訓(xùn)練FLOP当编,后者進行了1M步的訓(xùn)練届慈。5除了BERT,我們還比較了兩種基于語言建模的資源密集度較低的預(yù)訓(xùn)練方法:ELMo(Peters等人忿偷,2018)和GPT(Radford等人金顿,2018年)。6我們還顯示了與BERT base相當(dāng)?shù)幕敬笮〉腅LECTRA模型的結(jié)果鲤桥。
結(jié)果見表1揍拆。更多結(jié)果見附錄D,包括經(jīng)過更多計算訓(xùn)練的更強的小型和基本尺寸模型茶凳。ELECTRA Small在尺寸上表現(xiàn)出色嫂拴,與其他使用大量計算和參數(shù)的方法相比播揪,其GLUE得分更高。例如筒狠,它的得分比可比的BERT Small模型高5分猪狈,甚至超過了更大的GPT模型。ELECTRA Small主要針對收斂進行訓(xùn)練辩恼,模型訓(xùn)練時間更短(僅6小時)雇庙,仍能達到合理的性能。雖然從較大的預(yù)訓(xùn)練Transformer中提取的小模型也可以獲得良好的GLUE分?jǐn)?shù)(Sun等人运挫,2019b状共;Jiao等人套耕,2019)谁帕,但這些模型需要首先花費大量計算來預(yù)訓(xùn)練較大的教師模型。結(jié)果還表明冯袍,ELECTRA的強度適中匈挖;我們的基本尺寸ELECTRA模型大大優(yōu)于BERT base,甚至優(yōu)于BERT Large(GLUE得分為84.0)康愤。我們希望ELECTRA以相對較少的計算實現(xiàn)強大結(jié)果的能力將擴大在NLP中開發(fā)和應(yīng)用預(yù)訓(xùn)練模型的可訪問性儡循。
3.4大型模型
我們訓(xùn)練大型ELECTRA模型,以在當(dāng)前最先進的預(yù)訓(xùn)練Transformer的大規(guī)模規(guī)模上測量替換的令牌檢測預(yù)訓(xùn)練任務(wù)的有效性征冷。我們的Electrolarge型號與BERT Large型號尺寸相同择膝,但訓(xùn)練時間更長。特別是检激,我們訓(xùn)練了一個400k步的模型(ELECTRA-400k肴捉;大約是RoBERTa預(yù)訓(xùn)練計算的1/4)和一個1.75M步的(ELECTRA-1.75M;類似于RoBERTa的計算)叔收。我們使用批量大小2048和XLNet預(yù)訓(xùn)練數(shù)據(jù)齿穗。我們注意到,盡管XLNet數(shù)據(jù)與用于訓(xùn)練RoBERTa的數(shù)據(jù)相似饺律,但比較并不完全直接窃页。作為基線,我們使用與ELECTRA-400K相同的超參數(shù)和訓(xùn)練時間來訓(xùn)練我們自己的BERT大型模型复濒。
GLUE開發(fā)集的結(jié)果如表2所示脖卖。ELECTRA-400K的性能與RoBERTa和XLNet相當(dāng)。然而巧颈,訓(xùn)練ELECTRA-400K所需的計算量不到訓(xùn)練RoBERTa和XLNet所需計算量的1/4畦木,這表明ELECTRA的樣本效率增益在很大程度上保持不變。對ELECTRA進行更長時間的訓(xùn)練(ELECTRA-1.75M)會產(chǎn)生一個模型洛二,在大多數(shù)GLUE任務(wù)中馋劈,該模型的得分超過了他們攻锰,同時仍然需要更少的訓(xùn)練前計算。令人驚訝的是妓雾,我們的基線BERT模型得分明顯低于RoBERTa-100K娶吞,這表明我們的模型可能受益于更多的超參數(shù)調(diào)整或使用RoBERTa訓(xùn)練數(shù)據(jù)。ELECTRA的收益保持在GLUE測試集上(見表3)械姻,盡管由于模型采用了額外的技巧(見附錄B)妒蛇,這些比較結(jié)果不太一致。
SQuAD的結(jié)果如表4所示楷拳。與GLUE的結(jié)果一致绣夺,在相同的計算資源下,ELECTRA的得分優(yōu)于基于掩碼語言建模的方法。例如,ELECTRA-400K優(yōu)于RoBERTa-100k和我們的BERT基線烙懦,后者使用了類似的訓(xùn)練前計算量瑞筐。ELECTRA-400K的性能也與RoBERTa-500K相當(dāng),盡管使用的計算量不足1/4。不出所料,訓(xùn)練ELECTRA的時間更長會進一步提高結(jié)果:ELECTRA-1.75M在SQuAD 2.0基準(zhǔn)測試中的得分高于之前的模型。ELECTRA Base也取得了很好的成績毯欣,得分大大優(yōu)于BERT Base和XLNet Base,根據(jù)大多數(shù)指標(biāo)臭脓,甚至超過BERT Large酗钞。ELECTRA在SQuAD 2.0中的表現(xiàn)通常優(yōu)于1.1。也許替代的令牌檢測(模型將真實令牌與可信的偽令牌區(qū)分開來)特別適用于SQuAD 2.0的可回答性分類来累,在該分類中砚作,模型必須將可回答的問題與不可回答的偽問題區(qū)分開來。
3.5效率分析
我們已經(jīng)提出佃扼,將訓(xùn)練目標(biāo)放在一小部分令牌上會使掩碼語言建模效率低下偎巢。然而,情況并非完全如此兼耀。畢竟压昼,模型仍然會接收大量的輸入令牌,即使它只預(yù)測少量的掩碼令牌瘤运。為了更好地了解ELECTRA的收益來自何處窍霞,我們比較了一系列旨在成為BERT和ELECTRA之間的“墊腳石”的其他預(yù)訓(xùn)練目標(biāo)。
?ELECTRA 15%:該模型與ELECTRA相同拯坟,但鑒別器損失僅來自被掩碼出輸入的15%代幣但金。換句話說,鑒別器損失LDisc的和在i∈m上郁季,而不是從1到n冷溃。7
?替換MLM:此目標(biāo)與掩碼語言建模相同钱磅,不同之處在于,不是用[MASK]替換掩碼的令牌似枕,而是用生成器模型中的令牌替換盖淡。這一目標(biāo)測試了ELECTRA在多大程度上得益于解決在預(yù)訓(xùn)練期間將模型暴露于[MASK]代幣而非微調(diào)的差異。
?所有令牌MLM:與替換MLM類似凿歼,掩碼令牌被生成器樣本替換褪迟。此外,該模型預(yù)測輸入中所有令牌的身份答憔,而不僅僅是被掩碼的令牌味赃。我們發(fā)現(xiàn),使用顯式復(fù)制機制來訓(xùn)練該模型可以改善結(jié)果虐拓,該機制使用S形層為每個令牌輸出復(fù)制概率D心俗。
模型的輸出分布將輸入令牌的D權(quán)重加上MLM softmax輸出的1?D倍。該模型本質(zhì)上是BERT和ELECTRA的結(jié)合侯嘀。注意另凌,如果不替換生成器,模型將很容易學(xué)會從[MASK]標(biāo)記的詞匯表中進行預(yù)測戒幔,并復(fù)制其他標(biāo)記的輸入。
結(jié)果見表5土童。首先诗茎,我們發(fā)現(xiàn)ELECTRA從定義所有輸入令牌而不僅僅是一個子集的損失中獲益匪淺:ELECTRA 15%的表現(xiàn)比ELECTRA差得多。其次献汗,我們發(fā)現(xiàn)敢订,由于Replace MLM略優(yōu)于BERT,[MASK]代幣的預(yù)訓(xùn)練微調(diào)失配對BERT性能略有損害罢吃。我們注意到楚午,BERT(包括我們的實現(xiàn))已經(jīng)包含了一個技巧來幫助解決預(yù)訓(xùn)練/微調(diào)差異:掩碼令牌在10%的時間內(nèi)被替換為隨機令牌,并且在10%的時候保持不變尿招。然而矾柜,我們的結(jié)果表明,這些簡單的啟發(fā)式方法不足以完全解決這個問題就谜。最后怪蔑,我們發(fā)現(xiàn),All Tokens MLM是一種生成模型丧荐,它對所有代幣而非子集進行預(yù)測缆瓣,彌補了BERT和ELECTRA之間的大部分差距『缤常總的來說弓坞,這些結(jié)果表明隧甚,ELECTRA的大量改進可以歸因于從所有代幣中學(xué)習(xí),而較小的改進則可以歸因于緩解預(yù)訓(xùn)練微調(diào)失配渡冻。
ELECTRA對所有代幣MLM的改進表明呻逆,ELECTRA的收益不僅僅來自更快的訓(xùn)練。我們通過比較不同型號的BERT和ELECTRA來進一步研究這一點(見圖4菩帝,左圖)咖城。我們發(fā)現(xiàn),模型越小呼奢,ELECTRA的收益越大宜雀。小模型被完全訓(xùn)練以收斂(見圖4,右圖)握础,表明ELECTRA在完全訓(xùn)練時比BERT獲得更高的下游精度辐董。我們推測,ELECTRA比BERT更具參數(shù)效率禀综,因為它不必對每個位置的可能代幣的完整分布進行建模简烘,但我們認(rèn)為需要更多的分析來完全解釋ELECTRA的參數(shù)效率。
4相關(guān)工作
NLP的自監(jiān)督預(yù)訓(xùn)練
自監(jiān)督學(xué)習(xí)已用于學(xué)習(xí)單詞表示(Collbert等人定枷,2011孤澎;Pennington等人,2014)欠窒,以及最近通過語言建模等目標(biāo)學(xué)習(xí)單詞的上下文表示(Dai&Le覆旭,2015;Peters等人岖妄,2018型将;Howard&Ruder,2018)荐虐。BERT(Devlin等人七兜,2019)在掩碼語言建模任務(wù)中預(yù)訓(xùn)練大型Transformer(Vaswani等人,2017)福扬。BERT有很多擴展腕铸。例如,MASS(Song等人忧换,2019)和UniLM(Dong等人恬惯,2018)通過添加自回歸生成訓(xùn)練目標(biāo),將BERT擴展到生成任務(wù)亚茬。ERNIE(Sun等人酪耳,2019a)和SpanBERT(Joshi等人,2019)掩碼了連續(xù)的令牌序列,以改進跨度表示碗暗。這一想法可能是對ELECTRA的補充颈将;我們認(rèn)為,讓ELECTRA的生成器自動回歸并添加“替換跨度檢測”任務(wù)會很有趣言疗。XLNet(Yang等人晴圾,2019)不是掩碼輸入令牌,而是掩碼注意力權(quán)重噪奄,從而以隨機順序自回歸生成輸入序列死姚。然而,這種方法與BERT一樣效率低下勤篮,因為XLNet僅以這種方式生成15%的輸入令牌都毒。與ELECTRA一樣,XLNet可以通過不需要[MASK]令牌來緩解BERT的預(yù)訓(xùn)練微調(diào)差異碰缔,盡管這并不完全清楚账劲,因為XLNet在預(yù)訓(xùn)練期間使用了兩個“關(guān)注流”,但只有一個用于微調(diào)金抡。最近瀑焦,TinyBERT(Jiao等人,2019)和MobileBERT(Sun等人梗肝,2019b)等模型表明榛瓮,BERT可以有效地簡化為更小的模型。相比之下统捶,我們更注重預(yù)訓(xùn)練速度榆芦,而不是推理速度,因此我們從頭開始訓(xùn)練ELECTRA Small喘鸟。
生成對抗網(wǎng)絡(luò)
GAN(Goodfellow等人,2014)在生成高質(zhì)量合成數(shù)據(jù)方面非常有效驻右。Radford等人(2016)提出在下游任務(wù)中使用GAN的鑒別器什黑,這與我們的方法類似。GAN已應(yīng)用于文本數(shù)據(jù)(Yu等人堪夭,2017愕把;Zhang等人,2017)森爽,盡管最先進的方法仍然落后于標(biāo)準(zhǔn)最大似然訓(xùn)練(Caccia等人恨豁,2018;Tevet等人爬迟,2018)橘蜜。雖然我們不使用對抗性學(xué)習(xí),但我們的生成器特別讓人想起MaskGAN(Fedus等人,2018)计福,它訓(xùn)練生成器填充從輸入中刪除的令牌跌捆。
對比學(xué)習(xí)
大體上,對比學(xué)習(xí)方法將觀察到的數(shù)據(jù)點與虛構(gòu)的負(fù)面樣本區(qū)分開來象颖。它們已應(yīng)用于許多模態(tài)佩厚,包括文本(Smith&Eisner,2005)说订、圖像(Chopra等人抄瓦,2005)和視頻(Wang&Gupta,2015陶冷;Sermanet等人钙姊,2017)數(shù)據(jù)。常用方法學(xué)習(xí)相關(guān)數(shù)據(jù)點相似的嵌入空間(Saunshi等人埃叭,2019)或?qū)⒄鎸崝?shù)據(jù)點排序為負(fù)樣本的模型(Collobert等人摸恍,2011;Bordes等人赤屋,2013)立镶。ELECTRA與噪聲對比估計(NCE)特別相關(guān)(Gutmann&Hyvarien,2010)类早,后者還訓(xùn)練了一個二進制分類器媚媒,以區(qū)分真實和虛假數(shù)據(jù)點∩В¨
Word2Sec(Mikolov等人缭召,2013)是NLP最早的預(yù)訓(xùn)練方法之一,使用對比學(xué)習(xí)逆日。事實上嵌巷,ELECTRA可以被視為具有負(fù)抽樣的連續(xù)單詞袋(CBOW)的大規(guī)模放大版本。CBOW還預(yù)測給定周圍環(huán)境的輸入令牌室抽,并且負(fù)采樣將學(xué)習(xí)任務(wù)重新表述為二進制分類任務(wù)搪哪。然而,CBOW使用了一包矢量編碼器而不是Transformer坪圾,并使用了從unigram令牌頻率導(dǎo)出的簡單建議分布晓折,而不是學(xué)習(xí)生成器。
5結(jié)論
我們提出了替代令牌檢測兽泄,這是一種用于語言表示學(xué)習(xí)的新的自監(jiān)督任務(wù)漓概。關(guān)鍵思想是訓(xùn)練文本編碼器,以區(qū)分輸入令牌和小型生成器網(wǎng)絡(luò)生成的高質(zhì)量負(fù)樣本病梢。與蒙面語言建模相比胃珍,我們的預(yù)訓(xùn)練目標(biāo)是更高效的計算,并在下游任務(wù)上獲得更好的性能。即使在使用相對較少的計算量時堂鲜,它也能很好地工作栈雳,我們希望這將使開發(fā)和應(yīng)用經(jīng)過預(yù)訓(xùn)練的文本編碼器更易于研究人員和從業(yè)人員使用,而他們對計算資源的訪問較少缔莲。我們還希望未來更多關(guān)于NLP預(yù)訓(xùn)練的工作將考慮效率和絕對性能哥纫,并遵循我們在報告計算使用情況和參數(shù)計數(shù)以及評估指標(biāo)方面的努力。
訓(xùn)練前詳細信息
以下詳細信息適用于我們的ELECTRA模型和BERT基線痴奏。我們通常使用與BERT相同的超參數(shù)蛀骇。我們將損失中鑒別器目標(biāo)的權(quán)重λ設(shè)置為50.8。我們使用動態(tài)令牌掩碼读拆,掩碼位置由實時決定擅憔,而不是在預(yù)處理期間決定。此外檐晕,我們沒有使用原始BERT論文中提出的下一句預(yù)測目標(biāo)暑诸,因為最近的研究表明,它不會提高分?jǐn)?shù)(Yang等人辟灰,2019个榕;Liu等人,2019)芥喇。對于我們的ELECTRA大型模型西采,我們使用了更高的掩碼百分比(25而不是15),因為我們注意到生成器通過15%的掩碼實現(xiàn)了高精度继控,導(dǎo)致替換的令牌非常少械馆。我們從[1e-4、2e-4武通、3e-4霹崎、5e-4]中搜索Base和Small模型的最佳學(xué)習(xí)率,并在早期實驗中從[1冶忱、10仿畸、20、50朗和、100]中選擇λ。否則簿晓,除了第3.2節(jié)中的實驗之外眶拉,我們沒有進行超參數(shù)調(diào)整。表6列出了全套超參數(shù)憔儿。
B微調(diào)細節(jié)
對于大型模型忆植,我們大部分使用Clark等人(2019)的超參數(shù)。然而,在注意到RoBERTa(Liu等人朝刊,2019)使用了更多的訓(xùn)練時間段(最多10個而不是3個)之后耀里,我們?yōu)槊總€任務(wù)搜索了[10,3]中的最佳訓(xùn)練時間段拾氓。對于SQuAD冯挎,我們將訓(xùn)練周期的數(shù)量減少到2,以與BERT和RoBERTa一致咙鞍。對于基本尺寸的模型房官,我們搜索了[3e-5、5e-5续滋、1e-4翰守、1.5e-4]的學(xué)習(xí)率和[0.9、0.8疲酌、0.7]的分層學(xué)習(xí)率衰減蜡峰,但在其他方面使用了與大型模型相同的超參數(shù)。我們發(fā)現(xiàn)小模型受益于更高的學(xué)習(xí)率朗恳,并從[1e-4湿颅、2e-4、3e-4僻肖、5e-3]中尋找最佳模型肖爵。除了訓(xùn)練時期的數(shù)量,我們對所有任務(wù)使用相同的超參數(shù)臀脏。相比之下劝堪,先前關(guān)于GLUE的研究,如BERT揉稚、XLNet和RoBERTa秒啦,分別為每個任務(wù)搜索最佳超參數(shù)。如果我們執(zhí)行相同類型的額外超參數(shù)搜索搀玖,我們預(yù)計我們的結(jié)果會略有改善余境。表7列出了全套超參數(shù)。
在BERT之后灌诅,我們沒有為開發(fā)集結(jié)果顯示W(wǎng)NLI GLUE任務(wù)的結(jié)果芳来,因為即使使用標(biāo)準(zhǔn)的微調(diào)作為分類器方法,也很難擊敗大多數(shù)分類器猜拾。對于GLUE測試集結(jié)果即舌,我們應(yīng)用了許多GLUE排行榜提交的標(biāo)準(zhǔn)技巧,包括RoBERTa(Liu等人挎袜,2019)顽聂、XLNet(Yang等人肥惭,2019年)和ALBERT(Lan等人,2018年)紊搪。明確地:
?對于RTE和STS蜜葱,我們使用中級任務(wù)訓(xùn)練(Phang等人,2018)耀石,從在MNLI上微調(diào)的ELECTRA檢查點開始牵囤。對于RTE,我們發(fā)現(xiàn)將其與2e-5的較低學(xué)習(xí)率相結(jié)合是有幫助的
對于WNLI娶牌,我們遵循Liu等人(2019)中描述的技巧奔浅,其中我們使用規(guī)則提取代詞的候選先行詞,并訓(xùn)練模型以對正確的先行詞進行高評分诗良。然而汹桦,與Liu等人(2019)不同,得分函數(shù)不是基于傳銷概率鉴裹。相反舞骆,我們對ELECTRA的鑒別器進行微調(diào),以便在正確的先行詞替換代詞時為正確先行詞的標(biāo)記分配高分径荔。例如督禽,如果Winograd模式是“獎杯因為太大而不能放在行李箱中”,我們訓(xùn)練鑒別器总处,讓它給“獎杯因為獎杯太大而無法放在行李箱”中的“獎杯”打高分狈惫,而給“行李箱”打低分,因為行李箱太大鹦马,所以獎杯無法放在箱子中”
?對于每個任務(wù)胧谈,我們集成了30個模型中最好的10個,這些模型使用不同的隨機種子進行微調(diào)荸频,但從相同的預(yù)訓(xùn)練檢查點進行初始化菱肖。
雖然這些技巧確實提高了分?jǐn)?shù),但它們使進行清晰的科學(xué)比較變得更加困難旭从,因為它們需要額外的工作來實現(xiàn)稳强,需要大量的計算,并且由于不同的論文采用不同的技巧和悦,因此結(jié)果不太適用于蘋果退疫。因此,我們還報告了ELECTRA-1.75M的結(jié)果鸽素,唯一的技巧是開發(fā)集模型選擇(10個模型中的最佳)蹄咖,這是用于報告結(jié)果的設(shè)置BERT,見表8付鹿。
對于我們的SQuAD 2.0測試集提交澜汤,我們從相同的預(yù)訓(xùn)練檢查點微調(diào)了20個模型,并提交了具有最佳開發(fā)集分?jǐn)?shù)的模型舵匾。
C膠水細節(jié)
我們將在下面提供有關(guān)GLUE基準(zhǔn)任務(wù)的更多詳細信息
?CoLA:語言可接受性語料庫(Warstadt等人俊抵,2018)。任務(wù)是確定給定的句子是否符合語法坐梯。該數(shù)據(jù)集包含8.5k個來自語言學(xué)理論書籍和期刊文章的訓(xùn)練示例徽诲。
?SST:斯坦福情緒樹庫(Socher等人,2013)吵血。任務(wù)是確定句子的情緒是積極的還是消極的谎替。該數(shù)據(jù)集包含來自電影評論的67k個訓(xùn)練示例。
?MRPC:Microsoft Research Paraphrase語料庫(Dolan&Brockett蹋辅,2005)钱贯。任務(wù)是預(yù)測兩個句子在語義上是否相等。該數(shù)據(jù)集包含來自在線新聞源的3.7k個訓(xùn)練示例侦另。
?STS:語義文本相似性(Cer等人秩命,2017)。任務(wù)是預(yù)測兩個句子在1-5級上的語義相似程度褒傅。該數(shù)據(jù)集包含從新標(biāo)題弃锐、視頻和圖像字幕以及自然語言推理數(shù)據(jù)中提取的5.8k個訓(xùn)練示例。
?QQP:Quora問題對(Iyer等人殿托,2017)霹菊。任務(wù)是確定一對問題在語義上是否等價。該數(shù)據(jù)集包含來自社區(qū)問答網(wǎng)站Quora的364k個訓(xùn)練示例支竹。
?MNLI:多類型自然語言推理(Williams等人旋廷,2018)。給定一個前提句和一個假設(shè)句唾戚,任務(wù)是預(yù)測前提是否包含假設(shè)柳洋、是否與假設(shè)相矛盾,或者兩者都不包含叹坦。該數(shù)據(jù)集包含來自十個不同來源的393k個列車示例熊镣。
?QNLI:質(zhì)疑自然語言推理;由SQuAD構(gòu)建(Rajpurkar等人募书,2016)绪囱。任務(wù)是預(yù)測上下文句子是否包含疑問句的答案。該數(shù)據(jù)集包含來自維基百科的108k個訓(xùn)練示例莹捡。
?RTE:識別文本困擾(Giampicolo等人鬼吵,2007年)。給定前提句和假設(shè)句篮赢,任務(wù)是預(yù)測前提是否包含假設(shè)齿椅。該數(shù)據(jù)集包含來自一系列年度文本蘊含挑戰(zhàn)的2.5k個訓(xùn)練示例琉挖。
D膠水的進一步結(jié)果
我們在表8中的GLUE測試集上報告了ELECTRA Base和ELECTRA Small的結(jié)果。此外涣脚,我們通過在XLNet數(shù)據(jù)上而不是在wikibooks上對基本尺寸和小尺寸模型進行訓(xùn)練示辈,并進行更長時間的訓(xùn)練(4e6訓(xùn)練步驟),從而突破了它們的極限遣蚀;這些模型在表中稱為ELECTRA Base++和ELECTRA Small++矾麻。對于ELECTRA Small++,我們還將序列長度增加到512芭梯;否則超參數(shù)與表6中列出的相同险耀。最后,該表包含ELECTRA-1.75M的結(jié)果玖喘,沒有附錄B中描述的技巧甩牺。與論文中的開發(fā)集結(jié)果一致,ELECTRA Base在平均得分方面優(yōu)于BERT Large芒涡,而ELECTRA Small在平均得分上優(yōu)于GPT柴灯。毫不奇怪,++模型的性能甚至更好费尽。小模型分?jǐn)?shù)甚至接近TinyBERT(Jiao等人赠群,2019)和MobileBERT(Sun等人,2019b)旱幼。這些模型使用復(fù)雜的蒸餾程序從BERT Base學(xué)習(xí)查描。另一方面,我們的ELECTRA模型是從頭開始訓(xùn)練的柏卤。鑒于提取BERT的成功冬三,我們相信可以通過提取ELECTRA來構(gòu)建更強大的小型預(yù)訓(xùn)練模型。ELECTRA似乎在CoLA特別有效缘缚。在CoLA勾笆,目標(biāo)是區(qū)分語言上可接受的句子和不合語法的句子,這與ELECTRA的識別假代幣的訓(xùn)練前任務(wù)非常接近桥滨,或許可以解釋ELECTRA在這項任務(wù)中的優(yōu)勢窝爪。
E計數(shù)觸發(fā)器
我們選擇用浮點運算(FLOP)來衡量計算使用情況,因為它與特定硬件齐媒、低級優(yōu)化等無關(guān)蒲每。然而,值得注意的是喻括,在某些情況下邀杏,抽象硬件細節(jié)是一個缺點,因為以硬件為中心的優(yōu)化可能是模型設(shè)計的關(guān)鍵部分唬血,例如ALBERT(Lan等人望蜡,2019)通過綁重物從而減少TPU工人之間的通信開銷而獲得的加速唤崭。我們使用TensorFlow的FLOP計數(shù)功能9,并通過手動計算檢查結(jié)果泣特。我們做了以下假設(shè):
?“操作”是一種數(shù)學(xué)運算浩姥,而不是機器指令。例如状您,一個exp就像一個加法運算,盡管實際上exp可能會慢一些兜挨。我們相信這一假設(shè)不會實質(zhì)上改變計算估計膏孟,因為矩陣乘法在大多數(shù)模型的計算中占主導(dǎo)地位。類似地拌汇,如果考慮融合乘加運算柒桑,我們將矩陣乘法計算為2*m*n FLOP,而不是m*n噪舀。
?后向傳遞采用與前向傳遞相同數(shù)量的FLOP魁淳。這一假設(shè)并不完全正確(例如,對于softmax交叉熵?fù)p失与倡,后向傳遞更快)界逛,但重要的是,前向/后向傳遞FLOP對于矩陣乘法來說確實是相同的纺座,這是大多數(shù)計算息拜。
?我們假設(shè)“密集”嵌入查找(即乘以一個熱向量)。實際上净响,稀疏嵌入查找比恒定時間慢得多少欺;在某些硬件加速器上,密集操作實際上比稀疏查找更快馋贤。
F對抗性訓(xùn)練
在這里赞别,我們詳細介紹了對抗性訓(xùn)練生成器而不是使用最大似然的嘗試。特別地配乓,我們訓(xùn)練發(fā)生器G以最大化鑒別器損失LDisc仿滔。由于我們的判別器與GAN的判別器并不完全相同(參見第2節(jié)中的討論),因此該方法實際上是對抗對比估計(Bose等人扰付,2018)的一個實例堤撵,而不是生成對抗訓(xùn)練。由于來自生成器的離散采樣羽莺,不可能通過反向傳播通過鑒別器(例如实昨,在圖像上訓(xùn)練的GAN中)來對抗性地訓(xùn)練生成器,因此我們使用強化學(xué)習(xí)盐固。
我們的生成器與大多數(shù)文本生成模型不同荒给,因為它是非自回歸的:預(yù)測是獨立進行的丈挟。換言之,生成器不是采取一系列動作志电,每個動作生成一個令牌曙咽,而是采取一個同時生成所有令牌的單個巨大動作,其中動作的概率被因子化為每個令牌的生成器概率的乘積挑辆。為了處理這個巨大的動作空間例朱,我們做了以下簡化假設(shè):鑒別器的預(yù)測D(x corrupt,t)只依賴于標(biāo)記xt和非替換標(biāo)記{xi:i6∈m}鱼蝉,即它不依賴于其他生成的標(biāo)記{x?i:i∈m∧i6=t}洒嗤。這是一個不錯的假設(shè),因為替換的代幣數(shù)量相對較少魁亦,并且在使用強化學(xué)習(xí)時大大簡化了信用分配渔隶。從符號上講,我們通過(略微濫用符號)為鑒別器寫D(?xt | x massed)來顯示這一假設(shè)洁奈,該鑒別器預(yù)測生成的令牌x?t是否等于給定掩碼上下文x掩碼的原始令牌xt间唉。該假設(shè)的一個有用結(jié)果是,未替換令牌的鑒別器分?jǐn)?shù)(t 6∈m的D(xt | x掩碼))與pG無關(guān)利术,因為我們假設(shè)它不依賴于任何替換令牌呈野。因此,當(dāng)訓(xùn)練G以最大化LDisc時氯哮,可以忽略這些令牌际跪。在訓(xùn)練過程中,我們尋求
使用簡化假設(shè)喉钢,我們通過求
簡而言之姆打,簡化假設(shè)允許我們分解單個生成令牌的損失。我們無法使用梯度上升法直接找到arg maxθG肠虽,因為不可能通過離散采樣x?進行反向傳播幔戏。相反,我們使用政策梯度強化學(xué)習(xí)(Williams税课,1992)闲延。特別是,我們使用鋼筋漸變
其中b是學(xué)習(xí)基線韩玩,實現(xiàn)為b(x掩碼垒玲,t)=?log sigmoid(w t hG(x掩碼)t),其中hG(x掩碼)是生成器Transformer編碼器的輸出找颓。用交叉熵?fù)p失訓(xùn)練基線合愈,以匹配相應(yīng)位置的獎勵。我們用單個樣本逼近期望值,并通過梯度上升學(xué)習(xí)θG佛析。盡管沒有收到關(guān)于哪些生成的令牌是正確的明確反饋益老,但我們發(fā)現(xiàn)對抗性訓(xùn)練產(chǎn)生了相當(dāng)準(zhǔn)確的生成器(對于256個隱藏大小的生成器,對抗性訓(xùn)練的生成器在掩碼語言建模時獲得58%的準(zhǔn)確率寸莫,而相同大小的MLE生成器獲得65%)捺萌。然而,與MLE訓(xùn)練的下游任務(wù)相比膘茎,使用該生成器并沒有改善(參見主論文中圖3的右側(cè))
G評估ELECTRA作為掩碼語言模型
本節(jié)詳細介紹了評估ELECTRA作為掩碼語言模型的一些初步實驗桃纯。使用與主要論文略有不同的符號,給定上下文c由一個文本序列組成披坏,其中一個標(biāo)記x被掩碼慈参,鑒別器損失可以寫成
找到該損耗相對于D的臨界點表明,對于固定生成器刮萌,最佳鑒別器為
這意味著
其中a=(1?pmask)/pmask是每個掩碼令牌的未掩碼令牌數(shù)。通過選擇argmaxx∈vocbD(x娘扩,c)pG(x|c)/(a(1?D(x着茸、c))+pG(x | c))作為給定上下文的模型預(yù)測,我們可以使用此表達式來評估ELECTRA作為掩碼語言模型琐旁。實際上涮阔,在整個詞匯表上進行選擇是非常昂貴的,因此我們從生成器的前100個預(yù)測中選擇argmax灰殴。10使用這種方法敬特,我們在Wikipedia+Books Corpus數(shù)據(jù)集上比較了ELECTRA Base和BERT Base。我們發(fā)現(xiàn)牺陶,BERT在掩碼語言建模方面略優(yōu)于ELECTRA(準(zhǔn)確率為77.9%對75.5%)伟阔。最佳鑒別器的假設(shè)當(dāng)然遠非正確,但可能會損害ELECTRA在該評估方案下的準(zhǔn)確性掰伸。然而皱炉,像BERT這樣專門為生成而訓(xùn)練的模型在生成時表現(xiàn)更好,而像ELECTRA這樣具有辨別目標(biāo)的模型在辨別任務(wù)上更善于微調(diào)狮鸭,這也許并不太令人驚訝合搅。我們認(rèn)為,將BERT和ELECTRA的MLM預(yù)測進行比較可能是一種有趣的方式歧蕉,可以在未來的工作中揭示ELECTRA和BERT編碼器之間的差異灾部。
H陰性結(jié)果
我們簡要描述了一些在最初實驗中看起來不太有希望的想法:
?我們最初試圖通過策略性地掩碼掉代幣(例如,更頻繁地掩碼我們的稀有代幣惯退,或訓(xùn)練一個模型來猜測如果被掩碼掉竿裂,BERT將難以預(yù)測哪些代幣)來提高BERT的效率。與常規(guī)BERT相比萍悴,這導(dǎo)致了相當(dāng)小的加速。
?鑒于ELECTRA似乎從較弱的生成器(見第3.2節(jié))中獲益(在一定程度上)呛哟,我們探討了提高生成器輸出軟最大值的溫度或禁止生成器對正確的令牌進行采樣。這些結(jié)果都沒有改善匿沛。
?我們嘗試添加句子級對比目標(biāo)扫责。對于這項任務(wù),我們保持20%的輸入句子不變逃呼,而不是用生成器對其進行噪音處理鳖孤。然后,我們將預(yù)測頭添加到模型中抡笼,以預(yù)測整個輸入是否損壞苏揣。令人驚訝的是,這略微降低了下游任務(wù)的得分推姻。
ELECTRA: PRE-TRAINING TEXT ENCODERS
AS DISCRIMINATORS RATHER THAN GENERATORS