論文地址:https://arxiv.org/pdf/2104.08821.pdf
論文標(biāo)題:
- SimCSE: Simple Contrastive Learning of Sentence Embeddings
- 基于對(duì)比學(xué)習(xí)的簡(jiǎn)單句子嵌入
GitHub地址:https://github.com/princeton-nlp/SimCSE
0扫皱、Abstract:
本文介紹了一個(gè)簡(jiǎn)單的對(duì)比學(xué)習(xí)框架SimCSE韩脑,它極大地促進(jìn)了最先進(jìn)的句子嵌入。首先描述了一種無(wú)監(jiān)督的方法首量,它接受一個(gè)輸入句子进苍,然后在對(duì)比目標(biāo)中預(yù)測(cè)自己觉啊,并只有標(biāo)準(zhǔn)的dropout用作噪聲。
這個(gè)簡(jiǎn)單的方法令人驚訝蚀浆。發(fā)現(xiàn)市俊,dropout充當(dāng)了最小的數(shù)據(jù)擴(kuò)充滤奈,移除它會(huì)導(dǎo)致數(shù)據(jù)表示不好蜒程。然后,我們提出了一種有監(jiān)督的方法忌锯,它將自然語(yǔ)言推理數(shù)據(jù)集中的注釋對(duì)納入我們的對(duì)比學(xué)習(xí)框架中领炫,使用“蘊(yùn)涵”對(duì)作為正例帝洪,使用“矛盾”對(duì)作為硬負(fù)例。
在標(biāo)準(zhǔn)語(yǔ)義文本相似性(STS)任務(wù)中評(píng)估SimCSE砚哗,以及使用BERT-base的無(wú)監(jiān)督和監(jiān)督模型分別實(shí)現(xiàn)了76.3%和81.6%的斯皮爾曼相關(guān)性蛛芥,與之前的最佳結(jié)果相比,分別提高了4.2%和2.2%称勋。我們也展示了兩者從理論和經(jīng)驗(yàn)上來(lái)看漓糙,對(duì)比學(xué)習(xí)目標(biāo)將預(yù)先訓(xùn)練好的嵌入的各向異性空間規(guī)整得更加均勻昆禽,并且在有監(jiān)督信號(hào)的情況下更好地對(duì)齊正對(duì)蝇庭。
1哮内、介紹:
學(xué)習(xí)通用句子嵌入是自然語(yǔ)言處理中的一個(gè)基本問(wèn)題,在文獻(xiàn)中得到了廣泛的研究纹因。在這項(xiàng)工作中瞭恰,我們提出了最先進(jìn)的句子嵌入方法狱庇,并證明了對(duì)比目標(biāo)在以下情況下是非常有效的:再加上預(yù)先訓(xùn)練過(guò)的語(yǔ)言模型密任,如BERT或RoBERTa
颜启。我們介紹了SimCSE,一種簡(jiǎn)單的對(duì)比語(yǔ)言句子嵌入框架浪讳,可以從未標(biāo)記或標(biāo)記的數(shù)據(jù)中生成更好的句子嵌入缰盏。
○ 1、無(wú)監(jiān)督SimCSE:
(1)無(wú)監(jiān)督SimCSE簡(jiǎn)單地預(yù)測(cè)輸入句子本身淹遵,只使用dropout作為噪聲(圖1(a))乳规。換句話(huà)說(shuō),將同一個(gè)句子傳遞給預(yù)先訓(xùn)練好的編碼器兩次:通過(guò)兩次應(yīng)用標(biāo)準(zhǔn)的dropout合呐,可以獲得兩個(gè)不同的嵌入“正例”。
(2)然后在同一小批中選取其他句子作為“負(fù)例”淌实,模型預(yù)測(cè)負(fù)例中的一個(gè)正例冻辩。盡管這種方法看起來(lái)非常簡(jiǎn)單猖腕,但它比預(yù)測(cè)下一個(gè)句子和離散訓(xùn)練目標(biāo)要大量的數(shù)據(jù)增強(qiáng)(例如,單詞刪除和替換)恨闪,甚至與以前的監(jiān)督方法相匹配倘感。
(3)通過(guò)仔細(xì)分析,發(fā)現(xiàn)dropout充當(dāng)隱表示的最小“數(shù)據(jù)擴(kuò)充”咙咽,而移除它會(huì)導(dǎo)致表示崩潰老玛。
○ 2、有監(jiān)督SimCSE:
(1)有監(jiān)督SimCSE建立在最近成功使用自然語(yǔ)言推理(NLI)數(shù)據(jù)集進(jìn)行句子嵌入的基礎(chǔ)上钧敞,并將帶注釋的句子對(duì)納入對(duì)比學(xué)習(xí)(圖1(b))蜡豹。與之前的工作不同作為一項(xiàng)三向分類(lèi)任務(wù)(蘊(yùn)涵、中性和矛盾)溉苛,我們利用了蘊(yùn)涵對(duì)可以自然地用作正例镜廉。
(2)還發(fā)現(xiàn),添加相應(yīng)的矛盾對(duì)作為硬負(fù)例進(jìn)一步提高了性能愚战。與以前使用相同數(shù)據(jù)集的方法相比娇唯,NLI數(shù)據(jù)集的這種簡(jiǎn)單使用實(shí)現(xiàn)了實(shí)質(zhì)性的改進(jìn)。我們還比較了其他標(biāo)記句子對(duì)數(shù)據(jù)集寂玲,發(fā)現(xiàn)NLI數(shù)據(jù)集對(duì)于學(xué)習(xí)句子嵌入特別有效塔插。
○ 衡量SimCSE學(xué)習(xí)嵌入的質(zhì)量:
(1)alignment:正例對(duì)齊性。
(2)uniformity:整個(gè)表示空間的一致性拓哟。
○ 通過(guò)實(shí)證分析佑淀,我們發(fā)現(xiàn)我們的無(wú)監(jiān)督SimCSE在本質(zhì)上提高了一致性u(píng)niformity,同時(shí)避免了通過(guò)衰減噪聲導(dǎo)致的退化對(duì)齊彰檬,從而提高了表示的表達(dá)能力伸刃。同樣的分析表明,NLI訓(xùn)練信號(hào)可以進(jìn)一步改善正例之間的對(duì)齊性alignment逢倍,并產(chǎn)生更好的句子嵌入捧颅。
○ 還發(fā)現(xiàn),即預(yù)訓(xùn)練的單詞嵌入存在各向異性较雕,并證明通過(guò)頻譜視角碉哑,對(duì)比學(xué)習(xí)目標(biāo)“均勻”了句子嵌入空間的奇異值分布,從而提高了一致性u(píng)niformity亮蒋。
我們對(duì)七項(xiàng)標(biāo)準(zhǔn)語(yǔ)義文本相似性(STS)任務(wù)和七項(xiàng)轉(zhuǎn)移任務(wù)中對(duì)SimCSE進(jìn)行了綜合評(píng)估扣典。在STS任務(wù)中,我們的無(wú)監(jiān)督模型和監(jiān)督模型分別達(dá)到76.3%和81.6%的平均斯皮爾曼相關(guān)慎玖,與之前的最佳結(jié)果相比贮尖,分別提高了4.2%和2.2%。在轉(zhuǎn)移任務(wù)上也取得了有競(jìng)爭(zhēng)力的表現(xiàn)趁怔。
最后湿硝,我們?cè)谖墨I(xiàn)和研究中發(fā)現(xiàn)了一個(gè)不連貫的評(píng)估問(wèn)題整合不同設(shè)置的結(jié)果薪前,以便將來(lái)評(píng)估句子嵌入。
2关斜、背景:對(duì)比學(xué)習(xí)
對(duì)比學(xué)習(xí)的目的是通過(guò)將語(yǔ)義上相近的鄰居聚在一起示括,將非鄰居分開(kāi)來(lái)學(xué)習(xí)有效的表征。它假設(shè)了一組成對(duì)的例子:其中xi 和x+i是語(yǔ)義相關(guān)的痢畜。我們遵循對(duì)比框架垛膝,采用一個(gè)具有批量負(fù)例的叉熵目標(biāo):讓 hi 和 hi+ 表示 xi 和 xi + 的表示,即訓(xùn)練目標(biāo)丁稀。對(duì)于(xi吼拥,xi+)和小批量的N對(duì)是:
where xi and x+i are semantically related. We follow the contrastive framework
in Chen et al. (2020) and take a cross-entropy objective with in-batch negatives (Chen et al., 2017;Henderson et al., 2017): let hi and h + i denote the representations of xi and x + i, the training objective
for (xi, x+i) with a mini-batch of N pairs is:
其中τ是一個(gè)溫度超參數(shù)sim(h1,h2)是余弦相似性
在這項(xiàng)工作中二驰,我們使用預(yù)訓(xùn)練的語(yǔ)言模型扔罪,如BERT或RoBERTa:h=fθ(x)秉沼,然后微調(diào)所有參數(shù)使用對(duì)比學(xué)習(xí)目標(biāo)(等式1)桶雀。
○ Positive instances:
對(duì)比學(xué)習(xí)中的一個(gè)關(guān)鍵問(wèn)題是如何構(gòu)建 (xi, xi+)對(duì)。在視覺(jué)表現(xiàn)中唬复,一個(gè)有效的解決方案是對(duì)同一幅圖像進(jìn)行兩次隨機(jī)變換(例如矗积,裁剪、翻轉(zhuǎn)敞咧、變形和旋轉(zhuǎn))如xi 和 xi+棘捣。最近,在語(yǔ)言表達(dá)中也采用了類(lèi)似的方法休建,方法是應(yīng)用增廣技術(shù)乍恐,如單詞刪除、重新排序和替換测砂。然而茵烈,由于NLP的離散性,NLP中的數(shù)據(jù)擴(kuò)充本質(zhì)上是困難的砌些。我們將在§3中看到呜投。簡(jiǎn)單地在中間表示上使用標(biāo)準(zhǔn)Dropout比這些離散操作符表現(xiàn)得更好。
在NLP中存璃,類(lèi)似的對(duì)比學(xué)習(xí)目標(biāo)在不同的背景下進(jìn)行了探索仑荐。 在這些情況下, (xi, xi+)收集自有監(jiān)督的數(shù)據(jù)集,如問(wèn)題-段落對(duì)纵东。由于xi和xi+的明顯性質(zhì),這些方法總是使用雙編碼器框架粘招, 例如,對(duì)于xi和xi+使用兩個(gè)獨(dú)立的編碼器fθ1和fθ2偎球。
對(duì)于句子嵌入男图,Logeswaran和Lee(2018)也使用了對(duì)比學(xué)習(xí)和雙編碼器方法示姿,將當(dāng)前句子和下一個(gè)句子組成為(xi,xi+)。
○ Alignment 和 uniformity:
最近逊笆,Wang和Isola(2020)確定了與對(duì)比學(xué)習(xí)的對(duì)齊性alignment和一致性u(píng)niformity——并建議使用它們來(lái)衡量表達(dá)的質(zhì)量栈戳。給出了一個(gè)正例對(duì)分布ppos,alignment計(jì)算成對(duì)實(shí)例的嵌入之間的預(yù)期距離(假設(shè)表示已經(jīng)規(guī)范化):
另一方面难裆,一致性u(píng)niformity衡量的是嵌入物均勻分布效果:
其中pdata表示數(shù)據(jù)分布子檀。這兩個(gè)指標(biāo)與對(duì)比學(xué)習(xí)的目標(biāo)非常一致:正例之間應(yīng)該保持緊密,而隨機(jī)實(shí)例的嵌入應(yīng)該分散在超球體上乃戈。在接下來(lái)的部分中褂痰,我們還將使用這兩個(gè)指標(biāo)來(lái)證明我們的方法的內(nèi)部工作原理。
3症虑、 Unsupervised SimCSE:
無(wú)監(jiān)督的SimCSE的想法非常簡(jiǎn)單:我們收集一組句子:使用 xi+=xi缩歪。關(guān)鍵的成分是讓這個(gè)通過(guò)使用獨(dú)立取樣的dropout masks 對(duì) xi 和 xi+進(jìn)行相同的正例對(duì)操作。
Transformers標(biāo)準(zhǔn)的訓(xùn)練:dropout masks 全連接層以及注意力概率(默認(rèn)p=0.1)谍憔。我們表示:其中z是dropout的隨機(jī)掩碼匪蝙。我們只是將相同的輸入進(jìn)行編碼器兩次,并獲得兩個(gè)具有不同dropout masksz习贫、z0的嵌入逛球,SimCSE的訓(xùn)練目標(biāo)是:
- 一小批N個(gè)句子。注意z只是Transformers中的標(biāo)準(zhǔn)dropout mask不要添加任何額外的dropout苫昌。
○ Dropout noise 作為數(shù)據(jù)增強(qiáng):
我們將其視為數(shù)據(jù)擴(kuò)充的一種最小形式:正例對(duì)的句子完全相同它們的嵌入只在Dropout mask上有所不同颤绕。我們將這種方法與STS-B開(kāi)發(fā)集上的其他訓(xùn)練目標(biāo)進(jìn)行比較。
表1將我們的數(shù)據(jù)增強(qiáng)技術(shù)方法與普通方法進(jìn)行了比較:如crop祟身、word刪除和替換奥务,可以看作是 h = fθ(g(x),z),而g是x上的(隨機(jī))離散算子袜硫。注意到氯葬,即使刪除一個(gè)單詞會(huì)影響性能,但沒(méi)有任何影響到增強(qiáng)效果優(yōu)于dropout噪聲父款。
我們還將self-prediction訓(xùn)練目標(biāo)與使用的next-sentence目標(biāo)進(jìn)行了比較溢谤,選擇其中一個(gè)或者兩個(gè)獨(dú)立的編碼器。如表2所示憨攒,發(fā)現(xiàn)SimCSE比next-sentence目標(biāo)的表現(xiàn)要好得多世杀,并且使用一個(gè)編碼器而不是兩個(gè)編碼器在我們的方法中有顯著差異。
○ Why does it work? 為什么有效肝集?
為了進(jìn)一步了解dropout noise在無(wú)監(jiān)督SimCSE中的作用瞻坝,我們?cè)诒?中嘗試了不同的 dropout rates,并觀(guān)察到所有變體都低于Transformers的默認(rèn)dropout概率p=0.1杏瞻。
我們發(fā)現(xiàn)兩個(gè)極端情況特別有趣:
- “no dropout” (p = 0)和“固定0.1”(dropout p = 0.1所刀,但樣本對(duì)是相同dropout mask)衙荐。在這兩種情況下,產(chǎn)生的嵌入結(jié)果完全一樣浮创,這導(dǎo)致戲劇性的性能下降忧吟。
在測(cè)試過(guò)程中,我們每10步對(duì)這些模型進(jìn)行一次檢查訓(xùn)練并可視化對(duì)齊alignment和一致性u(píng)niformity度量在Figure 2中斩披,還有一個(gè)簡(jiǎn)單的數(shù)據(jù)擴(kuò)充模型“刪除一個(gè)單詞”溜族。如圖所示,從預(yù)先訓(xùn)練好的檢查點(diǎn)開(kāi)始垦沉,所有模型都大大提高了一致性u(píng)niformity煌抒。
然而,這兩種特殊變體的排列也會(huì)退化由于使用了dropout噪聲厕倍,我們的無(wú)監(jiān)督SimCSE保持了穩(wěn)定的對(duì)齊alignment寡壮。它還表明,從預(yù)訓(xùn)練的檢查點(diǎn)開(kāi)始是至關(guān)重要的讹弯,因?yàn)樗峁┝肆己玫某跏紝?duì)齊alignment况既。最后,“刪除一個(gè)單詞”改善了對(duì)齊闸婴,但在一致性度量上獲得了較小的增益坏挠,最終表現(xiàn)不如無(wú)監(jiān)督SimCSE芍躏。
4 邪乍、Supervised SimCSE:
我們已經(jīng)證明,添加dropout 噪聲能夠保持正例對(duì)的良好對(duì)齊(x,x+)~Ppos对竣。
在本節(jié)中雏门,將研究是否可以利用有監(jiān)督的數(shù)據(jù)集來(lái)提供更好的訓(xùn)練信號(hào)驰唬,以改進(jìn)方法的一致性。
之前的研究表明,有監(jiān)督的自然語(yǔ)言推理(NLI)數(shù)據(jù)集通過(guò)預(yù)測(cè)兩個(gè)句子之間的關(guān)系是包含關(guān)系处面、中性關(guān)系還是矛盾關(guān)系,有效地學(xué)習(xí)句子嵌入鳄虱。在我們的對(duì)比學(xué)習(xí)框架中蒜田,直接從監(jiān)督數(shù)據(jù)集中提取(xi膜廊,xi+)對(duì)乏沸,并使用它們優(yōu)化等式1。
○ 標(biāo)簽數(shù)據(jù)的選擇:
我們首先探索哪些監(jiān)督數(shù)據(jù)集特別適合于構(gòu)造正例對(duì)(xi爪瓜,xi+)蹬跃。我們用大量數(shù)據(jù)集和句子對(duì)樣例進(jìn)行了實(shí)驗(yàn),包括:
(1)QQP4:Quora問(wèn)題對(duì)铆铆;
(2) Flickr30k:每張圖片都是用5個(gè)人類(lèi)文字注釋?zhuān)覀兛紤]任何兩個(gè)標(biāo)題相同的圖像作為正例對(duì)蝶缀;
(3)ParaNMT:大規(guī)牡び鳎回譯釋義數(shù)據(jù)集。
(4)NLI數(shù)據(jù)集:SNLI和MNLI翁都。
用不同的數(shù)據(jù)集訓(xùn)練對(duì)比學(xué)習(xí)模型(等式1)碍论,并比較表4中的結(jié)果。為了進(jìn)行公平比較柄慰,我們還對(duì)相同的訓(xùn)練對(duì)進(jìn)行了實(shí)驗(yàn)骑冗。在所有選項(xiàng)中,使用NLI(SNLI+MNLI)數(shù)據(jù)集中的蘊(yùn)涵對(duì)表現(xiàn)最好先煎。
我們認(rèn)為這是合理的贼涩,因?yàn)镹LI數(shù)據(jù)集由高質(zhì)量和眾包數(shù)據(jù)對(duì)組成。此外薯蝎,人類(lèi)注釋員還需要編寫(xiě)基于前提和兩句話(huà)的假設(shè)往往詞匯重疊較少遥倦。
- 例如,我們發(fā)現(xiàn)蘊(yùn)涵對(duì)(SNLI+MNLI)的詞匯重疊(兩袋單詞之間的F1測(cè)量)為39%占锯,而QQP和ParaNMT分別為60%和55%袒哥。
○ Contradiction as hard negatives:矛盾對(duì)作為負(fù)例對(duì)
最后,我們進(jìn)一步利用NLI數(shù)據(jù)集消略,將其矛盾對(duì)作為負(fù)例對(duì)堡称。
在NLI數(shù)據(jù)集中,給定一個(gè)前提艺演,注釋者需要手動(dòng)編寫(xiě)一個(gè)絕對(duì)正確(蘊(yùn)涵)却紧、一個(gè)可能正確(中立)和一個(gè)絕對(duì)錯(cuò)誤(矛盾)的句子。因此胎撤,對(duì)于每個(gè)前提及其蘊(yùn)涵假設(shè)晓殊,都有一個(gè)伴隨的矛盾假設(shè)(示例見(jiàn)圖1)。
形式上我們擴(kuò)展(xi伤提,xi+)為(xi巫俺,xi+,xi-)肿男,其中xi是前提介汹,xi+ 和 xi?是蘊(yùn)涵假設(shè)和矛盾假設(shè)。然后舶沛,通過(guò)(N是最小批量)定義訓(xùn)練目標(biāo)Li嘹承。
如表4所示,添加負(fù)例對(duì)可以進(jìn)一步提高性能(84.9→ 86.2)這是最終有監(jiān)督SimCSE冠王。也試過(guò)了添加ANLI數(shù)據(jù)集或?qū)⑵渑c無(wú)監(jiān)督SimCSE方法相結(jié)合赶撰,但沒(méi)有發(fā)現(xiàn)有意義的改進(jìn)。我們也在有監(jiān)督的SimCSE中考慮了雙編碼器框架,它損害了性能(86.2→ 84.2)豪娜。
5餐胀、與各向異性的聯(lián)系:
最近的研究發(fā)現(xiàn)了一個(gè)各向異性問(wèn)題語(yǔ)言表達(dá),即學(xué)習(xí)到的嵌入占據(jù)了向量空間中的窄錐限制了他們的表達(dá)能力瘤载。
證明語(yǔ)言模型經(jīng)過(guò)了捆綁訓(xùn)練輸入/輸出嵌入導(dǎo)致單詞各向異性嵌入否灾,在預(yù)先訓(xùn)練的上下文表示中進(jìn)一步觀(guān)察到了這一點(diǎn)。證明奇異值語(yǔ)言模型中單詞嵌入矩陣的構(gòu)造急劇衰減:除了少數(shù)占主導(dǎo)地位的奇異值鸣奔,所有其他值都接近于零墨技。
(1)緩解問(wèn)題的一個(gè)簡(jiǎn)單方法是后處理,要么消除主要主成分挎狸,要么將嵌入映射到各向同性分布扣汪。
(2)另一個(gè)常見(jiàn)的解決方案是在訓(xùn)練期間增加正則化。在這項(xiàng)工作中锨匆,我們從理論和經(jīng)驗(yàn)上證明崭别,對(duì)比目標(biāo)也可以緩解各向異性問(wèn)題。
各向異性問(wèn)題自然與均勻性有關(guān)恐锣,兩者都強(qiáng)調(diào)了嵌入應(yīng)均勻分布在空間中茅主。直觀(guān)地說(shuō),隨著目標(biāo)的推進(jìn)土榴,優(yōu)化對(duì)比學(xué)習(xí)目標(biāo)可以提高一致性(或緩解各向異性問(wèn)題)把負(fù)例分開(kāi)诀姚。在這里,我們采用單一光譜的觀(guān)點(diǎn)玷禽,這是一種常見(jiàn)的做法赫段。在這里,我們從單數(shù)光譜的角度來(lái)分析單詞嵌入论衍,以及表明對(duì)比目標(biāo)可以“壓平”目標(biāo)句子嵌入的奇異值分布并使表示更加各向同性瑞佩。
繼Wang和Isola聚磺,對(duì)比學(xué)習(xí)目標(biāo)(等式1)的漸近性可以用以下等式表示:負(fù)例的數(shù)量接近無(wú)窮大(假設(shè) f(x) 被歸一化):
其中坯台,第一項(xiàng)保持正例相似,第二項(xiàng)將負(fù)例分開(kāi)瘫寝。當(dāng)pdata在有限樣本上是一致的
○ 通過(guò) hi = f(xi)蜒蕾,我們可以從詹森不等式的第二個(gè)術(shù)語(yǔ)得出以下公式:
因此,對(duì)比學(xué)習(xí)有望緩解表征退化的問(wèn)題焕阿,并有助于提高學(xué)習(xí)效率提高句子嵌入的一致性u(píng)niformity咪啡。
與后處理方法相比。其目的僅在于鼓勵(lì)各向同性表征暮屡,對(duì)比學(xué)習(xí)還優(yōu)化了通過(guò)方程式6中的第一個(gè)term撤摸,這是SimCSE成功的關(guān)鍵。第7節(jié)給出了定量分析。
6准夷、實(shí)驗(yàn):
6.1 評(píng)估設(shè)置:
我們?cè)?個(gè)語(yǔ)義文本上進(jìn)行了實(shí)驗(yàn)相似性(STS)任務(wù)钥飞。請(qǐng)注意,所有的STS實(shí)驗(yàn)都是完全無(wú)監(jiān)督的衫嵌,沒(méi)有使用STS訓(xùn)練集读宙。
即使對(duì)于有監(jiān)督的SimCSE,也只是說(shuō)楔绞,在之前的工作之后结闸,需要額外的標(biāo)記數(shù)據(jù)集進(jìn)行訓(xùn)練。還評(píng)估了7項(xiàng)遷移學(xué)習(xí)任務(wù)酒朵,并在附錄E中提供了詳細(xì)結(jié)果桦锄。我們與Reimers和Gurevych(2019)持有類(lèi)似的觀(guān)點(diǎn),即句子嵌入的主要目標(biāo)是對(duì)語(yǔ)義相似的句子進(jìn)行聚類(lèi)蔫耽,因此將STS作為主要結(jié)果察纯。
○ 語(yǔ)義文本相似性任務(wù):
我們?cè)u(píng)估了7項(xiàng)STS任務(wù):2012-2016年STS,STS基準(zhǔn)(Cer等人针肥,2017年)和疾病相關(guān)性(Marelli等人饼记,2014年)。當(dāng)與之前的工作進(jìn)行比較時(shí)慰枕,我們?cè)谠u(píng)估設(shè)置中確定了已發(fā)表論文中的無(wú)效比較模式具则,包括(a)是否使用額外的回歸系數(shù),(b)斯皮爾曼與皮爾遜的相關(guān)性具帮,以及(c)如何匯總結(jié)果(表B.1)博肋。
○ 訓(xùn)練細(xì)節(jié):
我們從BERT或RoBERTa預(yù)訓(xùn)練的檢查點(diǎn)開(kāi)始,并將[CLS]表示作為句子嵌入蜂厅。
我們從英文維基百科中隨機(jī)抽取106個(gè)句子匪凡,對(duì)無(wú)監(jiān)督的SimCSE進(jìn)行訓(xùn)練,并對(duì)有監(jiān)督的SimCSE進(jìn)行訓(xùn)練MNLI和SNLI數(shù)據(jù)集的組合(314k)掘猿。
更多訓(xùn)練細(xì)節(jié)見(jiàn)附錄A語(yǔ)義文本相似性任務(wù)病游。我們?cè)u(píng)估了7項(xiàng)STS任務(wù):STS 2012-2016(Agirre等人,2012稠通、2013衬衬、2014、2015改橘、2016)滋尉、STS基準(zhǔn)(Cer等人,2017)和疾病相關(guān)性(Marelli等人飞主,2014)狮惜。
6.2 主要結(jié)果:
我們比較了無(wú)監(jiān)督和有監(jiān)督的SimCSE與以前SOTA的STS任務(wù)句子嵌入方法高诺。無(wú)監(jiān)督基線(xiàn)包括平均GloVe嵌入、平均BERT或RoBERTa嵌入碾篡,以及后處理方法懒叛,如BERT - flow和BERT-whitening。
我們還比較了最近使用對(duì)比目標(biāo)的幾種方法耽梅,包括:
(1)IS-BERT)薛窥,它最大限度地實(shí)現(xiàn)了global和local features 之間的一致性;
(2) DeCLUTR眼姐,將同一文檔中的不同spans作為正例對(duì)诅迷;
(3) CT,它將來(lái)自?xún)蓚€(gè)不同的編碼器的同一句子進(jìn)行嵌入對(duì)齊众旗。
- 其他監(jiān)督方法包括推斷法罢杉、通用句子編碼器和SBERT/SRoBERTa采用后處理方法。我們將提供更多細(xì)節(jié)附錄C中的baselines贡歧。
表5顯示了7項(xiàng)STS任務(wù)的評(píng)估結(jié)果滩租。無(wú)論是否有額外的NLI監(jiān)督,SimCSE都能顯著改善所有數(shù)據(jù)集的結(jié)果利朵,大大優(yōu)于之前最先進(jìn)的模型律想。具體而言,我們的無(wú)監(jiān)督SimCSE-BERT-base將之前的SOTA平均Spearman相關(guān)性從72.05%提高到76.25%绍弟,甚至與有監(jiān)督baselines相當(dāng)技即。
在使用NLI數(shù)據(jù)集時(shí),SimCSE-BERTbase進(jìn)一步將SOTA結(jié)果提高到81.57%樟遣。RoBERTa編碼器的收獲更為明顯而叼,我們的有監(jiān)督SimCSE通過(guò)RoBERT-alarge實(shí)現(xiàn)了83.76%
在附錄E中,我們展示了SimCSE與現(xiàn)有工作相比達(dá)到PAR或更好的傳輸任務(wù)性能豹悬,還有一個(gè)輔助MLM目標(biāo)可以進(jìn)一步提高性能葵陵。
6.3 消融研究:
我們調(diào)查了不同的pooling方法和硬負(fù)例的影響。本節(jié)中所有報(bào)告的結(jié)果均基于STS-B開(kāi)發(fā)集瞻佛。我們?cè)诟戒汥中提供了更多的消融研究(標(biāo)準(zhǔn)化脱篙、溫度和MLM目標(biāo))。
○ Pooling methods:
Reimers和Gurevych等人表明涤久,采用預(yù)訓(xùn)練模型的平均嵌入(尤其是從第一層和最后一層)比[CLS]具有更好的性能涡尘。
表6顯示了無(wú)監(jiān)督和有監(jiān)督SimCSE中不同池化方法之間的比較。對(duì)于[CLS]表示响迂,原始的BERT實(shí)現(xiàn)需要在其上附加一個(gè)MLP層。
在這里细疚,我們考慮[CLS]有三種不同的設(shè)置:
(1)保持MLP層蔗彤;
(2) 無(wú)MLP層川梅;
(3) 在訓(xùn)練期間保留MLP,但在測(cè)試時(shí)移除然遏。
- 發(fā)現(xiàn)贫途,對(duì)于無(wú)監(jiān)督的SimCSE,僅在訓(xùn)練期間接受MLP的[CLS]代表最有效待侵;
- 對(duì)于有監(jiān)督的SimCSE丢早,不同的池方法并不重要。
- 默認(rèn)情況下秧倾,我們將[CLS]與MLP(訓(xùn)練)一起用于無(wú)監(jiān)督SimCSE怨酝,將[CLS]與MLP一起用于有監(jiān)督SimCSE。
○ Hard negatives:
硬負(fù)例那先。直覺(jué)上农猬,這可能是有益的區(qū)分硬負(fù)例(矛盾示例)和其他批量負(fù)例。因此售淡,我們擴(kuò)展等式5中定義的訓(xùn)練目標(biāo)斤葱,以納入不同負(fù)例的權(quán)重:
我們用不同的α值對(duì)SimCSE進(jìn)行訓(xùn)練,并對(duì)訓(xùn)練后的模型進(jìn)行評(píng)估STS-B的開(kāi)發(fā)集揖闸,也考慮中性假設(shè)作為硬負(fù)例揍堕。如表7所示,α=1表現(xiàn)最好汤纸,且中性假設(shè)不會(huì)帶來(lái)進(jìn)一步的收益鹤啡。
7、分析:
在本節(jié)中蹲嚣,我們將進(jìn)一步分析递瑰,以了解SimCSE的內(nèi)部工作原理。
Uniformity 和 Alignment :
圖3顯示了不同句子嵌入模型的一致性u(píng)niformity和對(duì)齊性alignment隙畜,以及它們的平均STS結(jié)果抖部。總的來(lái)說(shuō),具有更好的對(duì)齊和一致性的模型可以獲得更好的性能议惰。
也觀(guān)察到:
- (1)雖然預(yù)訓(xùn)練的嵌入具有良好的對(duì)齊alignment慎颗,但其均勻性u(píng)niformity較差(即嵌入高度各向異性);
- (2)后處理方法言询,如BERT-flow和BERT-whitening大大提高了均勻性u(píng)niformity俯萎,但在alignment對(duì)齊性也會(huì)退化;
- (3)無(wú)監(jiān)督的SimCSE有效提高了一致性pre-trained的嵌入运杭,同時(shí)保持良好的對(duì)齊性alignment夫啊。
- (4) 合并有監(jiān)督數(shù)據(jù)到SimCSE進(jìn)一步修正了alignment對(duì)齊性。
○ 在附錄F中辆憔,進(jìn)一步證明了SimCSE可以有效地均勻預(yù)訓(xùn)練嵌入的奇異值分布撇眯。
○ 在附錄G中报嵌,我們展示了SimCSE在不同的句子對(duì)之間提供了更可區(qū)分的余弦相似性。
○ 定性比較:
我們使用SBERTbase和SimCSE-BERTbase進(jìn)行了小規(guī)模檢索實(shí)驗(yàn)熊榛。使用來(lái)自Flickr30k數(shù)據(jù)集锚国,并將任意隨機(jī)句子作為檢索類(lèi)似句子的查詢(xún)(基于余弦)相似性)。如表8所示的幾個(gè)例子玄坦,SimCSE檢索到的句子與SBERT檢索到的質(zhì)量進(jìn)行比較具有較高的識(shí)別率血筑。
8 、相關(guān)工作:
句子嵌入早期建立在分布假設(shè)的基礎(chǔ)上煎楣,通過(guò)預(yù)測(cè)給定句子的周?chē)渥硬蜃堋1砻鳎?jiǎn)單地用n-gram嵌入來(lái)增強(qiáng)word2vec的概念會(huì)產(chǎn)生很好的結(jié)果转质。最近的幾種方法從數(shù)據(jù)擴(kuò)充或同一句話(huà)的不同版本或文件采用了對(duì)比目標(biāo)园欣。與這些工作相比,
SimCSE通過(guò)對(duì)同一句話(huà)的標(biāo)準(zhǔn)dropout獲取不同的輸出的最簡(jiǎn)單的想法休蟹,卻在STS任務(wù)中表現(xiàn)最佳沸枯。
有監(jiān)督的句子嵌入比無(wú)監(jiān)督的句子嵌入具有更強(qiáng)的性能。Conneau等人提議對(duì)NLI數(shù)據(jù)集上的Siamese模型進(jìn)行微調(diào)赂弓,并進(jìn)一步擴(kuò)展到其他編碼器或預(yù)訓(xùn)練的模型绑榴。
此外,證明盈魁,雙語(yǔ)和回譯語(yǔ)料庫(kù)為學(xué)習(xí)語(yǔ)義相似性提供了有用的監(jiān)督翔怎。另一個(gè)工作重點(diǎn)是正則化嵌入以緩解表示退化問(wèn)題,并對(duì)預(yù)訓(xùn)練的語(yǔ)言模型的改進(jìn)產(chǎn)生實(shí)質(zhì)性影響杨耙。
9赤套、結(jié)論:
在這項(xiàng)工作中,我們提出了一個(gè)簡(jiǎn)單的對(duì)比學(xué)習(xí)框架SimCSE珊膜,它極大地改進(jìn)了語(yǔ)義-文本相似任務(wù)中的SOTA句子嵌入容握。我們提出了一種無(wú)監(jiān)督的方法和一種有監(jiān)督的方法,該方法利用NLI數(shù)據(jù)集可以預(yù)測(cè)輸入句子本身车柠,其中輸入句子本身帶有dropout噪聲剔氏。
我們進(jìn)一步證明了內(nèi)部工作原理通過(guò)分析對(duì)齊,我們的方法是通過(guò)分析SimCSE與其他基線(xiàn)模型的對(duì)齊性alignment以及一致性u(píng)niformity竹祷。
我們的對(duì)比目標(biāo)谈跛,尤其是無(wú)監(jiān)督的目標(biāo)在NLP中有更廣泛的應(yīng)用。它為通過(guò)文本輸入增強(qiáng)數(shù)據(jù)提供了一個(gè)新的視角可以擴(kuò)展到其他連續(xù)表示并整合到語(yǔ)言模型預(yù)訓(xùn)練中塑陵。
致謝:
我們感謝Tao Lei, Jason Lee, Zhengyan Zhang, Jinhyuk Lee, Alexander Wettig, Zexuan Zhong感憾,普林斯頓NLP小組的成員有益的討論和寶貴的反饋。這項(xiàng)研究得到了哈佛大學(xué)研究生獎(jiǎng)學(xué)金的支持普林斯頓大學(xué)和蘋(píng)果公司的禮物獎(jiǎng)猿妈。