Shi H, Wang C, Sakai T. A Simple and Effective Usage of Self-supervised Contrastive Learning for Text Clustering[C]//2021 IEEE International Conference on Systems, Man, and Cybernetics (SMC). IEEE, 2021: 315-320.
對比學(xué)習(xí)作為一種自監(jiān)督學(xué)習(xí)技術(shù)密幔,可以在少量樣本甚至在沒有樣本的情況下實現(xiàn)對模型的訓(xùn)練赊锚。在本文中瓦呼,作者基于BERT提出自監(jiān)督對比學(xué)習(xí)和小樣本對比學(xué)習(xí)方法毁靶。
本文貢獻
- 提出了多語言回翻(back translation, BT)和隨機掩碼(random masking, RM)兩種用于生成正例樣本的方法。
- 提出了基于無監(jiān)督數(shù)據(jù)增強的小樣本對比學(xué)習(xí)方法蝙昙。
方法淺析
- 小批次的構(gòu)建
在自監(jiān)督對比學(xué)習(xí)中锅移,整個數(shù)據(jù)集都被用于BERT的微調(diào)。首先從數(shù)據(jù)集中饱搏,隨機選擇個文本非剃。這里并不要求這些樣本來自不同的類簇。對于選定的樣本推沸,和由不同語言BT或者RM產(chǎn)生的兩個文本备绽。原始的文本也包含在當前的小批次中,因此鬓催,小批次的大小被擴充為肺素。
在小樣本對比學(xué)習(xí)中,BERT被數(shù)據(jù)中包含的對包含標簽的樣本微調(diào)宇驾。一個小批次的大小也為倍靡。每個文本對為來自同一個類簇的文本,不同的樣本對嚴格的來自個不同的類簇。為了對數(shù)據(jù)集中的文本進行充分的對比飞苇,這里建議菌瘫。 - 對比損失
對比損失是文本對損失的均值。每個對的損失布卡,其中在第個對雨让,是和的余弦相似度。是溫度參數(shù)忿等。對比損失函數(shù)可以形式化為如下: - 無監(jiān)督數(shù)據(jù)增強(UDA)
UDA最開始在表情分析的任務(wù)中以二分類的任務(wù)目標被提出來栖忠。將UDA應(yīng)用在小樣本對比學(xué)習(xí)中,數(shù)據(jù)集中的每個文本被回翻為贸街。BERT將以及其對應(yīng)的中的三個文本作為輸入庵寞,并將輸出喂到以為參數(shù)的UDA模型中,得到對應(yīng)的分布和并進行對比學(xué)習(xí): -
損失函數(shù)
總體的損失函數(shù)如下:
好像看過薛匪?