emmm..這個系列可能會有好幾篇文章吧痴怨,用來彌補(bǔ)對黑色九月的無知..(3)
Subakti A, Murfi H, Hariadi N. The performance of BERT as data representation of text clustering[J]. Journal of big Data, 2022, 9(1): 1-21.
摘要導(dǎo)讀
文本聚類是將給定文本分組的任務(wù),以使得同一組中的文本將比來自不同組的文本更相似踪蹬。手動對文本進(jìn)行分組的過程需要大量的時間和勞動力腹侣。因此磷箕,利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)文本的自動化分組是必要的串结。在傳統(tǒng)的機(jī)器學(xué)習(xí)聚類算法中呻右,常用的文本表示方法是TFIDF跪妥,但是TFIDF忽略了詞在句子中的位置和上下文信息。隨著NLP領(lǐng)域的快速發(fā)展声滥,BERT模型可以生成包含句子中單詞的位置和上下文信息的文本表示眉撵。本文的主要研究就是展示BERT和不同的特征提取方式以及不同正則化方式對于文本聚類的影響。
方法淺析
該研究重在驗(yàn)證不同的特征提取方式和正則化方式對文本聚類性能的影響落塑。其方法流程圖如下:其中纽疟,TFIDF作為常用的文本表示方法這里就不贅述。主要關(guān)注BERT在研究中的作用憾赁。
BERT model can be used with two approaches which are feature-based approach and fine-tuning-based
approach.
在本文中仰挣,作者將其看作是一個基于特征的模塊,也就是說缠沈,BERT只用于產(chǎn)生文本表示而不對其進(jìn)行微調(diào)。這里需要指出的是错蝴,作者選用的是第11層的輸出作為文本表示洲愤。一個包含25個token的句子將會被編碼為一個(25, 768)的向量。并利用不同類型的特征提取和正則化方式將其轉(zhuǎn)換為(1, 768)的句子文本表示顷锰。
針對BERT的特征提取包含Max-pooling和Mean-pooling兩種方式柬赐。
(1)Max-pooling:給定包含n個token的文本,每個token都被表示為768維的向量:
(2)Mean-pooling:將得到的n個token的表示進(jìn)行平均束世,第
得到的輸出將會被輸入到特征的正則化模塊(用于保證穩(wěn)定的性能)酝陈,正則化模塊包含了4種不同的策略:
(1)Identity normalization:恒等正則,
(2)standard normalization:標(biāo)準(zhǔn)化沉帮,
(3)Layer normalization:層正則贫堰,
(4)min–max normalization:最大最小正則用于將特征表示
隨后得到的作為句子的最終表示用于聚類任務(wù)喇勋。本文的聚類任務(wù)主要包含兩種傳統(tǒng)方法和兩種深度聚類方法,
這篇論文將BERT在下游任務(wù)中的角色劃分為“基于特征”和“基于微調(diào)”的方法兩種壮不。目前看到的三篇文本聚類的論文中,都將BERT視為“基于特征”的方法皱碘。換句話說询一,BERT僅僅作為一個特征表示的工具參與文本表示的階段,而且在文本表示的階段也是只依賴于BERT在預(yù)訓(xùn)練階段的預(yù)料癌椿,忽略了當(dāng)前需要聚類的數(shù)據(jù)集的特有文本特征健蕊。
本文的突出點(diǎn)在于對不同特征抽取方式和歸一化方式的組合學(xué)習(xí)。通過大量的實(shí)驗(yàn)說明不同的聚類方法依賴于不同的特征表示方式踢俄,同時不同的特征表示和聚類方法其性能的上限也是有差異的缩功。