Yin B, Zhao M, Guo L, et al. Sentence-BERT and k-means based clustering technology for scientific and technical literature[C]//2023 15th International Conference on Computer Research and Development (ICCRD). IEEE, 2023: 15-20.
摘要直譯
科技文獻(xiàn)的參考書目是科技文獻(xiàn)中所有關(guān)鍵信息的集合。科技文獻(xiàn)的聚類技術(shù)包括特征提取和聚類分析欢瞪。在本文中,基于傳統(tǒng)的句子嵌入模型储耐,提出了一種將 improved k-means和 Sentence-BERT相結(jié)合的方法用來提升聚類的性能。
2 steps of short text clustering:
feature extraction & cluster analysis
基于Sentence-BERT的文本特征提取
-
Sentence-BERT 模型
本文將Sentence-BERT(基于BERT微調(diào)得到)模型作為文本特征的抽取模型滨溉。
Sentence-BERT通過創(chuàng)建雙網(wǎng)絡(luò)和三元網(wǎng)絡(luò)來更新網(wǎng)絡(luò)的權(quán)重什湘,并且使用MSE作為回歸模型的回歸目標(biāo)來計(jì)算兩個句子嵌入表示之間的余弦相似度,具體如下:
- 文本特征抽取
該模塊使用Sentence-BERT模型在科技文獻(xiàn)的參考書目中輸入信息伐脖,輸出為輸入數(shù)據(jù)經(jīng)過代碼轉(zhuǎn)換后的768維的高維嵌入空間。并使用余弦相似度生成文本對應(yīng)的相似矩陣乐设。
基于改進(jìn)的k-means聚類算法
k-means算法主要是將給定的樣本數(shù)據(jù)集劃分到個不同的類讼庇,并對以下公式進(jìn)行優(yōu)化:
傳統(tǒng)的k-means容易受到初始類簇中心的影響,因此本文中選用了k-means++進(jìn)行聚類格遭。具體的執(zhí)行步驟如下:
(1)隨機(jī)選擇輸入樣本集合中的樣本作為第一個類簇中心哈街。
(2)計(jì)算剩余的每個樣本與當(dāng)前已有類簇中心最短距離(即與最近一個聚類中心的距離),用表示拒迅;計(jì)算概率與距離的比例骚秦,并以概率最高的點(diǎn)作為新的類簇中心:
實(shí)驗(yàn)細(xì)節(jié)
數(shù)據(jù)獲茸鞴俊:采用網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù),從CNKI數(shù)據(jù)庫中收集部分中國科學(xué)技術(shù)文獻(xiàn)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集前硫,如圖所示胞得。收集的文獻(xiàn)資料主要包括標(biāo)題、作者开瞭、摘要懒震、文獻(xiàn)來源罩息、發(fā)表時間、關(guān)鍵詞和引文等个扰。
數(shù)據(jù)預(yù)處理:首先瓷炮,對文獻(xiàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)清理,刪除重復(fù)和不完整的數(shù)據(jù)信息递宅,并刪除征集信息娘香、會議通知、期刊办龄、雜志介紹等非技術(shù)性文獻(xiàn)數(shù)據(jù)信息烘绽。剩下的42,291條科技文獻(xiàn)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,并手工添加數(shù)據(jù)類標(biāo)簽俐填。
垂直領(lǐng)域的應(yīng)用安接。