BERTopic
- doc2vec (sentence BERT)
- doc_emb reduce dimension (UMAP)
- clustering to generate topics (HDBSCAN)
-
find key words for every topic (class TF-IDF)
BERTopic.png
UMAP
屬于降維技術(shù)
核心思想是在高緯度空間相近的點(diǎn)在低緯度空間也應(yīng)該相近肌索,反之亦然惕它。
涉及到:
- 計(jì)算每個(gè)點(diǎn)跟其他點(diǎn)的similar_score 加和等于 log2(neighbor_num)
- 根據(jù)t分布調(diào)整點(diǎn)與點(diǎn)之間的相對(duì)位置
核心參數(shù)是臨近neighbor的個(gè)數(shù)斤儿,需要調(diào)參忘晤。
具體參考視頻:https://www.youtube.com/watch?v=eN0wFzBA4Sc
HDBSCAN 層次密度聚類(lèi)
自動(dòng)聚類(lèi) 不需要像k-means指定類(lèi)簇個(gè)數(shù)
- Estimate the densities
- Pick regions of high density
- Combine points in these selected regions