在機器學習中跪另,LDA 是一個進行文本建模的模型。主題模型認為每一個文檔都有對應的主題应狱,每個主題都對應著一些詞质欲,所以可以根據文本中所包含的詞劃分其所屬的主題树埠,來實現(xiàn)文本的分類或者聚類。
主題模型的優(yōu)點在于不會像判別模型一樣嘶伟,由于 Labels 太多導致性能迅速下降怎憋。因為在判別模型中,labels 判別的基礎是二分類模型九昧。而labels 對于documents绊袋,符合齊普夫定律,即大量的 Labels 只被賦予了很少的數的document铸鹰。這樣愤炸,二分類模型面對的就是正樣本 和 負樣本數據不平衡,導致性能下降掉奄。
Topic Model (主題模型)發(fā)展的歷史其實蠻久遠的,如果從1999年 Hofmann 提出 pLSA 開始算起凤薛,也有近 20 年的了姓建。這二十年內,主題模型也有一些不錯的進展缤苫,只是被深度學習蓋住了風頭速兔。近幾年發(fā)展的主題是 “More Topics”,傳統(tǒng)的 LDA 一般就生成幾百個 topics 活玲,有人認為 topic 的粒度越細涣狗,越能表達更加細微的語義谍婉。
LDA 是主題模型的一種,主要是提取 document 的主題镀钓,不過由于一類文檔常常也屬于同一個主題穗熬,因此也可以用于文本的聚類。主題模型并不是分類或者聚類的方式丁溅,只是用來進行文本表征的唤蔗,有了這個 text representation 之后,再用分類/聚類算法來分類或者聚類窟赏。
LDA 從2012年開始妓柜,逐步發(fā)展了 SparseLDA,AliasLDA涯穷,LightLDA棍掐,WarpLDA。發(fā)展到 2015 年底拷况,通過降低理論的時間復雜度作煌,學習 100w 的 topic 已經非常快了蝠嘉。
LDA 是詞袋模型的巔峰之作最疆,優(yōu)雅的模型,嚴謹的推理過程蚤告。
主題模型 粒度很粗
peacock
topic 去重
LDA 大規(guī)模并行化
文本建模
我們日常生活中總是產生大量的文本努酸,如果每一個文本存儲為一篇文檔,那么可以每篇文檔看作是一段序列(Sequence)
杜恰,而且這種序列具有幾個重要的特性:有序性
获诈、有限性
,語義性
心褐,可以將其形式化定義如下:
統(tǒng)計文本建模的目的就是研究這些文檔中的詞序列
是如何生成的舔涎。
文本表示
眾所周知,TF-IDF逗爹、LDA亡嫌、Word Embedding 是當前三種主流的文本表示方式。根據 Topical Word Embeddings 報告可知掘而,在文本相似度評測中結合 LDA 和 Word Embedding 的 TWE-1 能夠取得最好的效果挟冠。