樸素貝葉斯和主題模型的區(qū)別
樸素貝葉斯可以做垃圾郵件過濾(二分類問題),也可以做文檔的多分類碴倾。所以也可以看作是一個(gè)主題模型熊镣,樸素貝假設(shè)文檔只有一個(gè)主題踊谋,文檔中所有的詞都是從這個(gè)主題產(chǎn)生的。
Paste_Image.png
樸素貝葉斯假設(shè)的是一個(gè)文檔只有一個(gè)主題后裸,而這個(gè)文檔中的單詞是從這個(gè)主題中抽取的瑰钮。
而在主題模型中(pLSA和LDA),一個(gè)文檔是由多個(gè)主題集合而成的微驶。每個(gè)主題相當(dāng)于一個(gè)樸素貝葉斯的文檔類別浪谴,而一個(gè)文檔是由多個(gè)"樸素貝葉斯"文檔的混合。
樸素貝葉斯是監(jiān)督學(xué)習(xí)因苹,主題模型是非監(jiān)督學(xué)習(xí)苟耻。