文本挖掘與分析概述圖
文本數(shù)據(jù)與非文本數(shù)據(jù)結(jié)合
主題模型兩大任務(wù)
- 發(fā)現(xiàn)K個(gè)主題
- 計(jì)算每個(gè)文檔包含哪些主題
常規(guī)形式化定義主題模型
概率主題模型
此處引入了單詞集牙躺,用來(lái)計(jì)算各主題的詞分布纵东。
主題分布例子
文本挖掘的生成模型
通過(guò)調(diào)整模型的參數(shù)歼捏,使得生成數(shù)據(jù)的條件概率最大。
可以用最大似然法或貝葉斯估計(jì)找到最優(yōu)值而涉。
參數(shù)估計(jì)辦法
- MLE最大似然估計(jì)--缺點(diǎn):數(shù)據(jù)太小的時(shí)候容易對(duì)模型參數(shù)估計(jì)有偏差
- MAE貝葉斯推斷--缺點(diǎn):需要知道先驗(yàn)分布
貝葉斯推斷示例