貝葉斯分類器:
1 極大似然估計(jì)? ? ?
a? 類條件概率的一種常用策略是先假定其具有某種確定的概率分布形式停忿,再基于訓(xùn)練樣本對(duì)概率分布的參數(shù)進(jìn)行估計(jì),如 具體的杠氢,關(guān)于類別C 的類條件概率為??---> 假定
具有確定的形式并且參數(shù)向量
唯一且確定
b? 令表示訓(xùn)練集D 中 第 c 類樣本組成的集合捷雕,假定這些樣本獨(dú)立同分布 則參數(shù)
?對(duì)于數(shù)據(jù)集
的似然 是
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? (1)
? ? ? ? ? ? ? ?對(duì)??進(jìn)行極大似然估計(jì) 就是 去尋找能最大化 似然
?的參數(shù)
? --->? 直觀上看 吝秕,極大似然估計(jì)是試圖在
?的所有可能的取值中绵咱,找到一個(gè)能使數(shù)據(jù)出現(xiàn)的 “ 可能性 "最大的值
c? ? 對(duì)于 (1) 連乘 操作 容易出現(xiàn)下溢瓢颅,通常使用對(duì)數(shù)似然:?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
D? 參數(shù) 的極大似然估計(jì)為 :?
E? ?所以 對(duì)于 連續(xù)屬性 情況下 恩尾, p(x|c) 服從 分布---> 該參數(shù)?
?是 該分布的樣本均值和方差
注意 :? 對(duì)于極大似然估計(jì) 局限性 :? 估計(jì)的結(jié)果嚴(yán)重依賴所假設(shè)的概率分布是否符合潛在的真實(shí)數(shù)據(jù)分布? ?挽懦,現(xiàn)實(shí) 中嫩实,在一定程度上 會(huì)利用先驗(yàn)知識(shí)?
2? 樸素貝葉斯分類器
1? 目的:? ?求? 后驗(yàn)概率: P(c|x)
2? 前提 : 假設(shè) 所有屬性相互獨(dú)立,即 每個(gè)屬性獨(dú)立地對(duì)分類結(jié)果發(fā)生影響
3? ? 所以 : p(c|x) =??? ?(d 為屬性的數(shù)目流昏,xi 為x 在第i 個(gè)屬性上的取值)
4? p(x) 都相同 : 所以樸素貝葉斯分類器的表達(dá)式:
? ? ? ? ? ? ? ? ? ??
5
6? ?拉普拉斯修正