簡述:從樣本中統(tǒng)計(jì)每個(gè)特征對分類類別的概率,最后求將預(yù)測對象分為每個(gè)類別的概率,取最大為預(yù)測分類
優(yōu)點(diǎn):在數(shù)據(jù)較少的情況下仍然有效桥状,可以處理多分類問題
缺點(diǎn):對于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感
適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù) ? ? ? ?
概率論是許多機(jī)器學(xué)習(xí)算法的基礎(chǔ)雇初,核心思想:選擇具有最高概率的決策
條件概率:P(A|B) = P(A B)/P(B)
P(C|X) = P(X|C)*P(C)/P(X) 求條件互換概率
獨(dú)立性假設(shè)是指一個(gè)現(xiàn)象的發(fā)生不依賴于其他現(xiàn)象,如一個(gè)詞的出現(xiàn)不依賴于文檔中其他詞烛恤,這個(gè)假設(shè)過于簡單母怜,所以稱之為樸素貝葉斯
拉普拉斯修正:
若某個(gè)屬性值在訓(xùn)練集中沒有與某個(gè)類同時(shí)出現(xiàn)過,則直接基于概率進(jìn)行判別會(huì)出現(xiàn)問題缚柏,*0
將概率P(c) = |Dc|/|D| ?改為P(c) = |Dc+1|/|D|+N, N為類別個(gè)數(shù)
如果對預(yù)測速度要求高苹熏,則對給定訓(xùn)練集,可將所有概率事先計(jì)算存表
如果數(shù)據(jù)更新頻繁币喧,可采用懶惰學(xué)習(xí)轨域,待收到預(yù)測請求后進(jìn)行概率估算
如果數(shù)據(jù)不斷增加,可在現(xiàn)有估值基礎(chǔ)上杀餐,僅對新增樣本所涉及的概率估值進(jìn)行計(jì)算修正干发,實(shí)現(xiàn)增量學(xué)習(xí)
半樸素貝葉斯分類
適當(dāng)放松獨(dú)立性假設(shè)
獨(dú)依賴估計(jì):假設(shè)每個(gè)屬性在類別之外最多僅依賴于一個(gè)其他屬性
SPODE:通過交叉驗(yàn)證等選擇方法確定“超父”屬性,所以其他屬性依賴這個(gè)超父屬性
TAN:以屬性的條件互信息為權(quán)構(gòu)建最大生成樹
AODE:基于集成學(xué)習(xí)史翘,嘗試將每個(gè)屬性作為超父來構(gòu)建SPODE枉长,將SPODE集成起來作為最終結(jié)果
貝葉斯網(wǎng)
有向無環(huán)圖,以屬性為點(diǎn)琼讽,量化依賴關(guān)系為邊必峰,有效表達(dá)屬性間的條件獨(dú)立性
道德圖:找到所有V型結(jié)構(gòu),在兩個(gè)父節(jié)點(diǎn)上加上一條無向邊钻蹬,將所有有向邊改為無向邊吼蚁,
若X,Y能被變量集合Z切開,則X,Y存在基于Z的條件獨(dú)立關(guān)系
“評分搜索”是求解貝葉斯網(wǎng)的常見辦法问欠,詳見西瓜書P160
使用貝葉斯網(wǎng)可根據(jù)已有屬性值推斷其余屬性值:
精確推斷是NP難的肝匆,近似推斷常采用吉布斯采樣
吉布斯采樣:在E= e的基礎(chǔ)上采樣T次,計(jì)算其中Q=q的次數(shù)
實(shí)質(zhì)上實(shí)在貝葉斯網(wǎng)所有變量的聯(lián)合狀態(tài)空間與證據(jù)E=e一致的子空間中進(jìn)行隨機(jī)游走
EM算法
隱變量:未觀測到的變量
X:表示已觀測到的變量集顺献,Z:表示未觀測到的變量集旗国,欲對Θ做極大似然估計(jì),則應(yīng)最大化對數(shù)似然:
LL(Θ|X,Z)= lnP(X,Z|Θ)
Z未知注整,上式無法直接求解粗仓,需通過對Z計(jì)算期望嫁怀,來最大化已觀測數(shù)據(jù)的對數(shù)“邊際似然”
流程:
E步:基于Θt 推斷隱變量Z的期望,記為Zt(推斷Z的分布P(Z|X,Θt), 并計(jì)算對數(shù)似然LL((Θ|X,Z) 關(guān)于Z的期望)
M步:基于Zt和X對參數(shù)Θ做極大似然估計(jì)借浊,記為Θt+1(尋找參數(shù)最大化期望似然)
直到收斂
常用來學(xué)習(xí)高斯混合模型GMM的參數(shù)塘淑,K均值聚類就是典型的EM算法