一抡砂、k-最近鄰
1、算法
積極學(xué)習(xí)方法(eager learner):通過訓(xùn)練樣本建立模型。
消極學(xué)習(xí)方法(lazy learner):實(shí)例的學(xué)習(xí),k-最近鄰就屬于這種。
k-最近鄰算法:
令k是最近鄰數(shù)目县习,D是訓(xùn)練樣例集合
for z in 樣例集合:
計(jì)算 z 和每個(gè)樣例 (x,y) 的距離 d
選擇離 z 前 k 個(gè)近距離的點(diǎn),為集合 Dt
z的標(biāo)記 y 為 Dt 中類較多的
k-最近鄰采用多數(shù)表決的方法谆趾,該算法對(duì) k 敏感:
\in D_{t}} I(v=y_{i}))
所以准颓,需要降低 k 的影響,一種途徑就是對(duì)距離的不同加權(quán)棺妓,如下攘已,因?yàn)榫嚯x遠(yuǎn)的影響要弱一些,以距離平方的倒數(shù)為權(quán)值怜跑。
\in D_{t}}w_{i}\times I(v=y_{i}),w_{i}=\frac{1}{d(x',x_{i})^{2}})
2样勃、最近鄰分類器特征:
(1)實(shí)例的學(xué)習(xí)吠勘,不需要建模,但分類測(cè)試的開銷很大峡眶。
(2)當(dāng)k比較小的時(shí)候剧防,對(duì)噪聲非常敏感。
(3)可以生成任意決策邊界辫樱。
二峭拘、貝葉斯分類器
1、貝葉斯公式
=\frac{P(X|Y_{j})P(Y_{j})}{P(X)}=\frac{P(X|Y_{j})P(Y_{j})}{\sum_{i=1}^{n}P(X|Y_{i})P(Y_{i})})
2狮暑、樸素貝葉斯
(1)條件獨(dú)立性:
給定 Z鸡挠,X 條件獨(dú)立于 Y:
=P(X|Z))
則有:
=\frac{P(Z,Y,X)}{P(Z)}=\frac{P(Z,Y,X)}{P(Y,Z)}\frac{P(Y,Z)}{P(Z)}=P(X|Y,Z)P(Y|Z)=P(X|Z)P(Y|Z))
(2)樸素貝葉斯分類器:
=\frac{P(X|Y)P(Y)}{P(X)}=\frac{P(X_{1},...,X_d8c1uvt)P(Y)}{P(X)}=\frac{P(Y)\prod_{i=1}^qalssfhP(X_{i}|Y)}{P(X)})
(3)連續(xù)屬性的條件概率:
<1>把每個(gè)連續(xù)屬性離散化,用相應(yīng)的區(qū)間去替代原來(lái)的屬性搬男,但若某一個(gè)區(qū)間的樣本數(shù)目過少拣展,不容易做出可靠的估計(jì)。
<2>可以假設(shè)連續(xù)變量服從正態(tài)分布缔逛,Xi的概率等于:
=\frac{1}{\sqrt{2\pi}\sigma_{ij}}e{-\frac{(x_{i}-\mu_{ij}){2}}{2\sigma_{ij}}})
其中 mu 用樣本均值估計(jì)备埃, sigma 用樣本方差估計(jì)。
(4)樸素貝葉斯舉例:
拖欠貸款為 Y 變量褐奴。
測(cè)試記錄X=(有房=否按脚,婚姻狀況=已婚,年收入=120K)敦冬,求后驗(yàn)概率P(No|X)乘寒、P(Yes|X)。
總的 Y 可以知道匪补,P(Yes)=0.3,P(No)=0.7烂翰。則:
P(X | No)=P(有房=否 | No)x P(婚姻狀況=已婚 | No)x P(年收入=120K | No)=0.0024
P(X | Yes)= P(有房=否 | Yes)x P(婚姻狀況=已婚 | Yes)x P(年收入=120K | Yes)=0
因?yàn)镻(No|X)>P(Yes|X)夯缺,所以該測(cè)試分類為No,不拖欠貸款甘耿。
上例中踊兜,P(婚姻狀況=已婚 | Yes)=0,可能會(huì)出現(xiàn)極端現(xiàn)象佳恬,為了防止出現(xiàn)0捏境,樸素貝葉斯沒法正確分類,可以使用 m 估計(jì)(m-estimate):
=\frac{n_{c}+mp}{n+m})
n 為 yi 的實(shí)例總數(shù)毁葱,nc 為 yi 中 xi 的實(shí)例數(shù)目垫言,p 是用戶指定,m 為等價(jià)樣本大小的參數(shù)倾剿。上面的計(jì)算:P(婚姻狀況=已婚 | Yes)=(0+3 x 1/3)/(3+3)=1/6筷频,而不是0蚌成。
(4)樸素貝葉斯特征:
對(duì)于噪聲點(diǎn),樸素貝葉斯是健壯的凛捏。也可以處理屬性值遺漏問題担忧。
無(wú)關(guān)屬性,樸素貝葉斯是健壯的坯癣。對(duì)于相關(guān)屬性瓶盛,可能會(huì)降低分類性能。
3示罗、貝葉斯置信網(wǎng)絡(luò)(Bayesian belief networks惩猫,BBN)
(1)模型表示:
兩個(gè)主要成分:
一個(gè)有向無(wú)環(huán)圖(DAG),表示變量之間的關(guān)系鹉勒;
一個(gè)概率表帆锋,把各個(gè)結(jié)點(diǎn)和它的直接父節(jié)點(diǎn)關(guān)聯(lián)起來(lái)。
性質(zhì)1:條件獨(dú)立
貝葉斯網(wǎng)絡(luò)中的一個(gè)結(jié)點(diǎn)禽额,如果它的父母結(jié)點(diǎn)已知锯厢,則它條件獨(dú)立于它的所有非后代結(jié)點(diǎn)。
如圖(b)脯倒,給定C实辑,A 條件獨(dú)立于 B 和 D。
除了網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)要求的條件獨(dú)立外藻丢,每個(gè)結(jié)點(diǎn)還關(guān)聯(lián)一個(gè)概率表剪撬。
(1)如果結(jié)點(diǎn) X 沒有父母結(jié)點(diǎn),則表中只包含先驗(yàn)概率P(X);
(2)如果結(jié)點(diǎn) X 只有一個(gè)父母結(jié)點(diǎn) Y悠反,則表中包含先驗(yàn)概率P(X | Y);
(3)如果結(jié)點(diǎn) X 有多個(gè)父母結(jié)點(diǎn){Y1残黑,Y2...,Yk}斋否,則表中只包含先驗(yàn)概率P(X|Y1梨水,Y2...,Yk);
下圖是一個(gè)貝葉斯置信網(wǎng)絡(luò)茵臭。
(2)建立模型:
貝葉斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的生成算法:
設(shè)T=(X1疫诽,X2,...Xd)表示變量的全序
for j=1 to d do
令 XTj 表示 T 中第 j 個(gè)次序最高的變量
令A(yù)(XTj)={XT1旦委,XT2奇徒,...XTj-1} 表示排在 XTj 前面的變量的集合
從A(XTj)中去掉對(duì) Xj 沒有影響的變量(使用先驗(yàn)知識(shí))
在 XTj 和 A(XTj) 中的剩余變量之間畫弧
考慮到圖5_03,經(jīng)過循環(huán)后缨硝,得到的如下概率:
P(D | E)化簡(jiǎn)為 P(D)
P(HD | E,D)不能化簡(jiǎn)
P(Hb | E,D,HD)化簡(jiǎn)為 P(Hb | D)
P(CP | E,D,HD,Hb)化簡(jiǎn)為 P(CP | HD,Hb)
P(BP | E,D,HD,Hb,CP)化簡(jiǎn)為 P(BP | HD)
上面的算法摩钙,保證了不會(huì)生成環(huán)。
不同的變量排序會(huì)產(chǎn)生不同的拓?fù)浣Y(jié)構(gòu)查辩,理論上需要 d腺律!種排序才能找到最優(yōu)的奕短,開銷很大。代替方法是把變量分成原因變量和結(jié)果變量匀钧,從原因到結(jié)果畫弧翎碑。
(3)使用BNN進(jìn)行推理:
根據(jù)上面的貝葉斯置信網(wǎng)絡(luò)圖,有下面情況:
(4)BNN的特點(diǎn):
構(gòu)造網(wǎng)絡(luò)比較費(fèi)時(shí)之斯,但網(wǎng)絡(luò)結(jié)構(gòu)一旦確定下來(lái)日杈,添加新變量就變得容易。
很適合處理不完整數(shù)據(jù)佑刷,對(duì)有屬性遺漏的可以通過概率或求積分來(lái)加以處理莉擒。
數(shù)據(jù)和先驗(yàn)知識(shí)結(jié)合起來(lái),該方法對(duì)于模型的過擬合問題是非常魯棒的瘫絮。