分類(2):k-最近鄰齿椅、貝葉斯分類器

一抡砂、k-最近鄰

1、算法

積極學(xué)習(xí)方法(eager learner):通過訓(xùn)練樣本建立模型。
消極學(xué)習(xí)方法(lazy learner):實(shí)例的學(xué)習(xí),k-最近鄰就屬于這種。

k-最近鄰算法:
令k是最近鄰數(shù)目县习,D是訓(xùn)練樣例集合
for z in 樣例集合:
  計(jì)算 z 和每個(gè)樣例 (x,y) 的距離 d
  選擇離 z 前 k 個(gè)近距離的點(diǎn),為集合 Dt
  z的標(biāo)記 y 為 Dt 中類較多的

k-最近鄰采用多數(shù)表決的方法谆趾,該算法對(duì) k 敏感:
![](http://www.forkosh.com/mathtex.cgi? y'=argmax_{v}\sum_{(x_{i},y_{i})\in D_{t}} I(v=y_{i}))
所以准颓,需要降低 k 的影響,一種途徑就是對(duì)距離的不同加權(quán)棺妓,如下攘已,因?yàn)榫嚯x遠(yuǎn)的影響要弱一些,以距離平方的倒數(shù)為權(quán)值怜跑。
![](http://www.forkosh.com/mathtex.cgi? y'=argmax_{v}\sum_{(x_{i},y_{i})\in D_{t}}w_{i}\times I(v=y_{i}),w_{i}=\frac{1}{d(x',x_{i})^{2}})

2样勃、最近鄰分類器特征:

(1)實(shí)例的學(xué)習(xí)吠勘,不需要建模,但分類測(cè)試的開銷很大峡眶。
(2)當(dāng)k比較小的時(shí)候剧防,對(duì)噪聲非常敏感。
(3)可以生成任意決策邊界辫樱。

二峭拘、貝葉斯分類器

1、貝葉斯公式

![](http://www.forkosh.com/mathtex.cgi? P(Y_{j}|X)=\frac{P(X|Y_{j})P(Y_{j})}{P(X)}=\frac{P(X|Y_{j})P(Y_{j})}{\sum_{i=1}^{n}P(X|Y_{i})P(Y_{i})})

2狮暑、樸素貝葉斯
(1)條件獨(dú)立性:

給定 Z鸡挠,X 條件獨(dú)立于 Y:
![](http://www.forkosh.com/mathtex.cgi? P(X|Y,Z)=P(X|Z))
則有:
![](http://www.forkosh.com/mathtex.cgi? P(X,Y|Z)=\frac{P(Z,Y,X)}{P(Z)}=\frac{P(Z,Y,X)}{P(Y,Z)}\frac{P(Y,Z)}{P(Z)}=P(X|Y,Z)P(Y|Z)=P(X|Z)P(Y|Z))

(2)樸素貝葉斯分類器:

![](http://www.forkosh.com/mathtex.cgi? P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}=\frac{P(X_{1},...,X_d8c1uvt)P(Y)}{P(X)}=\frac{P(Y)\prod_{i=1}^qalssfhP(X_{i}|Y)}{P(X)})

(3)連續(xù)屬性的條件概率:

<1>把每個(gè)連續(xù)屬性離散化,用相應(yīng)的區(qū)間去替代原來(lái)的屬性搬男,但若某一個(gè)區(qū)間的樣本數(shù)目過少拣展,不容易做出可靠的估計(jì)。
<2>可以假設(shè)連續(xù)變量服從正態(tài)分布缔逛,Xi的概率等于:
![](http://www.forkosh.com/mathtex.cgi? P(X_{i}=x_{i}|Y=y_{j})=\frac{1}{\sqrt{2\pi}\sigma_{ij}}e{-\frac{(x_{i}-\mu_{ij}){2}}{2\sigma_{ij}}})
其中 mu 用樣本均值估計(jì)备埃, sigma 用樣本方差估計(jì)。

(4)樸素貝葉斯舉例:

拖欠貸款為 Y 變量褐奴。


5_01.png

測(cè)試記錄X=(有房=否按脚,婚姻狀況=已婚,年收入=120K)敦冬,求后驗(yàn)概率P(No|X)乘寒、P(Yes|X)。
總的 Y 可以知道匪补,P(Yes)=0.3,P(No)=0.7烂翰。則:

P(X | No)=P(有房=否 | No)x P(婚姻狀況=已婚 | No)x P(年收入=120K | No)=0.0024
P(X | Yes)= P(有房=否 | Yes)x P(婚姻狀況=已婚 | Yes)x P(年收入=120K | Yes)=0

因?yàn)镻(No|X)>P(Yes|X)夯缺,所以該測(cè)試分類為No,不拖欠貸款甘耿。
上例中踊兜,P(婚姻狀況=已婚 | Yes)=0,可能會(huì)出現(xiàn)極端現(xiàn)象佳恬,為了防止出現(xiàn)0捏境,樸素貝葉斯沒法正確分類,可以使用 m 估計(jì)(m-estimate):
![](http://www.forkosh.com/mathtex.cgi? P(x_{i}|y_{j})=\frac{n_{c}+mp}{n+m})
n 為 yi 的實(shí)例總數(shù)毁葱,nc 為 yi 中 xi 的實(shí)例數(shù)目垫言,p 是用戶指定,m 為等價(jià)樣本大小的參數(shù)倾剿。上面的計(jì)算:P(婚姻狀況=已婚 | Yes)=(0+3 x 1/3)/(3+3)=1/6筷频,而不是0蚌成。

(4)樸素貝葉斯特征:

對(duì)于噪聲點(diǎn),樸素貝葉斯是健壯的凛捏。也可以處理屬性值遺漏問題担忧。
無(wú)關(guān)屬性,樸素貝葉斯是健壯的坯癣。對(duì)于相關(guān)屬性瓶盛,可能會(huì)降低分類性能。

3示罗、貝葉斯置信網(wǎng)絡(luò)(Bayesian belief networks惩猫,BBN)
(1)模型表示:

兩個(gè)主要成分:

一個(gè)有向無(wú)環(huán)圖(DAG),表示變量之間的關(guān)系鹉勒;
一個(gè)概率表帆锋,把各個(gè)結(jié)點(diǎn)和它的直接父節(jié)點(diǎn)關(guān)聯(lián)起來(lái)。

性質(zhì)1:條件獨(dú)立
貝葉斯網(wǎng)絡(luò)中的一個(gè)結(jié)點(diǎn)禽额,如果它的父母結(jié)點(diǎn)已知锯厢,則它條件獨(dú)立于它的所有非后代結(jié)點(diǎn)。


5_02.png

如圖(b)脯倒,給定C实辑,A 條件獨(dú)立于 B 和 D。
除了網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)要求的條件獨(dú)立外藻丢,每個(gè)結(jié)點(diǎn)還關(guān)聯(lián)一個(gè)概率表剪撬。

(1)如果結(jié)點(diǎn) X 沒有父母結(jié)點(diǎn),則表中只包含先驗(yàn)概率P(X);
(2)如果結(jié)點(diǎn) X 只有一個(gè)父母結(jié)點(diǎn) Y悠反,則表中包含先驗(yàn)概率P(X | Y);
(3)如果結(jié)點(diǎn) X 有多個(gè)父母結(jié)點(diǎn){Y1残黑,Y2...,Yk}斋否,則表中只包含先驗(yàn)概率P(X|Y1梨水,Y2...,Yk);

下圖是一個(gè)貝葉斯置信網(wǎng)絡(luò)茵臭。


5_03.png
(2)建立模型:

貝葉斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的生成算法:

設(shè)T=(X1疫诽,X2,...Xd)表示變量的全序
for j=1 to d do
  令 XTj 表示 T 中第 j 個(gè)次序最高的變量
  令A(yù)(XTj)={XT1旦委,XT2奇徒,...XTj-1} 表示排在 XTj 前面的變量的集合
  從A(XTj)中去掉對(duì) Xj 沒有影響的變量(使用先驗(yàn)知識(shí))
  在 XTj 和 A(XTj) 中的剩余變量之間畫弧

考慮到圖5_03,經(jīng)過循環(huán)后缨硝,得到的如下概率:

P(D | E)化簡(jiǎn)為 P(D)
P(HD | E,D)不能化簡(jiǎn)
P(Hb | E,D,HD)化簡(jiǎn)為 P(Hb | D)
P(CP | E,D,HD,Hb)化簡(jiǎn)為 P(CP | HD,Hb)
P(BP | E,D,HD,Hb,CP)化簡(jiǎn)為 P(BP | HD)

上面的算法摩钙,保證了不會(huì)生成環(huán)。
不同的變量排序會(huì)產(chǎn)生不同的拓?fù)浣Y(jié)構(gòu)查辩,理論上需要 d腺律!種排序才能找到最優(yōu)的奕短,開銷很大。代替方法是把變量分成原因變量和結(jié)果變量匀钧,從原因到結(jié)果畫弧翎碑。

(3)使用BNN進(jìn)行推理:

根據(jù)上面的貝葉斯置信網(wǎng)絡(luò)圖,有下面情況:


5_04.png

5_05.png
(4)BNN的特點(diǎn):

構(gòu)造網(wǎng)絡(luò)比較費(fèi)時(shí)之斯,但網(wǎng)絡(luò)結(jié)構(gòu)一旦確定下來(lái)日杈,添加新變量就變得容易。
很適合處理不完整數(shù)據(jù)佑刷,對(duì)有屬性遺漏的可以通過概率或求積分來(lái)加以處理莉擒。
數(shù)據(jù)和先驗(yàn)知識(shí)結(jié)合起來(lái),該方法對(duì)于模型的過擬合問題是非常魯棒的瘫絮。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末涨冀,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子麦萤,更是在濱河造成了極大的恐慌鹿鳖,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,252評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件壮莹,死亡現(xiàn)場(chǎng)離奇詭異翅帜,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)命满,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門涝滴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人胶台,你說(shuō)我怎么就攤上這事歼疮。” “怎么了诈唬?”我有些...
    開封第一講書人閱讀 168,814評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵韩脏,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我讯榕,道長(zhǎng),這世上最難降的妖魔是什么匙睹? 我笑而不...
    開封第一講書人閱讀 59,869評(píng)論 1 299
  • 正文 為了忘掉前任愚屁,我火速辦了婚禮,結(jié)果婚禮上痕檬,老公的妹妹穿的比我還像新娘霎槐。我一直安慰自己,他們只是感情好梦谜,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,888評(píng)論 6 398
  • 文/花漫 我一把揭開白布丘跌。 她就那樣靜靜地躺著袭景,像睡著了一般。 火紅的嫁衣襯著肌膚如雪闭树。 梳的紋絲不亂的頭發(fā)上耸棒,一...
    開封第一講書人閱讀 52,475評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音报辱,去河邊找鬼与殃。 笑死,一個(gè)胖子當(dāng)著我的面吹牛碍现,可吹牛的內(nèi)容都是我干的幅疼。 我是一名探鬼主播,決...
    沈念sama閱讀 41,010評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼昼接,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼爽篷!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起慢睡,我...
    開封第一講書人閱讀 39,924評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤逐工,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后一睁,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體钻弄,經(jīng)...
    沈念sama閱讀 46,469評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,552評(píng)論 3 342
  • 正文 我和宋清朗相戀三年者吁,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了窘俺。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,680評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡复凳,死狀恐怖瘤泪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情育八,我是刑警寧澤对途,帶...
    沈念sama閱讀 36,362評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站髓棋,受9級(jí)特大地震影響实檀,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜按声,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,037評(píng)論 3 335
  • 文/蒙蒙 一膳犹、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧签则,春花似錦须床、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)钠惩。三九已至,卻和暖如春族阅,著一層夾襖步出監(jiān)牢的瞬間篓跛,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工耘分, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留举塔,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,099評(píng)論 3 378
  • 正文 我出身青樓求泰,卻偏偏與公主長(zhǎng)得像央渣,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子渴频,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,691評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容