Classification(分類)
- 應(yīng)用舉例
- Credit Scoring
- input: income, saving, profession, age, past financial history...
- output: accept or refuse
- Medical Diagosis
- input: current symptons, age, gender, past medical history...
- output: which kind of disease
- Handwritting recognition
- Face recognition
- Credit Scoring
1.數(shù)學(xué)前提
情景:盒1(4藍球,1綠球)粹舵,盒2(2籃球钮孵,3綠球),拿盒1的概率是2/3眼滤,拿盒2的概率是1/3
- 先驗概率:知因求果
從盒1中拿巴席,拿出籃球的概率是多少
- 后驗概率:知果求因(此時用到了貝葉斯公式)
已知拿到了籃球,則從盒1中拿的概率是多少
- 貝葉斯公式:
事件的概率為诅需,事件已發(fā)生條件下事件的概率為漾唉,事件發(fā)生條件下事件Ci的概率為 - generative model(生成模型)
那上訴的這些數(shù)值從哪里來呢,就從training data里面堰塌,估計出來赵刑,這個想法就是生成模型。
例如场刑, - 極大似然估計:知果求最可能的原因
- Naive Bayes(樸素貝葉斯):假設(shè)屬性之間都是互相獨立的般此,則稱這個貝葉斯是樸素的貝葉斯,用此假定牵现,是為了簡化計算铐懊。
則樸素貝葉斯公式為:
2 分類步驟
2.1 首先明確現(xiàn)在做的這一步
目的:確認(rèn)x這個點是否是在類別A里面
方法:所有的類別都有自己的分布,計算x這個點在類別里分布的概率瞎疼,當(dāng)概率大于0.5時居扒,就可認(rèn)為x屬于這個類別
問題:這個(高斯)分布怎么計算呢?
解決:極大似然估計
2.2 Guassian Distribution(高斯分布)
其中 mean:均值丑慎;covariance matrix :協(xié)方差矩陣
-
這個公式中喜喂,若已知均值和協(xié)方差矩陣竿裂,將目標(biāo)點帶入,就可求得此點在該高斯分布中的位置腻异。
接下來就需要用極大似然估計进副,來找出該高斯分布,最有可能是由那個均值和哪個協(xié)方差矩陣組成的给赞。
2.3 極大似然估計
-
這個是均值和協(xié)方差矩陣的可能性 - 若要使得可能性最大矫户,即均值和協(xié)方差矩陣需滿足如下公式
為平均值
- 此時我們已經(jīng)得到了,由此可得此高斯分布皆辽,現(xiàn)在我們回到貝葉斯公式
2.4 用貝葉斯公式進行分類
2.4.1 第一次嘗試
- 然而由此得出的效果正確率只有47%柑蛇,即使把七維的參數(shù)都放進來,準(zhǔn)確率也只有54%驱闷,此時需要調(diào)整模型
2.4.2 第二次嘗試
調(diào)整模型
根據(jù)以往經(jīng)驗得出耻台,其實協(xié)方差矩陣用同一個即可,即空另,均值還是各自的照舊盆耽,用同一個協(xié)方差矩陣會產(chǎn)生一個線性的邊界。
此時扼菠,準(zhǔn)確率達到了73%-
Sigmoid function
Sigmoid funciton 有很多優(yōu)良的特性摄杂,值域為(0,1),在0.5周圍敏感娇豫,在0,1附近不敏感匙姜,非常適合用于二分任務(wù)
2.5 Linear Regression 和 Logistic Regression 的區(qū)別和聯(lián)系
在貝葉斯公式中,可以寫成的形式冯痢,而經(jīng)過一番運算以后氮昧,可以得到一個的形式,即最終
從中浦楣,我們能看出 Linear Regression 在經(jīng)過了 Sigmoid function 處理之后袖肥,變成了能夠處理了二分任務(wù)的 Logistic Regression