李宏毅ML04—Classification

Classification(分類)

  • 應(yīng)用舉例
    • Credit Scoring
      • input: income, saving, profession, age, past financial history...
      • output: accept or refuse
    • Medical Diagosis
      • input: current symptons, age, gender, past medical history...
      • output: which kind of disease
    • Handwritting recognition
    • Face recognition

1.數(shù)學(xué)前提

情景:盒1(4藍球,1綠球)粹舵,盒2(2籃球钮孵,3綠球),拿盒1的概率是2/3眼滤,拿盒2的概率是1/3

  • 先驗概率:知因求果
    從盒1中拿巴席,拿出籃球的概率是多少
    P(Blue|Box1)=\frac{4}{5}
  • 后驗概率:知果求因(此時用到了貝葉斯公式
    已知拿到了籃球,則從盒1中拿的概率是多少
    P(Box1|Blue)=\frac{P(Blue|Box1)P(Box1)}{P(Blue|Box1)P(Box1)+P(Blue|Box2)P(Box2)}
  • 貝葉斯公式:
    P(C_i|x)=\frac{P(x|C_i)P(C_i)}{\sum\limits_{j=1}^n{P(x|C_j)P(C_j)}}
    事件C_i的概率為P(C_i)诅需,事件C_i已發(fā)生條件下事件x的概率為P(x|C_i)漾唉,事件x發(fā)生條件下事件Ci的概率為P(C_i│x)
  • generative model(生成模型)
    那上訴的這些數(shù)值從哪里來呢,就從training data里面堰塌,估計出來赵刑,這個想法就是生成模型。
    例如场刑,P(Blue)=P(Blue|Box1)P(Box1)+P(Blue|Box2)P(Box2)
  • 極大似然估計:知果求最可能的原因
  • Naive Bayes(樸素貝葉斯):假設(shè)屬性之間都是互相獨立的般此,則稱這個貝葉斯是樸素的貝葉斯,用此假定牵现,是為了簡化計算铐懊。
    P(x|C_1)=\prod\limits_{n=1}^KP(x_n|C_1)
    則樸素貝葉斯公式為:
    P(C_i|x)=\frac{P(C_i)\prod\limits_{n=1}^KP(x_n|C_1)}{\sum\limits_{j=1}^n[{P(C_j)\prod\limits_{n=1}^KP(x_n|C_1)]}}

2 分類步驟

2.1 首先明確現(xiàn)在做的這一步

目的:確認(rèn)x這個點是否是在類別A里面
方法:所有的類別都有自己的分布,計算x這個點在類別里分布的概率瞎疼,當(dāng)概率大于0.5時居扒,就可認(rèn)為x屬于這個類別
問題:這個(高斯)分布怎么計算呢?
解決:極大似然估計

2.2 Guassian Distribution(高斯分布)

f_{\mu,\Sigma}(x)= \frac{1}{(2\pi)^{\frac{D}{2}}} \times \frac{1}{|\Sigma|^{\frac{1}{2}}}\exp \{ -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) 1\}
其中 mean\mu:均值丑慎;covariance matrix \Sigma:協(xié)方差矩陣

  • 這個公式中喜喂,若已知均值和協(xié)方差矩陣竿裂,將目標(biāo)點帶入,就可求得此點在該高斯分布中的位置腻异。
    接下來就需要用極大似然估計进副,來找出該高斯分布,最有可能是由那個均值和哪個協(xié)方差矩陣組成的给赞。


    哪個參數(shù)才是最好的呢

2.3 極大似然估計

  • Likelihood(\mu,\Sigma)=f_{\mu,\Sigma}(x_1)f_{\mu,\Sigma}(x_2)...f_{\mu,\Sigma}(x_n)
    這個是均值和協(xié)方差矩陣的可能性
  • 若要使得可能性最大矫户,即\mu^*,\Sigma^*=\arg maxL(\mu,\Sigma)均值和協(xié)方差矩陣需滿足如下公式
    \mu^*=\frac{1}{79}\sum\limits_{n=1}^{79}x^n
    \mu為平均值
    \Sigma^*=\frac{1}{79}\sum\limits_{n=1}^{79}(x^n-\mu^*)(x^n-\mu^*)^T
  • 此時我們已經(jīng)得到了\mu^*,\Sigma^*,由此可得此高斯分布皆辽,現(xiàn)在我們回到貝葉斯公式

2.4 用貝葉斯公式進行分類

2.4.1 第一次嘗試

將得到的高斯分布放進貝葉斯公式中
  • 然而由此得出的效果正確率只有47%柑蛇,即使把七維的參數(shù)都放進來,準(zhǔn)確率也只有54%驱闷,此時需要調(diào)整模型

2.4.2 第二次嘗試

  • 調(diào)整模型
    根據(jù)以往經(jīng)驗得出耻台,其實協(xié)方差矩陣用同一個即可,即\Sigma = \frac{79}{140}\Sigma^1+\frac{61}{140}\Sigma^2空另,均值還是各自的照舊盆耽,用同一個協(xié)方差矩陣會產(chǎn)生一個線性的邊界。
    此時扼菠,準(zhǔn)確率達到了73%

  • Sigmoid function
    \sigma(z)=\frac{1}{1+e^{-z}}

    Sigmoid

    Sigmoid funciton 有很多優(yōu)良的特性摄杂,值域為(0,1),在0.5周圍敏感娇豫,在0,1附近不敏感匙姜,非常適合用于二分任務(wù)

2.5 Linear Regression 和 Logistic Regression 的區(qū)別和聯(lián)系

在貝葉斯公式中,P(C_1|x)可以寫成\sigma(z)的形式冯痢,而z經(jīng)過一番運算以后氮昧,可以得到一個w·x+b的形式,即最終\sigma(w·x+b)
從中浦楣,我們能看出 Linear Regression 在經(jīng)過了 Sigmoid function 處理之后袖肥,變成了能夠處理了二分任務(wù)的 Logistic Regression

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市振劳,隨后出現(xiàn)的幾起案子椎组,更是在濱河造成了極大的恐慌,老刑警劉巖历恐,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件寸癌,死亡現(xiàn)場離奇詭異,居然都是意外死亡弱贼,警方通過查閱死者的電腦和手機蒸苇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來吮旅,“玉大人溪烤,你說我怎么就攤上這事。” “怎么了檬嘀?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵槽驶,是天一觀的道長。 經(jīng)常有香客問我鸳兽,道長掂铐,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任贸铜,我火速辦了婚禮堡纬,結(jié)果婚禮上聂受,老公的妹妹穿的比我還像新娘。我一直安慰自己蛋济,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布渡处。 她就那樣靜靜地躺著祟辟,像睡著了一般。 火紅的嫁衣襯著肌膚如雪醇份。 梳的紋絲不亂的頭發(fā)上吼具,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天,我揣著相機與錄音拗盒,去河邊找鬼。 笑死痊臭,一個胖子當(dāng)著我的面吹牛登夫,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播艇潭,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼蹋凝,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了鳍寂?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤捍壤,失蹤者是張志新(化名)和其女友劉穎鹃觉,沒想到半個月后睹逃,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡疗隶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年斑鼻,在試婚紗的時候發(fā)現(xiàn)自己被綠了猎荠。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,724評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡史汗,死狀恐怖拒垃,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情戈毒,我是刑警寧澤横堡,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站道宅,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏污茵。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一迹蛤、第九天 我趴在偏房一處隱蔽的房頂上張望襟士。 院中可真熱鬧,春花似錦逆趣、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽部蛇。三九已至,卻和暖如春巷查,著一層夾襖步出監(jiān)牢的瞬間抹腿,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工崇败, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留肩祥,地道東北人。 一個月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓岸霹,卻偏偏與公主長得像将饺,于是被迫代替她去往敵國和親痛黎。 傳聞我的和親對象是個殘疾皇子刮吧,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,627評論 2 350

推薦閱讀更多精彩內(nèi)容

  • 樸素貝葉斯 在機器學(xué)習(xí)中皇筛,樸素貝葉斯分類器是一系列以假設(shè)特征之間強(樸素)獨立下運用貝葉斯定理為基礎(chǔ)的簡單概率分類...
    七八音閱讀 20,525評論 0 21
  • 考試說明 注重基礎(chǔ)知識和概念的理解水醋,因此解題中的計算過程不會很復(fù)雜,但是會有推公式的過程拄踪。本課程的重點知識包括:貝...
    城市中迷途小書童閱讀 1,178評論 0 0
  • 二元變量 伯努利分布 似然函數(shù)為 對數(shù)似然函數(shù)為 如果我們令關(guān)于u的導(dǎo)數(shù)等于零惶桐,我們就得到了最大似然的估計值 現(xiàn)在...
    初七123閱讀 1,548評論 0 4
  • 網(wǎng)購了一套汽車座墊,收到貨物的時候內(nèi)心是挺高興的贿衍,因為終于可以給自己的愛車換上一套屬于自己的衣服,整個感覺會煥然一...
    鄭勝杰閱讀 73評論 0 0
  • 最喜歡的關(guān)系是贸辈,你坐在我身邊不說話也不會覺得尷尬…… 我不會難為情擎淤,也不會臉紅心跳。而是覺得這樣很平淡嘴拢。 就連坐下...
    可愛的學(xué)長閱讀 351評論 0 1