【機(jī)器學(xué)習(xí)中的數(shù)學(xué)】貝葉斯概念學(xué)習(xí)

概念學(xué)習(xí)

許多機(jī)器學(xué)習(xí)問(wèn)題涉及從特殊訓(xùn)練樣例中得到一般概念惕鼓。比如人們不斷學(xué)習(xí)的一些一般概念和類別则剃。每個(gè)概念可被看作一個(gè)對(duì)象或事件集合翅萤,它是從更大的集合中選取的子集(如從動(dòng)物的集合中選取鳥(niǎo)類)汗菜,或者是在這個(gè)較大集合中定義的布爾函數(shù)(如在動(dòng)物集合中定義的函數(shù)添诉,它對(duì)鳥(niǎo)類返回true梢褐,對(duì)其他動(dòng)物返回false)旺遮。

小孩理解一個(gè)詞義的例子

考慮一個(gè)小孩子理解“狗”這個(gè)詞的意義。假設(shè)當(dāng)小孩的父母指著一個(gè)動(dòng)物對(duì)他說(shuō)盈咳,“這是一只狗”耿眉,這是給出了概念的正例。而當(dāng)小孩子看到一只貓時(shí)說(shuō)鱼响,“這是一只狗”時(shí)鸣剪,他父母會(huì)糾正他說(shuō),“這是一只貓丈积,不是一只狗”筐骇,這是在主動(dòng)學(xué)習(xí)過(guò)程中給出負(fù)例的情形。心理研究表明江滨,人在學(xué)習(xí)概念時(shí)往往只是來(lái)源于正例數(shù)據(jù)铛纬。
理解一個(gè)詞的含義等同于概念學(xué)習(xí),同時(shí)也等同于二元分類唬滑。即當(dāng)輸入數(shù)據(jù)時(shí)一個(gè)概念的樣例時(shí)告唆,定義f(x)=1;否則f(x)=0晶密。

理解概念學(xué)習(xí)

逆概問(wèn)題

所謂的貝葉斯方法源于他生前為解決一個(gè)“逆概”問(wèn)題寫的一篇文章擒悬,而這篇文章是在他死后才由他的一位朋友發(fā)表出來(lái)的。在貝葉斯寫這篇文章之前惹挟,人們已經(jīng)能夠計(jì)算“正向概率”茄螃,如“假設(shè)袋子里面有N個(gè)白球,M個(gè)黑球连锯,你伸手進(jìn)去摸一把归苍,摸出黑球的概率是多大”用狱。而一個(gè)自然而然的問(wèn)題是反過(guò)來(lái):“如果我們事先并不知道袋子里面黑白球的比例,而是閉著眼睛摸出一個(gè)(或好幾個(gè))球拼弃,觀察這些取出來(lái)的球的顏色之后夏伊,那么我們可以就此對(duì)袋子里面的黑白球的比例作出什么樣的推測(cè)”。這個(gè)問(wèn)題吻氧,就是所謂的逆概問(wèn)題溺忧。

貝葉斯是機(jī)器學(xué)習(xí)的核心方法之一。這背后的深刻原因在于盯孙,現(xiàn)實(shí)世界本身就是不確定的鲁森,人類的觀察能力是有局限性的,我們?nèi)粘K^察到的只是事物表面上的結(jié)果振惰,沿用剛才那個(gè)袋子里面取球的比方歌溉,我們往往只能知道從里面取出來(lái)的球是什么顏色,而并不能直接看到袋子里面實(shí)際的情況骑晶。這個(gè)時(shí)候痛垛,我們就需要提供一個(gè)假設(shè)(hypothesis)。所謂假設(shè)桶蛔,當(dāng)然就是不確定的(可能是有限個(gè)匙头,也可能是無(wú)限多種),為了確定哪個(gè)假設(shè)是正確的仔雷,我們需要做兩件事情:1蹂析、算出各種不同猜測(cè)的可能性大小。2碟婆、算出最靠譜的猜測(cè)是什么识窿。第一個(gè)就是計(jì)算特定猜測(cè)的后驗(yàn)概率(Posterior),對(duì)于連續(xù)的猜測(cè)空間則是計(jì)算猜測(cè)的概率密度函數(shù)脑融。第二個(gè)則是所謂的模型比較,模型比較如果不考慮先驗(yàn)概率(Prior)的話就是最大似然方法缩宜。

猜數(shù)字游戲(The Number Game)

問(wèn)題描述

游戲規(guī)則是這樣的肘迎,我首先選取了一個(gè)數(shù)字規(guī)律的概念C(也可以說(shuō)是規(guī)則,比如介于1到10的數(shù)字锻煌、距離20很近的數(shù)字等)妓布,然后根據(jù)符合C的數(shù)據(jù),隨機(jī)選取一部分宋梧,最后給定一些測(cè)試數(shù)據(jù)匣沼,讓你將符合這個(gè)概念C的數(shù)據(jù)分類出來(lái)。

分析

現(xiàn)在假設(shè)所有數(shù)字都是從1到100中選取的整數(shù)捂龄。
如果現(xiàn)在告訴你释涛,16是一個(gè)未知概念C的正例加叁,那請(qǐng)問(wèn)你什么數(shù)字還符合這個(gè)概念C呢?
你會(huì)感覺(jué)所有的假設(shè)都太過(guò)模糊唇撬,不太可能它匕。比如17可以看做是離16很近的概念的正例;6也有可能窖认,因?yàn)樗鼈兌加幸粋€(gè)數(shù)字6豫柬;再如32,它們都是2的冪次扑浸;以此的假設(shè)太多了烧给。
現(xiàn)在,如果我再告訴你喝噪,8础嫡、2和64也都是正例數(shù)據(jù),你會(huì)很自然的猜測(cè)這個(gè)隱含的概念是“2的冪次”仙逻,那么為什么會(huì)這樣呢驰吓?為什么我們的假設(shè)不是“所有偶數(shù)”,或者“除去32的所有2的冪次”系奉?這些假設(shè)也都符合給出的數(shù)據(jù)資料檬贰,為什么我們直覺(jué)上會(huì)認(rèn)為是“2的冪次”呢?我們會(huì)從貝葉斯的角度解釋這件事情缺亮。


description
description

貝葉斯角度的解釋

接著上面的說(shuō)翁涤,我們現(xiàn)在要解釋為什么我們選擇“2的冪次”這個(gè)假設(shè),而不是“所有偶數(shù)”這個(gè)假設(shè)萌踱,雖然現(xiàn)在這兩個(gè)假設(shè)都符合給定的數(shù)據(jù)葵礼,但是怎么樣才能避免可疑的巧合情況造成的估計(jì)錯(cuò)誤呢?
這里并鸵,我們將問(wèn)題公式化鸳粉,我們假設(shè)樣本是從數(shù)據(jù)集中均勻隨機(jī)選取的,這樣從N個(gè)數(shù)據(jù)中采樣的概率p(D|h)如下园担。
由于在1到100區(qū)間里届谈,“2的冪次”的數(shù)據(jù)集D={2,4,8,16,32,64};而“所有偶數(shù)”的數(shù)據(jù)集D={2,4,6,8,...,98,100},所以弯汰,從“2的冪次”采樣的概率要遠(yuǎn)比從“所有偶數(shù)”的數(shù)據(jù)集采樣的概率大艰山。故由{16,8,2,64}數(shù)據(jù)得出“所有偶數(shù)”這個(gè)假設(shè)就很有可能只是一個(gè)巧合。
下面簡(jiǎn)要介紹了似然度咏闪、先驗(yàn)概率和后驗(yàn)概率:


后驗(yàn)概率

根據(jù)貝葉斯公式曙搬,我們看到后驗(yàn)概率要結(jié)合先驗(yàn)概率和似然度。這里看到雖然“powers of 2,plus 37”和“powers of 2,except 32”有很大的似然度,但是先驗(yàn)概率很小纵装,導(dǎo)致最終的后驗(yàn)概率很小征讲,這種反常概念的低的先驗(yàn)概率可以避免對(duì)數(shù)據(jù)的過(guò)擬合。


后驗(yàn)預(yù)測(cè)分布

將所有可能的后驗(yàn)概率p(h|D)進(jìn)行加權(quán)得到了后驗(yàn)預(yù)測(cè)分布搂擦。


參考資料

機(jī)器學(xué)習(xí)稳诚,Tom M. Mitchell
Machine Learning: A Probabilistic Perspective, Kevin P. Murphy
數(shù)學(xué)之美番外篇:平凡而又神奇的貝葉斯方法

轉(zhuǎn)載請(qǐng)注明作者Jason Ding及其出處
Github主頁(yè)(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡(jiǎn)書主頁(yè)(http://www.reibang.com/users/2bd9b48f6ea8/latest_articles)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市瀑踢,隨后出現(xiàn)的幾起案子扳还,更是在濱河造成了極大的恐慌,老刑警劉巖橱夭,帶你破解...
    沈念sama閱讀 216,591評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件氨距,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡棘劣,警方通過(guò)查閱死者的電腦和手機(jī)俏让,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)茬暇,“玉大人首昔,你說(shuō)我怎么就攤上這事〔谒祝” “怎么了勒奇?”我有些...
    開(kāi)封第一講書人閱讀 162,823評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)巧骚。 經(jīng)常有香客問(wèn)我赊颠,道長(zhǎng),這世上最難降的妖魔是什么劈彪? 我笑而不...
    開(kāi)封第一講書人閱讀 58,204評(píng)論 1 292
  • 正文 為了忘掉前任竣蹦,我火速辦了婚禮,結(jié)果婚禮上沧奴,老公的妹妹穿的比我還像新娘痘括。我一直安慰自己,他們只是感情好滔吠,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,228評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布远寸。 她就那樣靜靜地躺著,像睡著了一般屠凶。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上肆资,一...
    開(kāi)封第一講書人閱讀 51,190評(píng)論 1 299
  • 那天矗愧,我揣著相機(jī)與錄音,去河邊找鬼。 笑死唉韭,一個(gè)胖子當(dāng)著我的面吹牛夜涕,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播属愤,決...
    沈念sama閱讀 40,078評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼女器,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了住诸?” 一聲冷哼從身側(cè)響起驾胆,我...
    開(kāi)封第一講書人閱讀 38,923評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎贱呐,沒(méi)想到半個(gè)月后丧诺,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,334評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡奄薇,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,550評(píng)論 2 333
  • 正文 我和宋清朗相戀三年驳阎,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片馁蒂。...
    茶點(diǎn)故事閱讀 39,727評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡呵晚,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出沫屡,到底是詐尸還是另有隱情饵隙,我是刑警寧澤,帶...
    沈念sama閱讀 35,428評(píng)論 5 343
  • 正文 年R本政府宣布谁鳍,位于F島的核電站癞季,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏倘潜。R本人自食惡果不足惜绷柒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,022評(píng)論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望涮因。 院中可真熱鬧废睦,春花似錦、人聲如沸养泡。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,672評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)澜掩。三九已至购披,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間肩榕,已是汗流浹背刚陡。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,826評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人筐乳。 一個(gè)月前我還...
    沈念sama閱讀 47,734評(píng)論 2 368
  • 正文 我出身青樓歌殃,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親蝙云。 傳聞我的和親對(duì)象是個(gè)殘疾皇子氓皱,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,619評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容