【機(jī)器學(xué)習(xí)中的數(shù)學(xué)】貝葉斯概念學(xué)習(xí)

概念學(xué)習(xí)

許多機(jī)器學(xué)習(xí)問(wèn)題涉及從特殊訓(xùn)練樣例中得到一般概念惕鼓。比如人們不斷學(xué)習(xí)的一些一般概念和類別则剃。每個(gè)概念可被看作一個(gè)對(duì)象或事件集合翅萤，它是從更大的集合中選取的子集（如從動(dòng)物的集合中選取鳥(niǎo)類）汗菜，或者是在這個(gè)較大集合中定義的布爾函數(shù)（如在動(dòng)物集合中定義的函數(shù)添诉，它對(duì)鳥(niǎo)類返回true梢褐，對(duì)其他動(dòng)物返回false）旺遮。

小孩理解一個(gè)詞義的例子

考慮一個(gè)小孩子理解“狗”這個(gè)詞的意義。假設(shè)當(dāng)小孩的父母指著一個(gè)動(dòng)物對(duì)他說(shuō)盈咳，“這是一只狗”耿眉，這是給出了概念的正例。而當(dāng)小孩子看到一只貓時(shí)說(shuō)鱼响，“這是一只狗”時(shí)鸣剪，他父母會(huì)糾正他說(shuō)，“這是一只貓丈积，不是一只狗”筐骇，這是在主動(dòng)學(xué)習(xí)過(guò)程中給出負(fù)例的情形。心理研究表明江滨，人在學(xué)習(xí)概念時(shí)往往只是來(lái)源于正例數(shù)據(jù)铛纬。
理解一個(gè)詞的含義等同于概念學(xué)習(xí)，同時(shí)也等同于二元分類唬滑。即當(dāng)輸入數(shù)據(jù)時(shí)一個(gè)概念的樣例時(shí)告唆，定義f(x)=1；否則f(x)=0晶密。

理解概念學(xué)習(xí)

逆概問(wèn)題

所謂的貝葉斯方法源于他生前為解決一個(gè)“逆概”問(wèn)題寫的一篇文章擒悬，而這篇文章是在他死后才由他的一位朋友發(fā)表出來(lái)的。在貝葉斯寫這篇文章之前惹挟，人們已經(jīng)能夠計(jì)算“正向概率”茄螃，如“假設(shè)袋子里面有N個(gè)白球，M個(gè)黑球连锯，你伸手進(jìn)去摸一把归苍，摸出黑球的概率是多大”用狱。而一個(gè)自然而然的問(wèn)題是反過(guò)來(lái)：“如果我們事先并不知道袋子里面黑白球的比例，而是閉著眼睛摸出一個(gè)（或好幾個(gè)）球拼弃，觀察這些取出來(lái)的球的顏色之后夏伊，那么我們可以就此對(duì)袋子里面的黑白球的比例作出什么樣的推測(cè)”。這個(gè)問(wèn)題吻氧，就是所謂的逆概問(wèn)題溺忧。

貝葉斯是機(jī)器學(xué)習(xí)的核心方法之一。這背后的深刻原因在于盯孙，現(xiàn)實(shí)世界本身就是不確定的鲁森，人類的觀察能力是有局限性的，我們?nèi)粘Ｋ^察到的只是事物表面上的結(jié)果振惰，沿用剛才那個(gè)袋子里面取球的比方歌溉，我們往往只能知道從里面取出來(lái)的球是什么顏色，而并不能直接看到袋子里面實(shí)際的情況骑晶。這個(gè)時(shí)候痛垛，我們就需要提供一個(gè)假設(shè)（hypothesis）。所謂假設(shè)桶蛔，當(dāng)然就是不確定的（可能是有限個(gè)匙头，也可能是無(wú)限多種），為了確定哪個(gè)假設(shè)是正確的仔雷，我們需要做兩件事情：1蹂析、算出各種不同猜測(cè)的可能性大小。2碟婆、算出最靠譜的猜測(cè)是什么识窿。第一個(gè)就是計(jì)算特定猜測(cè)的后驗(yàn)概率（Posterior），對(duì)于連續(xù)的猜測(cè)空間則是計(jì)算猜測(cè)的概率密度函數(shù)脑融。第二個(gè)則是所謂的模型比較，模型比較如果不考慮先驗(yàn)概率（Prior）的話就是最大似然方法缩宜。

猜數(shù)字游戲(The Number Game)

問(wèn)題描述

游戲規(guī)則是這樣的肘迎，我首先選取了一個(gè)數(shù)字規(guī)律的概念C（也可以說(shuō)是規(guī)則，比如介于1到10的數(shù)字锻煌、距離20很近的數(shù)字等）妓布，然后根據(jù)符合C的數(shù)據(jù)，隨機(jī)選取一部分宋梧，最后給定一些測(cè)試數(shù)據(jù)匣沼，讓你將符合這個(gè)概念C的數(shù)據(jù)分類出來(lái)。

分析

現(xiàn)在假設(shè)所有數(shù)字都是從1到100中選取的整數(shù)捂龄。
如果現(xiàn)在告訴你释涛，16是一個(gè)未知概念C的正例加叁，那請(qǐng)問(wèn)你什么數(shù)字還符合這個(gè)概念C呢？
你會(huì)感覺(jué)所有的假設(shè)都太過(guò)模糊唇撬，不太可能它匕。比如17可以看做是離16很近的概念的正例；6也有可能窖认，因?yàn)樗鼈兌加幸粋€(gè)數(shù)字6豫柬；再如32，它們都是2的冪次扑浸；以此的假設(shè)太多了烧给。
現(xiàn)在，如果我再告訴你喝噪，8础嫡、2和64也都是正例數(shù)據(jù)，你會(huì)很自然的猜測(cè)這個(gè)隱含的概念是“2的冪次”仙逻，那么為什么會(huì)這樣呢驰吓？為什么我們的假設(shè)不是“所有偶數(shù)”，或者“除去32的所有2的冪次”系奉？這些假設(shè)也都符合給出的數(shù)據(jù)資料檬贰，為什么我們直覺(jué)上會(huì)認(rèn)為是“2的冪次”呢？我們會(huì)從貝葉斯的角度解釋這件事情缺亮。

$description$

description

貝葉斯角度的解釋

接著上面的說(shuō)翁涤，我們現(xiàn)在要解釋為什么我們選擇“2的冪次”這個(gè)假設(shè)，而不是“所有偶數(shù)”這個(gè)假設(shè)萌踱，雖然現(xiàn)在這兩個(gè)假設(shè)都符合給定的數(shù)據(jù)葵礼，但是怎么樣才能避免可疑的巧合情況造成的估計(jì)錯(cuò)誤呢？
這里并鸵，我們將問(wèn)題公式化鸳粉，我們假設(shè)樣本是從數(shù)據(jù)集中均勻隨機(jī)選取的，這樣從N個(gè)數(shù)據(jù)中采樣的概率p(D|h)如下园担。
由于在1到100區(qū)間里届谈，“2的冪次”的數(shù)據(jù)集D={2,4,8,16,32,64};而“所有偶數(shù)”的數(shù)據(jù)集D={2,4,6,8,...,98,100}，所以弯汰，從“2的冪次”采樣的概率要遠(yuǎn)比從“所有偶數(shù)”的數(shù)據(jù)集采樣的概率大艰山。故由{16,8,2,64}數(shù)據(jù)得出“所有偶數(shù)”這個(gè)假設(shè)就很有可能只是一個(gè)巧合。
下面簡(jiǎn)要介紹了似然度咏闪、先驗(yàn)概率和后驗(yàn)概率：

后驗(yàn)概率

根據(jù)貝葉斯公式曙搬，我們看到后驗(yàn)概率要結(jié)合先驗(yàn)概率和似然度。這里看到雖然“powers of 2,plus 37”和“powers of 2,except 32”有很大的似然度，但是先驗(yàn)概率很小纵装，導(dǎo)致最終的后驗(yàn)概率很小征讲，這種反常概念的低的先驗(yàn)概率可以避免對(duì)數(shù)據(jù)的過(guò)擬合。

后驗(yàn)預(yù)測(cè)分布

將所有可能的后驗(yàn)概率p(h|D)進(jìn)行加權(quán)得到了后驗(yàn)預(yù)測(cè)分布搂擦。

參考資料

機(jī)器學(xué)習(xí)稳诚，Tom M. Mitchell
Machine Learning: A Probabilistic Perspective, Kevin P. Murphy
數(shù)學(xué)之美番外篇：平凡而又神奇的貝葉斯方法

轉(zhuǎn)載請(qǐng)注明作者Jason Ding及其出處
Github主頁(yè)(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡(jiǎn)書主頁(yè)(http://www.reibang.com/users/2bd9b48f6ea8/latest_articles)

最后編輯于：2017.11.27 00:23:04

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市瀑踢，隨后出現(xiàn)的幾起案子扳还，更是在濱河造成了極大的恐慌，老刑警劉巖橱夭，帶你破解...
沈念sama閱讀 216,591評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件氨距，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡棘劣，警方通過(guò)查閱死者的電腦和手機(jī)俏让，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,448評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)茬暇，“玉大人首昔，你說(shuō)我怎么就攤上這事〔谒祝” “怎么了勒奇？”我有些...
開(kāi)封第一講書人閱讀 162,823評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)巧骚。經(jīng)常有香客問(wèn)我赊颠，道長(zhǎng)，這世上最難降的妖魔是什么劈彪？我笑而不...
開(kāi)封第一講書人閱讀 58,204評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任竣蹦，我火速辦了婚禮，結(jié)果婚禮上沧奴，老公的妹妹穿的比我還像新娘痘括。我一直安慰自己，他們只是感情好滔吠，可當(dāng)我...
茶點(diǎn)故事閱讀 67,228評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布远寸。她就那樣靜靜地躺著，像睡著了一般屠凶。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上肆资，一...
開(kāi)封第一講書人閱讀 51,190評(píng)論 1贊 299
城市分裂傳說(shuō)
那天矗愧，我揣著相機(jī)與錄音，去河邊找鬼。笑死唉韭，一個(gè)胖子當(dāng)著我的面吹牛夜涕，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播属愤，決...
沈念sama閱讀 40,078評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼女器，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了住诸？” 一聲冷哼從身側(cè)響起驾胆，我...
開(kāi)封第一講書人閱讀 38,923評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎贱呐，沒(méi)想到半個(gè)月后丧诺，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,334評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡奄薇，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,550評(píng)論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年驳阎，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片馁蒂。...
茶點(diǎn)故事閱讀 39,727評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡呵晚，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出沫屡，到底是詐尸還是另有隱情饵隙，我是刑警寧澤，帶...
沈念sama閱讀 35,428評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布谁鳍，位于F島的核電站癞季，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏倘潜。R本人自食惡果不足惜绷柒，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,022評(píng)論 3贊 326
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望涮因。院中可真熱鬧废睦，春花似錦、人聲如沸养泡。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 31,672評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)澜掩。三九已至购披，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間肩榕，已是汗流浹背刚陡。一陣腳步聲響...
開(kāi)封第一講書人閱讀 32,826評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人筐乳。一個(gè)月前我還...
沈念sama閱讀 47,734評(píng)論 2贊 368
代替公主和親
正文我出身青樓歌殃，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親蝙云。傳聞我的和親對(duì)象是個(gè)殘疾皇子氓皱，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,619評(píng)論 2贊 354