概念學(xué)習(xí)
許多機(jī)器學(xué)習(xí)問(wèn)題涉及從特殊訓(xùn)練樣例中得到一般概念惕鼓。比如人們不斷學(xué)習(xí)的一些一般概念和類別则剃。每個(gè)概念可被看作一個(gè)對(duì)象或事件集合翅萤,它是從更大的集合中選取的子集(如從動(dòng)物的集合中選取鳥(niǎo)類)汗菜,或者是在這個(gè)較大集合中定義的布爾函數(shù)(如在動(dòng)物集合中定義的函數(shù)添诉,它對(duì)鳥(niǎo)類返回true梢褐,對(duì)其他動(dòng)物返回false)旺遮。
小孩理解一個(gè)詞義的例子
考慮一個(gè)小孩子理解“狗”這個(gè)詞的意義。假設(shè)當(dāng)小孩的父母指著一個(gè)動(dòng)物對(duì)他說(shuō)盈咳,“這是一只狗”耿眉,這是給出了概念的正例。而當(dāng)小孩子看到一只貓時(shí)說(shuō)鱼响,“這是一只狗”時(shí)鸣剪,他父母會(huì)糾正他說(shuō),“這是一只貓丈积,不是一只狗”筐骇,這是在主動(dòng)學(xué)習(xí)過(guò)程中給出負(fù)例的情形。心理研究表明江滨,人在學(xué)習(xí)概念時(shí)往往只是來(lái)源于正例數(shù)據(jù)铛纬。
理解一個(gè)詞的含義等同于概念學(xué)習(xí),同時(shí)也等同于二元分類唬滑。即當(dāng)輸入數(shù)據(jù)時(shí)一個(gè)概念的樣例時(shí)告唆,定義f(x)=1;否則f(x)=0晶密。
理解概念學(xué)習(xí)
逆概問(wèn)題
所謂的貝葉斯方法源于他生前為解決一個(gè)“逆概”問(wèn)題寫的一篇文章擒悬,而這篇文章是在他死后才由他的一位朋友發(fā)表出來(lái)的。在貝葉斯寫這篇文章之前惹挟,人們已經(jīng)能夠計(jì)算“正向概率”茄螃,如“假設(shè)袋子里面有N個(gè)白球,M個(gè)黑球连锯,你伸手進(jìn)去摸一把归苍,摸出黑球的概率是多大”用狱。而一個(gè)自然而然的問(wèn)題是反過(guò)來(lái):“如果我們事先并不知道袋子里面黑白球的比例,而是閉著眼睛摸出一個(gè)(或好幾個(gè))球拼弃,觀察這些取出來(lái)的球的顏色之后夏伊,那么我們可以就此對(duì)袋子里面的黑白球的比例作出什么樣的推測(cè)”。這個(gè)問(wèn)題吻氧,就是所謂的逆概問(wèn)題溺忧。
貝葉斯是機(jī)器學(xué)習(xí)的核心方法之一。這背后的深刻原因在于盯孙,現(xiàn)實(shí)世界本身就是不確定的鲁森,人類的觀察能力是有局限性的,我們?nèi)粘K^察到的只是事物表面上的結(jié)果振惰,沿用剛才那個(gè)袋子里面取球的比方歌溉,我們往往只能知道從里面取出來(lái)的球是什么顏色,而并不能直接看到袋子里面實(shí)際的情況骑晶。這個(gè)時(shí)候痛垛,我們就需要提供一個(gè)假設(shè)(hypothesis)。所謂假設(shè)桶蛔,當(dāng)然就是不確定的(可能是有限個(gè)匙头,也可能是無(wú)限多種),為了確定哪個(gè)假設(shè)是正確的仔雷,我們需要做兩件事情:1蹂析、算出各種不同猜測(cè)的可能性大小。2碟婆、算出最靠譜的猜測(cè)是什么识窿。第一個(gè)就是計(jì)算特定猜測(cè)的后驗(yàn)概率(Posterior),對(duì)于連續(xù)的猜測(cè)空間則是計(jì)算猜測(cè)的概率密度函數(shù)脑融。第二個(gè)則是所謂的模型比較,模型比較如果不考慮先驗(yàn)概率(Prior)的話就是最大似然方法缩宜。
猜數(shù)字游戲(The Number Game)
問(wèn)題描述
游戲規(guī)則是這樣的肘迎,我首先選取了一個(gè)數(shù)字規(guī)律的概念C(也可以說(shuō)是規(guī)則,比如介于1到10的數(shù)字锻煌、距離20很近的數(shù)字等)妓布,然后根據(jù)符合C的數(shù)據(jù),隨機(jī)選取一部分宋梧,最后給定一些測(cè)試數(shù)據(jù)匣沼,讓你將符合這個(gè)概念C的數(shù)據(jù)分類出來(lái)。
分析
現(xiàn)在假設(shè)所有數(shù)字都是從1到100中選取的整數(shù)捂龄。
如果現(xiàn)在告訴你释涛,16是一個(gè)未知概念C的正例加叁,那請(qǐng)問(wèn)你什么數(shù)字還符合這個(gè)概念C呢?
你會(huì)感覺(jué)所有的假設(shè)都太過(guò)模糊唇撬,不太可能它匕。比如17可以看做是離16很近的概念的正例;6也有可能窖认,因?yàn)樗鼈兌加幸粋€(gè)數(shù)字6豫柬;再如32,它們都是2的冪次扑浸;以此的假設(shè)太多了烧给。
現(xiàn)在,如果我再告訴你喝噪,8础嫡、2和64也都是正例數(shù)據(jù),你會(huì)很自然的猜測(cè)這個(gè)隱含的概念是“2的冪次”仙逻,那么為什么會(huì)這樣呢驰吓?為什么我們的假設(shè)不是“所有偶數(shù)”,或者“除去32的所有2的冪次”系奉?這些假設(shè)也都符合給出的數(shù)據(jù)資料檬贰,為什么我們直覺(jué)上會(huì)認(rèn)為是“2的冪次”呢?我們會(huì)從貝葉斯的角度解釋這件事情缺亮。
貝葉斯角度的解釋
接著上面的說(shuō)翁涤,我們現(xiàn)在要解釋為什么我們選擇“2的冪次”這個(gè)假設(shè),而不是“所有偶數(shù)”這個(gè)假設(shè)萌踱,雖然現(xiàn)在這兩個(gè)假設(shè)都符合給定的數(shù)據(jù)葵礼,但是怎么樣才能避免可疑的巧合情況造成的估計(jì)錯(cuò)誤呢?
這里并鸵,我們將問(wèn)題公式化鸳粉,我們假設(shè)樣本是從數(shù)據(jù)集中均勻隨機(jī)選取的,這樣從N個(gè)數(shù)據(jù)中采樣的概率p(D|h)如下园担。
由于在1到100區(qū)間里届谈,“2的冪次”的數(shù)據(jù)集D={2,4,8,16,32,64};而“所有偶數(shù)”的數(shù)據(jù)集D={2,4,6,8,...,98,100},所以弯汰,從“2的冪次”采樣的概率要遠(yuǎn)比從“所有偶數(shù)”的數(shù)據(jù)集采樣的概率大艰山。故由{16,8,2,64}數(shù)據(jù)得出“所有偶數(shù)”這個(gè)假設(shè)就很有可能只是一個(gè)巧合。
下面簡(jiǎn)要介紹了似然度咏闪、先驗(yàn)概率和后驗(yàn)概率:
后驗(yàn)概率
根據(jù)貝葉斯公式曙搬,我們看到后驗(yàn)概率要結(jié)合先驗(yàn)概率和似然度。這里看到雖然“powers of 2,plus 37”和“powers of 2,except 32”有很大的似然度,但是先驗(yàn)概率很小纵装,導(dǎo)致最終的后驗(yàn)概率很小征讲,這種反常概念的低的先驗(yàn)概率可以避免對(duì)數(shù)據(jù)的過(guò)擬合。
后驗(yàn)預(yù)測(cè)分布
將所有可能的后驗(yàn)概率p(h|D)進(jìn)行加權(quán)得到了后驗(yàn)預(yù)測(cè)分布搂擦。
參考資料
機(jī)器學(xué)習(xí)稳诚,Tom M. Mitchell
Machine Learning: A Probabilistic Perspective, Kevin P. Murphy
數(shù)學(xué)之美番外篇:平凡而又神奇的貝葉斯方法
轉(zhuǎn)載請(qǐng)注明作者Jason Ding及其出處
Github主頁(yè)(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡(jiǎn)書主頁(yè)(http://www.reibang.com/users/2bd9b48f6ea8/latest_articles)