NTU林軒田機(jī)器學(xué)習(xí)基石課程學(xué)習(xí)筆記4 -- Feasibility of Learning

上節(jié)課橄浓，我們主要介紹了根據(jù)不同的設(shè)定吠谢，機(jī)器學(xué)習(xí)可以分為不同的類型。其中唯袄，監(jiān)督式學(xué)習(xí)中的二元分類和回歸分析是最常見的也是最重要的機(jī)器學(xué)習(xí)問題弯屈。本節(jié)課，我們將介紹機(jī)器學(xué)習(xí)的可行性恋拷，討論問題是否可以使用機(jī)器學(xué)習(xí)來解決资厉。

一、Learning is Impossible

首先蔬顾，考慮這樣一個例子宴偿，如下圖所示湘捎，有3個label為-1的九宮格和3個label為+1的九宮格。根據(jù)這6個樣本窄刘，提取相應(yīng)label下的特征窥妇，預(yù)測右邊九宮格是屬于-1還是+1？結(jié)果是娩践，如果依據(jù)對稱性活翩，我們會把它歸為+1；如果依據(jù)九宮格左上角是否是黑色翻伺，我們會把它歸為-1材泄。除此之外，還有根據(jù)其它不同特征進(jìn)行分類吨岭，得到不同結(jié)果的情況拉宗。而且，這些分類結(jié)果貌似都是正確合理的辣辫，因為對于6個訓(xùn)練樣本來說旦事，我們選擇的模型都有很好的分類效果。

再來看一個比較數(shù)學(xué)化的二分類例子络它，輸入特征x是二進(jìn)制的族檬、三維的，對應(yīng)有8種輸入化戳，其中訓(xùn)練樣本D有5個单料。那么，根據(jù)訓(xùn)練樣本對應(yīng)的輸出y点楼，假設(shè)有8個hypothesis扫尖，這8個hypothesis在D上，對5個訓(xùn)練樣本的分類效果效果都完全正確掠廓。但是在另外3個測試數(shù)據(jù)上换怖，不同的hypothesis表現(xiàn)有好有壞。在已知數(shù)據(jù)D上蟀瞧，g≈f沉颂；但是在D以外的未知數(shù)據(jù)上，g≈f不一定成立悦污。而機(jī)器學(xué)習(xí)目的铸屉，恰恰是希望我們選擇的模型能在未知數(shù)據(jù)上的預(yù)測與真實結(jié)果是一致的，而不是在已知的數(shù)據(jù)集D上尋求最佳效果切端。

這個例子告訴我們彻坛，我們想要在D以外的數(shù)據(jù)中更接近目標(biāo)函數(shù)似乎是做不到的，只能保證對D有很好的分類結(jié)果。機(jī)器學(xué)習(xí)的這種特性被稱為沒有免費午餐（No Free Lunch）定理昌屉。NFL定理表明沒有一個學(xué)習(xí)算法可以在任何領(lǐng)域總是產(chǎn)生最準(zhǔn)確的學(xué)習(xí)器钙蒙。不管采用何種學(xué)習(xí)算法，至少存在一個目標(biāo)函數(shù)间驮，能夠使得隨機(jī)猜測算法是更好的算法躬厌。平常所說的一個學(xué)習(xí)算法比另一個算法更“優(yōu)越”，效果更好竞帽，只是針對特定的問題烤咧，特定的先驗信息，數(shù)據(jù)的分布抢呆，訓(xùn)練樣本的數(shù)目，代價或獎勵函數(shù)等笛谦。從這個例子來看抱虐，NFL說明了無法保證一個機(jī)器學(xué)習(xí)算法在D以外的數(shù)據(jù)集上一定能分類或預(yù)測正確，除非加上一些假設(shè)條件饥脑，我們以后會介紹恳邀。

二、Probability to the Rescue

從上一節(jié)得出的結(jié)論是：在訓(xùn)練集D以外的樣本上灶轰，機(jī)器學(xué)習(xí)的模型是很難谣沸，似乎做不到正確預(yù)測或分類的。那是否有一些工具或者方法能夠?qū)ξ粗哪繕?biāo)函數(shù)f做一些推論笋颤，讓我們的機(jī)器學(xué)習(xí)模型能夠變得有用呢乳附？

如果有一個裝有很多（數(shù)量很大數(shù)不過來）橙色球和綠色球的罐子，我們能不能推斷橙色球的比例u伴澄？統(tǒng)計學(xué)上的做法是赋除，從罐子中隨機(jī)取出N個球，作為樣本非凌，計算這N個球中橙色球的比例v举农，那么就估計出罐子中橙色球的比例約為v。

這種隨機(jī)抽取的做法能否說明罐子里橙色球的比例一定是v呢敞嗡？答案是否定的颁糟。但是從概率的角度來說，樣本中的v很有可能接近我們未知的u喉悴。下面從數(shù)學(xué)推導(dǎo)的角度來看v與u是否相近棱貌。

已知u是罐子里橙色球的比例，v是N個抽取的樣本中橙色球的比例粥惧。當(dāng)N足夠大的時候键畴，v接近于u。這就是Hoeffding’s inequality：

Hoeffding不等式說明當(dāng)N很大的時候，v與u相差不會很大起惕，它們之間的差值被限定在?之內(nèi)涡贱。我們把結(jié)論v=u稱為probably approximately correct(PAC)。

三惹想、Connection to Learning

下面问词，我們將罐子的內(nèi)容對應(yīng)到機(jī)器學(xué)習(xí)的概念上來。機(jī)器學(xué)習(xí)中hypothesis與目標(biāo)函數(shù)相等的可能性嘀粱，類比于罐子中橙色球的概率問題激挪；罐子里的一顆顆彈珠類比于機(jī)器學(xué)習(xí)樣本空間的x；橙色的彈珠類比于h(x)與f不相等锋叨；綠色的彈珠類比于h(x)與f相等垄分；從罐子中抽取的N個球類比于機(jī)器學(xué)習(xí)的訓(xùn)練樣本D，且這兩種抽樣的樣本與總體樣本之間都是獨立同分布的娃磺。所以呢薄湿，如果樣本N夠大，且是獨立同分布的偷卧，那么豺瘤，從樣本中h(x)≠f(x)的概率就能推導(dǎo)在抽樣樣本外的所有樣本中h(x)≠f(x)的概率是多少。

映射中最關(guān)鍵的點是講抽樣中橙球的概率理解為樣本數(shù)據(jù)集D上h(x)錯誤的概率听诸，以此推算出在所有數(shù)據(jù)上h(x)錯誤的概率坐求，這也是機(jī)器學(xué)習(xí)能夠工作的本質(zhì)，即我們?yōu)樯对诓蓸訑?shù)據(jù)上得到了一個假設(shè)晌梨，就可以推到全局呢桥嗤？因為兩者的錯誤率是PAC的，只要我們保證前者小派任，后者也就小了砸逊。

這里我們引入兩個值Ein(h)和Eout(h)。Ein(h)表示在抽樣樣本中掌逛，h(x)與yn不相等的概率师逸；Eout(h)表示實際所有樣本中，h(x)與f(x)不相等的概率是多少豆混。

同樣篓像，它的Hoeffding’s inequality可以表示為：

該不等式表明，Ein(h)=Eout(h)也是PAC的皿伺。如果Ein(h)≈Eout(h)员辩，Ein(h)很小，那么就能推斷出Eout(h)很小鸵鸥，也就是說在該數(shù)據(jù)分布P下奠滑，h與f非常接近丹皱，機(jī)器學(xué)習(xí)的模型比較準(zhǔn)確。

一般地宋税，h如果是固定的摊崭，N很大的時候，Ein(h)≈Eout(h)杰赛，但是并不意味著g≈f呢簸。因為h是固定的，不能保證Ein(h)足夠小乏屯，即使Ein(h)≈Eout(h)根时，也可能使Eout(h)偏大。所以辰晕，一般會通過演算法A蛤迎，選擇最好的h，使Ein(h)足夠小含友，從而保證Eout(h)很小忘苛。固定的h，使用新數(shù)據(jù)進(jìn)行測試唱较，驗證其錯誤率是多少。

四召川、Connection to Real Learning

假設(shè)現(xiàn)在有很多罐子M個（即有M個hypothesis）南缓，如果其中某個罐子抽樣的球全是綠色，那是不是應(yīng)該選擇這個罐子呢荧呐？我們先來看這樣一個例子：150個人拋硬幣汉形，那么其中至少有一個人連續(xù)5次硬幣都是正面朝上的概率是

可見這個概率是很大的，但是能否說明5次正面朝上的這個硬幣具有代表性呢倍阐？答案是否定的概疆！并不能說明該硬幣單次正面朝上的概率很大，其實都是0.5峰搪。一樣的道理岔冀，抽到全是綠色求的時候也不能一定說明那個罐子就全是綠色球。當(dāng)罐子數(shù)目很多或者拋硬幣的人數(shù)很多的時候概耻，可能引發(fā)Bad Sample使套，Bad Sample就是Ein和Eout差別很大，即選擇過多帶來的負(fù)面影響鞠柄，選擇過多會惡化不好的情形侦高。

根據(jù)許多次抽樣的到的不同的數(shù)據(jù)集D，Hoeffding’s inequality保證了大多數(shù)的D都是比較好的情形（即對于某個h厌杜，保證Ein≈Eout）奉呛，但是也有可能出現(xiàn)Bad Data，即Ein和Eout差別很大的數(shù)據(jù)集D，這是小概率事件瞧壮。

也就是說登馒，不同的數(shù)據(jù)集Dn，對于不同的hypothesis馁痴，有可能成為Bad Data谊娇。只要Dn在某個hypothesis上是Bad Data，那么Dn就是Bad Data罗晕。只有當(dāng)Dn在所有的hypothesis上都是好的數(shù)據(jù)济欢，才說明Dn不是Bad Data，可以自由選擇演算法A進(jìn)行建模小渊。那么法褥，根據(jù)Hoeffding’s inequality，Bad Data的上界可以表示為連級（union bound）的形式：

其中酬屉，M是hypothesis的個數(shù)半等，N是樣本D的數(shù)量，?是參數(shù)呐萨。該union bound表明杀饵，當(dāng)M有限，且N足夠大的時候谬擦，Bad Data出現(xiàn)的概率就更低了切距，即能保證D對于所有的h都有Ein≈Eout，滿足PAC惨远，演算法A的選擇不受限制谜悟。那么滿足這種union bound的情況，我們就可以和之前一樣北秽，選取一個合理的演算法（PLA/pocket）葡幸，選擇使Ein最小的hm作為矩g，一般能夠保證g≈f贺氓，即有不錯的泛化能力蔚叨。

所以，如果hypothesis的個數(shù)M是有限的辙培，N足夠大缅叠，那么通過演算法A任意選擇一個矩g，都有Ein≈Eout成立虏冻；同時肤粱，如果找到一個矩g，使Ein≈0厨相，PAC就能保證Eout≈0领曼。至此鸥鹉，就證明了機(jī)器學(xué)習(xí)是可行的。

但是庶骄，如上面的學(xué)習(xí)流程圖右下角所示毁渗，如果M是無數(shù)個，例如之前介紹的PLA直線有無數(shù)條单刁，是否這些推論就不成立了呢灸异？是否機(jī)器就不能進(jìn)行學(xué)習(xí)呢？這些內(nèi)容和問題羔飞，我們下節(jié)課再介紹肺樟。

五、總結(jié)

本節(jié)課主要介紹了機(jī)器學(xué)習(xí)的可行性逻淌。首先引入NFL定理么伯，說明機(jī)器學(xué)習(xí)無法找到一個矩g能夠完全和目標(biāo)函數(shù)f一樣。接著介紹了可以采用一些統(tǒng)計上的假設(shè)卡儒，例如Hoeffding不等式田柔，建立Ein和Eout的聯(lián)系，證明對于某個h骨望，當(dāng)N足夠大的時候硬爆，Ein和Eout是PAC的。最后擎鸠，對于h個數(shù)很多的情況摆屯，只要有h個數(shù)M是有限的，且N足夠大糠亩，就能保證Ein≈Eout，證明機(jī)器學(xué)習(xí)是可行的准验。

原文CSDN博客地址：

NTU林軒田機(jī)器學(xué)習(xí)基石課程學(xué)習(xí)筆記4 -- Feasibility of Learning

注明：

文章中所有的圖片均來自NTU林軒田《機(jī)器學(xué)習(xí)基石》課程赎线。

最后編輯于：2017.12.08 03:11:21

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市糊饱，隨后出現(xiàn)的幾起案子垂寥，更是在濱河造成了極大的恐慌，老刑警劉巖另锋，帶你破解...
沈念sama閱讀 218,941評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件滞项，死亡現(xiàn)場離奇詭異，居然都是意外死亡夭坪，警方通過查閱死者的電腦和手機(jī)文判，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,397評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來室梅，“玉大人戏仓，你說我怎么就攤上這事疚宇。” “怎么了赏殃？”我有些...
開封第一講書人閱讀 165,345評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵敷待，是天一觀的道長。經(jīng)常有香客問我仁热，道長榜揖，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,851評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任抗蠢，我火速辦了婚禮举哟，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘物蝙。我一直安慰自己炎滞，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,868評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布诬乞。她就那樣靜靜地躺著册赛，像睡著了一般。火紅的嫁衣襯著肌膚如雪震嫉。梳的紋絲不亂的頭發(fā)上森瘪，一...
開封第一講書人閱讀 51,688評論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音票堵，去河邊找鬼扼睬。笑死，一個胖子當(dāng)著我的面吹牛悴势，可吹牛的內(nèi)容都是我干的窗宇。我是一名探鬼主播，決...
沈念sama閱讀 40,414評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼特纤，長吁一口氣：“原來是場噩夢啊……” “哼军俊！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起捧存，我...
開封第一講書人閱讀 39,319評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤粪躬，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后昔穴，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體镰官，經(jīng)...
沈念sama閱讀 45,775評論 1贊 315
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年吗货，在試婚紗的時候發(fā)現(xiàn)自己被綠了泳唠。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,096評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡宙搬，死狀恐怖警检，靈堂內(nèi)的尸體忽然破棺而出孙援，到底是詐尸還是另有隱情，我是刑警寧澤扇雕，帶...
沈念sama閱讀 35,789評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布拓售，位于F島的核電站，受9級特大地震影響镶奉，放射性物質(zhì)發(fā)生泄漏础淤。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,437評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧奏甫，春花似錦、人聲如沸玻侥。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,993評論 0贊 22
一樁弒父案亿蒸，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽凑兰。三九已至，卻和暖如春边锁，著一層夾襖步出監(jiān)牢的瞬間姑食，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,107評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工茅坛，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留音半，地道東北人。一個月前我還...
沈念sama閱讀 48,308評論 3贊 372
代替公主和親
正文我出身青樓贡蓖，卻偏偏與公主長得像曹鸠，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子斥铺，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,037評論 2贊 355

NTU林軒田機(jī)器學(xué)習(xí)基石課程學(xué)習(xí)筆記4 -- Feasibility of Learning

推薦閱讀更多精彩內(nèi)容