《機器學(xué)習(xí)基石》學(xué)習(xí)筆記<4>

When Can Machines Learn? ——part4

按例放上學(xué)習(xí)進(jìn)度:D

Roadmap

一亚兄、Learning is impossible呢蔫?

先從一個例子思考問題抖剿,給你6張圖片的資料瓢娜,你可以預(yù)測第7張屬于1還是-1嘛醇滥?


答案顯然是有很多種的黎比,比如,它是屬于+1的鸳玩,因為+1的都是對稱阅虫;
你也可以說它的屬于-1的,因為-1的圖形左上角第一個格子都是黑的不跟;
emmmm……
這……
對的颓帝,根本無法知道哪個才是想要的f.
再來看一個數(shù)學(xué)一點的例子:
現(xiàn)在給你5個資料,要你預(yù)測其他3個資料:P

在給的資料D里面窝革,g完全可以接近f购城,但是,在資料外呢?
有很多種可能虐译,根本不知道哪個才是想要的瘪板,也就是說,無法判斷g是不是靠近f的漆诽。然而侮攀,機器學(xué)習(xí)是想知道現(xiàn)有資料外的事,已經(jīng)有結(jié)果的事為啥還要預(yù)測厢拭,我們想要知道的是未知的事兰英。
這……
emmmm……
無法做到D以外的g接近f,這種特性稱為No Free Lunch(NFL)定理
這個定理告訴我們蚪腐,關(guān)于某某學(xué)習(xí)算法可以在任何領(lǐng)域總是perfect是最準(zhǔn)確的學(xué)習(xí)器箭昵,那是不存在的
解決方案是回季,利用統(tǒng)計學(xué)的一些假設(shè)家制,加上一些假設(shè)正林,問題似乎變得可以解決了呢:D

二、Probability to the rescue

先從一個球球問題來看:
現(xiàn)在有一個罐子里面放了一些球球颤殴,有橙色的和綠色的觅廓,球球超級多,你能預(yù)測出橙色球球的比例嘛涵但?



統(tǒng)計學(xué)給了一個解決方案杈绸,我先抓一把球球樣本,樣本orange比例為v,green就是1-v矮瘟。
現(xiàn)在假設(shè)罐子里的全部球球orange比例為u,那么green就是1-u瞳脓。
現(xiàn)在思考樣本可以代表罐子里的全部球球嘛?


當(dāng)然不可以!
v不等于u,比如澈侠,今天你歐氣爆滿劫侧,抓的全是green,那你可以說全部的球球都是green的嘛?顯然是不可以的:D
但是哨啃,在數(shù)學(xué)角度烧栋,概率角度來說,v是接近u的拳球!
下面用數(shù)學(xué)的方法來證明:


數(shù)學(xué)上有個Hoeffding's Inequality(霍夫丁不等式可以證明這個問題):
設(shè)樣本中的orange比例為v
罐子里的orange比例為u
樣本大小為N
根據(jù)Hoeffding Inequality可以發(fā)現(xiàn)审姓,只要N足夠大(ps:exp()的意思是e的幾次方,看式子就知道N越大祝峻,總體越心隆),v是與u接近的莱找。
只要樣本的數(shù)量足夠大画畅,樣本的比例是接近于罐子的比例的
它們之間的差值在?之內(nèi)宋距。
我們把'v=u'這種結(jié)論稱為Probably Approximately Correct (PLA)

這里需要說明一些特性:

  • Hoeffding適用于所有的N和?
  • 從上面的不等式可以看出症脂,與u無關(guān)谚赎,即我們不需要知道u
  • 只要有足夠大的N或者足夠?qū)捤傻牟钪?,我們很可能可以得到v接近于u
    總之诱篷,如果N足夠大壶唤,我們是可以通過已知的v去推斷出u的

三棕所、Connection to learning

前面證明了球球的例子里v是可以推斷出u的闸盔,那么如果把球球的例子轉(zhuǎn)化到我們機器學(xué)習(xí)算法呢?

與學(xué)習(xí)算法的關(guān)系

映射關(guān)系:

  • orange比例(或者說概吧:D)=>固定的某條h=f
  • 每個球球 => x,罐子=>X
  • orange => h is wrong
  • green => h is right
  • N 個樣本 => 訓(xùn)練樣本D(就是喂給機器的資料D)

結(jié)論:如果N足夠大,且xn獨立同分布琳省,我們就可以從v推斷出u!

所以呢迎吵,現(xiàn)在我們的算法流程增加了一些部分:

  • 從H中取一個固定h
  • D(訓(xùn)練樣本)是從X來的躲撰,同時也用x去測驗h會不會接近f
  • 用Eout(h)來代表我們不知道的那個東西,即f(或者說前面提到的罐子的所所有球球中orange的概率u)
  • 用Ein(h)來代表N個樣本(即D)中的出錯率(或者說前面提到的橙色球球的概率v)


與v,u相同击费,對任何固定的h,將Eout(h)拢蛋,Ein(h)代入Hoeffding's Inequality中也是成立的。
和之前的球球問題一樣蔫巩,也具有如下特性:

  • Hoeffding適用于所有的N和?
  • 因為不取決于Eout(h)谆棱,所以我們不需要知道Eout(h),f和P都可以未知
  • Ein(h)= Eout(h)是PAC的

還有一個問題需要考慮,上面的證明都是針對一個固定的h的圆仔,現(xiàn)在我們已經(jīng)可以確定對任何一個固定的h,當(dāng)樣本數(shù)據(jù)足夠大垃瞧,Ein(h)是接近Eout(h)的,那么,這樣就可以證明機器會學(xué)習(xí)了(g接近f)嘛?


當(dāng)A選擇了這個固定的h作為g時坪郭,上面的句子是成立的;
但是如果A是強制性選擇這個固定的h的个从,即A不考慮別的h就選這個fixed h時,上面的句子是錯誤的。因為截粗,說不定別的h更加優(yōu)秀(Ein(h)接近于0)信姓。所以,一般會通過A選擇最好的h绸罗,使Ein(h)足夠小意推,從而保證Eout(h)很小。固定的h珊蟀,使用新數(shù)據(jù)進(jìn)行測試菊值,驗證其錯誤率是多少。

流程如圖:

四育灸、Connection to real learning

現(xiàn)在有很多個h,其中有一個正好全部正確腻窒,那么,可以認(rèn)為罐子里的都是green嘛磅崭?


不行儿子!
從扔硬幣的例子也可以看出,當(dāng)選擇多了以后砸喻,會惡化BAD sample,也就是說柔逼,Ein和Eout的差值很大。最簡單的扔硬幣的例子割岛,雖然可能有的人扔了10次都是正面愉适,但是我們不能說正面的概率就是1,概率還是0.5癣漆。這個例子中10次就足以造成BAD sample.

  • BAD sample: Ein 和Eout的差值很大
  • BAD Data for One h:Eout(h)和Ein(h)差值很大维咸,比如,Eout很大,離f很遠(yuǎn)癌蓖,但是瞬哼,Ein很小(樣本出錯很少费坊,可是最后結(jié)果還是很差倒槐,這時候該怪樣本)

關(guān)于這部分再添加一些解釋好了:D

  • 比如150個人每個人扔5次硬幣,至少一個人5次都是正面朝上的概率是大于99%的附井,但是讨越,單從一個人來看澎蛛,這個概率是1/32. => BAD D
  • 比如我今天來扔個硬幣砾省,扔了5次,全是正面朝上鹰椒,這樣看起來好像正面朝上的概率是1沼死,但是其實還是1/2,Ein和Eout差值太大了 =>BAD sample
  • 所以區(qū)別是着逐,比較的預(yù)期不一樣,BAD sample是說和yn不一樣意蛀,BAD D是直接和f(x)不一樣了耸别,前者是樣本里的,后者就是整體的了县钥。

根據(jù)許多次抽樣的到的不同的D秀姐,Hoeffding’s Inequality保證了大多數(shù)的D都是比較好的(即對于某個h,保證Ein≈Eout)若贮,但是也有可能出現(xiàn)BAD D(比如前面提到的150個人扔硬幣的例子省有,有一個人5次全是正面朝上在個人來看概率是很小的,1/32谴麦,機器對于這個固定的h,選擇了它蠢沿,但是它在整體來看是>99%的,是一個BAD D),這就是為什么說小概率事件在選擇多的情況下概率會變大匾效,惡化結(jié)果舷蟀。

  • 不同的D,對于不同的h面哼,有可能成為BAD D
  • 只要Dn在某個h上是BAD 雪侥,那么Dn就是BAD
  • 只有當(dāng)Dn在所有的h上都是好的,才說明Dn不是BAD精绎,可以自由選擇A進(jìn)行建模

M是h的個數(shù),N是樣本D的數(shù)量锌妻,?是參數(shù)代乃。
用Hoeffding和union bound可以推出:對于任意D,它是某些h的BAD D的概率為P,推導(dǎo)可得P與N成正比,與M成反比,即,M越小搁吓,N越大時原茅,我們越可以放心地在H中選擇錯誤率最小的h作為想要的g.

如果h的個數(shù)M是有限的,N足夠大堕仔,那么通過A任意選擇一個g擂橘,都有Ein≈Eout成立
如果找到一個g,使Ein≈0摩骨,PAC就能保證Eout≈0通贞。

這樣,就證明了機器學(xué)習(xí)是可行的恼五。


至此昌罩,我們現(xiàn)在證明了一個問題,即開篇講到的灾馒,如果是預(yù)測資料外的事茎用,結(jié)果那么多種,我怎么知道哪個才是想要的睬罗,現(xiàn)在我們有了一些假設(shè)條件轨功,那就是我們假設(shè)有Ein和Eout,是對出錯率的一種評估,現(xiàn)在只要我們選擇Ein最小的容达,就可以推出Eout(就是那個未知的東西的出錯率)也是最小的古涧,那么,此時的g就可以認(rèn)為是最優(yōu)秀的董饰,最接近于f的蒿褂。

但是,如上面的學(xué)習(xí)流程圖右下角所示卒暂,如果M是無數(shù)個啄栓,例如之前介紹的PLA直線有無數(shù)條,是否這些推論就不成立了呢也祠?(之后會處理:D)

五昙楚、Summary

summary

總結(jié):

  • 從一個圖片和二進(jìn)制例子告訴我們NFL定理,告訴我們ML無法做到g完全等于f
  • 對于一個固定的h,用Hoeffding不等式引出Ein,Eout,證明了對于一個固定的h,當(dāng)N足夠大時诈嘿,Ein≈Eout是PAC的
  • 對于multi-h情況下堪旧,用Hoeffding和union bound證明了只要M(h的個數(shù))是有限的,且N足夠大奖亚,Ein≈Eout是PAC的
  • 最后淳梦,就證明了ML是可行的。

以上:D
注明:以上圖片都來自Cousera臺大林軒田老師的《機器學(xué)習(xí)基石》哦 QwQ

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末昔字,一起剝皮案震驚了整個濱河市爆袍,隨后出現(xiàn)的幾起案子首繁,更是在濱河造成了極大的恐慌,老刑警劉巖陨囊,帶你破解...
    沈念sama閱讀 222,807評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件弦疮,死亡現(xiàn)場離奇詭異,居然都是意外死亡蜘醋,警方通過查閱死者的電腦和手機胁塞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,284評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來压语,“玉大人啸罢,你說我怎么就攤上這事∥薹洌” “怎么了伺糠?”我有些...
    開封第一講書人閱讀 169,589評論 0 363
  • 文/不壞的土叔 我叫張陵,是天一觀的道長斥季。 經(jīng)常有香客問我训桶,道長,這世上最難降的妖魔是什么酣倾? 我笑而不...
    開封第一講書人閱讀 60,188評論 1 300
  • 正文 為了忘掉前任舵揭,我火速辦了婚禮,結(jié)果婚禮上躁锡,老公的妹妹穿的比我還像新娘午绳。我一直安慰自己,他們只是感情好映之,可當(dāng)我...
    茶點故事閱讀 69,185評論 6 398
  • 文/花漫 我一把揭開白布拦焚。 她就那樣靜靜地躺著,像睡著了一般杠输。 火紅的嫁衣襯著肌膚如雪赎败。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,785評論 1 314
  • 那天蠢甲,我揣著相機與錄音僵刮,去河邊找鬼。 笑死鹦牛,一個胖子當(dāng)著我的面吹牛搞糕,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播曼追,決...
    沈念sama閱讀 41,220評論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼窍仰,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了礼殊?” 一聲冷哼從身側(cè)響起辈赋,我...
    開封第一講書人閱讀 40,167評論 0 277
  • 序言:老撾萬榮一對情侶失蹤鲫忍,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后钥屈,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,698評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡坝辫,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,767評論 3 343
  • 正文 我和宋清朗相戀三年篷就,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片近忙。...
    茶點故事閱讀 40,912評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡竭业,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出及舍,到底是詐尸還是另有隱情未辆,我是刑警寧澤,帶...
    沈念sama閱讀 36,572評論 5 351
  • 正文 年R本政府宣布锯玛,位于F島的核電站咐柜,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏攘残。R本人自食惡果不足惜拙友,卻給世界環(huán)境...
    茶點故事閱讀 42,254評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望歼郭。 院中可真熱鬧遗契,春花似錦、人聲如沸病曾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,746評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽泰涂。三九已至鲫竞,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間负敏,已是汗流浹背贡茅。 一陣腳步聲響...
    開封第一講書人閱讀 33,859評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留其做,地道東北人顶考。 一個月前我還...
    沈念sama閱讀 49,359評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像妖泄,于是被迫代替她去往敵國和親驹沿。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,922評論 2 361

推薦閱讀更多精彩內(nèi)容

  • 上節(jié)課蹈胡,我們主要介紹了根據(jù)不同的設(shè)定渊季,機器學(xué)習(xí)可以分為不同的類型朋蔫。其中,監(jiān)督式學(xué)習(xí)中的二元分類和回歸分析是最常見的...
    紅色石頭Will閱讀 1,020評論 4 1
  • 一年級語文上冊生字表 生字表一(共400字) 啊(ā)愛(ài)安(ān)岸(àn)爸(bà)八(bā)巴(bā)...
    meychang閱讀 2,808評論 0 6
  • 十九歲 天空還有飛鳥 青春還有夢想 情話還寫在紙上 糖果盒里還有七色時光 她們指著我的照片說 那時的你笑的真好 我...
    時光不惜流年閱讀 200評論 3 2
  • 都說一場秋雨一場寒却汉。算算時日驯妄,已是立冬好幾天了,因為挪集的緣故合砂,我們?nèi)嘘牭母鐐兦嗳樱F(xiàn)在已經(jīng)上班一個...
    王王梓晗閱讀 241評論 0 3
  • 時鐘滴答滴答,敲打著歲月的節(jié)拍翩伪。盼望著微猖,新的一年又來了。有幸作為主持人的我全程參與了公司2015元旦晚會的籌備與舉...
    韋艾米閱讀 306評論 0 1