連載 | 機(jī)器學(xué)習(xí)基石 Lec 4: Machine Learning的可行性 & 霍夫丁不等式

Lec 4:Feasibility of Learning

上一章中我們介紹了各種各樣的機(jī)器學(xué)習(xí),本門課的著重點(diǎn)是binary classification or regression from a batch of supervised data with concrete features.

這一章(實(shí)際還要加上接下來(lái)的Lec6和7)介紹機(jī)器學(xué)習(xí)是不是可行的筋量?湖苞!這是個(gè)有趣的問(wèn)題(^_^)機(jī)器學(xué)習(xí)當(dāng)前如此熱門拯欧,答案當(dāng)然是可行的,但你不一定知道它為什么可行2乒恰镐作?個(gè)人認(rèn)為藏姐,機(jī)器學(xué)習(xí)的可行性問(wèn)題,或者說(shuō)是理論保障该贾,是設(shè)計(jì)機(jī)器學(xué)習(xí)算法以及techniques的根本出發(fā)點(diǎn)羔杨!

Tips:符號(hào)含義請(qǐng)參照Lec1


1,Learning is impossible杨蛋?

第一節(jié)的幾個(gè)小栗子告訴我們兜材,我們從已知的data(D)中學(xué)到的完美的g很可能會(huì)不適用于未知的data(outside D),而預(yù)測(cè)未來(lái)的data又是機(jī)器學(xué)習(xí)的目的逞力。那么機(jī)器學(xué)習(xí)是不是不可行呢护姆?

2注祖、Inferring something unknown & 霍夫丁不等式

我們可以想一想有沒(méi)有推測(cè)未知事情的場(chǎng)景熊泵?袖外!學(xué)過(guò)概率論的一定都接觸過(guò)忿等。舉一個(gè)具體的例子:有一個(gè)裝了很多很多橘色和綠色彈珠的罐子舔涎,我們知道橘色占的比例嗎褒墨?不知道敬肚。但是我們可以推測(cè)(infer)橘色占的比例嗎菜循?可以捅膘!這類問(wèn)題在統(tǒng)計(jì)學(xué)中很常見(jiàn)添祸。如何infer?

假設(shè)橘色罐子中的實(shí)際比例是?μ寻仗。?獨(dú)立隨機(jī)抽取樣本sample刃泌,在sample中橘色比例是v,則綠色比例是1-v署尤。統(tǒng)計(jì)學(xué)中耙替,in-sample 的vout-of-sample的μ大部分時(shí)候是接近的。抽取sample的大小用N表示曹体。

這件事情在數(shù)學(xué)中的描述是:

這個(gè)不等式的含義是俗扇,當(dāng)N很大時(shí),v和μ相差ε(誤差范圍)的概率很小箕别,這就是著名的“霍夫丁不等式”Hoeffding‘s Inequality铜幽。我們說(shuō)“v = μ”這個(gè)式子是probably approximately correct(PAC),大概差不多是對(duì)的串稀。

關(guān)于霍夫丁不等式:

1)對(duì)任意N和ε都成立除抛;

2)不需要知道 μ;

3)當(dāng)N larger母截、looser gap ε(較大的容忍度)到忽,那么 v ≈ μ的概率會(huì)higher;

因此微酬,如果sample夠大的話绘趋,我們可以通過(guò)v infer μ(概率論知識(shí))颤陶。

這個(gè)不等式十分重要~個(gè)人認(rèn)為它是機(jī)器學(xué)習(xí)最基本的理論保障~

3、Connection to learning

上一節(jié)中關(guān)于彈珠和概率等等的介紹和機(jī)器學(xué)習(xí)有什么關(guān)系呢陷遮?

針對(duì)一個(gè)h滓走,可以把抽到橘色情況看作是wrong,即h(x)≠ f(x)帽馋,對(duì)應(yīng)地綠色代表right搅方,即h(x)= f(x)。那么 μ 就是Eout(h)绽族,v就是Ein(h)姨涡。這樣我們可以通過(guò)已知的Ein推測(cè)未知的 Eout “陕霍夫丁不等式可以寫作

與前面類似涛漂,“Ein(h)= Eout(h)”是PAC。如果Ein(h)≈ Eout(h)并且Ein較小检诗,就能推出Eout(h)較小匈仗,從而推出h≈f,我們可以依據(jù)Ein的大小verify某個(gè)h逢慌。至此悠轩,這些理論只能用來(lái)判斷某個(gè)h的好壞,真正的機(jī)器學(xué)習(xí)還需要用算法A從H中選出一個(gè)“good”h作為g.

4攻泼、Multiple h

上一小節(jié)中對(duì)一個(gè)h進(jìn)行討論得出verify h的準(zhǔn)則火架,這節(jié)考慮一下在很多個(gè)h中做選擇的情況,霍夫丁不等式會(huì)是什么作用忙菠?

抽樣存在很多情況何鸡,難免出現(xiàn)Bad sample(Ein和Eout相差很大的sample)≈桓椋霍夫丁不等式說(shuō)明針對(duì)一個(gè)h出現(xiàn)bad sample的幾率很小音比。但是當(dāng)有很多個(gè)h時(shí),bad data就很可能出現(xiàn)(如課件中拋硬幣的例子)氢惋,當(dāng)bad sample的Ein又很小時(shí),我們作出選擇時(shí)就會(huì)worse情況稽犁。Bad sample也就是Bad Data焰望。

霍夫丁不等式是針對(duì)某個(gè)h成立,它表示對(duì)于一個(gè)h來(lái)說(shuō)已亥,bad data出現(xiàn)的幾率small熊赖。

當(dāng)有很多h時(shí),出現(xiàn)bad data的概率上限可以使用“聯(lián)級(jí)上限”union bound獲得虑椎。M=|H|震鹉,即hypothesis set的size(在下一章Lec5中我們將看到這個(gè)上限實(shí)際上很loose)俱笛。

由上式可以知道:

1)當(dāng)M有限大時(shí),如果N足夠大传趾,A選出的任意g都會(huì)有Eout(g)≈ Ein(g)迎膜,如果Ein(g)≈ 0,Eout(g)≈ 0是PAC的浆兰,學(xué)習(xí)有效磕仅,learning is feasible!

2)But當(dāng)M無(wú)限大時(shí)簸呈,boom榕订!如Perceptrons(注意:這里不是PLA,是Perceptrons蜕便。PLA是算法劫恒,Perceptrons才是H)。接下來(lái)將需要Lec5~Lec7三章內(nèi)容揭秘類似Perceptrons情況的可行性問(wèn)題轿腺。歡迎繼續(xù)學(xué)習(xí)两嘴!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市吃溅,隨后出現(xiàn)的幾起案子溶诞,更是在濱河造成了極大的恐慌,老刑警劉巖决侈,帶你破解...
    沈念sama閱讀 211,639評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件螺垢,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡赖歌,警方通過(guò)查閱死者的電腦和手機(jī)枉圃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)庐冯,“玉大人孽亲,你說(shuō)我怎么就攤上這事≌垢福” “怎么了返劲?”我有些...
    開(kāi)封第一講書人閱讀 157,221評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)栖茉。 經(jīng)常有香客問(wèn)我篮绿,道長(zhǎng),這世上最難降的妖魔是什么吕漂? 我笑而不...
    開(kāi)封第一講書人閱讀 56,474評(píng)論 1 283
  • 正文 為了忘掉前任亲配,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘吼虎。我一直安慰自己犬钢,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布思灰。 她就那樣靜靜地躺著玷犹,像睡著了一般。 火紅的嫁衣襯著肌膚如雪官辈。 梳的紋絲不亂的頭發(fā)上箱舞,一...
    開(kāi)封第一講書人閱讀 49,816評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音拳亿,去河邊找鬼晴股。 笑死,一個(gè)胖子當(dāng)著我的面吹牛肺魁,可吹牛的內(nèi)容都是我干的电湘。 我是一名探鬼主播,決...
    沈念sama閱讀 38,957評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼鹅经,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼寂呛!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起瘾晃,我...
    開(kāi)封第一講書人閱讀 37,718評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤贷痪,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后蹦误,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體劫拢,經(jīng)...
    沈念sama閱讀 44,176評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評(píng)論 2 327
  • 正文 我和宋清朗相戀三年强胰,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了舱沧。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,646評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡偶洋,死狀恐怖熟吏,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情玄窝,我是刑警寧澤牵寺,帶...
    沈念sama閱讀 34,322評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站恩脂,受9級(jí)特大地震影響缸剪,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜东亦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧典阵,春花似錦奋渔、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,755評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至歹啼,卻和暖如春玄渗,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背狸眼。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,987評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工藤树, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人拓萌。 一個(gè)月前我還...
    沈念sama閱讀 46,358評(píng)論 2 360
  • 正文 我出身青樓岁钓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親微王。 傳聞我的和親對(duì)象是個(gè)殘疾皇子屡限,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容