臺灣大學(xué)林軒田機器學(xué)習(xí)(五)---The Learning Problem

上節(jié)課,我們主要介紹了機器學(xué)習(xí)的可行性瞳抓。首先埃疫,由NFL定理可知,機器學(xué)習(xí)貌似是不可行的孩哑。但是栓霜,隨后引入了統(tǒng)計學(xué)知識,如果樣本數(shù)據(jù)足夠大横蜒,且hypothesis個數(shù)有限胳蛮,那么機器學(xué)習(xí)一般就是可行的。本節(jié)課將討論機器學(xué)習(xí)的核心問題丛晌,嚴格證明為什么機器可以學(xué)習(xí)仅炊。從上節(jié)課最后的問題出發(fā),即當(dāng)hypothesis的個數(shù)是無限多的時候澎蛛,機器學(xué)習(xí)的可行性是否仍然成立抚垄?

一、Recap and Preview

我們先來看一下基于統(tǒng)計學(xué)的機器學(xué)習(xí)流程圖:


image.png

該流程圖中谋逻,訓(xùn)練樣本D和最終測試h的樣本都是來自同一個數(shù)據(jù)分布呆馁,這是機器能夠?qū)W習(xí)的前提。另外毁兆,訓(xùn)練樣本D應(yīng)該足夠大浙滤,且hypothesis set的個數(shù)是有限的,這樣根據(jù)霍夫丁不等式气堕,才不會出現(xiàn)Bad Data纺腊,保證Ein≈Eout,即有很好的泛化能力送巡。同時摹菠,通過訓(xùn)練,得到使Ein最小的h骗爆,作為模型最終的矩g次氨,g接近于目標函數(shù)。

這里摘投,我們總結(jié)一下前四節(jié)課的主要內(nèi)容:第一節(jié)課煮寡,我們介紹了機器學(xué)習(xí)的定義虹蓄,目標是找出最好的矩g,使g≈f幸撕,保證Eout(g)≈0薇组;第二節(jié)課,我們介紹了如何讓Ein≈0坐儿,可以使用PLA律胀、pocket等演算法來實現(xiàn);第三節(jié)課貌矿,我們介紹了機器學(xué)習(xí)的分類炭菌,我們的訓(xùn)練樣本是批量數(shù)據(jù)(batch),處理監(jiān)督式(supervised)二元分類(binary classification)問題逛漫;第四節(jié)課黑低,我們介紹了機器學(xué)習(xí)的可行性,通過統(tǒng)計學(xué)知識酌毡,把Ein(g)與Eout(g)聯(lián)系起來克握,證明了在一些條件假設(shè)下,Ein(g)≈Eout(g)成立枷踏。


image.png

這四節(jié)課總結(jié)下來菩暗,我們把機器學(xué)習(xí)的主要目標分成兩個核心的問題:

  • Ein(g)≈Eout(g)
  • Ein(g)足夠小

上節(jié)課介紹的機器學(xué)習(xí)可行的一個條件是hypothesis set的個數(shù)M是有限的,那M跟上面這兩個核心問題有什么聯(lián)系呢呕寝?

我們先來看一下勋眯,當(dāng)M很小的時候,由上節(jié)課介紹的霍夫丁不等式下梢,得到Ein(g)≈Eout(g)客蹋,即能保證第一個核心問題成立。但M很小時孽江,演算法A可以選擇的hypothesis有限讶坯,不一定能找到使Ein(g)足夠小的hypothesis,即不能保證第二個核心問題成立岗屏。當(dāng)M很大的時候辆琅,同樣由霍夫丁不等式,Ein(g)與Eout(g)的差距可能比較大这刷,第一個核心問題可能不成立婉烟。而M很大,使的演算法A的可以選擇的hypothesis就很多暇屋,很有可能找到一個hypothesis似袁,使Ein(g)足夠小,第二個核心問題可能成立。

image.png

從上面的分析來看昙衅,M的選擇直接影響機器學(xué)習(xí)兩個核心問題是否滿足扬霜,M不能太大也不能太小。那么如果M無限大的時候而涉,是否機器就不可以學(xué)習(xí)了呢著瓶?例如PLA算法中直線是無數(shù)條的,但是PLA能夠很好地進行機器學(xué)習(xí)啼县,這又是為什么呢材原?如果我們能將無限大的M限定在一個有限的mH內(nèi),問題似乎就解決了季眷。

二华糖、Effective Number of Line

我們先看一下上節(jié)課推導(dǎo)的霍夫丁不等式:

P[|Ein(g)?Eout(g)|>?]≤2?M?exp(?2?2N)
其中,M表示hypothesis的個數(shù)瘟裸。每個hypothesis下的BAD events Bm級聯(lián)的形式滿足下列不等式:

P[B1 or B2 or ?BM]≤P[B1]+P[B2]+?+P[BM]
當(dāng)M=∞時,上面不等式右邊值將會很大惰蜜,似乎說明BAD events很大荒辕,Ein(g)與Eout(g)也并不接近搀军。但是BAD events Bm級聯(lián)的形式實際上是擴大了上界,union bound過大沙郭。這種做法假設(shè)各個hypothesis之間沒有交集,這是最壞的情況裳朋,可是實際上往往不是如此病线,很多情況下,都是有交集的鲤嫡,也就是說M實際上沒那么大送挑,如下圖所示:

image.png

也就是說union bound被估計過高了(over-estimating)。所以暖眼,我們的目的是找出不同BAD events之間的重疊部分惕耕,也就是將無數(shù)個hypothesis分成有限個類別。

如何將無數(shù)個hypothesis分成有限類呢诫肠?我們先來看這樣一個例子司澎,假如平面上用直線將點分開,也就跟PLA一樣栋豫。如果平面上只有一個點x1挤安,那么直線的種類有兩種:一種將x1劃為+1,一種將x1劃為-1:


image.png

如果平面上有兩個點x1丧鸯、x2蛤铜,那么直線的種類共4種:x1、x2都為+1,x1昂羡、x2都為-1絮记,x1為+1且x2為-1,x1為-1且x2為+1:


image.png

如果平面上有三個點x1虐先、x2怨愤、x3,那么直線的種類共8種:
image.png

但是蛹批,在三個點的情況下撰洗,也會出現(xiàn)不能用一條直線劃分的情況:


image.png

也就是說,對于平面上三個點腐芍,不能保證所有的8個類別都能被一條直線劃分差导。那如果是四個點x1、x2猪勇、x3设褐、x4,我們發(fā)現(xiàn)泣刹,平面上找不到一條直線能將四個點組成的16個類別完全分開助析,最多只能分開其中的14類,即直線最多只有14種:
image.png

經(jīng)過分析椅您,我們得到平面上線的種類是有限的外冀,1個點最多有2種線,2個點最多有4種線掀泳,3個點最多有8種線雪隧,4個點最多有14(<24)種線等等。我們發(fā)現(xiàn)员舵,有效直線的數(shù)量總是滿足≤2N脑沿,其中,N是點的個數(shù)固灵。所以捅伤,如果我們可以用effective(N)代替M,霍夫丁不等式可以寫成:

P[|Ein(g)?Eout(g)|>?]≤2?effective(N)?exp(?2?2N)
已知effective(N)<2N巫玻,如果能夠保證effective(N)<<2N丛忆,即不等式右邊接近于零,那么即使M無限大仍秤,直線的種類也很有限熄诡,機器學(xué)習(xí)也是可能的。

image.png

三诗力、Effective Number of Hypotheses

接下來先介紹一個新名詞:二分類(dichotomy)凰浮。dichotomy就是將空間中的點(例如二維平面)用一條直線分成正類(藍色o)和負類(紅色x)我抠。令H是將平面上的點用直線分開的所有hypothesis h的集合,dichotomy H與hypotheses H的關(guān)系是:hypotheses H是平面上所有直線的集合袜茧,個數(shù)可能是無限個菜拓,而dichotomy H是平面上能將點完全用直線分開的直線種類,它的上界是2N笛厦。接下來纳鼎,我們要做的就是嘗試用dichotomy代替M。


image.png

再介紹一個新的名詞:成長函數(shù)(growth function)裳凸,記為mH(H)贱鄙。成長函數(shù)的定義是:對于由N個點組成的不同集合中,某集合對應(yīng)的dichotomy最大姨谷,那么這個dichotomy值就是mH(H)逗宁,它的上界是2N:


image.png

成長函數(shù)其實就是我們之前講的effective lines的數(shù)量最大值。根據(jù)成長函數(shù)的定義梦湘,二維平面上瞎颗,mH(H)隨N的變化關(guān)系是:
image.png

接下來,我們討論如何計算成長函數(shù)捌议。先看一個簡單情況言缤,一維的Positive Rays:

這里寫圖片描述

若有N個點,則整個區(qū)域可分為N+1段禁灼,很容易得到其成長函數(shù)<nobr style="font-family: "WenQuanYi Micro Hei Mono", "WenQuanYi Micro Hei", "Microsoft Yahei Mono", "Microsoft Yahei", sans-serif, Simsun !important; box-sizing: border-box;">mH(N)=N+1</nobr>。注意當(dāng)N很大時轿曙,<nobr style="font-family: "WenQuanYi Micro Hei Mono", "WenQuanYi Micro Hei", "Microsoft Yahei Mono", "Microsoft Yahei", sans-serif, Simsun !important; box-sizing: border-box;">(N+1)<<2N</nobr>弄捕,這是我們希望看到的。

另一種情況是一維的Positive Intervals:


image.png

若有N個點导帝,則整個區(qū)域可分為N+1段守谓,很容易得到其成長函數(shù)mH(N)=N+1。注意當(dāng)N很大時您单,(N+1)<<2N斋荞,這是我們希望看到的。

另一種情況是一維的Positive Intervals:


image.png

[圖片上傳中...(image.png-a6600a-1518362672206-0)]
它的成長函數(shù)可以由下面推導(dǎo)得出:


image.png

這種情況下虐秦,mH(N)=12N2+12N+1<<2N平酿,在N很大的時候,仍然是滿足的悦陋。

再來看這個例子蜈彼,假設(shè)在二維空間里,如果hypothesis是凸多邊形或類圓構(gòu)成的封閉曲線俺驶,如下圖所示幸逆,左邊是convex的,右邊不是convex的。那么还绘,它的成長函數(shù)是多少呢楚昭?


image.png

當(dāng)數(shù)據(jù)集D按照如下的凸分布時,我們很容易計算得到它的成長函數(shù)mH=2N拍顷。這種情況下抚太,N個點所有可能的分類情況都能夠被hypotheses set覆蓋,我們把這種情形稱為shattered菇怀。也就是說凭舶,如果能夠找到一個數(shù)據(jù)分布集,hypotheses set對N個輸入所有的分類情況都做得到爱沟,那么它的成長函數(shù)就是2N帅霜。


image.png

四、Break Point

上一小節(jié)呼伸,我們介紹了四種不同的成長函數(shù)身冀,分別是:


image.png

其中,positive rays和positive intervals的成長函數(shù)都是polynomial的括享,如果用mH代替M的話搂根,這兩種情況是比較好的。而convex sets的成長函數(shù)是exponential的铃辖,即等于M剩愧,并不能保證機器學(xué)習(xí)的可行性。那么娇斩,對于2D perceptrons仁卷,它的成長函數(shù)究竟是polynomial的還是exponential的呢?

對于2D perceptrons犬第,我們之前分析了3個點锦积,可以做出8種所有的dichotomy,而4個點歉嗓,就無法做出所有16個點的dichotomy了丰介。所以,我們就把4稱為2D perceptrons的break point(5鉴分、6哮幢、7等都是break point)。令有k個點志珍,如果k大于等于break point時家浇,它的成長函數(shù)一定小于2的k次方。

根據(jù)break point的定義碴裙,我們知道滿足mH(k)≠2k的k的最小值就是break point钢悲。對于我們之前介紹的四種成長函數(shù)点额,他們的break point分別是:


image.png

通過觀察,我們猜測成長函數(shù)可能與break point存在某種關(guān)系:對于convex sets莺琳,沒有break point还棱,它的成長函數(shù)是2的N次方;對于positive rays惭等,break point k=2珍手,它的成長函數(shù)是O(N);對于positive intervals辞做,break point k=3琳要,它的成長函數(shù)是O(N2)。則根據(jù)這種推論秤茅,我們猜測2D perceptrons稚补,它的成長函數(shù)mH(N)=O(Nk?1) 。如果成立框喳,那么就可以用mH代替M课幕,就滿足了機器能夠?qū)W習(xí)的條件。關(guān)于上述猜測的證明五垮,我們下節(jié)課再詳細介紹乍惊。

五、總結(jié)

本節(jié)課放仗,我們更深入地探討了機器學(xué)習(xí)的可行性润绎。我們把機器學(xué)習(xí)拆分為兩個核心問題:Ein(g)≈Eout(g)和Ein(g)≈0。對于第一個問題诞挨,我們探討了M個hypothesis到底可以劃分為多少種凡橱,也就是成長函數(shù)mH。并引入了break point的概念亭姥,給出了break point的計算方法。下節(jié)課顾稀,我們將詳細論證對于2D perceptrons达罗,它的成長函數(shù)與break point是否存在多項式的關(guān)系,如果是這樣静秆,那么機器學(xué)習(xí)就是可行的粮揉。

注明:

文章中所有的圖片均來自臺灣大學(xué)林軒田《機器學(xué)習(xí)基石》課程。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末抚笔,一起剝皮案震驚了整個濱河市扶认,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌殊橙,老刑警劉巖辐宾,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件狱从,死亡現(xiàn)場離奇詭異,居然都是意外死亡叠纹,警方通過查閱死者的電腦和手機季研,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來誉察,“玉大人与涡,你說我怎么就攤上這事〕制” “怎么了驼卖?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長鸿秆。 經(jīng)常有香客問我酌畜,道長,這世上最難降的妖魔是什么谬莹? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任檩奠,我火速辦了婚禮,結(jié)果婚禮上附帽,老公的妹妹穿的比我還像新娘埠戳。我一直安慰自己,他們只是感情好蕉扮,可當(dāng)我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布整胃。 她就那樣靜靜地躺著,像睡著了一般喳钟。 火紅的嫁衣襯著肌膚如雪屁使。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天奔则,我揣著相機與錄音蛮寂,去河邊找鬼。 笑死易茬,一個胖子當(dāng)著我的面吹牛酬蹋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播抽莱,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼范抓,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了食铐?” 一聲冷哼從身側(cè)響起匕垫,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎虐呻,沒想到半個月后象泵,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體寞秃,經(jīng)...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年单芜,在試婚紗的時候發(fā)現(xiàn)自己被綠了蜕该。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡洲鸠,死狀恐怖堂淡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情扒腕,我是刑警寧澤绢淀,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站瘾腰,受9級特大地震影響皆的,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蹋盆,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一费薄、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧栖雾,春花似錦楞抡、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至账胧,卻和暖如春竞慢,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背治泥。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工筹煮, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人居夹。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓败潦,卻偏偏與公主長得像,于是被迫代替她去往敵國和親吮播。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內(nèi)容