連載 | 機器學(xué)習(xí)基石 Lec 7:VC Dimension 及其“哲學(xué)”含義

Lec 7:The VC Dimension

tips:符號含義主要參照lec 1踪蹬,部分需要參照其他lec

上一節(jié)介紹了機器學(xué)習(xí)可行性的重要理論保障VC Bound骇两,基于此污尉,這節(jié)將介紹VC Dimension.


1胯甩、Definition of VC Dimension

上一節(jié)講到上限函數(shù)B(N枪孩,k)的最高次項是k的N - 1次方蝶防。

這里將B(N甚侣,k)與k的N-1次方做部分比較:

可以看出N的k-1次方已經(jīng)比B(N,k)大了间学,實際上我們可以用N的k-1次方bound住B(N殷费,k),可以簡化bound:

所以bad data的概率上限現(xiàn)在可以更加簡化低葫,不過详羡,要加上上面的條件N≥2 && k≥3:

小summary: H存在k并且N足夠大時,可以保證Eout ≈ Ein嘿悬,所以這時候當(dāng)A選擇一個Ein小的h作為g就probably learned(當(dāng)然也是需要一點luck的)实柠!

下面進入本節(jié)的重點,先給出VC Dimension 的定義善涨。很簡單窒盐,VC Dimension就是最大的那個非break-point草则。

稍正式點的定義:表示為dvc(H),為 largest N for which mH(N)= 2的N次方

vc dimension 是H的一個性質(zhì)蟹漓,還可以從下面兩點看待炕横,一是dvc就是H可以shatter的最大inputs數(shù)量;二是dvc = min(k) - 1.

結(jié)合上面的內(nèi)容葡粒,成長函數(shù)的上限又可以表示為:

所以dvc有限就可以說H是good份殿!有限的dvc就可以保障 Eout(g)≈ Ein(g).

2、Perceptrons Revisited

已知2D的Perceptrons的dvc=3嗽交,當(dāng)N足夠大時卿嘲,learning可行!那當(dāng)更一般化的轮纫、更高維的PLA會怎樣呢腔寡?

回顧一下,1D的PLA的dvc = 2掌唾;2D的PLA的dvc = 3. 猜測:dvc = d + 1放前??糯彬?恩凭语,猜對了,哈哈哈撩扒,這里先給出結(jié)論再給出證明似扔。

證明這個結(jié)論可以從兩方面證明:一方面dvc ≥ d + 1;一方面 dvc ≤ d + 1

1)dvc ≥ d + 1

這一條代表什么搓谆?就是可以找出能夠被shatter的d + 1 個inputs .

這里用一組特別的input炒辉,用矩陣表示,此矩陣存在反矩陣泉手;y也用矩陣表示黔寇,y表示任意的二元組合。能夠shatter就表示對于任意的y都能得到sign(Xw)= y .顯然可以斩萌,所以成立缝裤。

2)dvc ≤ d + 1

這一條代表對于“任意”d+2維的inputs都不能shatter.

先看簡單的例子 2D PLA. x4 可以被x1 x2 x3的線性組合表示,所以x1 x2 x3的正負確定后颊郎,x4的正負也就確定了憋飞!下圖中x4 必然是正的。這里基本可以得出一個結(jié)論:線性依賴(linear dependence)關(guān)系限制了dichotomy的最大kind數(shù)量姆吭!

更一般的情況榛做,X矩陣有d+2個rows、d+1個columns.row>col,所以會有線性依賴检眯。前d+1個確定則d+2個自然就確定了升敲,所以自然不能shatter!所以結(jié)論成立轰传。

所以 dvc = d + 1.線性依賴限制了dichotomy的kind數(shù)量~

3驴党、Degree of Freedom

dvc = d + 1,d是perceptron的維度获茬,每個w對應(yīng)一個h港庄,w =(w0,w2,w3,...恕曲,wd)鹏氧,dvc代表的是有效的binary分類的自由度(就像調(diào)節(jié)按鈕的調(diào)節(jié)范圍)。自由度也代表了H的powerfulness(就是H能夠做多少事情)佩谣。

在實際中把还,通常dvc ≈ 可以調(diào)節(jié)的參數(shù)的個數(shù)(but not always)

回想一下關(guān)于M的trade off,現(xiàn)在同樣dvc有一樣的問題(這是自然的茸俭,因為我們千辛萬苦用N的dvc次方取代了M):

所以吊履,使用合適大小的dvc是很重要的。

這一節(jié)的fun time有點意思调鬓,這里提一下:

答案是2.這里林老師的目的并不是讓我們?nèi)プC明艇炎,而是這樣理解:w0已經(jīng)固定,則可以調(diào)節(jié)的自由度就少了1個腾窝,則dvc是d +1-1.

4缀踪、進一步了解dvc的意義

回顧一下vc bound

vc bound限制了發(fā)生bad data 的概率,則good 的概率是 1 - δ虹脯。good即|Ein(g)- Eout(g)|≤ ε.經(jīng)過下面的計算可以得到ε的表達式驴娃。

見下圖,所以循集,Eout和Ein的差異的大小與dvc是有關(guān)的唇敞。gen是generalization的縮寫。我們通常只需要關(guān)注右側(cè)的bound就好了暇榴,左側(cè)灰色在此可忽略厚棵。dvc大自由度高蕉世,但是需要付出更大的代價 ε. 右側(cè)用Ω(N蔼紧,H,δ) 表示狠轻,稱為model complexity( 模型復(fù)雜度)奸例,這里的model可以理解為H.

根據(jù)上圖中Eout和Ein的關(guān)系,我們要給出一個非常非常重要的圖!2榈酢谐区!

dvc ↑:Ein ↓(有更多機會找到好的g);但是Ω ↑ 逻卖;

dvc ↓:Ω ↓ 宋列,但是 Ein ↑

通常最好的dvc在中間位置。

從這張圖可以看出H并不是越powerful越好的评也!(太powerful就會overfiting炼杖,后面章節(jié)介紹)

之前我們只是想著把Ein變小,其實我們還要考慮需要付出的代價盗迟!

一直說需要足夠多的data坤邪,那N是多少合適呢?根據(jù)vc bound 式子以及需求大致可以計算出需要的N的大小罚缕。理論上艇纺,我們需要 N = 10000 * dvc,太多了太難找到這么多data了邮弹。實際中 10 * dvc的data often enough 黔衡!

why?

因為vc bound 很寬松(looseness)腌乡,寬松的來源是什么员帮?四點:

1)霍夫丁對任意分布的data以及f都適用;

2)mH(N)成長函數(shù)是采樣出的any data 對應(yīng)的dichotomy的最大值导饲;

3)用N的dvc次方是成長函數(shù)的上限的上限的上限捞高,我們只用一個值dvc去計算上限,可以忽略H的細節(jié)渣锦;

4)union bound是考慮了最壞的情況硝岗;

其實一路推導(dǎo)都很寬松,所以理論和實際差了很多袋毙。

講了這么多型檀,其實最重要的并不是它的理論部分,而是明白vc bound里面的“哲學(xué)”(都在最后一張圖里了)听盖。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末胀溺,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子皆看,更是在濱河造成了極大的恐慌仓坞,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件腰吟,死亡現(xiàn)場離奇詭異无埃,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進店門嫉称,熙熙樓的掌柜王于貴愁眉苦臉地迎上來侦镇,“玉大人,你說我怎么就攤上這事织阅】欠保” “怎么了?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵荔棉,是天一觀的道長氮趋。 經(jīng)常有香客問我,道長江耀,這世上最難降的妖魔是什么剩胁? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮祥国,結(jié)果婚禮上昵观,老公的妹妹穿的比我還像新娘。我一直安慰自己舌稀,他們只是感情好啊犬,可當(dāng)我...
    茶點故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著壁查,像睡著了一般觉至。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上睡腿,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天语御,我揣著相機與錄音,去河邊找鬼席怪。 笑死应闯,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的挂捻。 我是一名探鬼主播碉纺,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼刻撒!你這毒婦竟也來了骨田?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤声怔,失蹤者是張志新(化名)和其女友劉穎态贤,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體捧搞,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡抵卫,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了胎撇。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片介粘。...
    茶點故事閱讀 40,115評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖晚树,靈堂內(nèi)的尸體忽然破棺而出姻采,到底是詐尸還是另有隱情,我是刑警寧澤爵憎,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布慨亲,位于F島的核電站,受9級特大地震影響宝鼓,放射性物質(zhì)發(fā)生泄漏刑棵。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一愚铡、第九天 我趴在偏房一處隱蔽的房頂上張望蛉签。 院中可真熱鬧,春花似錦沥寥、人聲如沸碍舍。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽片橡。三九已至,卻和暖如春淮野,著一層夾襖步出監(jiān)牢的瞬間捧书,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工骤星, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鳄厌,地道東北人。 一個月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓妈踊,卻偏偏與公主長得像了嚎,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子廊营,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,055評論 2 355

推薦閱讀更多精彩內(nèi)容