這一節(jié)主要講了overfitting, 主要來(lái)源自noise劈愚, 而noise來(lái)源主要有二: 其一是數(shù)據(jù)本身帶有noise瞳遍, 其二是模型本身的hypothesis set在擬合復(fù)雜的target function的noise(這部分應(yīng)該是模型設(shè)計(jì)所導(dǎo)致的,因?yàn)楦唠A不能擬合高階菌羽, 所以設(shè)計(jì)的高階能力有限吧掠械, 不能達(dá)到f)
-
illustration。解釋了什么是過(guò)擬合注祖, 如用4階的line去擬合5個(gè)帶noise的點(diǎn)猾蒂, Ein = 0, 但是Eout就很大了是晨。 Overfitting有兩層含義: 一層是針對(duì)兩個(gè)模型而言肚菠, 如3階的模型與4階的模型比較(4階的過(guò)擬合); 另外一層含義是針對(duì)同個(gè)模型而言罩缴,如在神經(jīng)網(wǎng)絡(luò)中蚊逢, 訓(xùn)練過(guò)度也會(huì)導(dǎo)致過(guò)擬合, 并且泛化誤差大箫章, 就是Ein在不斷下降烙荷, 而Eout卻不,一個(gè)技巧是使用early stopping檬寂。
-
下面是對(duì)overfitting下定義终抽。 簡(jiǎn)單來(lái)說(shuō), 就是去擬合noise了。
case study昼伴。 為了說(shuō)明noise的來(lái)源匾旭, 做了兩個(gè)case: 一個(gè)的數(shù)據(jù)樣本是10階的數(shù)據(jù)點(diǎn)+noise; 另外一個(gè)是50階的數(shù)據(jù)點(diǎn)(沒(méi)有noise)亩码。我們用了兩個(gè)模型來(lái)擬合它: 一個(gè)是2階的模型季率, 另外一個(gè)是10階的模型。 按理來(lái)說(shuō)描沟, 應(yīng)該有這樣的感覺(jué)飒泻, 我們已經(jīng)知道了是10階的模型產(chǎn)生的數(shù)據(jù), 那么我們用10階去擬合吏廉, 應(yīng)該結(jié)果會(huì)很好吧泞遗; 另外一個(gè)是50階的數(shù)據(jù), 案例說(shuō)10階至少會(huì)比2階的好吧席覆。 而事實(shí)卻不是這樣的史辙。我們看到10階的Ein都非常小, 但是Eout卻十分的大佩伤!
-
再次從Ein和Eout的關(guān)系來(lái)看擬合的例子1. H2的模型能力比H10的模型能力差聊倔, 所以Expected Error肯定大些。 隨著數(shù)據(jù)點(diǎn)增多生巡, Ein變多耙蔑, Eout一開始比較大, 然后逐漸降低逼近Ein孤荣, 但是會(huì)保持比Ein高的水平甸陌。 H10的分析如之前。
-
對(duì)于例子2來(lái)說(shuō)盐股, 真的是沒(méi)有noise嗎钱豁? 雖然輸入點(diǎn)x似乎沒(méi)有noise。
-
case1. 為了做分析疯汁,我們有如下的notation牲尺, \sigma^2是noise的水平(case 1), Qf目標(biāo)函數(shù)的復(fù)雜度(case 2)幌蚊; 并且秸谢, 我們比較Eout(10) - Eout(2)。
Result霹肝。我們將結(jié)果通過(guò)color plot的形式呈現(xiàn)出來(lái), 左圖是X方差的影響塑煎, 右圖是target function復(fù)雜度的影響沫换。 \sigma^2稱為隨機(jī)noise, 因?yàn)樗鼈兪菬o(wú)法衡量的并且隨數(shù)據(jù)集固定了,是所有的模型都要面臨的讯赏; Qf產(chǎn)生的誤差稱之為確定性noise垮兑, 因?yàn)楫?dāng)你確定了一個(gè)模型, 這個(gè)確定性noise也就確定了(稍后解釋)漱挎。 我們看到系枪, 隨著數(shù)據(jù)點(diǎn)N的增多, overfitting在減小磕谅, 而隨著隨機(jī)noise的增多私爷, overfitting在增大(我們有更大的可能性是在擬合noise?)膊夹; 而隨著確定性noise的增大衬浑, overfitting的問(wèn)題也在增大(這是模型本身確定的了)。
-
接下來(lái)詳細(xì)解釋確定性noise放刨。 確定性noise定義為我們最終確定的h*(x)與f(x)之間的差異工秩。 之所以稱為noise可以這樣理解, 你讓一個(gè)只懂得實(shí)數(shù)的小男孩給你列舉出一個(gè)復(fù)數(shù)的例子进统, 這顯然超出了它的能力助币, 于是他竭盡全力也只能說(shuō)1.32323(等等), 復(fù)數(shù)對(duì)它來(lái)說(shuō)就是noise螟碎, 強(qiáng)人所難的noise眉菱。 確定性noise與隨機(jī)noise主要有兩個(gè)區(qū)別: 一是它依賴于假設(shè)空間, 假設(shè)空間的能力決定了確定性noise抚芦; 而是一旦x確定倍谜, 那么確定性noise也就確定了。 對(duì)于隨機(jī)noise來(lái)說(shuō)叉抡,它對(duì)所有的假設(shè)空間來(lái)說(shuō)都是一樣的尔崔, 另外是對(duì)于一個(gè)確定的x, 它也可能是不一樣的褥民。 那么季春, 如何確定確定性noise呢, 答案是無(wú)法確定消返, 但是有一點(diǎn)是可以肯定的是對(duì)于有限的數(shù)據(jù)點(diǎn)载弄, H是在擬合noise的。
-
接下來(lái)從bias variance角度來(lái)解釋noise撵颊。 推導(dǎo)過(guò)程如lecture 8. 最終我們看到Eout = var + 確定性誤差(模型能有多逼近f(x)) + 隨機(jī)誤差(x本身)宇攻。
-
如何解決overfitting呢, 一個(gè)是regularization(剎車)倡勇, 一個(gè)是validation(守住底線)逞刷, 這是接下來(lái)兩節(jié)的主題。