11-Overfitting

這一節(jié)主要講了overfitting, 主要來(lái)源自noise劈愚, 而noise來(lái)源主要有二: 其一是數(shù)據(jù)本身帶有noise瞳遍, 其二是模型本身的hypothesis set在擬合復(fù)雜的target function的noise(這部分應(yīng)該是模型設(shè)計(jì)所導(dǎo)致的,因?yàn)楦唠A不能擬合高階菌羽, 所以設(shè)計(jì)的高階能力有限吧掠械, 不能達(dá)到f)

  • illustration。解釋了什么是過(guò)擬合注祖, 如用4階的line去擬合5個(gè)帶noise的點(diǎn)猾蒂, Ein = 0, 但是Eout就很大了是晨。 Overfitting有兩層含義: 一層是針對(duì)兩個(gè)模型而言肚菠, 如3階的模型與4階的模型比較(4階的過(guò)擬合); 另外一層含義是針對(duì)同個(gè)模型而言罩缴,如在神經(jīng)網(wǎng)絡(luò)中蚊逢, 訓(xùn)練過(guò)度也會(huì)導(dǎo)致過(guò)擬合, 并且泛化誤差大箫章, 就是Ein在不斷下降烙荷, 而Eout卻不,一個(gè)技巧是使用early stopping檬寂。


    illustration

    versus
  • 下面是對(duì)overfitting下定義终抽。 簡(jiǎn)單來(lái)說(shuō), 就是去擬合noise了。


    definition
  • case study昼伴。 為了說(shuō)明noise的來(lái)源匾旭, 做了兩個(gè)case: 一個(gè)的數(shù)據(jù)樣本是10階的數(shù)據(jù)點(diǎn)+noise; 另外一個(gè)是50階的數(shù)據(jù)點(diǎn)(沒(méi)有noise)亩码。我們用了兩個(gè)模型來(lái)擬合它: 一個(gè)是2階的模型季率, 另外一個(gè)是10階的模型。 按理來(lái)說(shuō)描沟, 應(yīng)該有這樣的感覺(jué)飒泻, 我們已經(jīng)知道了是10階的模型產(chǎn)生的數(shù)據(jù), 那么我們用10階去擬合吏廉, 應(yīng)該結(jié)果會(huì)很好吧泞遗; 另外一個(gè)是50階的數(shù)據(jù), 案例說(shuō)10階至少會(huì)比2階的好吧席覆。 而事實(shí)卻不是這樣的史辙。我們看到10階的Ein都非常小, 但是Eout卻十分的大佩伤!

data

fit
  • 再次從Ein和Eout的關(guān)系來(lái)看擬合的例子1. H2的模型能力比H10的模型能力差聊倔, 所以Expected Error肯定大些。 隨著數(shù)據(jù)點(diǎn)增多生巡, Ein變多耙蔑, Eout一開始比較大, 然后逐漸降低逼近Ein孤荣, 但是會(huì)保持比Ein高的水平甸陌。 H10的分析如之前。


    case1
  • 對(duì)于例子2來(lái)說(shuō)盐股, 真的是沒(méi)有noise嗎钱豁? 雖然輸入點(diǎn)x似乎沒(méi)有noise。


    case2
  • case1. 為了做分析疯汁,我們有如下的notation牲尺, \sigma^2是noise的水平(case 1), Qf目標(biāo)函數(shù)的復(fù)雜度(case 2)幌蚊; 并且秸谢, 我們比較Eout(10) - Eout(2)。


    exp1

    exp2
  • Result霹肝。我們將結(jié)果通過(guò)color plot的形式呈現(xiàn)出來(lái), 左圖是X方差的影響塑煎, 右圖是target function復(fù)雜度的影響沫换。 \sigma^2稱為隨機(jī)noise, 因?yàn)樗鼈兪菬o(wú)法衡量的并且隨數(shù)據(jù)集固定了,是所有的模型都要面臨的讯赏; Qf產(chǎn)生的誤差稱之為確定性noise垮兑, 因?yàn)楫?dāng)你確定了一個(gè)模型, 這個(gè)確定性noise也就確定了(稍后解釋)漱挎。 我們看到系枪, 隨著數(shù)據(jù)點(diǎn)N的增多, overfitting在減小磕谅, 而隨著隨機(jī)noise的增多私爷, overfitting在增大(我們有更大的可能性是在擬合noise?)膊夹; 而隨著確定性noise的增大衬浑, overfitting的問(wèn)題也在增大(這是模型本身確定的了)。

res1

res2
  • 接下來(lái)詳細(xì)解釋確定性noise放刨。 確定性noise定義為我們最終確定的h*(x)與f(x)之間的差異工秩。 之所以稱為noise可以這樣理解, 你讓一個(gè)只懂得實(shí)數(shù)的小男孩給你列舉出一個(gè)復(fù)數(shù)的例子进统, 這顯然超出了它的能力助币, 于是他竭盡全力也只能說(shuō)1.32323(等等), 復(fù)數(shù)對(duì)它來(lái)說(shuō)就是noise螟碎, 強(qiáng)人所難的noise眉菱。 確定性noise與隨機(jī)noise主要有兩個(gè)區(qū)別: 一是它依賴于假設(shè)空間, 假設(shè)空間的能力決定了確定性noise抚芦; 而是一旦x確定倍谜, 那么確定性noise也就確定了。 對(duì)于隨機(jī)noise來(lái)說(shuō)叉抡,它對(duì)所有的假設(shè)空間來(lái)說(shuō)都是一樣的尔崔, 另外是對(duì)于一個(gè)確定的x, 它也可能是不一樣的褥民。 那么季春, 如何確定確定性noise呢, 答案是無(wú)法確定消返, 但是有一點(diǎn)是可以肯定的是對(duì)于有限的數(shù)據(jù)點(diǎn)载弄, H是在擬合noise的。


    deter1

    deter2
  • 接下來(lái)從bias variance角度來(lái)解釋noise撵颊。 推導(dǎo)過(guò)程如lecture 8. 最終我們看到Eout = var + 確定性誤差(模型能有多逼近f(x)) + 隨機(jī)誤差(x本身)宇攻。


    bv1

    bv2

    bv3
  • 如何解決overfitting呢, 一個(gè)是regularization(剎車)倡勇, 一個(gè)是validation(守住底線)逞刷, 這是接下來(lái)兩節(jié)的主題。


    cures

    effect
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市夸浅,隨后出現(xiàn)的幾起案子仑最,更是在濱河造成了極大的恐慌,老刑警劉巖帆喇,帶你破解...
    沈念sama閱讀 206,723評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件警医,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡坯钦,警方通過(guò)查閱死者的電腦和手機(jī)预皇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)葫笼,“玉大人深啤,你說(shuō)我怎么就攤上這事÷沸牵” “怎么了溯街?”我有些...
    開封第一講書人閱讀 152,998評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)洋丐。 經(jīng)常有香客問(wèn)我呈昔,道長(zhǎng),這世上最難降的妖魔是什么友绝? 我笑而不...
    開封第一講書人閱讀 55,323評(píng)論 1 279
  • 正文 為了忘掉前任堤尾,我火速辦了婚禮,結(jié)果婚禮上迁客,老公的妹妹穿的比我還像新娘郭宝。我一直安慰自己,他們只是感情好掷漱,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評(píng)論 5 374
  • 文/花漫 我一把揭開白布粘室。 她就那樣靜靜地躺著,像睡著了一般卜范。 火紅的嫁衣襯著肌膚如雪衔统。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,079評(píng)論 1 285
  • 那天海雪,我揣著相機(jī)與錄音锦爵,去河邊找鬼。 笑死奥裸,一個(gè)胖子當(dāng)著我的面吹牛险掀,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播湾宙,決...
    沈念sama閱讀 38,389評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼迷郑,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼枝恋!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起嗡害,我...
    開封第一講書人閱讀 37,019評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎畦攘,沒(méi)想到半個(gè)月后霸妹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,519評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡知押,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評(píng)論 2 325
  • 正文 我和宋清朗相戀三年叹螟,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片台盯。...
    茶點(diǎn)故事閱讀 38,100評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡罢绽,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出静盅,到底是詐尸還是另有隱情良价,我是刑警寧澤,帶...
    沈念sama閱讀 33,738評(píng)論 4 324
  • 正文 年R本政府宣布蒿叠,位于F島的核電站明垢,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏市咽。R本人自食惡果不足惜痊银,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望施绎。 院中可真熱鬧溯革,春花似錦、人聲如沸谷醉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)孤紧。三九已至豺裆,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間号显,已是汗流浹背臭猜。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留押蚤,地道東北人蔑歌。 一個(gè)月前我還...
    沈念sama閱讀 45,547評(píng)論 2 354
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像揽碘,于是被迫代替她去往敵國(guó)和親次屠。 傳聞我的和親對(duì)象是個(gè)殘疾皇子园匹,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容