李沐-動手學深度學習(2)模型選擇、過擬合和欠擬合

【總結(jié)】

訓(xùn)練數(shù)據(jù)集:訓(xùn)練模型參數(shù)缅疟;

驗證數(shù)據(jù)集:選擇模型超參數(shù)分别。

非大數(shù)據(jù)集上通常使用k-折交叉驗證。

模型容量需要匹配數(shù)據(jù)復(fù)雜度存淫,否則可能導(dǎo)致欠擬合和過擬合茎杂。

統(tǒng)計機器學習提供數(shù)學工具來衡量模型復(fù)雜度。

實際中一般靠觀察訓(xùn)練誤差和驗證誤差纫雁。


一煌往、模型選擇

1、訓(xùn)練誤差和泛化誤差

訓(xùn)練誤差:模型在訓(xùn)練數(shù)據(jù)上的誤差

泛化誤差:模型在新數(shù)據(jù)上的誤差

2轧邪、驗證數(shù)據(jù)集和測試數(shù)據(jù)集

驗證數(shù)據(jù)集:用來評估模型好壞的數(shù)據(jù)集刽脖。不要跟訓(xùn)練數(shù)據(jù)集混在一起。

測試數(shù)據(jù)集:只用一次的數(shù)據(jù)集忌愚。

3曲管、k-折交叉驗證


二、過擬合和欠擬合

1硕糊、過擬合和欠擬合

2院水、VC維

(1)線性分類器的VC維

2維輸入的感知機(輸入的特征是2,輸出是1)

(2)數(shù)據(jù)復(fù)雜度

多個重要因素:樣本個數(shù)简十、每個樣本的元素個數(shù)檬某、時間/空間結(jié)構(gòu)、多樣性螟蝙。


三恢恼、代碼

chapter_multilayer-perceptrons/underfit-overfit.ipynb

四、問答

(1)過擬合和欠擬合應(yīng)該是用驗證集來看

(2)時序上的數(shù)據(jù)胰默,不能隨機采樣分驗證集訓(xùn)練集场斑。一般一個時間之前的訓(xùn)練集漓踢,之后的驗證集。

(3)k折交叉驗證漏隐,k的選擇喧半,看能承受的成本。k越大越好青责。

(4)Q:k折交叉驗證的目的是確定超參數(shù)嗎挺据,然后還要用這個超參數(shù)再訓(xùn)練一遍全數(shù)據(jù)嗎?

A:兩種做法爽柒,一種就是k折交叉驗證確定超參數(shù)吴菠,然后用這個超參數(shù)再訓(xùn)練一遍全數(shù)據(jù)者填;另一種是不再重新訓(xùn)練浩村,就用k折交叉驗證確定超參數(shù),然后隨便找出一折的模型占哟,或找出精度最好的那一折模型心墅;還有一種是,把k個交叉驗證的模型都拿出來榨乎,預(yù)測test時怎燥,k個模型都預(yù)測一遍,然后取均值蜜暑,模型穩(wěn)定性好铐姚,預(yù)測代價高。

(5)Q:如果訓(xùn)練是不平衡的肛捍,是否要考慮測試集是否也是不平衡的隐绵,再去決定是否使用一個平衡的驗證集?

A:正常情況拙毫,可以不平衡依许,但是應(yīng)該通過加權(quán)使其平衡。假設(shè)有兩類1:9缀蹄,要考慮真實世界中是不是就是不平衡峭跳,如果是,那就應(yīng)該把那主流的90%做好缺前,10%盡量做好蛀醉;如果不是,不平衡只是因為采樣沒采好衅码,那么應(yīng)該把那10%的權(quán)重提升滞欠,最簡單的把那10%的樣本多復(fù)制幾遍,不復(fù)制在loss中加權(quán)給他更大權(quán)重肆良。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末筛璧,一起剝皮案震驚了整個濱河市逸绎,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌夭谤,老刑警劉巖棺牧,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異朗儒,居然都是意外死亡颊乘,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門醉锄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來乏悄,“玉大人,你說我怎么就攤上這事恳不¢菪。” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵烟勋,是天一觀的道長规求。 經(jīng)常有香客問我,道長卵惦,這世上最難降的妖魔是什么阻肿? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮沮尿,結(jié)果婚禮上丛塌,老公的妹妹穿的比我還像新娘。我一直安慰自己畜疾,他們只是感情好赴邻,可當我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著庸疾,像睡著了一般乍楚。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上届慈,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天徒溪,我揣著相機與錄音,去河邊找鬼金顿。 笑死臊泌,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的揍拆。 我是一名探鬼主播渠概,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了播揪?” 一聲冷哼從身側(cè)響起贮喧,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎猪狈,沒想到半個月后箱沦,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡雇庙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年谓形,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片疆前。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡寒跳,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出竹椒,到底是詐尸還是另有隱情童太,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布碾牌,位于F島的核電站康愤,受9級特大地震影響儡循,放射性物質(zhì)發(fā)生泄漏舶吗。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一择膝、第九天 我趴在偏房一處隱蔽的房頂上張望誓琼。 院中可真熱鬧,春花似錦肴捉、人聲如沸腹侣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽傲隶。三九已至,卻和暖如春窃页,著一層夾襖步出監(jiān)牢的瞬間跺株,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工脖卖, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留乒省,地道東北人。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓畦木,卻偏偏與公主長得像袖扛,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子十籍,可洞房花燭夜當晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容