存在意義
監(jiān)督學(xué)習(xí)的2個(gè)主題就是
- 最小化誤差:模型擬合數(shù)據(jù)
- 規(guī)則化參數(shù):防止過(guò)擬合
為了使模型簡(jiǎn)單合住,所以需要規(guī)則化
在保持模型單的情況下,使誤差最小哑诊,可以得到泛化能力強(qiáng)的模型
規(guī)則化符合奧卡姆剃刀(Occam's razor)原理群扶。即在所有可能選擇的模型中,我們應(yīng)該選擇能夠很好地解釋已知數(shù)據(jù)并且十分簡(jiǎn)單的模型。
規(guī)則化是結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略的體現(xiàn)竞阐,是在經(jīng)驗(yàn)風(fēng)險(xiǎn)上加一個(gè)正則化項(xiàng)(regularizer)或懲罰項(xiàng)(penalty term)缴饭。
L0與L1
L0范數(shù)是指向量中非0的元素的個(gè)數(shù)。是使權(quán)值W稀疏化馁菜。
L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和
L1范數(shù)和L0范數(shù)可以實(shí)現(xiàn)稀疏茴扁,L1因具有比L0更好的優(yōu)化求解特性而被廣泛應(yīng)用。
稀疏有什么卵用汪疮?
- 特征選擇:實(shí)現(xiàn)特征的自動(dòng)選擇峭火。去除和最終的輸出yi沒(méi)有關(guān)系或者不提供任何信息的特征
- 可解釋性:留下的非0參數(shù)少,更易理解
L2范式
L2范式:向量各元素的平方和然后求平方根智嚷。
L2范式可以改善過(guò)擬合問(wèn)題
L2范數(shù)的規(guī)則項(xiàng)||W||2最小卖丸,可以使得W的每個(gè)元素都很小,都接近于0盏道,但與L1范數(shù)不同稍浆,它不會(huì)讓它等于0,而是接近于0
L2范數(shù)不但可以防止過(guò)擬合猜嘱,還可以讓我們的優(yōu)化求解變得穩(wěn)定和快速衅枫。下圖左邊是優(yōu)化過(guò)后的效果,這樣可以更快逼近最優(yōu)值朗伶,而右邊因?yàn)榍悬c(diǎn)處很平緩弦撩,因此逼近最優(yōu)解的速度緩慢。
L1使得大部分特征置0益楼,但是L2并不會(huì)將特征都置0,只是盡量將參數(shù)“懲罰”為接近0的一個(gè)小值点晴,這個(gè)懲罰力度由因子λ控制感凤,λ越大,最終訓(xùn)練得到的w就越辛6健(越接近0)陪竿。