題目
關(guān)于支持向量機(jī)SVM,下列說法錯(cuò)誤的是()
A. L2正則項(xiàng)隐孽,作用是最大化分類間隔是晨,使得分類器擁有更強(qiáng)的泛化能力
B. Hinge 損失函數(shù)婚夫,作用是最小化經(jīng)驗(yàn)分類錯(cuò)誤
C. 分類間隔為1/||w||,||w||代表向量的模
D. 當(dāng)參數(shù)C越小時(shí)署鸡,分類間隔越大,分類錯(cuò)誤越多限嫌,趨于欠學(xué)習(xí)(錯(cuò)誤)
在Logistic Regression 中,如果同時(shí)加入L1和L2范數(shù),會(huì)產(chǎn)生什么效果()
A. 可以做特征選擇,并在一定程度上防止過擬合
B. 能解決維度災(zāi)難問題
C. 能加快計(jì)算速度
D. 可以獲得更準(zhǔn)確的結(jié)果(正確答案)
L1正則化和L2正則化
正則化項(xiàng)即罰函數(shù)靴庆,該項(xiàng)對(duì)模型向量進(jìn)行“懲罰”,從而避免單純最小二乘問題的過擬合問題怒医。訓(xùn)練的目的是最小化目標(biāo)函數(shù)炉抒,則C越小,意味著懲罰越小稚叹,分類間隔也就越小焰薄,分類錯(cuò)誤也就越少。
正則化項(xiàng)本質(zhì)上是一種先驗(yàn)信息扒袖,整個(gè)最優(yōu)化問題從貝葉斯觀點(diǎn)來看是一種貝葉斯最大后驗(yàn)估計(jì)塞茅,其中正則化項(xiàng)對(duì)應(yīng)后驗(yàn)估計(jì)中的先驗(yàn)信息,損失函數(shù)對(duì)應(yīng)后驗(yàn)估計(jì)中的似然函數(shù)季率,兩者的乘積即對(duì)應(yīng)貝葉斯最大后驗(yàn)估計(jì)的形式野瘦,如果你將這個(gè)貝葉斯最大后驗(yàn)估計(jì)的形式取對(duì)數(shù),即進(jìn)行極大似然估計(jì)飒泻,你就會(huì)發(fā)現(xiàn)問題立馬變成了損失函數(shù)+正則化項(xiàng)的最優(yōu)化問題形式鞭光。
(1) 避免出現(xiàn)過擬合(over-fitting)。經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化 + 正則化項(xiàng) = 結(jié)構(gòu)風(fēng)險(xiǎn)最小化泞遗。
(2) 從模型求解上看惰许,正則化提供了一種唯一解的可能。光用最小二乘擬合可能出現(xiàn)無數(shù)組解史辙,加個(gè)L1或L2正則化項(xiàng)能有唯一解汹买。
**L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和,用于特征選擇; **
L2范數(shù) 是指向量各元素的平方和然后求平方根髓霞,用于 防止過擬合卦睹,提升模型的泛化能力
L1與L2區(qū)別:使用L1可以得到稀疏的權(quán)值;用L2可以得到平滑的權(quán)值
L1 regularization(往0方向靠)
在原始的代價(jià)函數(shù)后面加上一個(gè)L1正則化項(xiàng)方库,即所有權(quán)重w的絕對(duì)值的和结序,乘以λ/n(這里不像L2正則化項(xiàng)那樣,需要再乘以1/2纵潦,具體原因上面已經(jīng)說過徐鹤。)
同樣先計(jì)算導(dǎo)數(shù):
上式中sgn(w)表示w的符號(hào)垃环。那么權(quán)重w的更新規(guī)則為:
比原始的更新規(guī)則多出了η * λ * sgn(w)/n這一項(xiàng)。當(dāng)w為正時(shí)返敬,更新后的w變小遂庄。當(dāng)w為負(fù)時(shí),更新后的w變大
因此它的效果就是讓w往0靠劲赠,使網(wǎng)絡(luò)中的權(quán)重盡可能為0涛目,也就相當(dāng)于減小了網(wǎng)絡(luò)復(fù)雜度,防止過擬合凛澎。
L2 regularization(權(quán)重衰減)
L2正則化就是在代價(jià)函數(shù)后面再加上一個(gè)正則化項(xiàng):
C0代表原始的代價(jià)函數(shù)霹肝,后面那一項(xiàng)就是L2正則化項(xiàng),它是這樣來的:所有參數(shù)w的平方的和塑煎,除以訓(xùn)練集的樣本大小n沫换。λ就是正則項(xiàng)系數(shù),權(quán)衡正則項(xiàng)與C0項(xiàng)的比重最铁。另外還有一個(gè)系數(shù)1/2讯赏,1/2經(jīng)常會(huì)看到,主要是為了后面求導(dǎo)的結(jié)果方便冷尉,后面那一項(xiàng)求導(dǎo)會(huì)產(chǎn)生一個(gè)2漱挎,與1/2相乘剛好湊整。
L2正則化項(xiàng)是怎么避免overfitting的呢网严?我們推導(dǎo)一下看看识樱,先求導(dǎo):
可以發(fā)現(xiàn)L2正則化項(xiàng)對(duì)b的更新沒有影響,但是對(duì)于w的更新有影響.