1 參數(shù)泛數(shù)懲罰
1.1. 參數(shù)正則化
通常被稱為權(quán)重衰減的 參數(shù)泛數(shù)懲罰。這個正則化策略通過向目標函數(shù)添加一個正則項犯犁,使權(quán)重更接近原點。
只有在顯著減小目標函數(shù)方向上的參數(shù)會保留的相對完好变逃。對于無助于目標函數(shù)見效的方向(對應(yīng)Hessian矩陣較小的特征值)上改變參數(shù)不會顯著增加梯度郑气,這種不重要方向上對應(yīng)的分量會在訓(xùn)練過程中因正則化而衰減掉。
正則化能讓學(xué)習(xí)算法感知到具有較高方差的輸入x乌昔,因此與輸出目標的協(xié)方差較小(也就是相關(guān)性不大)的特征的權(quán)重將會收縮隙疚。
1.2.參數(shù)正則化
為各個參數(shù)的絕對值之和,其定義如下:
相比正則化磕道,正則化會產(chǎn)生更稀疏的解供屉。此處稀疏性是指的是最優(yōu)值中的一些參數(shù)為0。由正則化導(dǎo)出的稀疏性質(zhì)已經(jīng)被廣泛地用于特征選擇機制捅厂。
2 作為約束的范數(shù)懲罰
在4.4節(jié)中贯卦,構(gòu)造廣義的拉格朗日函數(shù)來最小化帶約束的函數(shù)资柔,即在原始的目標函數(shù)上添加一系列的懲罰項焙贷,如果我們想約束小于k,則拉格朗日函數(shù)可以寫成:
要優(yōu)化(調(diào)整)的參數(shù):θ和α贿堰,θ也就是辙芍,α是權(quán)重衰減系數(shù),α在>k時必須增加羹与,在<k時必須減小故硅。所有正值的α都鼓勵收縮。最優(yōu)值也鼓勵收縮纵搁,但不會強到使得小于k吃衅。
如果是一個范數(shù),則權(quán)重被限制在一個球里面腾誉;如果是一個范數(shù)徘层,則權(quán)重被限制在一個范數(shù)限制的區(qū)域中利职。
顯式約束和投影:
對于每一個不同的α趣效,都尋找與此對應(yīng)的k,文中的方法時:先計算的下降步猪贪,然后將θ投影到滿足的最近點跷敬。
好處:1.懲罰可能會導(dǎo)致目標函數(shù)非凸,從而陷入局部極小值热押。2.重投影的顯示約束使優(yōu)化過程增加了一定的穩(wěn)定性西傀。
Frobenius范數(shù):