為解決過擬合問題枚碗,加入正則化項(xiàng)或者規(guī)則項(xiàng),對(duì)模型的復(fù)雜程度進(jìn)行懲罰铸本,讓模型更加簡(jiǎn)單肮雨。
規(guī)則化函數(shù)Ω(w)通常可以選擇L1箱玷、L2范數(shù)怨规。
?λ 在這里我們稱做正則化參數(shù)。它是用來平衡擬合訓(xùn)練的目標(biāo)和保持參數(shù)值較小的目標(biāo)锡足。一方面我們想要訓(xùn)練的模型能更好地?cái)M合訓(xùn)練數(shù)據(jù)波丰,希望模型能夠很好的適應(yīng)訓(xùn)練集;另一方面是我們想要保持參數(shù)值較小舶得,模型較為簡(jiǎn)單掰烟。
規(guī)則項(xiàng)/正則化項(xiàng)
L0范數(shù):非零元素的個(gè)數(shù)。在實(shí)際應(yīng)用中沐批,由于L0范數(shù)本身不容易有一個(gè)好的數(shù)學(xué)表示形式纫骑,給出上面問題的形式化表示是一個(gè)很難的問題,所以在實(shí)際情況中九孩,L0的最優(yōu)問題會(huì)被放寬到L1或L2下的最優(yōu)化先馆。
L1范數(shù):非零元素的絕對(duì)值之和左敌,對(duì)應(yīng)的是常說的曼哈頓距離羽戒、最小絕對(duì)誤差等终蒂。線性回歸的L1范數(shù)正則化對(duì)應(yīng)的是Lasso回歸蜈垮。L1范數(shù)可以使得一些系數(shù)變小憎蛤,甚至還是一些絕對(duì)值較小的系數(shù)直接變?yōu)?库快,因此特別適用于參數(shù)數(shù)目縮減與參數(shù)的選擇产阱。
L2范數(shù):向量元素的平方和再開平方渠退,對(duì)應(yīng)的是常說的歐氏距離江解。線性回歸的L2范數(shù)正則化對(duì)應(yīng)的是Ridge回歸(嶺回歸设预。)Ridge回歸在不拋棄任何一個(gè)特征的情況下,縮小了回歸系數(shù)犁河,使得模型相對(duì)而言比較的穩(wěn)定鳖枕,但和Lasso回歸比魄梯,這會(huì)使得模型的特征留的特別多,模型解釋性差宾符。
總結(jié):
L1范數(shù)和L0范數(shù)可以實(shí)現(xiàn)稀疏酿秸,L1因具有比L0更好的優(yōu)化求解特性而被廣泛應(yīng)用。L1魏烫、L2都可以防止過擬合辣苏,只不過手段不同:L1是舍棄掉一些不重要的特征,L2是控制所有特征的權(quán)重哄褒。
之所以要實(shí)現(xiàn)稀疏稀蟋,是因?yàn)橐环矫嬉サ裟切]有較大影響的特征,起到特征選擇的作用呐赡;另一方面也是為了讓模型更加容易解釋退客。
另,正則化還可以解決特征數(shù)量大于樣本數(shù)量的問題链嘀。
如果你只有較少的樣本萌狂,導(dǎo)致特征數(shù)量大于樣本數(shù)量,那么矩陣 XTX 將是不可逆矩陣或奇異(singluar)矩陣怀泊,或者用另一種說法是這個(gè)矩陣是退化(degenerate)的粥脚,那么我們就沒有辦法使用正規(guī)方程來求出 θ 。
幸運(yùn)的是包个,正規(guī)化也為我們解決了這個(gè)問題刷允,具體的說只要正則參數(shù)是嚴(yán)格大于零,實(shí)際上碧囊,可以證明如下矩陣:
將是可逆的树灶。因此,使用正則還可以照顧任何 XTX 不可逆的問題糯而。
參考文獻(xiàn):
機(jī)器學(xué)習(xí)中的范數(shù)規(guī)則化