本文轉(zhuǎn)載自王赟maigo 在知乎的回答,若有侵權(quán),聯(lián)系刪除。
原文鏈接
假設(shè)費(fèi)用函數(shù) L 與某個(gè)參數(shù) x 的關(guān)系如圖所示:
image
則最優(yōu)的 x 在綠點(diǎn)處,x 非零础倍。
現(xiàn)在施加 L2 regularization,新的費(fèi)用函數(shù)()如圖中藍(lán)線所示:
image
最優(yōu)的 x 在黃點(diǎn)處胎挎,x 的絕對(duì)值減小了沟启,但依然非零。
而如果施加 L1 regularization犹菇,則新的費(fèi)用函數(shù)()如圖中粉線所示:
image
- 最優(yōu)的 x 就變成了 0德迹。這里利用的就是絕對(duì)值函數(shù)的尖峰。
- 兩種 regularization 能不能把最優(yōu)的 x 變成 0揭芍,取決于原先的費(fèi)用函數(shù)在 0 點(diǎn)處的導(dǎo)數(shù)胳搞。
- 如果本來(lái)導(dǎo)數(shù)不為 0,那么施加 L2 regularization 后導(dǎo)數(shù)依然不為 0称杨,最優(yōu)的 x 也不會(huì)變成 0肌毅。
- 而施加 L1 regularization 時(shí),只要 regularization 項(xiàng)的系數(shù) C 大于原先費(fèi)用函數(shù)在 0 點(diǎn)處的導(dǎo)數(shù)的絕對(duì)值姑原,x = 0 就會(huì)變成一個(gè)極小值點(diǎn)悬而。
- 上面只分析了一個(gè)參數(shù) x。事實(shí)上 L1 regularization 會(huì)使得許多參數(shù)的最優(yōu)值變成 0页衙,這樣模型就稀疏了摊滔。