在sklearn的LogisticRegression中提供了2種不同的penalty選擇狰腌,其中L1相當(dāng)于lasso回歸时迫,L2相當(dāng)于ridge回歸搓逾。網(wǎng)上很多介紹其基本原理的大神博客可供參考旁钧。而我們的這篇博客更多的是從實(shí)驗(yàn)的角度去說明這兩種penalty的不同優(yōu)劣。
在這里我們主要要驗(yàn)證兩點(diǎn):
- L1相較于L2會(huì)使參數(shù)矩陣更稀疏师枣,也就是說包含更多的0怪瓶。
- L2的擬合能力要比L1的擬合能力強(qiáng)。
實(shí)驗(yàn)材料: - 騰訊社交廣告大賽(CTR)提供數(shù)據(jù)践美。
- 200000的訓(xùn)練集以及50000的測試集洗贰。
- 899個(gè)特征,130865個(gè)特征兩組實(shí)驗(yàn)陨倡。
實(shí)驗(yàn)一(899個(gè)特征):
訓(xùn)練集AUC | 測試集AUC | 權(quán)重為0的比例 | |
---|---|---|---|
l1 | 0.6295 | 0.6221 | 44.6% |
l2 | 0.6311 | 0.6202 | 1.3% |
L1參數(shù)分布圖
L2參數(shù)分布圖
實(shí)驗(yàn)二(130865個(gè)特征):
訓(xùn)練集AUC | 測試集AUC | 權(quán)重為0的比例 | |
---|---|---|---|
l1 | 0.9052 | 0.6715 | 91% |
l2 | 0.9693 | 0.6614 | 8% |
L1參數(shù)分布圖
L2參數(shù)分布圖
通過這兩組實(shí)驗(yàn)我們可以發(fā)現(xiàn):
- L1的參數(shù)矩陣中值為0的比例遠(yuǎn)大于L2敛滋,這里的好處有很多比如節(jié)約內(nèi)存,減少CPU的運(yùn)算次數(shù)等等兴革。
- L2的參數(shù)矩陣中的值大部分在0附近绎晃,對訓(xùn)練數(shù)據(jù)的擬合能力更強(qiáng),但同時(shí)也提高了過擬合的風(fēng)險(xiǎn)杂曲。
L1和L2的設(shè)置往往也限制了solver的選擇箕昭,也就是優(yōu)化方法的選擇。下一篇博客將會(huì)進(jìn)行講解解阅。