- LR適用場(chǎng)景
LR適用于需要求解二分類概率的場(chǎng)景,例如CTR預(yù)估,金融風(fēng)控等場(chǎng)景蒸殿,CTR預(yù)估中,工業(yè)界常使用GBDT+LR進(jìn)行在線的rank
- 優(yōu)點(diǎn)
實(shí)現(xiàn)簡(jiǎn)單挽铁,分類時(shí)計(jì)算量小,速度快敞掘,存儲(chǔ)資源低叽掘,不僅可以拿到類別,同時(shí)也能拿到分類概率 - 缺點(diǎn)
1.邏輯回歸容易欠擬合玖雁,精度不太高 2.數(shù)據(jù)特征缺失或者特征空間特別大時(shí)表現(xiàn)效果并不好
LR是廣義線性模型更扁,其原理是找到?jīng)Q策邊界,將空間劃分為兩部分赫冬。
LR是分類模型浓镜,通過(guò)sigmod函數(shù)可以將線性函數(shù)的值域映射到[0,1]對(duì)應(yīng)的概率
-
LR為什么又叫對(duì)數(shù)幾率(odds)回歸?
幾率.png LR的損失函數(shù)是什么,與極大似然估計(jì)之間的關(guān)系
-
似然函數(shù)角度理解LR的損失函數(shù)
似然值角度理解損失函數(shù).png -
通過(guò)損失函數(shù)的角度理解
由于LR會(huì)將樣本分為0劲厌,1兩類膛薛,當(dāng)y_true=1時(shí),我們希望y_hat=1的損失為0补鼻,y_hat=0的損失無(wú)窮大哄啄;反之一樣
image.png
-
通過(guò)梯度下降法求解LR的參數(shù)
梯度下降.png
5.LR過(guò)擬合
當(dāng)模型過(guò)擬合時(shí),通常有以下幾種方法進(jìn)行處理
增加樣本數(shù)量
由于樣本數(shù)量少风范,“配不上”模型的復(fù)雜度咨跌,增加樣本數(shù)量可以有效的處理過(guò)擬合-
正則化
-
什么是正則化
正則化用來(lái)降低模型方差,提高模型的泛化能力硼婿,通常使用L1和L2正則化锌半。對(duì)于線性回歸來(lái)講,加上L1正則化項(xiàng)即為L(zhǎng)asso Regression寇漫,加上L2正則化即為Ridge Regression刊殉。
L1正則化是在原有損失函數(shù)的基礎(chǔ)上加上所有參數(shù)項(xiàng)的絕對(duì)值之和(L1 Norm)殉摔;其中L1正則化是模型加上所有w服從0均值的拉普拉斯分布的先驗(yàn)
L2正則化是加上所有參數(shù)的歐氏距離(L2Norm),L2正則化是模型加上所有w服從0均值的高斯分布的先驗(yàn)冗澈。
-
正則化為什么可以降低模型復(fù)雜度
正則化.png
-
以2個(gè)特征為例钦勘,圖中橢圓部分是誤差等高線,越靠近紫色的部分誤差越小亚亲。當(dāng)不加約束的時(shí)候彻采,經(jīng)過(guò)梯度下降等優(yōu)化算法會(huì)找到最靠近中心的w的取值。
當(dāng)加上L1或者L2正則化后捌归,優(yōu)化的損失不僅要靠近紫色部分肛响,也要考慮L1的菱形區(qū)域或L2的圓形區(qū)域的面積盡可能的小
對(duì)于L1來(lái)說(shuō),最優(yōu)參數(shù)在(0惜索,x)上特笋,這時(shí)其中一個(gè)參數(shù)就不起作用,這也就是為什么L1會(huì)得到稀疏解巾兆;對(duì)于L2來(lái)說(shuō)猎物,圓形區(qū)域會(huì)與等高線接近坐標(biāo)軸的地方相切,這樣會(huì)得到比較小的解
-
特征為什么需要?dú)w一化
由于需要使用梯度下降對(duì)參數(shù)優(yōu)化角塑,凡是使用梯度下降的算法蔫磨,特征歸一化有利于提高收斂速度
image.png -
為什么不使用MSE作為L(zhǎng)R的損失函數(shù)
對(duì)于LR來(lái)說(shuō),MSE不是凸函數(shù)圃伶,容易優(yōu)化到局部最優(yōu)值而無(wú)法繼續(xù)收斂
image.png 為什么LR適合離散型特征
我們?cè)谑褂眠壿嫽貧w的時(shí)候很少會(huì)把數(shù)據(jù)直接丟給 LR 來(lái)訓(xùn)練堤如,我們一般會(huì)對(duì)特征進(jìn)行離散化處理,這樣做的優(yōu)勢(shì)大致有以下幾點(diǎn):
- 離散后稀疏向量?jī)?nèi)積乘法運(yùn)算速度更快窒朋,計(jì)算結(jié)果也方便存儲(chǔ)搀罢,容易擴(kuò)展
- 離散后的特征對(duì)異常值更具魯棒性,如 age>30 為 1 否則為 0侥猩,對(duì)于年齡為 200 的也不會(huì)對(duì)模型造成很大的干擾
- LR 屬于廣義線性模型榔至,表達(dá)能力有限,經(jīng)過(guò)離散化后欺劳,每個(gè)變量有單獨(dú)的權(quán)重洛退,這相當(dāng)于引入了非線性,能夠提升模型的表達(dá)能力杰标,加大擬合
- 離散后特征可以進(jìn)行特征交叉兵怯,提升表達(dá)能力,由 M+N 個(gè)變量編程 M*N 個(gè)變量腔剂,進(jìn)一步引入非線形媒区,提升了表達(dá)能力
- 特征離散后模型更穩(wěn)定,如用戶年齡區(qū)間,不會(huì)因?yàn)橛脩裟挲g長(zhǎng)了一歲就變化
LR高配版 FM袜漩,F(xiàn)FM模型绪爸,這兩個(gè)模型后續(xù)會(huì)寫(xiě)一篇單獨(dú)的文章