LR知識(shí)點(diǎn)梳理

  1. LR適用場(chǎng)景
    LR適用于需要求解二分類概率的場(chǎng)景,例如CTR預(yù)估,金融風(fēng)控等場(chǎng)景蒸殿,CTR預(yù)估中,工業(yè)界常使用GBDT+LR進(jìn)行在線的rank
  • 優(yōu)點(diǎn)
    實(shí)現(xiàn)簡(jiǎn)單挽铁,分類時(shí)計(jì)算量小,速度快敞掘,存儲(chǔ)資源低叽掘,不僅可以拿到類別,同時(shí)也能拿到分類概率
  • 缺點(diǎn)
    1.邏輯回歸容易欠擬合玖雁,精度不太高 2.數(shù)據(jù)特征缺失或者特征空間特別大時(shí)表現(xiàn)效果并不好

LR是廣義線性模型更扁,其原理是找到?jīng)Q策邊界,將空間劃分為兩部分赫冬。


決策邊界.png

LR是分類模型浓镜,通過(guò)sigmod函數(shù)可以將線性函數(shù)的值域映射到[0,1]對(duì)應(yīng)的概率

sigmod函數(shù).png

  1. LR為什么又叫對(duì)數(shù)幾率(odds)回歸?


    幾率.png
  2. LR的損失函數(shù)是什么,與極大似然估計(jì)之間的關(guān)系

  • 似然函數(shù)角度理解LR的損失函數(shù)


    似然值角度理解損失函數(shù).png
  • 通過(guò)損失函數(shù)的角度理解
    由于LR會(huì)將樣本分為0劲厌,1兩類膛薛,當(dāng)y_true=1時(shí),我們希望y_hat=1的損失為0补鼻,y_hat=0的損失無(wú)窮大哄啄;反之一樣


    image.png
  1. 通過(guò)梯度下降法求解LR的參數(shù)


    梯度下降.png

5.LR過(guò)擬合
當(dāng)模型過(guò)擬合時(shí),通常有以下幾種方法進(jìn)行處理

  • 增加樣本數(shù)量
    由于樣本數(shù)量少风范,“配不上”模型的復(fù)雜度咨跌,增加樣本數(shù)量可以有效的處理過(guò)擬合

  • 正則化

    1. 什么是正則化

      • 正則化用來(lái)降低模型方差,提高模型的泛化能力硼婿,通常使用L1和L2正則化锌半。對(duì)于線性回歸來(lái)講,加上L1正則化項(xiàng)即為L(zhǎng)asso Regression寇漫,加上L2正則化即為Ridge Regression刊殉。

      • L1正則化是在原有損失函數(shù)的基礎(chǔ)上加上所有參數(shù)項(xiàng)的絕對(duì)值之和(L1 Norm)殉摔;其中L1正則化是模型加上所有w服從0均值的拉普拉斯分布的先驗(yàn)

      • L2正則化是加上所有參數(shù)的歐氏距離(L2Norm),L2正則化是模型加上所有w服從0均值的高斯分布的先驗(yàn)冗澈。

    2. 正則化為什么可以降低模型復(fù)雜度


      正則化.png

以2個(gè)特征為例钦勘,圖中橢圓部分是誤差等高線,越靠近紫色的部分誤差越小亚亲。當(dāng)不加約束的時(shí)候彻采,經(jīng)過(guò)梯度下降等優(yōu)化算法會(huì)找到最靠近中心的w的取值。
當(dāng)加上L1或者L2正則化后捌归,優(yōu)化的損失不僅要靠近紫色部分肛响,也要考慮L1的菱形區(qū)域或L2的圓形區(qū)域的面積盡可能的小

對(duì)于L1來(lái)說(shuō),最優(yōu)參數(shù)在(0惜索,x)上特笋,這時(shí)其中一個(gè)參數(shù)就不起作用,這也就是為什么L1會(huì)得到稀疏解巾兆;對(duì)于L2來(lái)說(shuō)猎物,圓形區(qū)域會(huì)與等高線接近坐標(biāo)軸的地方相切,這樣會(huì)得到比較小的解

  1. 特征為什么需要?dú)w一化
    由于需要使用梯度下降對(duì)參數(shù)優(yōu)化角塑,凡是使用梯度下降的算法蔫磨,特征歸一化有利于提高收斂速度


    image.png
  2. 為什么不使用MSE作為L(zhǎng)R的損失函數(shù)
    對(duì)于LR來(lái)說(shuō),MSE不是凸函數(shù)圃伶,容易優(yōu)化到局部最優(yōu)值而無(wú)法繼續(xù)收斂


    image.png
  3. 為什么LR適合離散型特征
    我們?cè)谑褂眠壿嫽貧w的時(shí)候很少會(huì)把數(shù)據(jù)直接丟給 LR 來(lái)訓(xùn)練堤如,我們一般會(huì)對(duì)特征進(jìn)行離散化處理,這樣做的優(yōu)勢(shì)大致有以下幾點(diǎn):

  • 離散后稀疏向量?jī)?nèi)積乘法運(yùn)算速度更快窒朋,計(jì)算結(jié)果也方便存儲(chǔ)搀罢,容易擴(kuò)展
  • 離散后的特征對(duì)異常值更具魯棒性,如 age>30 為 1 否則為 0侥猩,對(duì)于年齡為 200 的也不會(huì)對(duì)模型造成很大的干擾
  • LR 屬于廣義線性模型榔至,表達(dá)能力有限,經(jīng)過(guò)離散化后欺劳,每個(gè)變量有單獨(dú)的權(quán)重洛退,這相當(dāng)于引入了非線性,能夠提升模型的表達(dá)能力杰标,加大擬合
  • 離散后特征可以進(jìn)行特征交叉兵怯,提升表達(dá)能力,由 M+N 個(gè)變量編程 M*N 個(gè)變量腔剂,進(jìn)一步引入非線形媒区,提升了表達(dá)能力
  • 特征離散后模型更穩(wěn)定,如用戶年齡區(qū)間,不會(huì)因?yàn)橛脩裟挲g長(zhǎng)了一歲就變化

LR高配版 FM袜漩,F(xiàn)FM模型绪爸,這兩個(gè)模型后續(xù)會(huì)寫(xiě)一篇單獨(dú)的文章

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市宙攻,隨后出現(xiàn)的幾起案子奠货,更是在濱河造成了極大的恐慌,老刑警劉巖座掘,帶你破解...
    沈念sama閱讀 221,820評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件递惋,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡溢陪,警方通過(guò)查閱死者的電腦和手機(jī)萍虽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)形真,“玉大人杉编,你說(shuō)我怎么就攤上這事∨厮” “怎么了邓馒?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,324評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)蛾坯。 經(jīng)常有香客問(wèn)我光酣,道長(zhǎng),這世上最難降的妖魔是什么偿衰? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,714評(píng)論 1 297
  • 正文 為了忘掉前任挂疆,我火速辦了婚禮改览,結(jié)果婚禮上下翎,老公的妹妹穿的比我還像新娘。我一直安慰自己宝当,他們只是感情好视事,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著庆揩,像睡著了一般俐东。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上订晌,一...
    開(kāi)封第一講書(shū)人閱讀 52,328評(píng)論 1 310
  • 那天虏辫,我揣著相機(jī)與錄音,去河邊找鬼锈拨。 笑死砌庄,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播娄昆,決...
    沈念sama閱讀 40,897評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼佩微,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了萌焰?” 一聲冷哼從身側(cè)響起哺眯,我...
    開(kāi)封第一講書(shū)人閱讀 39,804評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎扒俯,沒(méi)想到半個(gè)月后奶卓,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,345評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡陵珍,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評(píng)論 3 340
  • 正文 我和宋清朗相戀三年寝杖,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片互纯。...
    茶點(diǎn)故事閱讀 40,561評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡瑟幕,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出留潦,到底是詐尸還是另有隱情只盹,我是刑警寧澤,帶...
    沈念sama閱讀 36,238評(píng)論 5 350
  • 正文 年R本政府宣布兔院,位于F島的核電站殖卑,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏坊萝。R本人自食惡果不足惜孵稽,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評(píng)論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望十偶。 院中可真熱鬧叨吮,春花似錦衩匣、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,417評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)揭蜒。三九已至彪见,卻和暖如春丘薛,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背睦柴。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,528評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工诽凌, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人坦敌。 一個(gè)月前我還...
    沈念sama閱讀 48,983評(píng)論 3 376
  • 正文 我出身青樓侣诵,卻偏偏與公主長(zhǎng)得像招刹,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子窝趣,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容