1. LR原理
邏輯回歸是二分類模型停巷,本質(zhì)是線性分類器(wx+b=0)榕栏。但是畔勤,它將特征的線性組合作為自變量扒磁,然后利用sigmoid函數(shù)將其映射到(0庆揪,1)上妨托,映射后的值是y=1的概率吝羞。
LR由條件概率分布P(Y|X)表示,Y=0,1内颗,則有:
p(y=1|x)=exp(wx+b)/(1+exp(wx+b))
p(y=0|x)=1/(1+exp(wx+b))
所以由對數(shù)幾率:
log(p)=log(p/(1-p))=wx
由上,我們可以得到輸出y=1的對數(shù)幾率是輸入x的線性函數(shù)(即為邏輯斯蒂回歸模型)
觀察到:線性函數(shù)的值越接近正無窮均澳,概率值就越接近1;線性函數(shù)的值越接近負(fù)無窮,概率值越接近0找前。
邏輯回歸就是一種減小預(yù)測范圍,將預(yù)測值限定為[0,1]間的一種回歸模型躺盛。LR分類范圍需要在[0,1]之內(nèi),在x=0附近比較敏感槽惫,在z>>0或z<<0處,都不敏感躯枢。而線性回歸LR'在整個實數(shù)域內(nèi)敏感度一致则吟。
2. 模型參數(shù)估計
在統(tǒng)計學(xué)中锄蹂,常常使用極大似然估計法來求解氓仲,即找到一組參數(shù)得糜,使得在這組參數(shù)下,我們的數(shù)據(jù)的似然度(概率)最大朝抖。
則有:L(w)= (yi*logp(y=1|xi)+(1-yi)*(1-log(y=1|xi)))
求L(w)最大值啥箭,得到w的估計值
在邏輯回歸模型中治宣,我們最大化似然函數(shù)和最小化對數(shù)似然損失函數(shù)實際上是等價的。邏輯回歸學(xué)習(xí)中通常采用的方法是梯度下降法?和?牛頓法侮邀。
3. 邏輯回歸正則化
當(dāng)模型參數(shù)過多時坏怪,往往會出現(xiàn)過擬合現(xiàn)象绊茧,為了避免過擬合,我們需要在損失函數(shù)(經(jīng)驗風(fēng)險項)中引入正則化項(結(jié)構(gòu)風(fēng)險最小化的一種實現(xiàn)形式)华畏。
L1范數(shù):是指向量中各個元素絕對值之和鹏秋,也有個美稱叫“稀疏規(guī)則算子”(Lasso regularization)。那么侣夷,參數(shù)稀疏有什么好處呢?
L1可以自動進行特征選擇惜纸。一般情況下绝骚,很多特征x與y沒有多大聯(lián)系耐版。當(dāng)我們在損失函數(shù)中考慮到這些特征時压汪,雖然可以降低訓(xùn)練誤差粪牲,但是當(dāng)新的樣本出現(xiàn)止剖,這些沒有攜帶多少信息的特征就會干擾預(yù)測正確結(jié)果y腺阳。因此引入了稀疏規(guī)則算子進行特征選擇穿香,去掉這些沒多大信息的特征亭引,即把這些特征的權(quán)重置為0皮获。
L2范數(shù):它有兩個美稱,在回歸里面洒宝,有人把有它的回歸叫“嶺回歸”(Ridge Regression)购公,有人也叫它“權(quán)值衰減”(weight decay)雁歌。
L2可以解決過擬合問題。相比于L1將沒有信息的特征權(quán)重置為0靠瞎,L2是將那些沒有信息的特征權(quán)重接近于0,而不等于0乏盐。我們知道:模型參數(shù)越小印蔗,表示模型越簡單丑勤,就越不容易過擬合华嘹。為甚么模型參數(shù)越小法竞,模型就越不容易過擬合耙厚?可能是因為,參數(shù)越小薛躬,這個特征對模型預(yù)測的影響越小,不會出現(xiàn)偏見情況型宝。
結(jié)合下圖,左邊為L1趴酣,右邊為L2,圓形為等高線:
上圖中實心的黑點是真實的損失函數(shù)(不帶有正則項的部分)岖寞,我們叫做原問題的最優(yōu)解。
紅圈就是系數(shù)仗谆、在原問題下可能的解的范圍指巡,藍(lán)色的實心圈是正則項約束的可能的解的范圍隶垮。如果兩個函數(shù)要是有共同的解,那么在幾何意義下或者說從幾何圖形上來看狸吞,這兩個函數(shù)的圖像所在范圍是要有共同交點或者要有交集阔涉。由于Lasso Regression或者Ridge Regression的整個Loss Function也就是我們的目標(biāo)函數(shù)是由原問題和正則項兩部分構(gòu)成的捷绒,那么如果這個目標(biāo)函數(shù)要有解并且是最小解的話瑰排,原問題和正則項就要有一個切點暖侨,這個切點就是原問題和正則項都滿足各自解所在范圍下的共同的解。
當(dāng)紅圈從圖中的實心黑點不斷往外變化與藍(lán)色實心圈相切的時候字逗,在L1正則情況下京郑,我們第一次解相遇在坐標(biāo)軸上的點(即有某個特征的權(quán)重為0)葫掉,而L2第一次相遇的點則更趨向于接近坐標(biāo)軸的點(特征權(quán)重接近0),這就是為什么L1可以導(dǎo)致稀疏俭厚。
4. 邏輯回歸與最大熵模型MaxEnt(softmax)的關(guān)系?
LR與MaxEnt都是對數(shù)線性模型户魏,LR解決二分類問題,MaxEnt是其擴展模型叼丑,解決多分類問題。
邏輯回歸跟最大熵模型沒有本質(zhì)區(qū)別鸠信。邏輯回歸是最大熵對應(yīng)類別為二類時的特殊情況
指數(shù)簇分布的最大熵等價于其指數(shù)形式的最大似然。
二項式分布的最大熵解等價于二項式指數(shù)形式(sigmoid)的最大似然星立;
多項式分布的最大熵等價于多項式分布指數(shù)形式(softmax)的最大似然。
5. 優(yōu)缺點及適用場景
優(yōu):計算代價低绰垂,易于理解與實現(xiàn)室奏;防止過擬合和欠擬合辕坝。
缺:容易欠擬合,分類精度不太好
適用場景:用于二分類問題酱畅, 比如垃圾郵件判斷(是/否垃圾郵件),是否患某種疾卜乃帷(是/否), 廣告是否點擊等場景。