http://www.reibang.com/p/aa73938f32ee
從 Odds 角度理解 Logistic Regression 模型的參數(shù)
13 December 2015
1. 引言
無論在學(xué)術(shù)界逊谋,還是在工業(yè)界,Logistic Regression(LR, 邏輯回歸)模型[1]是常用的分類模型活玲,被用于各種分類場景和點擊率預(yù)估問題等涣狗,它也是Max Entropy(ME, 最大熵)模型[2],或者說Softmax Regression模型[3]舒憾,在二分類的一種特例镀钓。
用X = (x1,x2,…,xk)表示k維樣本,用β=(β0,β1,β2,…,βk)表示k+1維模型變量镀迂,其中β0表示截距項丁溅,那么LR模型的model function如下表示:
f(z)=11+e?z(1)
z=β0+β1×x1+β2×x2+…+βk×xk(2)
說明:公式1的學(xué)名為logistic function。
下文將先介紹odds和log of odds探遵,然后用odds來解釋LR模型的參數(shù)含義窟赏。
2. 從概率到odds再到log of odds
在統(tǒng)計和概率理論中,一個事件的發(fā)生比(英語:Odds[4])是該事件發(fā)生和不發(fā)生的比率箱季。假設(shè)某隨機事件發(fā)生的概率是0.8涯穷,那么該事件不發(fā)生的概率為1 - 0.8 = 0.2。事件發(fā)生的odds定義成發(fā)生的概率除以不發(fā)生的概率藏雏,對這個例子即為 0.8 / 0.2 = 4拷况。用數(shù)學(xué)式子形式化表示odds,就是p1?p掘殴。為下文表述方便赚瘦,用函數(shù)odds(p)表示如下:
odds(p)=p1?p(3)
易見函數(shù)odds(p)是關(guān)于p的遞增函數(shù)。
對odds取對數(shù)(成為log of odds)奏寨,也就是logp1?p起意,這個在正式的數(shù)學(xué)文獻中會記為logit(p),即:
logit(p)=log(p1?p)(4)
易見函數(shù)log_of_odds(p)還是關(guān)于p的遞增函數(shù)病瞳。
當(dāng)有2個概率p1和p2揽咕,將這2個概率的odd相除(稱為odds ratio),等價于將這2個概率的logit相減仍源。
3. 從odds角度理解LR模型參數(shù)
對于LR模型而言心褐,LR模型的輸出值是概率,介于0到1之間笼踩。容易推導(dǎo)出LR模型對應(yīng)的odds(p)和logit(p)的函數(shù)表達(dá)形式逗爹,分別見公式5和公式6,其中公式6恰好就是公式2中的z:
odds(p)=eβ0+β1×x1+β2×x2+…+βk×xk(5)
logit(p)=β0+β1×x1+β2×x2+…+βk×xk(6)
文章[5], [6]是兩份解釋LR模型參數(shù)的非常好的資料,讀者可以詳細(xì)閱讀掘而。文章[5]中給了一個數(shù)據(jù)集挟冠,針對這個數(shù)據(jù)集做了5組特征實驗。這些實驗很有代表性袍睡,筆者就用它們來闡述odds與LR模型參數(shù)之間的關(guān)系知染。
3.1 第1個實驗
k = 0,即LR模型不用任何特征斑胜,只留下截距項控淡,通過參數(shù)訓(xùn)練得到的模型為
logit(p)=log(p1?p)=?1.12546(7)
公式7中的p表示什么概率呢?容易分析出它表示的正是正樣本個數(shù)占全部樣本個數(shù)的比例(或者說概率)止潘〔籼浚可以這樣驗證,數(shù)據(jù)集中正樣本的比例為49200=0.245凭戴,log0.2451?0.245=?1.12546涧狮。在k = 0時,截距項恰好是正樣本比例對應(yīng)的log of odds么夫。
3.2 第2個實驗
LR模型只帶一個二值特征(是否為女性)者冤,通過參數(shù)訓(xùn)練得到的模型為
logit(p)=log(p1?p)=?1.470852+0.5927822×female(8)
公式8中的β0(?1.470852)表示非女性(即男性)的正樣本的log of odds。同樣可以用數(shù)據(jù)驗證档痪,數(shù)據(jù)集中男性正樣本比例為1717+74涉枫,男性正樣本的log of odds即為log1774=?1.47。
公式8中的β1(0.5927822)表示女性的正樣本的log of odds 減去 男性的正樣本的log of odds腐螟。因為
β1=(?1.470852+0.5927822×1)?(?1.470852+0.5927822×0)(9)
同樣可以用數(shù)據(jù)驗證拜银,數(shù)據(jù)集中女性正樣本的log of odds為log3277=?0.878,男性正樣本的log of odds為log1774=?1.471遭垛。這兩個log of odds相減即得0.593,正是β1操灿。
3.3 第3個實驗
LR模型只帶一個連續(xù)特征(數(shù)學(xué)成績)锯仪,通過參數(shù)訓(xùn)練得到的模型為
logit(p)=log(p1?p)=?9.793942+0.1563404×math(10)
公式10中的β0(?9.793942)按理應(yīng)該表示數(shù)學(xué)成績?yōu)?的正樣本的log of odds≈貉危基于這點還原出數(shù)學(xué)成績?yōu)?的正樣本的概率為0.00005579庶喜,這是一個很小的數(shù)。但從數(shù)據(jù)集上看救鲤,沒有一個人的數(shù)學(xué)成績小于30久窟。所以截距項在這里表示的是假想數(shù)學(xué)成績?yōu)?的正樣本的log of odds。
公式10中的β1(0.1563404)表示數(shù)學(xué)成績每提高1分本缠,正樣本的log of odds會提升多少斥扛,或者說在數(shù)學(xué)成績這個維度,對log of odds進行差分丹锹。因為
β1=(?9.793942+0.1563404×(score+1))?(?9.793942+0.1563404×score)(11)
這是2個log of odds相減稀颁,等價于對odds ratio取log芬失。更進一步,還原回到odds ratio匾灶,即exp(0.1563404) = 1.1692241棱烂。這個可以理解為數(shù)學(xué)成績每提高1分,正樣本的odds將提高17%阶女。
3.4 第4個實驗
LR模型帶多個非組合的特征(數(shù)學(xué)成績颊糜,是否為女性,閱讀方面的成績)秃踩,通過參數(shù)訓(xùn)練得到的模型為
logit(p)=log(p1?p)=?11.77025+0.1229589×math+0.979948×female+0.0590632×read(12)
對擬合出的公式12衬鱼,female特征的系數(shù)表示:固定math和read的取值,女性正樣本的odds除以男性正樣本的odds的比值為exp(0.979948) = 2.66吞瞪。math特征的稀疏表示:固定female和read的取值馁启,數(shù)學(xué)成績每提高1分,正樣本的odds將提高13%芍秆,因為exp(0.1229589) = 1.13惯疙。
3.5 第5個實驗
LR模型帶組合特征(是否為女性,數(shù)學(xué)成績和前兩個特征的組合)妖啥,通過參數(shù)訓(xùn)練得到的模型為
logit(p)=log(p1?p)=?8.745841?2.899863×female+0.1293781×math+0.0669951×female×math(13)
因為female×math是一項組合特征霉颠,這樣就不好直接討論female的效果。但可以做變換得到2個公式荆虱,一個關(guān)于男性的公式:
logit(p)=log(p1?p)=?8.745841+0.1293781×math(14)
另一個關(guān)于女性的公式:
logit(p)=log(p1?p)=?8.745841?2.899863+0.1293781×math+0.0669951×math=?11.645704+0.1963732×math(15)
在公式14和公式15中就沒有組合特征蒿偎,那么就可以走類似于上面幾組實驗的分析思路,對于男性怀读,數(shù)學(xué)成績每提高1分诉位,正樣本的odds將提高14%(因為exp(0.1293781) = 1.14)。對于女性菜枷,數(shù)學(xué)成績每提高1分苍糠,正樣本的odds將提高22%(exp(0.1963732) = 1.22)。
4 總結(jié)
上文從odds角度啤誊,通過幾個例子給出了分析LR模型參數(shù)的方法岳瞭,讀者可以舉一反三,碰到其他LR模型時也可以用類似的思路去分析參數(shù)的含義蚊锹。特別的瞳筏,對于截距項,通過這些例子也可以看出牡昆,截距項并不都等于正樣本比例的log of odds姚炕,除了k = 0這種情形外,其他情形下就不能這樣解釋了。另外有些情況下討論截距項的物理含義是沒有意義的钻心,讀者可以看看文章[7]凄硼。
參考文獻
[1] Logistic Regression (來自Wikipedia)
[2] Max Entropy (來自Wikipedia)
[3] Softmax Regression 或者 Multinomial Logistic Regression (來自Wikipedia)
[4] Odds(來自Wikipedia)
[5] How do I interpret odds ratios in logistic regression (來自UCLA的一份資料)
[6] Interpreting logistic regression models (來自USC的一份資料)
[7] Regression Analysis: How to Interpret the Constant (Y Intercept)
原創(chuàng)文章,轉(zhuǎn)載請注明:轉(zhuǎn)載自vividfree的博客
本文鏈接地址:從 Odds 角度理解 Logistic Regression 模型的參數(shù)