幾率odds與邏輯回歸

http://www.reibang.com/p/aa73938f32ee

幾率odds

從 Odds 角度理解 Logistic Regression 模型的參數(shù)

13 December 2015

1. 引言

無論在學(xué)術(shù)界逊谋,還是在工業(yè)界,Logistic Regression(LR, 邏輯回歸)模型[1]是常用的分類模型活玲,被用于各種分類場景和點擊率預(yù)估問題等涣狗,它也是Max Entropy(ME, 最大熵)模型[2],或者說Softmax Regression模型[3]舒憾,在二分類的一種特例镀钓。

用X = (x1,x2,…,xk)表示k維樣本,用β=(β0,β1,β2,…,βk)表示k+1維模型變量镀迂,其中β0表示截距項丁溅,那么LR模型的model function如下表示:

f(z)=11+e?z(1)

z=β0+β1×x1+β2×x2+…+βk×xk(2)

說明:公式1的學(xué)名為logistic function。

下文將先介紹odds和log of odds探遵,然后用odds來解釋LR模型的參數(shù)含義窟赏。

2. 從概率到odds再到log of odds

在統(tǒng)計和概率理論中,一個事件的發(fā)生比(英語:Odds[4])是該事件發(fā)生和不發(fā)生的比率箱季。假設(shè)某隨機事件發(fā)生的概率是0.8涯穷,那么該事件不發(fā)生的概率為1 - 0.8 = 0.2。事件發(fā)生的odds定義成發(fā)生的概率除以不發(fā)生的概率藏雏,對這個例子即為 0.8 / 0.2 = 4拷况。用數(shù)學(xué)式子形式化表示odds,就是p1?p掘殴。為下文表述方便赚瘦,用函數(shù)odds(p)表示如下:

odds(p)=p1?p(3)

易見函數(shù)odds(p)是關(guān)于p的遞增函數(shù)。

對odds取對數(shù)(成為log of odds)奏寨,也就是logp1?p起意,這個在正式的數(shù)學(xué)文獻中會記為logit(p),即:

logit(p)=log(p1?p)(4)

易見函數(shù)log_of_odds(p)還是關(guān)于p的遞增函數(shù)病瞳。

當(dāng)有2個概率p1和p2揽咕,將這2個概率的odd相除(稱為odds ratio),等價于將這2個概率的logit相減仍源。

3. 從odds角度理解LR模型參數(shù)

對于LR模型而言心褐,LR模型的輸出值是概率,介于0到1之間笼踩。容易推導(dǎo)出LR模型對應(yīng)的odds(p)和logit(p)的函數(shù)表達(dá)形式逗爹,分別見公式5和公式6,其中公式6恰好就是公式2中的z:

odds(p)=eβ0+β1×x1+β2×x2+…+βk×xk(5)

logit(p)=β0+β1×x1+β2×x2+…+βk×xk(6)

文章[5], [6]是兩份解釋LR模型參數(shù)的非常好的資料,讀者可以詳細(xì)閱讀掘而。文章[5]中給了一個數(shù)據(jù)集挟冠,針對這個數(shù)據(jù)集做了5組特征實驗。這些實驗很有代表性袍睡,筆者就用它們來闡述odds與LR模型參數(shù)之間的關(guān)系知染。

3.1 第1個實驗

k = 0,即LR模型不用任何特征斑胜,只留下截距項控淡,通過參數(shù)訓(xùn)練得到的模型為

logit(p)=log(p1?p)=?1.12546(7)

公式7中的p表示什么概率呢?容易分析出它表示的正是正樣本個數(shù)占全部樣本個數(shù)的比例(或者說概率)止潘〔籼浚可以這樣驗證,數(shù)據(jù)集中正樣本的比例為49200=0.245凭戴,log0.2451?0.245=?1.12546涧狮。在k = 0時,截距項恰好是正樣本比例對應(yīng)的log of odds么夫。

3.2 第2個實驗

LR模型只帶一個二值特征(是否為女性)者冤,通過參數(shù)訓(xùn)練得到的模型為

logit(p)=log(p1?p)=?1.470852+0.5927822×female(8)

公式8中的β0(?1.470852)表示非女性(即男性)的正樣本的log of odds。同樣可以用數(shù)據(jù)驗證档痪,數(shù)據(jù)集中男性正樣本比例為1717+74涉枫,男性正樣本的log of odds即為log1774=?1.47。

公式8中的β1(0.5927822)表示女性的正樣本的log of odds 減去 男性的正樣本的log of odds腐螟。因為

β1=(?1.470852+0.5927822×1)?(?1.470852+0.5927822×0)(9)

同樣可以用數(shù)據(jù)驗證拜银,數(shù)據(jù)集中女性正樣本的log of odds為log3277=?0.878,男性正樣本的log of odds為log1774=?1.471遭垛。這兩個log of odds相減即得0.593,正是β1操灿。

3.3 第3個實驗

LR模型只帶一個連續(xù)特征(數(shù)學(xué)成績)锯仪,通過參數(shù)訓(xùn)練得到的模型為

logit(p)=log(p1?p)=?9.793942+0.1563404×math(10)

公式10中的β0(?9.793942)按理應(yīng)該表示數(shù)學(xué)成績?yōu)?的正樣本的log of odds≈貉危基于這點還原出數(shù)學(xué)成績?yōu)?的正樣本的概率為0.00005579庶喜,這是一個很小的數(shù)。但從數(shù)據(jù)集上看救鲤,沒有一個人的數(shù)學(xué)成績小于30久窟。所以截距項在這里表示的是假想數(shù)學(xué)成績?yōu)?的正樣本的log of odds。

公式10中的β1(0.1563404)表示數(shù)學(xué)成績每提高1分本缠,正樣本的log of odds會提升多少斥扛,或者說在數(shù)學(xué)成績這個維度,對log of odds進行差分丹锹。因為

β1=(?9.793942+0.1563404×(score+1))?(?9.793942+0.1563404×score)(11)

這是2個log of odds相減稀颁,等價于對odds ratio取log芬失。更進一步,還原回到odds ratio匾灶,即exp(0.1563404) = 1.1692241棱烂。這個可以理解為數(shù)學(xué)成績每提高1分,正樣本的odds將提高17%阶女。

3.4 第4個實驗

LR模型帶多個非組合的特征(數(shù)學(xué)成績颊糜,是否為女性,閱讀方面的成績)秃踩,通過參數(shù)訓(xùn)練得到的模型為

logit(p)=log(p1?p)=?11.77025+0.1229589×math+0.979948×female+0.0590632×read(12)

對擬合出的公式12衬鱼,female特征的系數(shù)表示:固定math和read的取值,女性正樣本的odds除以男性正樣本的odds的比值為exp(0.979948) = 2.66吞瞪。math特征的稀疏表示:固定female和read的取值馁启,數(shù)學(xué)成績每提高1分,正樣本的odds將提高13%芍秆,因為exp(0.1229589) = 1.13惯疙。

3.5 第5個實驗

LR模型帶組合特征(是否為女性,數(shù)學(xué)成績和前兩個特征的組合)妖啥,通過參數(shù)訓(xùn)練得到的模型為

logit(p)=log(p1?p)=?8.745841?2.899863×female+0.1293781×math+0.0669951×female×math(13)

因為female×math是一項組合特征霉颠,這樣就不好直接討論female的效果。但可以做變換得到2個公式荆虱,一個關(guān)于男性的公式:

logit(p)=log(p1?p)=?8.745841+0.1293781×math(14)

另一個關(guān)于女性的公式:

logit(p)=log(p1?p)=?8.745841?2.899863+0.1293781×math+0.0669951×math=?11.645704+0.1963732×math(15)

在公式14和公式15中就沒有組合特征蒿偎,那么就可以走類似于上面幾組實驗的分析思路,對于男性怀读,數(shù)學(xué)成績每提高1分诉位,正樣本的odds將提高14%(因為exp(0.1293781) = 1.14)。對于女性菜枷,數(shù)學(xué)成績每提高1分苍糠,正樣本的odds將提高22%(exp(0.1963732) = 1.22)。

4 總結(jié)

上文從odds角度啤誊,通過幾個例子給出了分析LR模型參數(shù)的方法岳瞭,讀者可以舉一反三,碰到其他LR模型時也可以用類似的思路去分析參數(shù)的含義蚊锹。特別的瞳筏,對于截距項,通過這些例子也可以看出牡昆,截距項并不都等于正樣本比例的log of odds姚炕,除了k = 0這種情形外,其他情形下就不能這樣解釋了。另外有些情況下討論截距項的物理含義是沒有意義的钻心,讀者可以看看文章[7]凄硼。

參考文獻

[1] Logistic Regression (來自Wikipedia)

[2] Max Entropy (來自Wikipedia)

[3] Softmax Regression 或者 Multinomial Logistic Regression (來自Wikipedia)

[4] Odds(來自Wikipedia)

[5] How do I interpret odds ratios in logistic regression (來自UCLA的一份資料)

[6] Interpreting logistic regression models (來自USC的一份資料)

[7] Regression Analysis: How to Interpret the Constant (Y Intercept)

原創(chuàng)文章,轉(zhuǎn)載請注明:轉(zhuǎn)載自vividfree的博客

本文鏈接地址:從 Odds 角度理解 Logistic Regression 模型的參數(shù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末捷沸,一起剝皮案震驚了整個濱河市摊沉,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌痒给,老刑警劉巖说墨,帶你破解...
    沈念sama閱讀 222,729評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異苍柏,居然都是意外死亡尼斧,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,226評論 3 399
  • 文/潘曉璐 我一進店門试吁,熙熙樓的掌柜王于貴愁眉苦臉地迎上來棺棵,“玉大人,你說我怎么就攤上這事熄捍≈蛐簦” “怎么了?”我有些...
    開封第一講書人閱讀 169,461評論 0 362
  • 文/不壞的土叔 我叫張陵余耽,是天一觀的道長缚柏。 經(jīng)常有香客問我,道長碟贾,這世上最難降的妖魔是什么币喧? 我笑而不...
    開封第一講書人閱讀 60,135評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮袱耽,結(jié)果婚禮上杀餐,老公的妹妹穿的比我還像新娘。我一直安慰自己朱巨,他們只是感情好怜浅,可當(dāng)我...
    茶點故事閱讀 69,130評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蔬崩,像睡著了一般。 火紅的嫁衣襯著肌膚如雪搀暑。 梳的紋絲不亂的頭發(fā)上沥阳,一...
    開封第一講書人閱讀 52,736評論 1 312
  • 那天,我揣著相機與錄音自点,去河邊找鬼桐罕。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的功炮。 我是一名探鬼主播溅潜,決...
    沈念sama閱讀 41,179評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼薪伏!你這毒婦竟也來了滚澜?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,124評論 0 277
  • 序言:老撾萬榮一對情侶失蹤嫁怀,失蹤者是張志新(化名)和其女友劉穎设捐,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體塘淑,經(jīng)...
    沈念sama閱讀 46,657評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡萝招,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,723評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了存捺。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片槐沼。...
    茶點故事閱讀 40,872評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖捌治,靈堂內(nèi)的尸體忽然破棺而出岗钩,到底是詐尸還是另有隱情,我是刑警寧澤具滴,帶...
    沈念sama閱讀 36,533評論 5 351
  • 正文 年R本政府宣布凹嘲,位于F島的核電站,受9級特大地震影響构韵,放射性物質(zhì)發(fā)生泄漏周蹭。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,213評論 3 336
  • 文/蒙蒙 一疲恢、第九天 我趴在偏房一處隱蔽的房頂上張望凶朗。 院中可真熱鬧,春花似錦显拳、人聲如沸棚愤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽宛畦。三九已至,卻和暖如春揍移,著一層夾襖步出監(jiān)牢的瞬間次和,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評論 1 274
  • 我被黑心中介騙來泰國打工那伐, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留踏施,地道東北人石蔗。 一個月前我還...
    沈念sama閱讀 49,304評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像畅形,于是被迫代替她去往敵國和親养距。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,876評論 2 361

推薦閱讀更多精彩內(nèi)容