深入理解邏輯回歸算法（Logistic Regression）

在繼續(xù)學(xué)習(xí) GBDT（Gradient Boosting Dicision Tree）決策樹前赛不，我們需要先來了解下邏輯回歸算法（Logistic Regression）疗垛，因為 GBDT 較為復(fù)雜，但在邏輯回歸的基礎(chǔ)上，理解起來會容易些溯饵。

邏輯回歸是機器學(xué)習(xí)中最為基礎(chǔ)的算法侵俗，也是工業(yè)界使用得最多的算法之一，究其原因丰刊，在于其簡單隘谣、高效以及實用。

雖然線性回歸也很簡單藻三，但卻不實用洪橘，是因為邏輯回歸本質(zhì)上是一個概率模型，在實際應(yīng)用中棵帽，預(yù)測一個 0-1 之間的概率值要比預(yù)測一個實數(shù)的場景要多得多熄求，比如在廣告業(yè)務(wù)中，我們往往求的是用戶點擊一條廣告的概率逗概。

邏輯回歸是一個概率模型弟晚，但通過一定的轉(zhuǎn)換，我們依然可以把該模型的預(yù)測范圍從 0-1 轉(zhuǎn)換到實數(shù)范圍逾苫，所以它和線性回歸都可以被歸納到「通用的線性模型」（Generalized Linear Model）中卿城，要理解這種轉(zhuǎn)換，我們需要引入一個概念：odds 和 log(odds)铅搓。

odds 和 log(odds)

odds 是幾率瑟押、勝算的意思，據(jù)維基百科記載星掰，這個概念主要在賭博和統(tǒng)計學(xué)領(lǐng)域中使用多望，且它的歷史可以追溯到 16 世紀，早于概率論的發(fā)展時期氢烘。

odds 很容易理解怀偷，拿足球比賽作為例子，假設(shè)中國隊打巴西隊播玖，中國隊的贏面是 1椎工，輸面是 99，那么中國隊贏的 odds 為 1/99蜀踏，輸?shù)?odds 就是 99维蒙，odds 和概率的區(qū)別也很容易通過這個例子看出來，從概率的角度講脓斩，中國隊贏巴西隊的概率為 0.01木西，輸?shù)母怕蕿?0.99。

上面的例子還可以看出随静，中國隊贏的 odds 和巴西隊贏的 odds 落在不同的取值范圍中八千，中國隊贏的 odds 的落在 (0,1) 區(qū)間吗讶，而巴西隊落在 (1,∞) 區(qū)間；也就是說恋捆，中國隊和巴西隊比賽照皆，兩個隊伍的輸贏程度應(yīng)該是相等的，但 1/99 和 99 這兩個數(shù)沸停，它們的尺度不同膜毁，就很難對此做出直觀的判斷；而 log(odds) 就是用來解決該問題的：

	中國隊贏	巴西隊贏
odds	1/99	99
log(odds)	-4.60	4.60

可以看到愤钾，對 odds 加了 log 后瘟滨，中國隊贏和巴西隊贏這兩種情況的 log(odds) 的絕對值都是 4.6，即兩者的輸贏程度相同能颁，一眼就可以看出來杂瘸；且當(dāng)我們算贏面的 log(odds) 時，通過正負號就可以判斷贏面多還是贏面少伙菊，如 -4.6 就表示中國隊的贏面是少的败玉；此外，當(dāng) log(odds) 為 0 時镜硕，贏面和輸面一樣多运翼。

log(odds) 是一個很有用的指標(biāo)，你可以寫一個程序兴枯，不斷產(chǎn)生 0-100 之間的隨機數(shù) $x$ 血淌，然后把 $x$ 對應(yīng)的 $\log(\frac{x}{100-x})$ 用柱狀圖畫出來，你會發(fā)現(xiàn)它符合正態(tài)分布：

在實際應(yīng)用中财剖，我們可以把上面的 $x$ 替換為某個網(wǎng)站的點擊六剥，或購買等指標(biāo)，根據(jù)歷史數(shù)據(jù)算出對應(yīng)的 log(odds) 分布峰伙，再找一堆相關(guān)的特征來擬合這個分布，這就是我們所說的 CTR（Click Through Ratio）或 CVR（Conversion Rate）模型该默，后續(xù)來了一個用戶瞳氓，我們把他相關(guān)的特征帶入到模型中，算出相應(yīng)的 log(odds)栓袖，就是這個用戶會點擊或購買某個商品的幾率匣摘。

至此，有同學(xué)會問裹刮，這和邏輯回歸有什么關(guān)系音榜？實際上，log(odds) 還有一種計算方法：
$\log(odds) = \log(\frac{p}{1-p})$
其實也很容易理解捧弃，依然是上面的例子赠叼，中國隊勝利的概率為 p=0.1擦囊，中國隊勝利的 log(odds) 為
$\begin{aligned} \log(odds) &= \log(\frac{1}{99}) \\&= \log(\frac{\frac{1}{100}}{\frac{99}{100}}) \\&= \log(\frac{\frac{1}{100}}{1-\frac{1}{100}}) \\&=\log(\frac{p}{1-p}) \end{aligned}$
我們把等式兩邊同時求一個 $e$ 次方，算出 p 值嘴办，即
$\begin{aligned} p &= \frac{e^{\log(odds)}}{1+e^{\log(odds)}} \\&= \frac{1}{1+e^{-\log(odds)}} \end{aligned}$

這就是我們所熟知的邏輯回歸瞬场，等式右邊的表達式通常被稱為 sigmoid 函數(shù)，而 log(odds) 又被稱為 logit 函數(shù)涧郊，它們之間的轉(zhuǎn)換關(guān)系如下圖所示贯被，其中 x 可看成特征向量。

從圖中可以看出妆艘，如果把邏輯回歸轉(zhuǎn)化為 log(odds)彤灶，有兩點明顯的變化：

log(odds) 是一條直線
log(odds) 可以將邏輯回歸的值域從 (0, 1) 拓寬到 (-∞, +∞)

突然有點像線性回歸了，但和線性回歸的差異是批旺，邏輯回歸的樣本只有 0 和 1 兩種取值幌陕，轉(zhuǎn)換為 log(odds) 正好是 -∞ 和 +∞，這樣你使用 MSE 來擬合時朱沃，得到的 Loss 永遠都是個無窮大苞轿，所以用線性回歸的方法來擬合邏輯回歸是不可行的。在邏輯回歸中逗物，我們使用 Maximu Likelihood 來作為模型的 Loss搬卒。

Maximum Likelihood

Maximum Likelihood（最大釋然估計）也是很直觀的一個概念，即我現(xiàn)在有一堆正樣本和負樣本翎卓，我用一條怎樣的邏輯回歸曲線去擬合這些樣本契邀，能使它們所得到概率的乘積最大。

舉個例子失暴，假設(shè)下圖左邊是一個關(guān)于體重和肥胖的實驗數(shù)據(jù)坯门，其中綠色點標(biāo)記的是正常，而紅色點為肥胖逗扒，現(xiàn)在要使用邏輯回歸對這些樣本建模古戴，假設(shè)最佳模型如下圖右邊所示：

通過該模型的計算，假設(shè)綠色樣本對應(yīng)的肥胖的概率由左至右分別為 0.01矩肩、0.02现恼、0.03 和 0.9，綠色是正常樣本黍檩，需要計算他們不是肥胖的概率叉袍，所以要用 1 減去這些值，即： 0.99刽酱、0.98喳逛、0.97 和 0.1；同理棵里，再分別計算紅色樣本是肥胖的概率為 0.1润文、0.97姐呐、0.98 和 0.99，因為該曲線已經(jīng)是最優(yōu)的了转唉，所以這 8 個點所對應(yīng)的概率的乘積——0.0089皮钠，即是所有可能的模型中，能得到的最大值赠法÷蠛洌可見，Maximum Likelihood 真的就只是其字面意思了砖织。

線性回歸中款侵，我們使用 MSE 來衡量線性模型的好壞，MSE 越小侧纯，說明擬合得越好新锈；而在邏輯回歸中，使用的正是 Maximum Likelihood眶熬，該指標(biāo)越大妹笆，模型越好。

對于樣本 $x_i$ 娜氏，當(dāng)它為正樣本時拳缠，對應(yīng)的概率為 $p(x_i)$ ，而當(dāng)它為負樣本時贸弥，對應(yīng)的概率為 $1-p(x_i)$ 窟坐，為方便計算，我們需要只用一個式子來表示這兩種情況：
$p_i = y_i\cdot p(x_i) + (1-y_i)\cdot (1-p(x_i))$
這里 y 表示樣本的取值绵疲，因為 y 只有兩種取值哲鸳，0 和 1，當(dāng) y 為正樣本 1 時盔憨，帶入上式得 $p_i=p(x_i)$ 徙菠，而當(dāng) y 為負樣本 0 時，帶入上式得 $p_i=1-p(x_i)$ 郁岩，于是每個樣本的概率的表現(xiàn)形式得到了統(tǒng)一懒豹，這樣總的 Likelihood 就很好表示了：
$\begin{aligned} {\arg\max} L(\theta) &= \prod_{i=1}^{n}p_i \\ &= \prod_{i=1}^{n}[y_i\cdot p(x_i) + (1-y_i)\cdot (1-p(x_i))] \end{aligned}$
上式中，n 表示有 n 條樣本驯用，下標(biāo) i 表示第 i 條樣本，x 為特征向量儒老，y 為觀察到的目標(biāo)值蝴乔， $\theta$ 為特征向量的權(quán)重，也是模型的參數(shù)驮樊，L 即為所有樣本的 Likelihood薇正，也是邏輯回歸中的 Loss 函數(shù)片酝，我們的目標(biāo)是調(diào)整 $\theta$ ，以使 L 最大挖腰。

通常我們會把連乘通過 log 轉(zhuǎn)換為求和雕沿，并取負號，把求最大值轉(zhuǎn)換為求最小值猴仑，如下：
$\begin{aligned} \arg\min (-\log(L(\theta))) &= -\sum_{i=1}^{n}\log(p_i) \\ &= -\sum_{i=1}^{n}[y_i\cdot \log(p(x_i)) + (1-y_i)\cdot \log((1-p(x_i)))] \end{aligned}$
接下來就是對 Loss 求梯度了审轮，然后根據(jù)梯度來修改參數(shù)，并不斷迭代收斂的過程辽俗，為了減少大家閱讀時的不適感疾渣，這里就不繼續(xù)推導(dǎo)了，不過沒有推導(dǎo)過的同學(xué)崖飘，還是建議自己在草稿上演算一下榴捡，可加深自己的理解。

邏輯回歸和貝葉斯分類

貝葉斯分類的核心依然來自于經(jīng)典的貝葉斯公式：
$p(c|x) = \frac{p(x|c)p(c)}{p(x|c)p(c)+p(x|\bar{c})p(\bar{c})}$
在分類問題中朱浴，我們要求的實際上是當(dāng)樣本 x 出現(xiàn)時吊圾，它屬于分類 c 的概率，即上式的 p(c|x)翰蠢。等式右邊的 $\bar{c}$ 表示為 c 之外的其他分類项乒，p(c) 和 $p(\bar{c})$ 可以理解為先驗概率，一般情況下你可以把它們設(shè)置為均等的躏筏，如我們可以把二分類的先驗概率都設(shè)為 0.5板丽。

接著，p(x|c) 可表示為在 c 分類中觀察到 x 樣本出現(xiàn)的概率趁尼，同理埃碱， $p(x|\bar{c})$ 則為在 $\bar{c}$ 分類中觀察到 x 樣本出現(xiàn)的概率。于是酥泞，p(c|x) 就是一個后驗概率砚殿。

理解了貝葉斯分類后，我們把等式右邊的分子分母同時除以 $p(x|c)p(c)$ 芝囤，如下：
$p(c|x) = \frac{1}{1+\frac{p(x|\bar{c})p(\bar{c})}{p(x|c)p(c)}}$
到此似炎，這個式子是不是像極了 sigmoid 函數(shù)，我們設(shè)：
$e^{-z} = \frac{p(x|\bar{c})p(\bar{c})}{p(x|c)p(c)}$
再設(shè)先驗概率相等悯姊，同時在等式兩邊取 log羡藐，便得到：
$-z = \log(\frac{p(x|\bar{c})}{p(x|c)})$
將負號移到右邊:
$z=\log(\frac{p(x|c)}{p(x|\bar{c})}) = \log(odds)$
最后將 z 帶回原式：
$p(c|x) = \frac{1}{1+e^{-\log(odds)}}$
結(jié)論是，邏輯回歸實際上就是貝葉斯分類悯许，它們都是一個后驗概率模型仆嗦。

總結(jié)

本文我們主要通過 log(odds) 和貝葉斯分類這兩個概念來學(xué)習(xí)了邏輯回歸算法的原理，且了解了邏輯回歸是采用 Maximum Likelihood 來作為其損失函數(shù)的先壕，希望你和我一樣瘩扼，通過本文能夠?qū)壿嫽貧w有更深刻的理解谆甜。

參考：

Logistic Regression, Clearly Explained
Classification
Logistic Regression

相關(guān)文章：

決策樹算法之 AdaBoost
決策樹之隨機森林
決策樹算法之分類回歸樹 CART（Classification and Regression Trees）【1】
決策樹算法之分類回歸樹 CART（Classification and Regression Trees）【2】

最后編輯于：2020.11.28 09:58:37

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市集绰，隨后出現(xiàn)的幾起案子规辱，更是在濱河造成了極大的恐慌，老刑警劉巖栽燕，帶你破解...
沈念sama閱讀 218,941評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件罕袋，死亡現(xiàn)場離奇詭異，居然都是意外死亡纫谅，警方通過查閱死者的電腦和手機炫贤，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,397評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來付秕，“玉大人兰珍，你說我怎么就攤上這事⊙猓” “怎么了掠河？”我有些...
開封第一講書人閱讀 165,345評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長猛计。經(jīng)常有香客問我唠摹，道長，這世上最難降的妖魔是什么奉瘤？我笑而不...
開封第一講書人閱讀 58,851評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任勾拉，我火速辦了婚禮，結(jié)果婚禮上盗温，老公的妹妹穿的比我還像新娘藕赞。我一直安慰自己，他們只是感情好卖局，可當(dāng)我...
茶點故事閱讀 67,868評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布斧蜕。她就那樣靜靜地躺著，像睡著了一般砚偶。火紅的嫁衣襯著肌膚如雪批销。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,688評論 1贊 305
城市分裂傳說
那天染坯，我揣著相機與錄音均芽，去河邊找鬼。笑死单鹿，一個胖子當(dāng)著我的面吹牛骡技，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 40,414評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼布朦，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了昼窗？” 一聲冷哼從身側(cè)響起是趴，我...
開封第一講書人閱讀 39,319評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎澄惊，沒想到半個月后唆途，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,775評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡掸驱，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年肛搬，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片毕贼。...
茶點故事閱讀 40,096評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡温赔，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出鬼癣，到底是詐尸還是另有隱情陶贼，我是刑警寧澤，帶...
沈念sama閱讀 35,789評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布待秃，位于F島的核電站拜秧，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏章郁。R本人自食惡果不足惜枉氮，卻給世界環(huán)境...
茶點故事閱讀 41,437評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望暖庄。院中可真熱鬧聊替，春花似錦、人聲如沸雄驹。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,993評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽医舆。三九已至俘侠，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間蔬将，已是汗流浹背爷速。一陣腳步聲響...
開封第一講書人閱讀 33,107評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留霞怀，地道東北人惫东。一個月前我還...
沈念sama閱讀 48,308評論 3贊 372
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親廉沮。傳聞我的和親對象是個殘疾皇子颓遏，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,037評論 2贊 355

深入理解邏輯回歸算法（Logistic Regression）

odds 和 log(odds)

Maximum Likelihood

邏輯回歸和貝葉斯分類

總結(jié)

推薦閱讀更多精彩內(nèi)容