線性回歸與邏輯回歸的聯(lián)系

線性回歸 (linear regression)

給定數(shù)據(jù)集\{(x_i, y_i)\}_{i=1}^m纵散,其中x_i \in \mathbb{R}^n棘脐,y_i \in \mathbb{R}捕儒。線性回歸試圖學(xué)得一個線性模型f(x_i) = w^Tx_i + b來盡可能好地擬合數(shù)據(jù)y_i冰啃。

為了求解模型參數(shù)w, b,我們通常采用均方誤差(mean squared error, MSE)損失函數(shù):
L = \sum_{i=1}^m (y_i - w^Tx_i - b)^2
均方誤差有非常好的幾何意義刘莹,對應(yīng)了常用的歐氏距離阎毅。
采用最小化均方誤差來進(jìn)行模型求解的方法就是最小二乘法,我們高中就接觸過的方法点弯,可求得w, b的解析解扇调。

邏輯回歸 (logistic regression)

在回歸任務(wù)中,y_i\in \mathbb{R}抢肛,是連續(xù)變量狼钮。而在分類任務(wù)中,y_i是離散變量捡絮,比如二分類 y_i \in \{0, 1\}熬芜,因此我們需要找個單調(diào)可微的函數(shù)將線性回歸的預(yù)測實值和分類任務(wù)的離散標(biāo)簽聯(lián)系起來。

針對二分類任務(wù)福稳,y_i \in \{0, 1\}涎拉,線性回歸模型的預(yù)測實值z_i = w^T x_i + b,為了將實值z_i映射到\{0, 1\},我們考慮利用
Sigmoid函數(shù)\sigma(x) = \frac{1}{1 + e^{-x}}鼓拧,即:

p_i =\sigma(z_i) = \sigma(w^Tx_i + b)

當(dāng)z_i>0時半火,p_i>0.5,預(yù)測標(biāo)簽為1季俩;
當(dāng)z_i<0時钮糖,p_i<0.5,預(yù)測標(biāo)簽為0种玛。

Sigmoid

Sigmoid函數(shù)值域為(0, 1)藐鹤,形似S曲線,可以方便將實值z_i轉(zhuǎn)化為一個在0或1附近的值赂韵。

進(jìn)一步地娱节,我們將Sigmoid函數(shù)的輸出p_i視為將樣本預(yù)測為正類1的概率,即:
P(Y=1 | x_i) = p_i = \sigma(z_i) = \sigma(w^Tx_i + b)
P(Y=0 | x_i) = 1 - p_i

然后我們采用極大似然法來估計模型參數(shù)w, b
似然函數(shù)為
\prod_{i=1}^{m} p_i^{y_i} (1-p_i)^{1-y_i}
對數(shù)似然函數(shù)為
\sum_{i=1}^m [y_i\log{p_i} + (1-y_i)\log{(1- p_i)}]
等價于最小化loss為
L = \frac{1}{m}\sum_{i=1}^m - [y_i\log{p_i} + (1-y_i)\log{(1- p_i)}]
這就是交叉熵?fù)p失函數(shù)(Cross Entropy Loss Function)祭示。

更進(jìn)一步地肄满,我們將二分類任務(wù)的交叉熵?fù)p失函數(shù)擴展到多分類,假設(shè)總共分為C類质涛,x_i \in \mathbb{R}^n稠歉,y_i \in \mathbb{R}^C。則:

L = \frac{1}{m}\sum_{i=1}^m - [\sum_{j=1}^Cy_{ij}\log(p_{ij})]
y_{ij}表示第i個樣本真實標(biāo)簽是否為j汇陆,當(dāng)?shù)?img class="math-inline" src="https://math.jianshu.com/math?formula=i" alt="i" mathimg="1">個樣本屬于第j類時怒炸,y_{ij}=1,否則y_{ij}=0毡代。p_{ij}表示第i個樣本被預(yù)測為第j類的概率阅羹。

為了分析方便,我們令L_i = - [\sum_{j=1}^Cy_{ij}\log(p_{ij})]教寂,則當(dāng)?shù)?img class="math-inline" src="https://math.jianshu.com/math?formula=i" alt="i" mathimg="1">個樣本的真實標(biāo)簽為c時捏鱼,該項可簡寫為:

L_i = - [\log(p_{ic})]
L = \frac{1}{m}\sum_{i=1}^m L_i

兩者關(guān)聯(lián)

  1. 線性回歸采用均方誤差損失等價于極大似然。
    在邏輯回歸中酪耕,求解模型參數(shù)我們采用的是極大似然估計法导梆;而在線性回歸中,求解模型參數(shù)我們采用了最小二乘法迂烁。
    但其實本質(zhì)上看尼,線性回歸求解參數(shù)采用最小化均方誤差等價于極大似然估計,證明如下:
    首先婚被,我們將模型參數(shù)b也融入向量w中狡忙,可得線性回歸采用均方誤差損失函數(shù)為:
    L = \sum_{i=1}^m (y_i - w^Tx_i)^2
    我們假設(shè)預(yù)測值和真實值之間的誤差\epsilon_i = y_i - w^T x_i服從標(biāo)準(zhǔn)正態(tài)分布,即\epsilon \sim N(0, 1)址芯,則有:
    P(Y=y_i | x_i) = P(\epsilon_i) = \frac{1}{\sqrt{2\pi}}e^{-\frac{\epsilon^2}{2}} = \frac{1}{\sqrt{2\pi}}e^{-\frac{(y_i-w^Tx_i)^2}{2}}
    所以灾茁,
    \log P(Y=y_i | x_i) = -\frac{(y_i-w^Tx_i)^2}{2} + const
    忽略常量const,
    L = -2 \sum_{i=1}^m \log P(Y=y_i | x_i)
    可以看出窜觉,最小化Loss等價于極大化似然。
  1. 邏輯回歸也稱對數(shù)幾率回歸北专,幾率(odds)的定義為將樣本預(yù)測為正例的概率與樣本預(yù)測為負(fù)例的概率的比值禀挫,因此對數(shù)幾率定義為:
    \log \frac{p_i}{1 - p_i} = \log (e^{w^T x_i + b}) = w^T x_i + b
    可見在邏輯回歸中,樣本預(yù)測為正例的對數(shù)幾率是輸入x的線性函數(shù)拓颓,因此也稱對數(shù)幾率回歸语婴。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市驶睦,隨后出現(xiàn)的幾起案子砰左,更是在濱河造成了極大的恐慌,老刑警劉巖场航,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缠导,死亡現(xiàn)場離奇詭異,居然都是意外死亡溉痢,警方通過查閱死者的電腦和手機僻造,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來孩饼,“玉大人髓削,你說我怎么就攤上這事《迫ⅲ” “怎么了立膛?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長梯码。 經(jīng)常有香客問我旧巾,道長,這世上最難降的妖魔是什么忍些? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮坎怪,結(jié)果婚禮上罢坝,老公的妹妹穿的比我還像新娘。我一直安慰自己搅窿,他們只是感情好嘁酿,可當(dāng)我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著男应,像睡著了一般闹司。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上沐飘,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天游桩,我揣著相機與錄音牲迫,去河邊找鬼。 笑死借卧,一個胖子當(dāng)著我的面吹牛盹憎,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播铐刘,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼陪每,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了镰吵?” 一聲冷哼從身側(cè)響起檩禾,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎疤祭,沒想到半個月后盼产,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡画株,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年辆飘,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谓传。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡蜈项,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出续挟,到底是詐尸還是另有隱情紧卒,我是刑警寧澤,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布诗祸,位于F島的核電站跑芳,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏直颅。R本人自食惡果不足惜博个,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望功偿。 院中可真熱鬧盆佣,春花似錦、人聲如沸械荷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽吨瞎。三九已至痹兜,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間颤诀,已是汗流浹背字旭。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工对湃, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人谐算。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓熟尉,卻偏偏與公主長得像,于是被迫代替她去往敵國和親洲脂。 傳聞我的和親對象是個殘疾皇子斤儿,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內(nèi)容