邏輯斯蒂回歸(Logistic Regression)

一. 廣義線性模型(generalized linear model)

1.?線性回歸(Linear Regression)——回歸算法

(1)因變量y是連續(xù)性的定量型變量(或者近似是連續(xù)性數據),服從高斯分布

(2)用直線去擬合數據绣檬,實現最小二乘意義下的最小預測誤差惧盹,y=w^Txy=\omega ^Tx+b


2. 對數線性回歸(Log-linear Regression)

(1)令線性回歸模型預測逼近y的衍生物lny)梗劫,則lny=\omega ^Tx+b

(2)形式上是線性回歸的淳附,但實質上已是在求取輸入空間到輸出空間的非線性函數映射


3. 邏輯回歸(Logit Regression)——分類算法樱拴,離散選擇模型

(1)因為一件事發(fā)生與不發(fā)生有對立性,而幾率(odds)恰好反應了某一事件兩個對立面,具有很好的對稱性盏道,引入odds(A)=\frac{p}{1-p}

(2)Log-it變換:Log-it函數能把自變量從(0,1)連續(xù)單調地映射到正負無窮。使得因素的微小變化载碌,帶來結果的很大變化猜嘱。簡稱“對數發(fā)生比log-odds”衅枫。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?logit(p)=log\frac{p}{1-p} =\omega ^Tx+b? ??(左側odd的對數,右側線性)

在線性回歸中泉坐,ω表示x增加1個單位为鳄,y的平均改變

在邏輯回歸中,ω表示x增加1個單位腕让,log-odds的平均改變孤钦,odds變?yōu)樵瓉淼?img class="math-inline" src="https://math.jianshu.com/math?formula=e%5E%CF%89" alt="e^ω" mathimg="1">倍

x與p(x)無直接的線性關系,僅有相關關系

(3)應用:考察對兩種貨幣危機定義情況下發(fā)生貨幣危機的可能性纯丸,即利率調整引起的匯率大幅度貶值和貨幣的貶值幅度超過了以往的水平的情形偏形,而以往的模型只考慮一種情況。

odd(A)= \frac{p}{1?p} ? ? ? ? ? ? ? ? ? ?? logit(p)=log( \frac{p}{1?p}  )=\omega ^Tx??

4. 邏輯斯蒂回歸(Logistic Regression)——分類算法觉鼻,概率判別模型

(1)Sigmoid函數:以線性回歸為基礎俊扭,通過sigmoid引入非線性因素

? ? ? ? ? ? ? ? ? ? ? ? ? ??sigmoid(x)=\frac{1}{1+e^{?x}}=\frac{e^x}{1+e^x} =p? ? (左側非線性,右側概率)

①?Sigmoid與Logit互為反函數坠陈。

② sigmoid函數有非線性化和限幅的作用萨惑,限制在(0,1)之間,才能夠用于分類仇矾。

③ sigmoid 函數連續(xù)庸蔼,單調遞增,關于(0,0.5) 中心對稱

④ 對sigmoid函數求導快速:p′=p*(1-p)


(2)Logistic回歸:估計事物的可能性贮匕,通過樣本屬于正類或負類的可能性來分類姐仅。簡稱“對數幾率回歸”、“對率回歸”刻盐。

? ??????????????????????????????????????????????????????y=\frac{1}{1+e^{-(\omega ^Tx+b)}}

① 因變量是二分(可擴展到多分類)非線性定性型變量掏膏,服從伯努利分布

②?找到最佳擬合參數集,用于對特征加權敦锌,選擇用Sigmoid函數來確定二分類的結果

②?其線性表達式即為Logit回歸???? \ln \frac{y}{1-y} =\omega ^Tx+b=logit(y)


(3)應用:在流行病學中應用較多馒疹,根據癥狀(自變量)預測某疾病發(fā)生的概率等。


二. 模型參數估計——極大似然估計

1. 決策邊界(decision boundary)

(1)定義:將某個樣本分類成"類別1"還是"類別0"的分界點就在\omega ^T · x+b = 0的位置乙墙,這個位置被稱為決策邊界行冰。

(2)線性決策邊界(linear decision boundaries)

邏輯回歸算法的決策邊界是一根很簡單的直線


(3)非線性決策邊界(non-linear decision boundaries)

可使用kNN


2.?交叉熵(Cross Entropy)

(1)熵:是信息量的期望值,熵越小伶丐,隨機變量的取值也就越容易確定,系統(tǒng)越穩(wěn)定

? ????????????????????????????????????????????(A)=?\sum_{i=1}^?? ??_??·log p_i

(2)相對熵:也叫KL散度疯特,表示同一個隨機變量的兩個不同分布間的距離哗魂,散度越小,分布越相同漓雅,預測越準录别。

? ????????????????????????????????????????_{????}(A||B)=\sum_{i} ??_??·??????\frac{??_??}{??_??}

(3)交叉熵:是對「surprise」的度量朽色,度量兩個概率分布間的差異性信息,交叉熵小组题,「surprise」程度比較低葫男,輸出越接近我們期望的值

? ? ? ? ? ? ? ? ? ? ? ? ? ? ????(A,B)=?\sum_{i=1}^?? ??_??·log q_i=D_{KL}(A||B)+H(A)

當A固定不變時,那么最小化KL散度??_{????}(A||B)等價于最小化交叉熵??(A,B)崔列。


3. 損失函數

(1)損失函數:單個訓練樣本預測的結果與實際結果的誤差梢褐。

? ????????用交叉熵:L( \hat{y} ,y)=?[y·log( \hat{y} )+(1?y)·log(1? \hat{y} )]

(2)用交叉熵的優(yōu)勢

① 可以衡量p與q的相似性

②?使用sigmoid函數梯度下降時,能避免均方誤差損失函數學習速率降低的問題


4. 代價函數

(1)代價函數:整個訓練集赵讯,所有樣本誤差總和(所有損失函數總和)的平均值盈咳。

? ??????????????????????????????????????????????????J(w,b)= \frac{1}{m} \sum_{i=1}^m L( \hat{y}^{(i)} ,y^{(i)})

(2)不使用均方誤差作為LR的代價函數:非凸函數,無法求解全局最小

(3)推導:訓練樣本X={??_1,??_2,?,??_??}边翼,設P(Y=1|x)=p(x)鱼响,P(Y=0|x)=q(x)

① 似然函數:??????????????L(\omega )=\prod_{i=1}^m p(??_??)^{y_i}·q(x_i)^{1-y_i}

② 對數似然函數:l(\omega )=logL(\omega)=\sum _{i=1}^m[ {y_i}·logp(??_??)+{(1-y_i)}·logq(x_i)]

③ 極大似然估計:\omega _{????}=arg max?\sum _{i=1}^m[ {y_i}·logp(??_??)+{(1-y_i)}·logq(x_i)]

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? =arg min?\sum_{i=1}^m L( \hat{y}^{(i)} ,y^{(i)})

(4)得代價函數:J(w,b)= \frac{1}{m} \sum_{i=1}^m \frac{1}{2} L( \hat{y}^{(i)} ,y^{(i)})^2? ??????(縮放不影響梯度的相對值)


5. 優(yōu)化求解

(1)求偏導:\frac{?J(\omega )}{?\omega } =\frac{1}{m} \sum_{i=1}^m (\hat{y} ^{(i)}-y^{(i)})·x^{(i)},令該偏導為0组底,無法求解權ω


(2)梯度下降法(Gradient Descent)

? ????????ω_{t+1}=ω_t-α·\frac{?J(\omega )}{?\omega } ? ??????(α為學習率丈积,控制步長)

優(yōu)點:只求損失函數的一階導數,計算代價小

缺點:①每次更新回歸系數的時候债鸡,都要遍歷整個數據集江滨,數據量過大時力不從心;②初始值選擇娘锁,可能導致結果不同牙寞,得到的結果不一定是全局最優(yōu);③步長選擇莫秆,過小使得函數收斂速度慢间雀,過大又容易找不到最優(yōu)解


(3)隨機梯度下降(Stochastic Gradient Descent)

? ? ? ? ?ω_{t+1}=ω_t-α·(\hat{y} ^{(i)}-y^{(i)})·x^{(i)}? ??????(去掉了求和)

優(yōu)點:每次僅用一個樣本迭代,訓練速度很快

缺點:迭代方向變化大镊屎,不能很快的收斂到局部最優(yōu)解惹挟。


(4)牛頓法

牛頓法是利用一階和二階導的無約束目標最優(yōu)化方法。每一次迭代的更新方向都是當前點的牛頓方向缝驳,步長固定為1连锯。

? ??????????????????????????????ω_{t+1}=ω_t-▽^2f(\omega _t)^{-1}▽f(\omega _t)? ??????(Hesse矩陣)

優(yōu)點:收斂更快

缺點:Hesse矩陣要求逆,計算量大用狱,也有可能沒有逆

隨機選θ_{(0)}做切線


(5)擬牛頓法:構造一個矩陣G逼近H^{?1}

ω_{t+1}-ω_t=G_{t+1}·[▽f(\omega _{t+1})-▽f(\omega _t)]


三. 最大熵模型(Maximum Entropy Model)

1. 原理

(1)最大熵原理認為:在沒有更多信息的情況下运怖,不確定的部分都是等可能的(均勻分布),此時概率分布的熵最大夏伊。在所有可能的概率模型中摇展,熵最大的模型就是最好的模型

(2)從預測風險的角度講溺忧,就是要保留全部的不確定性咏连,將風險降到最小盯孙。雞蛋不能放在同一個籃子里。


2. 目的:條件熵

?構建判別模型祟滴,該模型任務是預測在給定上下文 x 的情況下振惰,以條件概率p(y|x)輸出 y?

(1)從訓練數據T={(x_1,y_1),(x_2,y_2)...(x_N,y_N)}中抽取若干特征

(2)要求這些特征在T上關于經驗知識分布的期望,與它們在模型中關于p(x,y)的數學期望相等垄懂,使得一個特征對應一個約束骑晶。


3.特征函數(feature function)

(1)定義特征函數f(x,y):表示輸入與輸出之間的某一事實(經驗知識)

(2)定義p(x,y)、p(x):分別為x,y的聯(lián)合概率分布以及x的邊緣概率分布

? ? ? ? ? 定義經驗分布: ? ?\tilde{p} (x,y)=\frac{count(x,y)}{N} 埠偿、\tilde{p} (x)=\frac{ count(x)}{N}


(3)f(x,y)關于\tilde{P} (X,Y)的期望值:E_\tilde{p} (f)=\sum_{x,y}\tilde{P} (x,y)·f(x,y)

? ? ? ? ? ?關于P(Y|X)\tilde{P} (X)的期望值:E_{p} (f)=\sum_{x,y}\tilde{P} (x)P(y|x)·f(x,y)? ??(全概率)

:根據全概率公式P(x,y)=P(x)P(y|x)透罢,根據大數定律,在樣本達到一定數量后冠蒋,我們可以用經驗分布\tilde{P} (x)來表示真實的概率分布P(x)


(4)約束條件:要讓統(tǒng)計結果和訓練數據完全一致羽圃,則:E_\tilde{p} (f)=E_{p} (f)

模型兩邊只有P(y|x)是未知量,因為概率值和為1抖剿,定義∑P(y|x)=1


4. 最大熵模型學習

(1)條件熵:H(P)=H(P(Y|X))=-\sum_{x,y}\tilde{P} (x)·P(y|x)logP(y|x)

\tilde{P} (x)作為常數對極大似然估計無影響朽寞,求偏導后方便提取公因式。


(2)模型:min?-H(P)

? ? ? ? ? ? ? ? ? ? ? s.t. ①E_\tilde{p} (f)=E_{p} (f)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ②\sum_{y}P(y|x)=1


(3)拉格朗日函數:

L(P,ω)=-H(P)+ω_0(1-\sum_{y}P(y|x))+\sum_{i=1}^nω_i(E_{\tilde{P} }(f_i)-E_p(f_i))

① 原始問題:min maxL(P,ω)

② 對偶問題:max min?L(P,ω)


(4)證明:對偶函數的極大化等價于最大熵模型的極大似然估計

① 記對偶函數\psi (ω)=min L(P,ω)斩郎,用拉格朗日乘子法

②?\frac{?L(P,ω)}{?P(y|x)} =\sum_{x,y}\tilde{P} (x)·[logP(y|x)+1-ω_0-\sum_{i=1}^nω_if_i(x,y)]=0

③?P(y|x)=\frac{exp(\sum_{i=1}^nω_if_i(x,y)) }{exp(1-ω_0)} ??

? ? ? 已知 ?\sum_{y} P(y|x)=\sum_{y}\frac{exp(\sum_{i=1}^nω_if_i(x,y)) }{exp(1-ω_0)} =1

④ 歸一化因子:Z_ω(x)=\sum_{y}exp(\sum_{i=1}^nω_if_i(x,y)) =exp(1-ω_0)

⑤?P_ω^*(y|x)=argmin L(P,ω)=\frac{exp(\sum_{i=1}^nω_if_i(x,y)) }{Z_ω(x)}


⑥ 令ω^*=argmax\psi (ω)脑融,用極大似然估計

⑦ 似然函數:L_1=\prod_{i=1}^n P^*_ω(y_i|x_i)=\prod_{x,y}P^*_ω(y|x)^{\tilde{P} (x,y)}

⑧ 對數似然函數:

L_\tilde{P}(P_ω)=logL_1=\sum_{x,y}{\tilde{P} (x,y)}·logP^*_ω(y|x)=\sum_{x,y}{\tilde{P} (x,y)}\sum_{i=1}^nω_if_i(x,y)-\sum_{x}{\tilde{P} (x)}logZ_ω(x)

⑨?\psi (ω)=L_\tilde{P} (p_ω)? ? ??


5. 最大熵模型求解

(1)通用迭代算法 GIS(Generalized Iterative Scaling)

用第N次迭代的模型來估算每個特征在訓練數據中的分布:

① 假定第 0 次迭代的初始模型為等概率的均勻分布。

② 用第 N 次迭代的模型來估算每種信息特征在訓練數據中的分布缩宜,如果超過了實際的肘迎,就把相應的模型參數變小锻煌;否則妓布,將它們便大。

③ 重復步驟②直到收斂宋梧。即當訓練樣本的特征分布和模型的特征分布相同時匣沼,求得最優(yōu)參數。


(2)改進的迭代尺度算法?IIS(Improved Iterative Scaling)

IIS和GIS很類似捂龄,不同之處在于GIS算法有一個矯正項释涛,目的是使所有特征等于一個常數C,但是并沒有那么容易滿足倦沧,因此IIS的不同之處就是唇撬,如果滿足就按照GIS進行求解,如果不滿足就按照牛頓法進行求解展融。


6. 最大熵模型與邏輯回歸的關系

邏輯回歸是最大熵類標簽為二類時的特殊情況窖认。

P(y_1|x)=\frac{exp(ω·f(x,y_1)) }{exp(ω·f(x,y_0))+exp(ω·f(x,y_1))} =\frac{exp(ω·f(x,y_1)) }{1+exp(ω·f(x,y_1))}=\frac{1}{1+e^{-ω·f(x,y_1)}}

也解釋了為什么用Sigmoid,以及為什么用極大似然估計去計算損失函數



參考:

[1]?從logit變換到logistic模型——CSDN

[2]?邏輯斯蒂回歸中損失函數和代價函數的推導—CSDN

[3]?邏輯回歸(logistic regression)的本質——極大似然估計—CSDN

[4]?梯度下降法、牛頓法和擬牛頓法 - Eureka的文章 - 知乎

[5]?牛頓法在邏輯回歸中的使用—CSDN

[6]?擬牛頓法(DFP耀态、BFGS、L-BFGS)—CSDN

[7]?最大熵模型——Teaching ML

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末暂雹,一起剝皮案震驚了整個濱河市首装,隨后出現的幾起案子,更是在濱河造成了極大的恐慌杭跪,老刑警劉巖仙逻,帶你破解...
    沈念sama閱讀 218,284評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異涧尿,居然都是意外死亡系奉,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 93,115評論 3 395
  • 文/潘曉璐 我一進店門姑廉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來缺亮,“玉大人,你說我怎么就攤上這事桥言∶弱猓” “怎么了?”我有些...
    開封第一講書人閱讀 164,614評論 0 354
  • 文/不壞的土叔 我叫張陵号阿,是天一觀的道長并鸵。 經常有香客問我,道長扔涧,這世上最難降的妖魔是什么园担? 我笑而不...
    開封第一講書人閱讀 58,671評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮枯夜,結果婚禮上弯汰,老公的妹妹穿的比我還像新娘。我一直安慰自己卤档,他們只是感情好蝙泼,可當我...
    茶點故事閱讀 67,699評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著劝枣,像睡著了一般汤踏。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上舔腾,一...
    開封第一講書人閱讀 51,562評論 1 305
  • 那天溪胶,我揣著相機與錄音,去河邊找鬼稳诚。 笑死哗脖,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播才避,決...
    沈念sama閱讀 40,309評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼橱夭,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了桑逝?” 一聲冷哼從身側響起棘劣,我...
    開封第一講書人閱讀 39,223評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎楞遏,沒想到半個月后茬暇,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 45,668評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡寡喝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,859評論 3 336
  • 正文 我和宋清朗相戀三年糙俗,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片预鬓。...
    茶點故事閱讀 39,981評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡巧骚,死狀恐怖,靈堂內的尸體忽然破棺而出珊皿,到底是詐尸還是另有隱情网缝,我是刑警寧澤,帶...
    沈念sama閱讀 35,705評論 5 347
  • 正文 年R本政府宣布蟋定,位于F島的核電站粉臊,受9級特大地震影響,放射性物質發(fā)生泄漏驶兜。R本人自食惡果不足惜扼仲,卻給世界環(huán)境...
    茶點故事閱讀 41,310評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望抄淑。 院中可真熱鬧屠凶,春花似錦、人聲如沸肆资。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽郑原。三九已至唉韭,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間犯犁,已是汗流浹背属愤。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留酸役,地道東北人住诸。 一個月前我還...
    沈念sama閱讀 48,146評論 3 370
  • 正文 我出身青樓驾胆,卻偏偏與公主長得像,于是被迫代替她去往敵國和親贱呐。 傳聞我的和親對象是個殘疾皇子丧诺,可洞房花燭夜當晚...
    茶點故事閱讀 44,933評論 2 355