邏輯斯蒂回歸（Logistic Regression）

一. 廣義線性模型（generalized linear model）

1.?線性回歸（Linear Regression）——回歸算法

（1）因變量y是連續(xù)性的定量型變量（或者近似是連續(xù)性數據），服從高斯分布

（2）用直線去擬合數據绣檬，實現最小二乘意義下的最小預測誤差惧盹， $y=w^Tx$ $y=\omega ^Tx+b$

2. 對數線性回歸（Log-linear Regression）

（1）令線性回歸模型預測逼近y的衍生物（ $lny$ ）梗劫，則 $lny=\omega ^Tx+b$

（2）形式上是線性回歸的淳附，但實質上已是在求取輸入空間到輸出空間的非線性函數映射

3. 邏輯回歸（Logit Regression）——分類算法樱拴，離散選擇模型

（1）因為一件事發(fā)生與不發(fā)生有對立性，而幾率（odds）恰好反應了某一事件兩個對立面，具有很好的對稱性盏道，引入 $odds(A)=\frac{p}{1-p}$

（2）Log-it變換：Log-it函數能把自變量從(0,1)連續(xù)單調地映射到正負無窮。使得因素的微小變化载碌，帶來結果的很大變化猜嘱。簡稱“對數發(fā)生比log-odds”衅枫。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? $logit(p)=log\frac{p}{1-p} =\omega ^Tx+b$ ? ??（左側odd的對數，右側線性）

在線性回歸中泉坐，ω表示x增加1個單位为鳄，y的平均改變

在邏輯回歸中，ω表示x增加1個單位腕让，log-odds的平均改變孤钦，odds變?yōu)樵瓉淼?img class="math-inline" src="https://math.jianshu.com/math?formula=e%5E%CF%89" alt="e^ω" mathimg="1">倍

x與 $p(x)$ 無直接的線性關系，僅有相關關系

（3）應用：考察對兩種貨幣危機定義情況下發(fā)生貨幣危機的可能性纯丸，即利率調整引起的匯率大幅度貶值和貨幣的貶值幅度超過了以往的水平的情形偏形，而以往的模型只考慮一種情況。

$odd(A）= \frac{p}{1?p}$ ? ? ? ? ? ? ? ? ? ?? $logit(p)=log( \frac{p}{1?p} )=\omega ^Tx$ ??

4. 邏輯斯蒂回歸（Logistic Regression）——分類算法觉鼻，概率判別模型

（1）Sigmoid函數：以線性回歸為基礎俊扭，通過sigmoid引入非線性因素

? ? ? ? ? ? ? ? ? ? ? ? ? ?? $sigmoid(x)=\frac{1}{1+e^{?x}}=\frac{e^x}{1+e^x} =p$ ? ? （左側非線性，右側概率）

①?Sigmoid與Logit互為反函數坠陈。

② sigmoid函數有非線性化和限幅的作用萨惑，限制在(0,1)之間，才能夠用于分類仇矾。

③ sigmoid 函數連續(xù)庸蔼，單調遞增，關于（0,0.5）中心對稱

④ 對sigmoid函數求導快速： $p′=p*(1-p)$

（2）Logistic回歸：估計事物的可能性贮匕，通過樣本屬于正類或負類的可能性來分類姐仅。簡稱“對數幾率回歸”、“對率回歸”刻盐。

? ?????????????????????????????????????????????????????? $y=\frac{1}{1+e^{-（\omega ^Tx+b）}}$

① 因變量是二分（可擴展到多分類）非線性定性型變量掏膏，服從伯努利分布

②?找到最佳擬合參數集，用于對特征加權敦锌，選擇用Sigmoid函數來確定二分類的結果

②?其線性表達式即為Logit回歸???? $\ln \frac{y}{1-y} =\omega ^Tx+b=logit(y)$

（3）應用：在流行病學中應用較多馒疹，根據癥狀（自變量）預測某疾病發(fā)生的概率等。

二. 模型參數估計——極大似然估計

1. 決策邊界（decision boundary）

（1）定義：將某個樣本分類成"類別1"還是"類別0"的分界點就在 $\omega ^T · x+b = 0$ 的位置乙墙，這個位置被稱為決策邊界行冰。

（2）線性決策邊界（linear decision boundaries）

邏輯回歸算法的決策邊界是一根很簡單的直線

（3）非線性決策邊界（non-linear decision boundaries）

可使用kNN

2.?交叉熵(Cross Entropy)

（1）熵：是信息量的期望值，熵越小伶丐，隨機變量的取值也就越容易確定，系統(tǒng)越穩(wěn)定

? ?????????????????????????????????????????? $??(A)=?\sum_{i=1}^?? ??_??·log p_i$

（2）相對熵：也叫KL散度疯特，表示同一個隨機變量的兩個不同分布間的距離哗魂，散度越小，分布越相同漓雅，預測越準录别。

? ?????????????????????????????????????? $??_{????}(A||B)=\sum_{i} ??_??·??????\frac{??_??}{??_??}$

（3）交叉熵：是對「surprise」的度量朽色，度量兩個概率分布間的差異性信息，交叉熵小组题，「surprise」程度比較低葫男，輸出越接近我們期望的值

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? $??(A,B)=?\sum_{i=1}^?? ??_??·log q_i=D_{KL}(A||B)+H(A)$

當A固定不變時，那么最小化KL散度 $??_{????}(A||B)$ 等價于最小化交叉熵 $??(A,B)$ 崔列。

3. 損失函數

（1）損失函數：單個訓練樣本預測的結果與實際結果的誤差梢褐。

? ????????用交叉熵： $L( \hat{y} ,y)=?[y·log( \hat{y} )+(1?y)·log(1? \hat{y} )]$

（2）用交叉熵的優(yōu)勢

① 可以衡量p與q的相似性

②?使用sigmoid函數梯度下降時，能避免均方誤差損失函數學習速率降低的問題

4. 代價函數

（1）代價函數：整個訓練集赵讯，所有樣本誤差總和（所有損失函數總和）的平均值盈咳。

? ?????????????????????????????????????????????????? $J(w,b)= \frac{1}{m} \sum_{i=1}^m L( \hat{y}^{(i)} ,y^{(i)})$

（2）不使用均方誤差作為LR的代價函數：非凸函數，無法求解全局最小

（3）推導：訓練樣本X={ $??_1,??_2,?,??_??$ }边翼，設 $P(Y=1|x)=p(x)鱼响，P(Y=0|x)=q(x)$

① 似然函數：?????????????? $L(\omega )=\prod_{i=1}^m p(??_??)^{y_i}·q(x_i)^{1-y_i}$

② 對數似然函數： $l(\omega )=logL(\omega)=\sum _{i=1}^m[ {y_i}·logp(??_??)+{(1-y_i)}·logq(x_i)]$

③ 極大似然估計： $\omega _{????}=$ arg max? $\sum _{i=1}^m[ {y_i}·logp(??_??)+{(1-y_i)}·logq(x_i)]$

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? =arg min? $\sum_{i=1}^m L( \hat{y}^{(i)} ,y^{(i)})$

（4）得代價函數： $J(w,b)= \frac{1}{m} \sum_{i=1}^m \frac{1}{2} L( \hat{y}^{(i)} ,y^{(i)})^2$ ? ??????（縮放不影響梯度的相對值）

5. 優(yōu)化求解

（1）求偏導： $\frac{?J(\omega )}{?\omega } =\frac{1}{m} \sum_{i=1}^m (\hat{y} ^{(i)}-y^{(i)})·x^{(i)}$ ，令該偏導為0组底，無法求解權ω

（2）梯度下降法（Gradient Descent）

? ???????? $ω_{t+1}=ω_t-α·\frac{?J(\omega )}{?\omega }$ ? ??????（α為學習率丈积，控制步長）

優(yōu)點：只求損失函數的一階導數，計算代價小

缺點：①每次更新回歸系數的時候债鸡，都要遍歷整個數據集江滨，數據量過大時力不從心；②初始值選擇娘锁，可能導致結果不同牙寞，得到的結果不一定是全局最優(yōu)；③步長選擇莫秆，過小使得函數收斂速度慢间雀，過大又容易找不到最優(yōu)解

（3）隨機梯度下降（Stochastic Gradient Descent）

? ? ? ? ? $ω_{t+1}=ω_t-α·(\hat{y} ^{(i)}-y^{(i)})·x^{(i)}$ ? ??????（去掉了求和）

優(yōu)點：每次僅用一個樣本迭代，訓練速度很快

缺點：迭代方向變化大镊屎，不能很快的收斂到局部最優(yōu)解惹挟。

（4）牛頓法

牛頓法是利用一階和二階導的無約束目標最優(yōu)化方法。每一次迭代的更新方向都是當前點的牛頓方向缝驳，步長固定為1连锯。

? ?????????????????????????????? $ω_{t+1}=ω_t-▽^2f(\omega _t)^{-1}▽f(\omega _t)$ ? ??????（Hesse矩陣）

優(yōu)點：收斂更快

缺點：Hesse矩陣要求逆，計算量大用狱，也有可能沒有逆

隨機選

θ_{(0)}

做切線

（5）擬牛頓法：構造一個矩陣G逼近 $H^{?1}$

$ω_{t+1}-ω_t=G_{t+1}·[▽f(\omega _{t+1})-▽f(\omega _t)]$

三. 最大熵模型（Maximum Entropy Model）

1. 原理

（1）最大熵原理認為：在沒有更多信息的情況下运怖，不確定的部分都是等可能的（均勻分布），此時概率分布的熵最大夏伊。在所有可能的概率模型中摇展，熵最大的模型就是最好的模型。

（2）從預測風險的角度講溺忧，就是要保留全部的不確定性咏连，將風險降到最小盯孙。雞蛋不能放在同一個籃子里。

2. 目的：條件熵

?構建判別模型祟滴，該模型任務是預測在給定上下文 x 的情況下振惰，以條件概率 $p(y|x)$ 輸出 y?

（1）從訓練數據T={ $(x_1,y_1),(x_2,y_2)...(x_N,y_N)$ }中抽取若干特征

（2）要求這些特征在T上關于經驗知識分布的期望，與它們在模型中關于 $p(x,y)$ 的數學期望相等垄懂，使得一個特征對應一個約束骑晶。

3.特征函數（feature function）

（1）定義特征函數 $f(x,y)$ ：表示輸入與輸出之間的某一事實（經驗知識）

（2）定義 $p(x,y)、p(x)$ ：分別為 $x,y$ 的聯(lián)合概率分布以及 $x$ 的邊緣概率分布

? ? ? ? ? 定義經驗分布： ? ? $\tilde{p} (x,y)=\frac{count(x,y)}{N} 埠偿、\tilde{p} (x)=\frac{ count(x)}{N}$

（3） $f(x,y)$ 關于 $\tilde{P} (X,Y)$ 的期望值： $E_\tilde{p} (f)=\sum_{x,y}\tilde{P} (x,y)·f(x,y)$

? ? ? ? ? ?關于 $P(Y|X)$ 與 $\tilde{P} (X)$ 的期望值： $E_{p} (f)=\sum_{x,y}\tilde{P} (x)P(y|x)·f(x,y)$ ? ??（全概率）

：根據全概率公式 $P(x,y)=P(x)P(y|x)$ 透罢，根據大數定律，在樣本達到一定數量后冠蒋，我們可以用經驗分布 $\tilde{P} (x)$ 來表示真實的概率分布 $P(x)$

（4）約束條件：要讓統(tǒng)計結果和訓練數據完全一致羽圃，則： $E_\tilde{p} (f)=E_{p} (f)$

模型兩邊只有 $P(y|x)$ 是未知量，因為概率值和為1抖剿，定義 $∑P(y|x)=1$

4. 最大熵模型學習

（1）條件熵： $H(P)=H(P(Y|X))=-\sum_{x,y}\tilde{P} (x)·P(y|x)logP(y|x)$

$\tilde{P} (x)$ 作為常數對極大似然估計無影響朽寞，求偏導后方便提取公因式。

（2）模型：min? $-H(P)$

? ? ? ? ? ? ? ? ? ? ? s.t. ① $E_\tilde{p} (f)=E_{p} (f)$

? ? ? ? ? ? ? ? ? ? ? ? ? ? ② $\sum_{y}P(y|x)=1$

（3）拉格朗日函數：

$L(P,ω)=-H(P)+ω_0(1-\sum_{y}P(y|x))+\sum_{i=1}^nω_i(E_{\tilde{P} }(f_i)-E_p(f_i))$

① 原始問題：min max $L(P,ω)$

② 對偶問題：max min? $L(P,ω)$

（4）證明：對偶函數的極大化等價于最大熵模型的極大似然估計

① 記對偶函數 $\psi (ω)=min L(P,ω)$ 斩郎，用拉格朗日乘子法

②? $\frac{?L(P,ω)}{?P(y|x)} =\sum_{x,y}\tilde{P} (x)·[logP(y|x)+1-ω_0-\sum_{i=1}^nω_if_i(x,y)]=0$

③? $P(y|x)=\frac{exp(\sum_{i=1}^nω_if_i(x,y)) }{exp(1-ω_0)}$ ??

? ? ? 已知 ? $\sum_{y} P(y|x)=\sum_{y}\frac{exp(\sum_{i=1}^nω_if_i(x,y)) }{exp(1-ω_0)} =1$

④ 歸一化因子： $Z_ω(x)=\sum_{y}exp(\sum_{i=1}^nω_if_i(x,y)) =exp(1-ω_0)$

⑤? $P_ω^*(y|x)=argmin L(P,ω)=\frac{exp(\sum_{i=1}^nω_if_i(x,y)) }{Z_ω(x)}$

⑥ 令 $ω^*=argmax\psi (ω)$ 脑融，用極大似然估計

⑦ 似然函數： $L_1=\prod_{i=1}^n P^*_ω(y_i|x_i)=\prod_{x,y}P^*_ω(y|x)^{\tilde{P} (x,y)}$

⑧ 對數似然函數：

$L_\tilde{P}(P_ω)=logL_1=\sum_{x,y}{\tilde{P} (x,y)}·logP^*_ω(y|x)=\sum_{x,y}{\tilde{P} (x,y)}\sum_{i=1}^nω_if_i(x,y)-\sum_{x}{\tilde{P} (x)}logZ_ω(x)$