1. 模型定義
邏輯回歸屬于基于概率分類的學(xué)習(xí)法. 基于概率的模式識別是指對模式x所對應(yīng)的類別y的后驗概率禁行學(xué)習(xí).
其所屬類別為后驗概率最大時的類別:
預(yù)測類別的后驗概率, 可理解為模式x所屬類別y的可信度.
邏輯回歸(logistic), 使用線性對數(shù)函數(shù)對分類后驗概率進(jìn)行模型化:
上式, 分母是滿足概率總和為1的約束條件的正則化項, 參數(shù)向量維數(shù)為
:
考慮二分類問題:
使用上述關(guān)系式, logistic模型的參數(shù)個數(shù)從2b降為b個, 模型簡化為:
補(bǔ)充知識 -對數(shù)似然:
似然函數(shù):
對數(shù)似然:
似然是n次相乘的結(jié)果, 一個非常小的值, 經(jīng)常發(fā)生計算丟位現(xiàn)象, 因此, 一般用對數(shù)來解決, 即將乘法變換為加法防止丟位現(xiàn)象發(fā)生.
二分類邏輯回歸模型改寫為對數(shù)自然最大化:
已知關(guān)于參數(shù)的線性模型:
的間隔和邏輯回歸的損失
是等價的.
2. 從最大似然估計 (MLE)理解
1. 決策函數(shù)
一個機(jī)器學(xué)習(xí)的模型,實際上是把決策函數(shù)限定在某一組條件下,這組限定條件就決定了模型的假設(shè)空間垦搬。當(dāng)然,我們還希望這組限定條件簡單而合理稳捆。而邏輯回歸模型所做的假設(shè)是:
這里的 g(h) 是sigmoid 函數(shù),相應(yīng)的決策函數(shù)為:
選擇0.5作為閾值是一個一般的做法麦轰,實際應(yīng)用時特定的情況可以選擇不同閾值乔夯,如果對正例的判別準(zhǔn)確性要求高,可以選擇閾值大一些款侵,對正例的召回要求高末荐,則可以選擇閾值小一些。
選擇0.5作為閾值是一個一般的做法新锈,實際應(yīng)用時特定的情況可以選擇不同閾值甲脏,如果對正例的判別準(zhǔn)確性要求高,可以選擇閾值大一些妹笆,對正例的召回要求高块请,則可以選擇閾值小一些。
2. 參數(shù)求解
對數(shù)似然最大化
在邏輯回歸模型中拳缠,令, 則
故似然度可表示為:
對數(shù)似然:
邏輯回歸模型中墩新,我們最大化似然函數(shù)和最小化交叉熵?fù)p失函數(shù)實際上是等價的。對于該優(yōu)化問題窟坐,存在多種求解方法海渊,這里以梯度下降的為例說明。梯度下降(Gradient Descent)又叫作最速梯度下降哲鸳,是一種迭代求解的方法臣疑,通過在每一步選取使目標(biāo)函數(shù)變化最快的一個方向調(diào)整參數(shù)的值來逼近最優(yōu)值。
對于該優(yōu)化問題徙菠,存在多種求解方法朝捆,這里以梯度下降求解為例說明。
- 給
以初始值
- 隨機(jī)選擇一個訓(xùn)練樣本
- 對于選定的訓(xùn)練樣本, 已梯度上升方向?qū)?shù)
進(jìn)行更新:
其中:
故:
L2約束的邏輯回歸:
參數(shù)更新(梯度下降):
此處的, 在這里λ稱作正則化參數(shù)懒豹,它通過平衡擬合訓(xùn)練的目標(biāo)和保持參數(shù)值較小的目標(biāo)芙盘。從而來保持假設(shè)的形式相對簡單,來避免過度的擬合脸秽。
3. 從最小化Logstic損失來理解
回顧邏輯回歸模型, 并考慮二分類:
邏輯斯蒂回歸二分類模型的基本假設(shè)是輸出Y=1的對數(shù)幾率是輸入x的線性函數(shù)儒老,換句話說
對于二分類問題, 有:
令,
, 結(jié)合(1)(2)式:
故:
這里得到了的決策函數(shù)
, 綜合(3)(4)得:
在 training data 上進(jìn)行 maximum log-likelihood 參數(shù)估計:
等價于:
令, 此時目標(biāo)函數(shù)是 strongly convex 的。接下來我們考慮用 gradient descent 來對目標(biāo)函數(shù)進(jìn)行優(yōu)化记餐。首先其 Gradient 是:
L2正則化: