一. 廣義線性模型(generalized linear model)
1.?線性回歸(Linear Regression)——回歸算法
(1)因變量y是連續(xù)性的定量型變量(或者近似是連續(xù)性數據),服從高斯分布
(2)用直線去擬合數據绣檬,實現最小二乘意義下的最小預測誤差惧盹,
2. 對數線性回歸(Log-linear Regression)
(1)令線性回歸模型預測逼近y的衍生物()梗劫,則
(2)形式上是線性回歸的淳附,但實質上已是在求取輸入空間到輸出空間的非線性函數映射
3. 邏輯回歸(Logit Regression)——分類算法樱拴,離散選擇模型
(1)因為一件事發(fā)生與不發(fā)生有對立性,而幾率(odds)恰好反應了某一事件兩個對立面,具有很好的對稱性盏道,引入
(2)Log-it變換:Log-it函數能把自變量從(0,1)連續(xù)單調地映射到正負無窮。使得因素的微小變化载碌,帶來結果的很大變化猜嘱。簡稱“對數發(fā)生比log-odds”衅枫。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ??(左側odd的對數,右側線性)
在線性回歸中泉坐,ω表示x增加1個單位为鳄,y的平均改變
在邏輯回歸中,ω表示x增加1個單位腕让,log-odds的平均改變孤钦,odds變?yōu)樵瓉淼?img class="math-inline" src="https://math.jianshu.com/math?formula=e%5E%CF%89" alt="e^ω" mathimg="1">倍
x與
無直接的線性關系,僅有相關關系
(3)應用:考察對兩種貨幣危機定義情況下發(fā)生貨幣危機的可能性纯丸,即利率調整引起的匯率大幅度貶值和貨幣的貶值幅度超過了以往的水平的情形偏形,而以往的模型只考慮一種情況。
? ? ? ? ? ? ? ? ? ??
??
4. 邏輯斯蒂回歸(Logistic Regression)——分類算法觉鼻,概率判別模型
(1)Sigmoid函數:以線性回歸為基礎俊扭,通過sigmoid引入非線性因素
? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? (左側非線性,右側概率)
①?Sigmoid與Logit互為反函數坠陈。
② sigmoid函數有非線性化和限幅的作用萨惑,限制在(0,1)之間,才能夠用于分類仇矾。
③ sigmoid 函數連續(xù)庸蔼,單調遞增,關于(0,0.5) 中心對稱
④ 對sigmoid函數求導快速:
(2)Logistic回歸:估計事物的可能性贮匕,通過樣本屬于正類或負類的可能性來分類姐仅。簡稱“對數幾率回歸”、“對率回歸”刻盐。
? ??????????????????????????????????????????????????????
① 因變量是二分(可擴展到多分類)非線性定性型變量掏膏,服從伯努利分布
②?找到最佳擬合參數集,用于對特征加權敦锌,選擇用Sigmoid函數來確定二分類的結果
②?其線性表達式即為Logit回歸????
(3)應用:在流行病學中應用較多馒疹,根據癥狀(自變量)預測某疾病發(fā)生的概率等。
二. 模型參數估計——極大似然估計
1. 決策邊界(decision boundary)
(1)定義:將某個樣本分類成"類別1"還是"類別0"的分界點就在的位置乙墙,這個位置被稱為決策邊界行冰。
(2)線性決策邊界(linear decision boundaries)
(3)非線性決策邊界(non-linear decision boundaries)
2.?交叉熵(Cross Entropy)
(1)熵:是信息量的期望值,熵越小伶丐,隨機變量的取值也就越容易確定,系統(tǒng)越穩(wěn)定
? ??????????????????????????????????????????
(2)相對熵:也叫KL散度疯特,表示同一個隨機變量的兩個不同分布間的距離哗魂,散度越小,分布越相同漓雅,預測越準录别。
? ??????????????????????????????????????
(3)交叉熵:是對「surprise」的度量朽色,度量兩個概率分布間的差異性信息,交叉熵小组题,「surprise」程度比較低葫男,輸出越接近我們期望的值
? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
當A固定不變時,那么最小化KL散度
等價于最小化交叉熵
崔列。
3. 損失函數
(1)損失函數:單個訓練樣本預測的結果與實際結果的誤差梢褐。
? ????????用交叉熵:
(2)用交叉熵的優(yōu)勢
① 可以衡量p與q的相似性
②?使用sigmoid函數梯度下降時,能避免均方誤差損失函數學習速率降低的問題
4. 代價函數
(1)代價函數:整個訓練集赵讯,所有樣本誤差總和(所有損失函數總和)的平均值盈咳。
? ??????????????????????????????????????????????????
(2)不使用均方誤差作為LR的代價函數:非凸函數,無法求解全局最小
(3)推導:訓練樣本X={}边翼,設
① 似然函數:??????????????
② 對數似然函數:
③ 極大似然估計:arg max?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? =arg min?
(4)得代價函數:? ??????(縮放不影響梯度的相對值)
5. 優(yōu)化求解
(1)求偏導:,令該偏導為0组底,無法求解權ω
(2)梯度下降法(Gradient Descent)
? ????????? ??????(α為學習率丈积,控制步長)
優(yōu)點:只求損失函數的一階導數,計算代價小
缺點:①每次更新回歸系數的時候债鸡,都要遍歷整個數據集江滨,數據量過大時力不從心;②初始值選擇娘锁,可能導致結果不同牙寞,得到的結果不一定是全局最優(yōu);③步長選擇莫秆,過小使得函數收斂速度慢间雀,過大又容易找不到最優(yōu)解
(3)隨機梯度下降(Stochastic Gradient Descent)
? ? ? ? ?? ??????(去掉了求和)
優(yōu)點:每次僅用一個樣本迭代,訓練速度很快
缺點:迭代方向變化大镊屎,不能很快的收斂到局部最優(yōu)解惹挟。
(4)牛頓法
牛頓法是利用一階和二階導的無約束目標最優(yōu)化方法。每一次迭代的更新方向都是當前點的牛頓方向缝驳,步長固定為1连锯。
? ??????????????????????????????? ??????(Hesse矩陣)
優(yōu)點:收斂更快
缺點:Hesse矩陣要求逆,計算量大用狱,也有可能沒有逆
(5)擬牛頓法:構造一個矩陣G逼近
三. 最大熵模型(Maximum Entropy Model)
1. 原理
(1)最大熵原理認為:在沒有更多信息的情況下运怖,不確定的部分都是等可能的(均勻分布),此時概率分布的熵最大夏伊。在所有可能的概率模型中摇展,熵最大的模型就是最好的模型。
(2)從預測風險的角度講溺忧,就是要保留全部的不確定性咏连,將風險降到最小盯孙。雞蛋不能放在同一個籃子里。
2. 目的:條件熵
?構建判別模型祟滴,該模型任務是預測在給定上下文 x 的情況下振惰,以條件概率輸出 y?
(1)從訓練數據T={}中抽取若干特征
(2)要求這些特征在T上關于經驗知識分布的期望,與它們在模型中關于的數學期望相等垄懂,使得一個特征對應一個約束骑晶。
3.特征函數(feature function)
(1)定義特征函數:表示輸入與輸出之間的某一事實(經驗知識)
(2)定義:分別為
的聯(lián)合概率分布以及
的邊緣概率分布
? ? ? ? ? 定義經驗分布: ? ?
(3)關于
的期望值:
? ? ? ? ? ?關于與
的期望值:
? ??(全概率)
:根據全概率公式
透罢,根據大數定律,在樣本達到一定數量后冠蒋,我們可以用經驗分布
來表示真實的概率分布
(4)約束條件:要讓統(tǒng)計結果和訓練數據完全一致羽圃,則:
模型兩邊只有
是未知量,因為概率值和為1抖剿,定義
4. 最大熵模型學習
(1)條件熵:
作為常數對極大似然估計無影響朽寞,求偏導后方便提取公因式。
(2)模型:min?
? ? ? ? ? ? ? ? ? ? ? s.t. ①
? ? ? ? ? ? ? ? ? ? ? ? ? ? ②
(3)拉格朗日函數:
① 原始問題:min max
② 對偶問題:max min?
(4)證明:對偶函數的極大化等價于最大熵模型的極大似然估計
① 記對偶函數斩郎,用拉格朗日乘子法
②?
③???
? ? ? 已知 ?
④ 歸一化因子:
⑤?
⑥ 令脑融,用極大似然估計
⑦ 似然函數:
⑧ 對數似然函數:
⑨?? ? ??
5. 最大熵模型求解
(1)通用迭代算法 GIS(Generalized Iterative Scaling)
用第N次迭代的模型來估算每個特征在訓練數據中的分布:
① 假定第 0 次迭代的初始模型為等概率的均勻分布。
② 用第 N 次迭代的模型來估算每種信息特征在訓練數據中的分布缩宜,如果超過了實際的肘迎,就把相應的模型參數變小锻煌;否則妓布,將它們便大。
③ 重復步驟②直到收斂宋梧。即當訓練樣本的特征分布和模型的特征分布相同時匣沼,求得最優(yōu)參數。
(2)改進的迭代尺度算法?IIS(Improved Iterative Scaling)
IIS和GIS很類似捂龄,不同之處在于GIS算法有一個矯正項释涛,目的是使所有特征等于一個常數C,但是并沒有那么容易滿足倦沧,因此IIS的不同之處就是唇撬,如果滿足就按照GIS進行求解,如果不滿足就按照牛頓法進行求解展融。
6. 最大熵模型與邏輯回歸的關系
邏輯回歸是最大熵類標簽為二類時的特殊情況窖认。
也解釋了為什么用Sigmoid,以及為什么用極大似然估計去計算損失函數
參考:
[3]?邏輯回歸(logistic regression)的本質——極大似然估計—CSDN
[4]?梯度下降法、牛頓法和擬牛頓法 - Eureka的文章 - 知乎