邏輯回歸
邏輯分布
在介紹邏輯回歸之前瓤鼻,我先簡單介紹一些logistic分布,在此之前贤重,我只當其為一個簡單的函數(shù)茬祷。
logistic分布
定義: 假設為連續(xù)隨機變量,服從logistic分布并蝗,則的分布函數(shù)和密度函數(shù)分別如下:
其中為位置參數(shù)祭犯,為形狀參數(shù)秸妥,值越小,曲線在中心附近增長越快
對應的密度函數(shù)和分布函數(shù)的圖如下:
[圖片上傳失敗...(image-c6edd0-1551349596414)]
分布函數(shù)又叫l(wèi)ogistic函數(shù)沃粗,由上圖可以看到粥惧,它是呈現(xiàn)S型,該曲線以點為中心對稱陪每,滿足
而標準的logistic函數(shù)影晓,即當,時就是我們常用的sigmoid函數(shù)檩禾,也是常用于神經(jīng)網(wǎng)絡中激活函數(shù)
且sigmoid函數(shù)的有一個非常好的特點挂签,如下??
二項邏輯回歸(logistic regression)
邏輯回歸是在線性模型的基礎上增加了sigmoid函數(shù),而Sigmoid函數(shù)引入了非線性因素盼产,使得邏輯回歸可以輕松處理0/1分類問題饵婆。
對于二項邏輯回歸模型有如下的條件概率:
二項邏輯回歸用于0/1分類問題是使用的損失函數(shù)為對數(shù)損失函數(shù),即
那么最終的代價函數(shù)如下:
在《詳述機器學習中的損失函數(shù)》有詳細舉例介紹邏輯回歸的推導過程戏售。
NOTE:
二項邏輯回歸假設因變量為伯努力分布侨核,而線性模型假設因變量服從高斯分布
模型參數(shù)估計
用極大似然估計模型參數(shù)??
對于二項邏輯回歸模型,假定概率分布服從伯努利分布【0-1分布】灌灾,其概率質量函數(shù)PMF為:搓译,其中只能取0或者1,那么二項邏輯回歸的似然函數(shù)可以表示:為
那么對上式取對數(shù)锋喜,得到對數(shù)似然函數(shù)為:
則全體樣本的代價函數(shù)為:
因此些己,也可以從因變量為伯努力分布去理解二項邏輯回歸的代價函數(shù)。那么對的參數(shù)估計就變成了對代價函數(shù)求極小值嘿般,得到的估計值段标,通常采用牛頓法和梯度下降法求解
多項邏輯回歸
二項邏輯回歸用于二分類,當然可以對其進行推廣炉奴,用于多分類逼庞,對應的模型叫做多項邏輯回歸模型(multi-nominal logistic regression model)
假設變量取值為,那么多項邏輯回歸模型如下:
而二項邏輯回歸的方法也可以用于多項式邏輯回歸
代碼實現(xiàn)
整理后再寫入
最大熵模型
最大熵原理
最大熵模型是概率模型學習的一個準則,學習概率模型時瞻赶,在所有可能的概率模型(分布)中赛糟,熵最大的模型是最好的模型,通常用約束條件來確定概率模型的集合砸逊,所以虑灰,最大熵原理可以表述為在滿足約束條件的模型集合中選擇熵最大的模型
熵是由信息論男神克勞德·艾爾伍德·香農(Claude Elwood Shannon )在1948年提出的“信息熵“,用來描述信息的不確定程度痹兜,熵越大,不確定程度越大颤诀,而系統(tǒng)的混亂程度越低字旭,熵的單位通常為比特对湃。
假設離散隨機變量的概率分布是 ,其熵是
且熵滿足不等式,是的取值個數(shù),當且僅當為均勻分布時遗淳,右邊等號成立拍柒,即服從均勻分布時,熵最大屈暗。當我們需要對一個事件的概率分布進行預測時拆讯,最大熵原理告訴我們所有的預測應當滿足全部已知的條件,而對未知的情況不要做任何主觀假設(不做主觀假設這點很重要)养叛。也就是讓概率分布最均勻种呐,預測的風險最小
最大熵模型定義
假設分類模型是一個條件概率分布,表示輸入弃甥,表示輸出爽室,這個分類模型表示,給定一個輸入淆攻,以條件概率輸出阔墩。
給定訓練集
對于給定的訓練集可以確定聯(lián)合分布以及邊緣分布的經(jīng)驗分布,確定方法都是通過頻數(shù)(v)/樣本總數(shù)(N)瓶珊,即
特征函數(shù)表示輸入與輸出之間的關系
那么特征函數(shù)關于訓練集聯(lián)合分布的期望值啸箫,用表示為:
而特征函數(shù)關于模型與經(jīng)驗分布的期望表示為:
如果模型能夠獲取到訓練集中到信息,那么就假設這兩個期望值相等伞芹,即
最大熵模型
假設滿足所有約束條件的模型集合為
定義在條件概率分布的條件熵為:
則模型中條件熵最大的模型稱為最大熵模型
NOTE
??條件熵推導:
最大熵模型的學習
給定訓練集以及特征函數(shù)以及特征函數(shù)忘苛,最大熵模型等價于約束最優(yōu)化問題
求解過程
1.把最大值問題等價為求最小值問題
2.引入拉格朗日將有約束的問題轉化為無約束的問題
3.基于構造的拉格朗日等式對求偏導
4.求出再帶入對拉格朗日乘子求偏導
打公式太麻煩,為就直接手寫放照片來??
最大熵公式推導過程
[圖片上傳失敗...(image-14a775-1551349596414)]
最終得到最大熵模型如下:
其中
極大似然估計
極大似然是參數(shù)估計的一種方式丑瞧,原理是利用已知樣本去推導出最大概率出現(xiàn)該樣本的參數(shù)柑土。
理解之后再寫入
總結
logistic回歸和最大熵模型都是對數(shù)線性模型 它們的學習一般采用極大似然估計或者正則化極大似然估計,邏輯回歸和最大熵模型學習可以轉化為無約束最優(yōu)化問題绊汹,求解該類最優(yōu)化算法有改進的迭代尺度法稽屏、梯度下降法、擬牛頓法(具體最優(yōu)化方法再單獨介紹)西乖。