邏輯回歸和最大熵模型

邏輯回歸

邏輯分布

在介紹邏輯回歸之前瓤鼻,我先簡單介紹一些logistic分布,在此之前贤重,我只當其為一個簡單的函數(shù)茬祷。

logistic分布
定義: 假設X為連續(xù)隨機變量,X服從logistic分布并蝗,則X的分布函數(shù)和密度函數(shù)分別如下:
F(x)=P(X \leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}

f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{(x-\mu)/\gamma})}
其中\mu為位置參數(shù)祭犯,\gamma>0為形狀參數(shù)秸妥,\gamma值越小,曲線在中心附近增長越快

對應的密度函數(shù)和分布函數(shù)的圖如下:
[圖片上傳失敗...(image-c6edd0-1551349596414)]

分布函數(shù)又叫l(wèi)ogistic函數(shù)沃粗,由上圖可以看到粥惧,它是呈現(xiàn)S型,該曲線以點(\mu,\frac{1}{2})為中心對稱陪每,滿足
F(-x+\mu)-\frac{1}{2}=-F(x+\mu)+\frac{1}{2}
而標準的logistic函數(shù)影晓,即當\mu=0\gamma=1時就是我們常用的sigmoid函數(shù)檩禾,也是常用于神經(jīng)網(wǎng)絡中激活函數(shù)
且sigmoid函數(shù)的有一個非常好的特點挂签,如下??
f(x)=\frac{1}{1+e^{(-x)}}
f'(x) = f(x)(1-f(x))


二項邏輯回歸(logistic regression)

邏輯回歸是在線性模型的基礎上增加了sigmoid函數(shù),而Sigmoid函數(shù)引入了非線性因素盼产,使得邏輯回歸可以輕松處理0/1分類問題饵婆。
對于二項邏輯回歸模型有如下的條件概率:
P(y^{(i)}=1|x^{(i)})= \frac{1}{1+e^{-w^Tx^{(i)}}}=\frac{e^{w^Tx^{(i)}}}{1+e^{w^Tx^{(i)}}}
P(y^{(i)}=0|x^{(i)})= 1- P(y^{(i)}=1|x^{(i)})=\frac{1}{1+e^{w^Tx^{(i)}}}
二項邏輯回歸用于0/1分類問題是使用的損失函數(shù)為對數(shù)損失函數(shù),即
L(y_i,f(x_i))=-log p(y_i|x_i)
那么最終的代價函數(shù)如下:
L(w,x)=-\frac{1}{N}\sum_{i=1}^N \lbrace y^{(i)}logp(y^{(i)}=1|w,x^{(i)})+(1-y^{(i)})logp(y^{(i)}=0|w,x^{(i)})\rbrace

《詳述機器學習中的損失函數(shù)》有詳細舉例介紹邏輯回歸的推導過程戏售。

NOTE:
二項邏輯回歸假設因變量Y為伯努力分布侨核,而線性模型假設因變量服從高斯分布


模型參數(shù)估計

用極大似然估計模型參數(shù)??
對于二項邏輯回歸模型,假定概率分布服從伯努利分布【0-1分布】灌灾,其概率質量函數(shù)PMF為:f(x)=p^x(1-p)^{(1-x)}搓译,其中x只能取0或者1,那么二項邏輯回歸的似然函數(shù)可以表示:為L(w)=\prod_{i=1}^Np(y^{(i)})=1|w,x^{(i)})^{y^{(i)}}p(y^{(i)}=0|w,x^{(i)})^{1-y^{(i)}}

那么對上式取對數(shù)锋喜,得到對數(shù)似然函數(shù)為:
logL(w)=\sum_{i=1}^Ny^{(i)}logp(y^{(i)}=1|w,x^{(i)})+(1-y^{(i)})logp(y^{(i)}=0|w,x^{(i)})

則全體樣本的代價函數(shù)為:
logL(w)=-\sum_{i=1}^N\lbrace y^{(i)}logp(y^{(i)}=1|w,x^{(i)})+(1-y^{(i)})logp(y^{(i)}=0|w,x^{(i)})\rbrace

因此些己,也可以從因變量Y為伯努力分布去理解二項邏輯回歸的代價函數(shù)。那么對w的參數(shù)估計就變成了對代價函數(shù)求極小值嘿般,得到w的估計值段标,通常采用牛頓法和梯度下降法求解w


多項邏輯回歸

二項邏輯回歸用于二分類,當然可以對其進行推廣炉奴,用于多分類逼庞,對應的模型叫做多項邏輯回歸模型(multi-nominal logistic regression model)

假設變量Y取值為{1,2,...,K},那么多項邏輯回歸模型如下:
P(Y=k|x)=\frac{e^{w^Tx}}{1+\sum_{k=1}^{K-1}e^{w^Tx}},k=1,2,...,K-1
P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}e^{w^Tx}}

而二項邏輯回歸的方法也可以用于多項式邏輯回歸

代碼實現(xiàn)


整理后再寫入


最大熵模型

最大熵原理

最大熵模型是概率模型學習的一個準則,學習概率模型時瞻赶,在所有可能的概率模型(分布)中赛糟,熵最大的模型是最好的模型,通常用約束條件來確定概率模型的集合砸逊,所以虑灰,最大熵原理可以表述為在滿足約束條件的模型集合中選擇熵最大的模型

熵是由信息論男神克勞德·艾爾伍德·香農(Claude Elwood Shannon )在1948年提出的“信息熵“,用來描述信息的不確定程度痹兜,熵越大,不確定程度越大颤诀,而系統(tǒng)的混亂程度越低字旭,熵的單位通常為比特对湃。

假設離散隨機變量X的概率分布是 P(X),其熵是
H(P)=-\sum_xP(x)logP(x)

且熵滿足不等式0\leq H(P)\leq log|X|,|X|X的取值個數(shù),當且僅當X為均勻分布時遗淳,右邊等號成立拍柒,即X服從均勻分布時,熵最大屈暗。當我們需要對一個事件的概率分布進行預測時拆讯,最大熵原理告訴我們所有的預測應當滿足全部已知的條件,而對未知的情況不要做任何主觀假設(不做主觀假設這點很重要)养叛。也就是讓概率分布最均勻种呐,預測的風險最小

最大熵模型定義

假設分類模型是一個條件概率分布P(Y|X)X表示輸入弃甥,Y表示輸出爽室,這個分類模型表示,給定一個輸入X淆攻,以條件概率P(Y|X)輸出Y阔墩。
給定訓練集T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}
對于給定的訓練集可以確定聯(lián)合分布P(X,Y)以及邊緣分布P(X)的經(jīng)驗分布,確定方法都是通過頻數(shù)(v)/樣本總數(shù)(N)瓶珊,即

\tilde{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}

\tilde{P}(X=x)=\frac{v(X=x)}{N}

特征函數(shù)f(x,y)表示輸入與輸出之間的關系
f(x,y) = \begin{cases} 1, & \text{x與y滿足某種關系} \\ 0, & \text{else} \end{cases}

那么特征函數(shù)f(x,y)關于訓練集聯(lián)合分布的期望值啸箫,用E_\tilde{P}(f)表示為:

E_\tilde{P}(f)=\sum_{x,y}\tilde{P}(x,y)f(x,y)

而特征函數(shù)f(x,y)關于模型P(Y|X)與經(jīng)驗分布\tilde{P}(X)的期望表示為:

E_P(f)=\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)

如果模型能夠獲取到訓練集中到信息,那么就假設這兩個期望值相等伞芹,即

\sum_{x,y}\tilde{P}(x,y)f(x,y)=\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)

最大熵模型

假設滿足所有約束條件的模型集合為

C=\lbrace P\in\rho|E_P(f_i)=E_\tilde{P}(f_i),i=1,2,...,n\rbrace

定義在條件概率分布P(Y|X)的條件熵為:
H(Y|X)=-\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)
則模型C中條件熵H(Y|X)最大的模型稱為最大熵模型

NOTE
??條件熵推導:
\begin {align} H(Y|X)&= \sum_{x\in X}\tilde{P}(x)H(Y|x) \\ & = -\sum_{x\in X}\tilde{P}(x)\sum_{y\in Y}P(y|x)logP(y|x) \\ & = -\sum_{x\in X,y\in Y}\tilde{P}(x)P(y|x)logP(y|x) \end{align}

最大熵模型的學習

給定訓練集以及特征函數(shù)T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}以及特征函數(shù)f_i(x,y),i=1,2,...,n忘苛,最大熵模型等價于約束最優(yōu)化問題
\begin{equation} \mathop{\arg\max}\quad H(Y|X)=-\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x) \\ \begin{cases} s.t.&\quad E_P(f_i)=E_\tilde{P}(f_i),i=1,2,...,n \\ &\quad\sum_{y}P(y|x)=1 \end{cases} \end{equation}

求解過程

1.把最大值問題等價為求最小值問題

2.引入拉格朗日將有約束的問題轉化為無約束的問題L(P,w)

3.基于構造的拉格朗日等式L(P,w)P(y|x)求偏導

4.求出P(y|x)再帶入L(P,w)對拉格朗日乘子w求偏導

打公式太麻煩,為就直接手寫放照片來??
最大熵公式推導過程
[圖片上傳失敗...(image-14a775-1551349596414)]
最終得到最大熵模型如下:
P_w(y|x)=\frac{1}{Z_w(x)}exp(\sum_i^nw_if_i(x,y))
其中
Z_w(x)=\sum_{y}exp(\sum_i^nw_if_i(x,y))

極大似然估計

極大似然是參數(shù)估計的一種方式丑瞧,原理是利用已知樣本去推導出最大概率出現(xiàn)該樣本的參數(shù)柑土。


理解之后再寫入


總結

logistic回歸和最大熵模型都是對數(shù)線性模型 它們的學習一般采用極大似然估計或者正則化極大似然估計,邏輯回歸和最大熵模型學習可以轉化為無約束最優(yōu)化問題绊汹,求解該類最優(yōu)化算法有改進的迭代尺度法稽屏、梯度下降法、擬牛頓法(具體最優(yōu)化方法再單獨介紹)西乖。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末狐榔,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子获雕,更是在濱河造成了極大的恐慌薄腻,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件届案,死亡現(xiàn)場離奇詭異庵楷,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進店門尽纽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來咐蚯,“玉大人,你說我怎么就攤上這事弄贿〈悍妫” “怎么了?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵差凹,是天一觀的道長期奔。 經(jīng)常有香客問我,道長危尿,這世上最難降的妖魔是什么呐萌? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮脚线,結果婚禮上搁胆,老公的妹妹穿的比我還像新娘。我一直安慰自己邮绿,他們只是感情好渠旁,可當我...
    茶點故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著船逮,像睡著了一般顾腊。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上挖胃,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天杂靶,我揣著相機與錄音,去河邊找鬼酱鸭。 笑死吗垮,一個胖子當著我的面吹牛,可吹牛的內容都是我干的凹髓。 我是一名探鬼主播烁登,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼蔚舀!你這毒婦竟也來了饵沧?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤赌躺,失蹤者是張志新(化名)和其女友劉穎狼牺,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體礼患,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡是钥,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年掠归,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片咏瑟。...
    茶點故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡拂到,死狀恐怖,靈堂內的尸體忽然破棺而出码泞,到底是詐尸還是另有隱情,我是刑警寧澤狼犯,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布余寥,位于F島的核電站,受9級特大地震影響悯森,放射性物質發(fā)生泄漏宋舷。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一瓢姻、第九天 我趴在偏房一處隱蔽的房頂上張望祝蝠。 院中可真熱鬧,春花似錦幻碱、人聲如沸绎狭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽儡嘶。三九已至,卻和暖如春恍风,著一層夾襖步出監(jiān)牢的瞬間蹦狂,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工朋贬, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留凯楔,地道東北人。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓锦募,卻偏偏與公主長得像摆屯,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子御滩,可洞房花燭夜當晚...
    茶點故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內容