Day14~15 第六章 Logistic 回歸與最大熵模型


1? Logistc 回歸模型

1.1?Logistic 分布

??定義 6.1 (logistic 分布)?設(shè) X 是連續(xù)隨機變量靶擦,X 服從 logistic 分布是指 X 具有下列分布函數(shù)和密度函數(shù)
\begin{align} F(x)=P(X\leqslant x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}\\ f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}\\ \end{align}其中,\mu 為位置參數(shù)忘巧,\gamma >0 為形狀參數(shù)。

1.2?二項 logistic 回歸模型

??二項 logistic 回歸模型由條件概率分布 P(Y|X) 表示睦刃,形式為參數(shù)化的 logistic 分布砚嘴。這里隨機變量 X 取值為實數(shù),Y 取值為 0 或 1。
??定義 6.2 (二項 logistic 回歸模型)\begin{align} P(Y=1|x)=\frac{\exp(\omega \cdot x +b)}{1+\exp(\omega \cdot x +b)}\\ P(Y=0|x)=\frac{1}{1+\exp(\omega \cdot x +b)}\\ \end{align}其中际长,x\in \mathbb{R}^n 為輸入耸采,Y\in \{0,1\} 為輸出,\omega\in\mathbb{R}^nb\in\mathbb{R} 為參數(shù)工育,\omega 稱為權(quán)重向量虾宇,b 稱為偏置,符號 “\cdot” 表示向量內(nèi)積如绸。
??二項 logistic 回歸模型對于給定的輸入實例 x嘱朽,可以通過定義計算 P(Y=1|x)P(Y=|x) 并比較大小,將實例 x 分到概率值更大的那一類怔接。

有時為了方便搪泳,令 \tilde{\omega} = (\omega^T,b)^T\tilde{x} = (x^T,1)^T扼脐,有 \tilde{\omega}\cdot\tilde{x}=\omega \cdot x +b岸军。形式上仍然記為 \omega \cdot x,此時 logistic 回歸模型為:
\begin{align} P(Y=1|x)=\frac{\exp(\omega \cdot x)}{1+\exp(\omega \cdot x)}\\ P(Y=0|x)=\frac{1}{1+\exp(\omega \cdot x)}\\ \end{align}

1.3?模型參數(shù)估計

??Logisitic 回歸模型學習時瓦侮,給定訓練集 T = \{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}凛膏,其中,x_i\in \mathbb{R}^n脏榆,y_i\in\{0,1\},一般可以應(yīng)用極大似然估計法估計模型參數(shù)台谍。求得對數(shù)似然函數(shù)為
L(\omega) = \sum\limits_{i=1}^N [y_1(\omega\cdot x_i)-\log(1+\exp(\omega\cdot x_i))]L(\omega) 求最大值须喂,即可求到 \omega 的估計值 \hat{\omega}。那么學習得到的模型為
\begin{align} P(Y=1|x)=\frac{\exp(\hat{\omega} \cdot x)}{1+\exp(\hat{\omega}\cdot x)}\\ P(Y=0|x)=\frac{1}{1+\exp(\hat{\omega} \cdot x)}\\ \end{align}

1.4?Logisitc 回歸模型的優(yōu)缺點

1. 優(yōu)點

  • 實現(xiàn)簡單趁蕊,應(yīng)用廣泛坞生。
  • 分類時計算量非常小,速度很快掷伙,存儲資源低是己。
  • 便利的觀測樣本概率分數(shù)。

2. 缺點

  • 當特征空間很大時任柜,邏輯回歸的性能不是很好卒废。
  • 容易欠擬合,一般準確度不太高宙地。
  • 依賴所有數(shù)據(jù)摔认,很難處理數(shù)據(jù)不平衡問題;
  • 處理非線性數(shù)據(jù)較麻煩宅粥。在不引入其他方法的情況下参袱,只能處理線性可分的數(shù)據(jù)。

2?最大熵模型

2.1?最大熵原理

??最大熵原理認為:學習概率模型時,在所有可能的概率模型(分布)中抹蚀,熵最大的模型是最好的模型剿牺。
??假設(shè)離散隨機變量 X 的概率分布為 P(X),則其熵為H(P)=-\sum\limits_{x}P(x)\log P(x)熵滿足下列不等式0\leqslant H(P)\leqslant \log |X|其中 |X|X 的取值個數(shù)环壤,在前面的章節(jié)曾證明過晒来,當且僅當 X 的分布為均勻分布時右邊的等號成立。即當 X 服從均勻分布時镐捧,熵最大潜索。

2.2?最大熵模型的定義

??定義 6.3 (最大熵模型)?假設(shè)滿足所有約束條件的模型集合為\mathcal{C}=\{P\in\mathcal{P}|E_P(f_i)=E_{\tilde{P}}(f_i),\ i=1,2,\dots,n\}其中,E_{\tilde{P}}(f) 表示特征函數(shù) f(x,y) 關(guān)于經(jīng)驗分布 \tilde{P}(X,Y) 的期望E_{\tilde{P}}(f)=\sum\limits_{x,y}\tilde{P}(X,Y)f(x,y) E_{{P}}(f) 表示特征函數(shù) f(x,y) 關(guān)于模型 P(Y|X) 與經(jīng)驗分布 \tilde{P}(X) 的期望E_{{P}}(f)=\sum\limits_{x,y}{P}(X,Y)f(x,y)特征函數(shù) f(x,y) 描述輸入 x 與輸出 y 之間的一個事實懂酱,若滿足則取 1竹习,否則取 0。定義在條件概率分布 P(Y|X) 熵的條件熵為\begin{align}H(P)= H(Y|X) &= \sum\limits_{i=1}^n P(x_i) H(Y|X=x_i) \\ &= - \sum\limits_{i=1}^n P(x_i)\sum\limits_{j=1}^n P(y_j|x_i)\log P(y_j|x_i) \\ &= - \sum\limits_{x,y} \tilde{P}(x)P(y|x)\log P(y|x) \\ \end{align}則模型集合 \mathcal{C} 中條件熵 H(P) 最大的模型稱為最大熵模型列牺。

2.3?最大熵模型的學習

??對于給定的數(shù)據(jù)集 T = \{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\} 以及特征函數(shù) f_i(x,y),i=1,2,\dots,n整陌,最大熵模型的學習等價于約束最優(yōu)化問題:\begin{align} &\max\limits_{P\in\mathcal{C}}H(P)= - \sum\limits_{x,y} \tilde{P}(x)P(y|x)\log P(y|x) \\ &\ \ \text{s.t.}\quad E_P(f_i)-E_{\tilde{P}}(f_i)=0,\quad i=1,2,\dots,n\\ &\qquad\quad\sum\limits_{y}P(y|x)=1\\ \end{align}

最大熵模型的求解思路和步驟如下:

  1. 運用 Lagrange 乘子法將求解最大熵模型等價的約束最優(yōu)化的問題轉(zhuǎn)化為無約束最優(yōu)化的問題,該問題為極小極大問題瞎领。
  2. 利用對偶問題的等價性泌辫,將無約束最優(yōu)化問題轉(zhuǎn)化為求解對偶形式的極大極小問題

解得P_{\omega}(y|x)=\frac{1}{Z_\omega (x)}\exp\left(\sum\limits_{i=1}^n \omega_i f_i(x,y)\right)其中Z_\omega (x)=\sum\limits_{y}\exp\left(\sum\limits_{i=1}^n \omega_i f_i(x,y)\right) Z_\omega(x) 稱為規(guī)范因子九默;f_i(x,y) 是特征函數(shù)震放;\omega_i 是特征的權(quán)值。
??模型P_{\omega}(y|x) 就是所求的最大熵模型驼修。對偶函數(shù)的極大化等價于最大熵模型的極大似然估計殿遂。


3? 最大熵模型與 Logistic 模型的關(guān)系

??當類標簽只有兩個的時候,最大熵模型就是logistics回歸模型乙各。證明如下:

??設(shè) x \in \mathcal{X} \subseteq \mathbb{R}^n墨礁,并且由于類標簽只有兩個故 y \in \mathcal{Y} = \{0, 1\},取特征函數(shù)
f_i(x,y)=\left\{\begin{array}{l} x_i,\quad y=1\\ 0,\quad y=0\\ \end{array}\right.\quad i =1,2,\dots n由 2.3 小節(jié)可知最大熵模型為
P_{\omega}(y|x)=\frac{\exp\left(\sum\limits_{i=1}^n \omega_i f_i(x,y)\right)}{\sum\limits_{y}\exp\left(\sum\limits_{i=1}^n \omega_i f_i(x,y)\right)}于是當 y=1 時有
\begin{align} P_{\omega}(y=1|x) &=\frac{\exp\left(\sum\limits_{i=1}^n \omega_i f_i(x,1)\right)}{\exp\left(\sum\limits_{i=1}^n \omega_i f_i(x,1)\right)+\exp\left(\sum\limits_{i=1}^n \omega_i f_i(x,0)\right)} \\ &=\frac{\exp\left(\sum\limits_{i=1}^n \omega_i x_i\right)}{\exp\left(\sum\limits_{i=1}^n \omega_i x_i\right)+\exp\left(\sum\limits_{i=1}^n \omega_i \times 0\right)}\\ &=\frac{\exp\left(\omega\cdot x\right)}{\exp\left(\omega\cdot x\right)+\exp\left(0\right)}\\ &=\frac{\exp\left(\omega\cdot x\right)}{\exp\left(\omega\cdot x\right)+1}\\ \end{align}同樣當 y=0 時有
\begin{align} P_{\omega}(y=0|x) &=\frac{\exp\left(\sum\limits_{i=1}^n \omega_i f_i(x,0)\right)}{\exp\left(\sum\limits_{i=1}^n \omega_i f_i(x,1)\right)+\exp\left(\sum\limits_{i=1}^n \omega_i f_i(x,0)\right)} \\ &=\frac{\exp\left(\sum\limits_{i=1}^n \omega_i \times 0\right)}{\exp\left(\sum\limits_{i=1}^n \omega_i x_i\right)+\exp\left(\sum\limits_{i=1}^n \omega_i \times 0\right)}\\ &=\frac{1}{\exp\left(\omega\cdot x\right)+1}\\ \end{align}

此時耳峦,最大熵模型為
\begin{align} P(Y=1|x)=\frac{\exp({\omega} \cdot x)}{1+\exp({\omega}\cdot x)}\\ P(Y=0|x)=\frac{1}{1+\exp({\omega} \cdot x)}\\ \end{align}即為 logistic 回歸模型恩静。Q.E.D.


4?習題

習題6.2?寫出 logistic 回歸模型學習的梯度下降算法。
解:
logistic 回歸模型為:
\begin{align} P(Y=1|x)=\frac{\exp(\omega \cdot x)}{1+\exp(\omega \cdot x)}\\ P(Y=0|x)=\frac{1}{1+\exp(\omega \cdot x)}\\ \end{align}求得對數(shù)似然函數(shù)為
L(\omega) = \sum\limits_{i=1}^N [y_1(\omega\cdot x_i)-\log(1+\exp(\omega\cdot x_i))]L(\omega) 求梯度蹲坷,可得\text{grad} L(\omega) = \left[\frac{\partial L(\omega)}{\partial\omega_1},\frac{\partial L(\omega)}{\partial\omega_2},\dots,\frac{\partial L(\omega)}{\partial\omega_n},\frac{\partial L(\omega)}{\partial b}\right]
其中\frac{\partial L(\omega)}{\partial\omega_i}=\sum\limits_{k=1}^N\left[x_k\times y_k-\frac{x_k\times \exp (\omega_i\times x_k)}{1+\exp (\omega_i\times x_k)}\right]
于是 Logistic 回歸模型學習的梯度下降算法:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末驶乾,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子循签,更是在濱河造成了極大的恐慌轻掩,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件懦底,死亡現(xiàn)場離奇詭異唇牧,居然都是意外死亡罕扎,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進店門丐重,熙熙樓的掌柜王于貴愁眉苦臉地迎上來腔召,“玉大人,你說我怎么就攤上這事扮惦⊥沃耄” “怎么了?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵崖蜜,是天一觀的道長浊仆。 經(jīng)常有香客問我,道長豫领,這世上最難降的妖魔是什么抡柿? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮等恐,結(jié)果婚禮上洲劣,老公的妹妹穿的比我還像新娘。我一直安慰自己课蔬,他們只是感情好囱稽,可當我...
    茶點故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著二跋,像睡著了一般战惊。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上扎即,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天样傍,我揣著相機與錄音,去河邊找鬼铺遂。 笑死,一個胖子當著我的面吹牛茎刚,可吹牛的內(nèi)容都是我干的襟锐。 我是一名探鬼主播,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼膛锭,長吁一口氣:“原來是場噩夢啊……” “哼粮坞!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起初狰,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤莫杈,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后奢入,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體筝闹,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了关顷。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片糊秆。...
    茶點故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖议双,靈堂內(nèi)的尸體忽然破棺而出痘番,到底是詐尸還是另有隱情,我是刑警寧澤平痰,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布汞舱,位于F島的核電站,受9級特大地震影響宗雇,放射性物質(zhì)發(fā)生泄漏昂芜。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一逾礁、第九天 我趴在偏房一處隱蔽的房頂上張望说铃。 院中可真熱鬧,春花似錦嘹履、人聲如沸腻扇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽幼苛。三九已至,卻和暖如春焕刮,著一層夾襖步出監(jiān)牢的瞬間舶沿,已是汗流浹背循狰。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工话侄, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留抹镊,地道東北人缤沦。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓色鸳,卻偏偏與公主長得像脾拆,于是被迫代替她去往敵國和親财异。 傳聞我的和親對象是個殘疾皇子劳跃,可洞房花燭夜當晚...
    茶點故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內(nèi)容