LogisticRegression & Maxent(面試準(zhǔn)備)

1、手推LogisticRegression(損失函數(shù))

二項(xiàng)邏輯斯蒂回歸模型是如下條件概率分布:

P(Y=1|x) = \frac{ \exp(wx)}{ 1+\exp(wx)}

P(Y=0|x) = \frac{ 1}{1+\exp(wx)}

這里的w包含偏置項(xiàng)b玄柏,即為w_0兼呵,其對(duì)應(yīng)的x_0=1

由此可得:

\log\frac{P(Y=1|x)}{P(Y=0|x)}=w\cdot x

即:

\log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x

也就是說驮瞧,Y=1的對(duì)數(shù)幾率由輸入x的線性函數(shù)表示的模型稱為邏輯斯蒂回歸模型氓扛。

接下來應(yīng)用極大似然估計(jì)法估計(jì)模型參數(shù):

設(shè):

P(Y=1|x)=\pi(x),\ \ P(Y=0|x)=1-\pi(x)

似然函數(shù)為:

\prod_{I=1}^N [\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i)}

對(duì)數(shù)似然函數(shù)為:

\begin{aligned} L(w)&=\sum_{i=1}^N [y_i\log\pi(x_i)+(1-y_i)\log(1-\pi(x_i))] \\ &=\sum_{i=1}^N[y_i\log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i))] \\ &=\sum_{i=1}^N[y_i(w\cdot x_i)-\log(1+\exp(w\cdot x_i))] \end{aligned}

L(w)直接對(duì)w求導(dǎo)是無法得到解析解的,因此采用梯度下降法或者擬牛頓法等方法優(yōu)化L(w)论笔。

這里我們可以求解L(w)對(duì)各w_i的梯度,為了推導(dǎo)簡(jiǎn)便,我們寫出 sigmoid 函數(shù):

\sigma(x)= \frac{ 1}{1+\exp(-x)}

從而:

\pi(x)=\sigma(w\cdot x)

\sigma(x)有一個(gè)很好的性質(zhì):

\sigma^{\prime}(x)=\sigma(x)(1-\sigma(x))

從而L(w)可以寫作:

L(w) = \sum_{i=1}^N [y_i\log\sigma(w\cdot x_i)+(1-y_i)\log(1-\sigma(w\cdot x_i))]

接下來求L(w)對(duì)各w_i的梯度:

\begin{aligned} \frac{\partial L(w)}{\partial w_i}&=\left(y \frac{1}{\sigma\left(w\cdot x\right)}-(1-y) \frac{1}{1-\sigma\left(w\cdot x\right)}\right) \fracgk52x9o{d w_i } \sigma\left(w\cdot x\right) \\ &=\left(y \frac{1}{\sigma\left(w\cdot x\right)}-(1-y) \frac{1}{1-\sigma\left(w\cdot x\right)}\right) \sigma\left(w\cdot x\right)\left(1-\sigma\left(w\cdot x\right)\right) \fracgoppbpf{d w_{i}} (w\cdot x) \\ &=\left(y\left(1-\sigma\left(w\cdot x\right)\right)-(1-y) \sigma\left(w\cdot x\right)\right) x_{i}\\ &=\left(y-\sigma(w\cdot x) \right) x_{i} \\ \end{aligned}

2报咳、邏輯斯蒂回歸在多分類時(shí)的情形

對(duì)于K分類:

\begin{aligned} &P(Y=k|x) = \frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^K\exp(w_k\cdot x)},\ \ \ k=1,2,\dots,K-1 \\ &P(Y=K|x) = \frac{1}{1+\sum_{k=1}^K\exp(w_k\cdot x)} \end{aligned}

3凌彬、邏輯斯蒂回歸為什么采用 sigmoid 函數(shù)?

  • sigmoid 函數(shù)可以很方便的將w\cdot x的結(jié)果映射到(0,1)區(qū)間上最楷,從而代表分類概率的大小整份。

  • sigmoid 函數(shù)在 0 附近斜率較大,而在遠(yuǎn)離 0 處的斜率較小籽孙,這體現(xiàn)了模型對(duì)不同樣本點(diǎn)的敏感性的大小烈评,即對(duì)于遠(yuǎn)離分類邊界的點(diǎn)敏感性較小,對(duì)于分類邊界附近的點(diǎn)敏感性較大犯建。這有利于模型重點(diǎn)關(guān)注較難分類的樣本讲冠,從而取得較好的分類效果。

  • sigmoid 函數(shù)的選擇也可以從最大熵模型推導(dǎo)得出胎挎。

4沟启、最大熵模型與邏輯斯蒂回歸模型的關(guān)系

邏輯斯蒂回歸模型可以視作最大熵模型的一個(gè)特例忆家。

假設(shè)分類模型是一個(gè)條件概率分布P(Y|X),給定訓(xùn)練數(shù)據(jù)集德迹,可以確定聯(lián)合分布P(X,Y)的經(jīng)驗(yàn)分布\tilde{P}(X,Y)和邊緣分布P(X)的經(jīng)驗(yàn)分布\tilde{P}(X)芽卿。

\tilde{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}

\tilde{P}(X=x)=\frac{v(X=x)}{N}

其中v(X=x,Y=y)表示訓(xùn)練數(shù)據(jù)集中樣本(x,y)的頻數(shù),v(X=x)表示訓(xùn)練數(shù)據(jù)集中輸入x出現(xiàn)的頻數(shù)胳搞,N為樣本容量卸例。

用特征函數(shù)f(x,y)描述輸入x和輸出y之間的某個(gè)事實(shí),定義為:

\begin{equation} f(x,y)=\left\{ \begin{array}{rcl} 1 & & {x,y滿足某一事實(shí)}\\ 0 & & {否則} \end{array} \right. \end{equation}

特征函數(shù)f(x,y)關(guān)于經(jīng)驗(yàn)分布\tilde{P}(X,Y)的期望值E_{\tilde{P}}(f)為:

E_{\tilde{P}}(f)=\sum_{x,y}\tilde{P}(x,y)f(x,y)

特征函數(shù)f(x,y)關(guān)于模型P(Y|X)與經(jīng)驗(yàn)分布\tilde{P}(X)的期望值E_P(f)為:

E_P(f)=\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)

若模型能夠獲取訓(xùn)練數(shù)據(jù)中的信息肌毅,則可假設(shè)這兩個(gè)期望相等(注意P(y|x)是我們的模型學(xué)得的結(jié)果)

E_P(f)=E_{\tilde{P}}(f)

將上式作為模型的約束條件筷转,設(shè)所有滿足約束的模型集合為:

C\equiv \{P\in \it{P} |E_P(f_i)=E_{\tilde{P}}(f_i),\quad i=1,2,\dots,n\}

定義在條件概率分布P(Y|X)上的條件熵為:

H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)\log P(y|x)

則最大熵模型的學(xué)習(xí)變?yōu)榍蠼饧s束最優(yōu)化問題:

\begin{aligned} & \max_{P\in C} && H(P) = -\sum_{x,y} \tilde{P}(x)P(y|x)\log P(y|x) \\ & s.t. && E_P(f_i) = E_{\tilde{p}}(f_i),\ \ i=1,2,\dots,n \\ & && \sum_{y}P(y|x)=1 \\ \end{aligned}

改寫為等價(jià)的最小化問題:

\begin{aligned} & \min_{P\in C} && -H(P) = \sum_{x,y} \tilde{P}(x)P(y|x)\log P(y|x) \\ & s.t. && E_P(f_i) - E_{\tilde{p}}(f_i)=0,\ \ i=1,2,\dots,n \\ & && \sum_{y}P(y|x)=1 \\ \end{aligned}

引入拉格朗日乘子w_0,w_1,\dots,w_n,構(gòu)造拉格朗日函數(shù):

\begin{aligned} L(P,w)& =-H(P)+w_0(1- \sum_{y}P(y|x))+\sum_{i=1}^n w_i(E_{\tilde{P}}(f_i)-E_P(f_i)) \\ & =\sum_{x,y} \tilde{P}(x)P(y|x)\log P(y|x)+w_0(1-\sum_{y}P(y|x))+\sum_{i=1}^n w_i(E_{\tilde{P}}(f_i)-E_P(f_i)) \\ \end{aligned}

原問題等價(jià)于:

min_{P\in C} \max_{w}L(P,w)

對(duì)偶問題為:

\max_{w}min_{P\in C} L(P,w)

L(P,w)對(duì)P(y|x)對(duì)偏導(dǎo)數(shù):

\frac{\partial L(P,w)}{\partial P(y|x)}=\sum_{x,y}\tilde{P}(x)(\log P(y|x)+1-w_0-\sum_{i=1}^n w_i f_i(x,y))=0

解得:

P(y|x) = \frac{ \exp(\sum_{i=1}^n w_i f_i(x,y))}{\exp(1-w_0)}

\sum_{y}P(y|x)=1得:

P(y|x) = \frac{ \exp( \sum_{i=1}^n w_i f_i(x,y))}{ \sum_y \exp(\sum_{i=1}^n w_i f_i(x,y))}

之后悬而,求解對(duì)偶問題外層的極大化問題呜舒,即把上式帶入L(P,w)后再求解最優(yōu)的w^*使得L(w)最大。

不難看出笨奠,這里的P(y|x)的形式和 Logistic Regression 很像袭蝗。

實(shí)際上,若取特征函數(shù):

f(x_i, y_i)=\left\{\begin{array}{cl} x_i & y_i=1 \\ 0 & y_i=0 \\ \end{array}\right.

則:

P(y=1|x) = \frac{\exp(\sum_{i=1}^n w_i f_i(x,y))}{ \sum_y \exp(\sum_{i=1}^n w_i f_i(x,y))} = \frac{ \exp(wx) }{ 1+\exp(wx) }

這就得到了邏輯斯蒂回歸般婆。

5到腥、LR 與 SVM 的區(qū)別與聯(lián)系

相同點(diǎn):

  1. LR 和 SVM 都是分類算法

  2. 如果不考慮核函數(shù),LR 和 SVM 都是線性分類算法蔚袍,即分類決策面都是線性的

  3. LR 和 SVM 都是有監(jiān)督學(xué)習(xí)算法

  4. LR 和 SVM 都是判別模型

不同點(diǎn):

  1. 損失函數(shù)的不同乡范。LR 采用的是對(duì)數(shù)損失函數(shù),SVM 采用的是合頁損失函數(shù)啤咽。而前者比后者發(fā)散更快晋辆,因此相比 SVM,LR 對(duì)異常值更加敏感闰蚕。
  1. 分類原理的不同栈拖。LR 基于概率模型,通過極大似然估計(jì)的方法估計(jì)出參數(shù)的值没陡,而 SVM 基于幾何間隔最大化原理涩哟。所以 SVM 會(huì)找到唯一的最優(yōu)解,而 LR 沒有這個(gè)特性盼玄。

  2. 對(duì)于線性不可分的復(fù)雜情形贴彼,SVM 可以利用核函數(shù)將線性不可分的低維數(shù)據(jù)映射為線性可分的高維數(shù)據(jù);而 LR 很少用到核函數(shù)(LR 是可以使用核函數(shù)的埃儿,接下來會(huì)進(jìn)行說明)器仗,因?yàn)?LR 模型中每個(gè)樣本點(diǎn)都必須參與核函數(shù)的計(jì)算,計(jì)算復(fù)雜度很高。所以在具體應(yīng)用中精钮,LR 很少運(yùn)用核函數(shù)機(jī)制威鹿,遇到線性不可分的情形多使用 SVM 解決。

這里簡(jiǎn)要說下 Kernel Logistic Regression(KLR):

為了說明 LR 可以使用核函數(shù)轨香,先證明如下定理:

  • 對(duì)于任意帶 L2 正則化的線性模型都可以使用 Kernel Trick忽你。

具體說來,對(duì)如下模型:

\min_{w} \frac{ \lambda}{ N}w^T w+\frac{1}{N}\sum_{n=1}^N loss(y_n,w^T x_n)

最優(yōu)解w^*一定可以表示成w^*=\sum_{n=1}^N\beta_n x_n臂容,從而使得{w^*}^T x_n中出現(xiàn)內(nèi)積的形式科雳,可以使用 Kernel Trick 簡(jiǎn)化計(jì)算。

證明:設(shè)w^*=w_{||}+w_{\perp}脓杉,其中w_{||}\in span(x_n)糟秘,且w_{\perp} \perp span(x_n)。若w_{\perp}\neq 0球散,則:

loss(y_n,{w^*}^T x_n)=loss(y_n,(w_{||}+w_{\perp})^T x_n)=loss(y_n,w_{||}^T x_n)

且:

{w^*}^T w^*=w_{||}^T w_{||}+w_{\perp}^T w_{\perp} +2w_{||}^T w_{\perp} = w_{||}^T w_{||}+w_{\perp}^T w_{\perp} > w_{||}^T w_{||}

w_{||}是比w^*更好的解尿赚,矛盾。因此w_{\perp}=0沛婴,即w^*\in span(x_n)吼畏,即w^*可由x_n的線性組合表示督赤。證畢嘁灯。

應(yīng)用此定理可知,帶 L2 正則項(xiàng)的 LR 模型可以應(yīng)用 Kernel Trick躲舌,得到的模型 KLR 具有處理非線性可分?jǐn)?shù)據(jù)的能力丑婿,且一定程度上可以防止過擬合(因?yàn)榘齽t項(xiàng))。

  1. SVM 輸出分類結(jié)果 0 或 1没卸,而 LR 輸出介于 0 和 1 之間的表示分類概率的數(shù)值羹奉,這在某些應(yīng)用場(chǎng)景下是非常有用的,比如醫(yī)療診斷這樣后果較為嚴(yán)重的場(chǎng)合约计,或者我們對(duì)數(shù)據(jù)質(zhì)量并不是十分有信心的時(shí)候诀拭,LR 可以告訴我們?cè)诙啻蟪潭壬峡梢韵嘈拍P彤a(chǎn)生的分類結(jié)果。

  2. SVM 的結(jié)果只受邊界附近少數(shù)幾個(gè)樣本點(diǎn)的影響煤蚌,LR 的結(jié)果則受所有樣本點(diǎn)的影響耕挨。兩者沒有絕對(duì)的優(yōu)劣之分,具體使用結(jié)合應(yīng)用場(chǎng)景尉桩。

Reference

https://blog.csdn.net/cuiy0818/article/details/81288701

https://medium.com/@george.drakos62/support-vector-machine-vs-logistic-regression-94cc2975433f

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末筒占,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子蜘犁,更是在濱河造成了極大的恐慌翰苫,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異奏窑,居然都是意外死亡导披,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門埃唯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來盛卡,“玉大人,你說我怎么就攤上這事筑凫』祝” “怎么了?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵巍实,是天一觀的道長(zhǎng)滓技。 經(jīng)常有香客問我,道長(zhǎng)棚潦,這世上最難降的妖魔是什么令漂? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮丸边,結(jié)果婚禮上叠必,老公的妹妹穿的比我還像新娘。我一直安慰自己妹窖,他們只是感情好纬朝,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著骄呼,像睡著了一般共苛。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蜓萄,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天隅茎,我揣著相機(jī)與錄音,去河邊找鬼嫉沽。 笑死辟犀,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的绸硕。 我是一名探鬼主播堂竟,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼臣咖!你這毒婦竟也來了跃捣?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤夺蛇,失蹤者是張志新(化名)和其女友劉穎疚漆,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡娶聘,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年闻镶,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片丸升。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡铆农,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出狡耻,到底是詐尸還是另有隱情墩剖,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布夷狰,位于F島的核電站岭皂,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏沼头。R本人自食惡果不足惜爷绘,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望进倍。 院中可真熱鬧土至,春花似錦、人聲如沸猾昆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽毡庆。三九已至坑赡,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間么抗,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國(guó)打工亚铁, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蝇刀,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓徘溢,卻偏偏與公主長(zhǎng)得像吞琐,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子然爆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容