邏輯斯諦回歸與最大熵模型

邏輯斯諦回歸模型
最大熵模型
最大熵模型的學(xué)習(xí)

邏輯斯諦回歸（logistic regression）是統(tǒng)計學(xué)習(xí)中的經(jīng)典分類方法映皆。最大熵是概率模型學(xué)習(xí)的一個準(zhǔn)則，將其推廣到分類問題得到最大熵模型（maximum entropy model）。邏輯斯諦回歸模型與最大熵模型都屬于對數(shù)線性模型搂鲫。

邏輯斯諦回歸模型

邏輯斯諦分布：設(shè) $X$ 是連續(xù)隨機(jī)變量右核， $X$ 服從邏輯斯諦分布是指 $X$ 具有下列分布函數(shù)和密度函數(shù)
$F(x) = P(X \le x) = \frac{1}{1+ e^{-(x-\mu)/\gamma}} \\ f(x) = F'(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma(1+ e^{-(x-\mu)/\gamma})^2}$
式中， $\mu$ 為位置參數(shù)殖氏， $\gamma \gt 0$ 為形狀參數(shù)众雷。
邏輯斯諦分布函數(shù)，其圖像是一條 S 形曲線绎巨。該曲線以點(diǎn) $(\mu, \frac{1}{2})$ 為中心對稱近尚，即滿足
$F(-x+\mu)-\frac{1}{2} = -F(x+\mu) + \frac{1}{2}$

曲線在中心附近增長速度較快，在兩端增長速度較慢场勤。形狀參數(shù) $\gamma$ 的值越小戈锻，曲線在中心附近增長得越快。
二項(xiàng)邏輯斯諦回歸模型（binomial logistic regression model）是一種分類模型和媳，由條件概率分布 $P(Y|X)$ 表示格遭，形式為參數(shù)化的邏輯斯諦分布。這里留瞳，隨機(jī)變量 $X$ 取值為實(shí)數(shù)拒迅，隨機(jī)變量 $Y$ 取值為1或0。我們通過監(jiān)督學(xué)習(xí)的方法來估計模型參數(shù)她倘。
二項(xiàng)邏輯斯諦回歸模型是如下的條件概率分布：
$P(Y=1 \mid x) = \frac{exp(\omega\cdot x + b)}{1+exp(\omega \cdot x + b)} \\ p(Y=0 \mid x) = \frac{1}{1+exp(\omega \cdot x + b)}$
這里璧微， $x \in R^n$ 是輸入， $Y\in \{0,1\}$ 是輸出帝牡， $\omega \in R^n$ 和 $b \in R$ 是參數(shù)往毡， $\omega$ 稱為權(quán)值向量， $b$ 稱為偏置靶溜， $\omega \cdot x$ 為 $\omega$ 和 $x$ 的內(nèi)積开瞭。
邏輯斯諦回歸比較兩個條件概率值的大小，將實(shí)例 $x$ 分到概率值較大的那一類罩息。
為了方便嗤详，將 $\omega = (\omega^{(1)}, \omega^{(2)},...,\omega^{(n)}, b)^T$ ， $x=(x^{(1)},x^{(2)},...,x^{(n)}, 1)^T$ 瓷炮，這時葱色，邏輯斯諦回歸模型如下：
$P(Y=1 \mid x) = \frac{exp(\omega\cdot x)}{1+exp(\omega \cdot x)} \\ p(Y=0 \mid x) = \frac{1}{1+exp(\omega \cdot x)}$
一個事件的幾率（odds）是指該事件發(fā)生的概率與該事件不發(fā)生的概率的比值。如果事件發(fā)生的概率是 $p$ 娘香，那么該事件的幾率是 $\frac{p}{1-p}$ 苍狰，該事件的對數(shù)幾率（log odds）或 logit 函數(shù)是
$logit(p) = \log\frac{p}{1-p}$
對邏輯斯諦回歸而言
$\log\frac{P(Y=1\mid x)}{1-P(Y=1 \mid x)} = \omega \cdot x$
這就是說，在邏輯斯諦回歸模型中烘绽，輸出 $Y＝1$ 的對數(shù)幾率是輸入 $x$ 的線性函數(shù)淋昭。或者說安接，輸出 $Y＝1$ 的對數(shù)幾率是由輸入 $x$ 的線性函數(shù)表示的模型翔忽，即邏輯斯諦回歸模型。
給定訓(xùn)練數(shù)據(jù)集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i \in R^n$ 歇式， $y_i \in \{0,1\}$ 驶悟，可以應(yīng)用極大似然估計法估計模型參數(shù)，從而得到邏輯斯諦回歸模型材失。
設(shè) $P(Y=1\mid x)=\pi (x)$ 痕鳍， $P(Y=0\mid x)= 1-\pi (x)$
似然函數(shù)為
$\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
對數(shù)似然函數(shù)為
$\begin{array} \ L(\omega) &=& \sum_{i=1}^N[y_i\log \pi(x_i) + (1-y_i)\log(1-\pi(x_i))] \\ &=& \sum_{i=1}^N [y_i \log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i)] \\ &=& \sum_{i=1}^N[y_i(\omega \cdot x_i)-\log(1+\exp(\omega\cdot x_i))] \end{array}$
對 $L(\omega)$ 求極大值，就得到 $\omega$ 的估計值豺憔。
這樣额获，問題就變成了以對數(shù)似然函數(shù)為目標(biāo)函數(shù)的最優(yōu)化問題。邏輯斯諦回歸學(xué)習(xí)中通常采用的方法是梯度下降法及擬牛頓法恭应。
二分類邏輯斯諦模型，可以將其推廣為多項(xiàng)邏輯斯諦回歸模型（multi-nominal logistic regression model）耘眨，用于多類分類昼榛。

最大熵模型

最大熵原理是概率模型學(xué)習(xí)的一個準(zhǔn)則。最大熵原理認(rèn)為剔难，學(xué)習(xí)概率模型時胆屿，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型偶宫。通常用約束條件來確定概率模型的集合非迹，所以，最大熵原理也可以表述為在滿足約束條件的模型集合中選取熵最大的模型纯趋。
假設(shè)離散隨機(jī)變量 $X$ 的概率分布式 $P(X)$ 憎兽，則其熵是
$H(P) = -\sum_xP(x)\log P(x)$
熵滿足以下不等式
$0 \le H(P) \le \log \mid X \mid$
式中， $\mid X \mid$ 是 $X$ 取值的個數(shù)吵冒，當(dāng)且僅當(dāng) $X$ 的分布式均勻分布時右邊的等號成立纯命。也就是說， $X$ 服從均勻分布時痹栖，熵最大亿汞。
直觀地，最大熵原理認(rèn)為要選擇的概率模型首先必須滿足已有的事實(shí)揪阿，即約束條件疗我。在沒有更多信息的情況下，那些不確定的部分都是“等可能的”南捂。
等概率表示了對事實(shí)的無知吴裤。
給定訓(xùn)練數(shù)據(jù)集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，確定聯(lián)合分布 $P(X,Y)$ 的經(jīng)驗(yàn)分布和邊緣分布 $P(X)$ 的經(jīng)驗(yàn)分布黑毅，分別以 $\hat{P}(X,Y)$ 和 $\hat{P}(X)$ 表示
$\hat{P}(X=x,Y=y) = \frac{\#(X=x,Y=y)}{N} \\ \hat{P}(X=x) = \frac{\#(X=x)}{N}$
其中嚼摩， $\#(X=x,Y=y)$ 表示訓(xùn)練數(shù)據(jù)中樣本 $(X,Y)$ 出現(xiàn)的頻數(shù)， $\#(X=x)$ 表示訓(xùn)練數(shù)據(jù)中輸入 $x$ 出現(xiàn)的頻數(shù)。 $N$ 表示訓(xùn)練樣本容量枕面。
用特征函數(shù) $f(X,Y)$ 描述輸入 $x$ 和輸出 $y$ 之間的某一個事實(shí)愿卒。
$f(x,y) = \begin{cases} & 1, \ \ \ \ \ \ x與y滿足某一事實(shí) \\ & 0, \ \ \ \ \ \ 否則 \end{cases}$
它是一個二值函數(shù)。
特征函數(shù) $f(X,Y)$ 關(guān)于經(jīng)驗(yàn)分布 $\hat{P}(X,Y)$ 的期望值潮秘，用 $E_{\hat{P}}(f)$ 表示
$E_{\hat{P}}(f) = \sum_{x,y}\hat{P}(x,y)f(x,y)$
特征函數(shù) $f(X,Y)$ 關(guān)于模型 $P(Y\mid X)$ 與經(jīng)驗(yàn)分布 $\hat{P}(X)$ 的期望值琼开，用 $E_P(f)$ 表示
$E_P(f) = \sum_{x,y}\hat{P}(x)P(y\mid x)f(x,y)$
如果模型能夠獲取訓(xùn)練數(shù)據(jù)中的信息，那么就可以假設(shè) $E_P(f)=E_{\hat{P}}(f)$ 枕荞，我們將該假設(shè)作為模型學(xué)習(xí)的約束條件柜候。如果有多個特征函數(shù)，那么就會有多個約束條件躏精。
最大熵模型定義： 假設(shè)滿足所有約束條件的模型集合為
$C = \{P \in \rho \mid E_p(f_i)=E_{\hat{p}}(f_i),\ \ \ \ \ \ i=1,2,...,n\}$
定義在條件概率分布 $P(Y\mid X)$ 上的條件熵為
$H(P) = -\sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x)$
則模型集合 $C$ 中條件熵 $H(P)$ 最大的模型稱為最大熵模型渣刷。式中的對數(shù)為自然對數(shù)。

最大熵模型的學(xué)習(xí)

對于給定的訓(xùn)練數(shù)據(jù)集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 以及特征函數(shù) $f_i(X,Y)$ 矗烛， $i=1,2,...,n$ 辅柴，最大熵模型的學(xué)習(xí)等價于約束最優(yōu)化問題
$\begin{array} \ max_{P \in C} & H(P) = -\sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x)\\ s.t. & E_P(f_i)=E_{\hat{p}}(f_i), \ \ \ \ \ i=1,2,...,n \\ & \sum_yP(y\mid x) =1 \end{array}$
將最大值問題改寫為等價的最小值問題
$\begin{array} \ min_{P \in C} & -H(P) = \sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x)\\ s.t. & E_P(f_i)-E_{\hat{p}}(f_i)=0, \ \ \ \ \ i=1,2,...,n \\ & \sum_yP(y\mid x) =1 \end{array}$
將約束最優(yōu)化的原始問題轉(zhuǎn)換為無約束最優(yōu)化的對偶問題
引入拉格朗日乘子 $\omega_0,\omega_1,...,\omega_n$ ，定義拉格朗日函數(shù) $L(P,\omega)$
$\begin{array} \ L(P, \omega) & = & -H(p) + \omega_0(1-\sum_yP(y\mid x)) + \sum_{i=1}^n\omega_i(E_{\hat{P}}(f_i)-E_P(f_i)) \\ & = & \sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x) + \omega_0(1-\sum_yP(y\mid x)) + \sum_{i=1}^n\omega_i(E_{\hat{P}}(f_i)-E_P(f_i)) \end{array}$
最優(yōu)化的原始問題是
$min_{P \in C}\ max_\omega\ L(P,\omega)$
對偶問題是
$max_\omega\ min_{P \in C} \ L(P,\omega)$
由于拉格朗日函數(shù) $L(P,\omega)$ 是 $P$ 的凸函數(shù)瞭吃，原始問題的解與對偶問題的解釋等價的碌嘀。這樣可以求解對偶問題來求解原始問題。
求解對偶問題內(nèi)部極小化問題 $min_{P \in C} \ L(P,\omega)$ 歪架，該函數(shù)是 $\omega$ 的函數(shù)股冗，將其記作
$\psi(\omega) = min_{P \in C} \ L(P,\omega) = L(P_\omega, \omega)$
$\psi(\omega)$ 稱為對偶函數(shù)。同時和蚪，將其解記作
$P_\omega = arg \ min_{P \in C}L(P, \omega)=P_\omega(y \mid x)$
具體地止状，求 $L(p, \omega)$ 對 $P(Y\mid X)$ 的偏導(dǎo)數(shù)
$\begin{array} \ \frac{\partial L(P, \omega)}{\partial P(y\mid x)} & = & \sum_{x,y}\hat{P}(x)(\log P(y\mid x) + 1) - \sum_y \omega_0 - \sum_{x,y}(\hat{P}(x)\sum_{i=1}^n \omega_if_i(x, y)) \\ & = & \sum_{x,y}\hat{P}(x)(\log P(y\mid x) + 1 -\omega_0 -\sum_{i=1}^n \omega_if_i(x, y) ) \end{array}$
令偏導(dǎo)數(shù)等于 0，在 $\hat{P}(x) \gt 0$ 的情況下解得
$\begin{array} \ P(y\mid x) & = & exp(\sum_{i=1}^n\omega_if_i(x,y) + \omega_0 -1) \\ & = & \frac{exp(\sum_{i=1}^n\omega_if_i(x,y))}{exp(1-\omega_0)} \end{array}$
由于 $\sum_yP(y\mid x) =1$ 得
$p_\omega(y\mid x) = \frac{1}{Z_\omega(x)}exp(\sum_{i=1}^n\omega_if_i(x,y))$
其中惠呼，
$Z_\omega(x) = \sum_y exp(\sum_{i=1}^n \omega_if_i(x,y))$
$Z_\omega(x)$ 稱為規(guī)范化因子导俘； $f_i(X,Y)$ 是特征函數(shù)； $\omega_i$ 是特征的權(quán)值剔蹋。
之后旅薄，對解對偶問題外部的極大化問題
$max_\omega \ \psi(\omega)$
將其解記為 $\omega^*$
$\omega^* = arg max_\omega \ \psi(\omega)$
這就是說，可以應(yīng)用最優(yōu)化算法求對偶函數(shù) $\psi(\omega)$ 的極大化泣崩，得到 $\omega^*$ 少梁，用來表示 $P^* \in C$ 。這里矫付， $P^*＝P_{\omega^*}＝P_{\omega^*}(Y \mid X)$ 是學(xué)習(xí)到的最優(yōu)模型（最大熵模型）凯沪。也就是說，最大熵模型的學(xué)習(xí)歸結(jié)為對偶函數(shù) $\psi(\omega)$ 的極大化买优。

最后編輯于：2019.02.19 17:07:38

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末妨马，一起剝皮案震驚了整個濱河市挺举，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌烘跺，老刑警劉巖湘纵，帶你破解...
沈念sama閱讀 222,252評論 6贊 516
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異滤淳，居然都是意外死亡梧喷，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,886評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門脖咐，熙熙樓的掌柜王于貴愁眉苦臉地迎上來铺敌，“玉大人，你說我怎么就攤上這事屁擅〕テ荆” “怎么了？”我有些...
開封第一講書人閱讀 168,814評論 0贊 361
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵煤蹭，是天一觀的道長笔喉。經(jīng)常有香客問我，道長硝皂，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,869評論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任作谭，我火速辦了婚禮稽物，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘折欠。我一直安慰自己贝或，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 68,888評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布锐秦。她就那樣靜靜地躺著咪奖，像睡著了一般。火紅的嫁衣襯著肌膚如雪酱床。梳的紋絲不亂的頭發(fā)上羊赵，一...
開封第一講書人閱讀 52,475評論 1贊 312
城市分裂傳說
那天，我揣著相機(jī)與錄音扇谣，去河邊找鬼昧捷。笑死，一個胖子當(dāng)著我的面吹牛罐寨，可吹牛的內(nèi)容都是我干的靡挥。我是一名探鬼主播，決...
沈念sama閱讀 41,010評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼鸯绿，長吁一口氣：“原來是場噩夢啊……” “哼跋破！你這毒婦竟也來了簸淀？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,924評論 0贊 277
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤毒返，失蹤者是張志新（化名）和其女友劉穎租幕，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體饿悬，經(jīng)...
沈念sama閱讀 46,469評論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡令蛉，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,552評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了狡恬。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片珠叔。...
茶點(diǎn)故事閱讀 40,680評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖弟劲，靈堂內(nèi)的尸體忽然破棺而出祷安，到底是詐尸還是另有隱情，我是刑警寧澤兔乞，帶...
沈念sama閱讀 36,362評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布汇鞭，位于F島的核電站，受9級特大地震影響庸追，放射性物質(zhì)發(fā)生泄漏霍骄。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,037評論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一淡溯、第九天我趴在偏房一處隱蔽的房頂上張望读整。院中可真熱鬧，春花似錦咱娶、人聲如沸米间。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,519評論 0贊 25
一樁弒父案膘侮，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽屈糊。三九已至，卻和暖如春琼了，著一層夾襖步出監(jiān)牢的瞬間逻锐，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,621評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工表伦，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留谦去，地道東北人。一個月前我還...
沈念sama閱讀 49,099評論 3贊 378
代替公主和親
正文我出身青樓蹦哼，卻偏偏與公主長得像鳄哭，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子纲熏，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,691評論 2贊 361

邏輯斯諦回歸與最大熵模型

邏輯斯諦回歸模型

最大熵模型

最大熵模型的學(xué)習(xí)

推薦閱讀更多精彩內(nèi)容