logistic回歸模型與最大熵模型
標簽: 統(tǒng)計學(xué)習
目錄
[TOC]
logistic回歸模型
?分布
??定義:logistic分布,指具有如下分布函數(shù)與密度函數(shù)闲询。式中久免,u為位置參數(shù),r為形狀參數(shù)
??分布函數(shù)為一條S形曲線(sigmoid curve),該曲線以點(u, 1/2)中心對稱扭弧,即
?二項logistic回歸模型
??binomial logistic regression model 是一種分類模型阎姥,由條件概率分布P(Y|X)表示「肽恚可以通過監(jiān)督學(xué)習的方法來估計模型參數(shù)
??定義:二項logistic回歸模型為如下的條件概率分布
??將x擴充為(x,1),這時模型可以表示為
??如果事件發(fā)生概率為p呼巴,定義該時間的幾率為p/(1-p)泽腮,那么該事件的對數(shù)幾率(log odds)或logit函數(shù)為
??對于logistic回歸而言,其logit函數(shù)為
??也就是說衣赶,在logistic回歸模型中诊赊,輸出Y=1的對數(shù)幾率是輸入x的線性函數(shù)
?模型參數(shù)估計
??使用極大似然法估計模型參數(shù)。
??對于分布函數(shù)屑埋,
??似然函數(shù)為豪筝,
??對數(shù)似然函數(shù)為,
&=\sum\limits_{i=1}^N{\left[y_i\log{\frac{\pi(x_i)}{1-\pi(x_i)}}+\log{(1-\pi(x_i))}\right]} \ &=\sum\limits_{i=1}^N{[y_i(\omega\cdot x_i)-\log{(1+e^{\omega\cdot x_i})}]}\end{aligned}
??對L(w)求極大值摘能,得到w的估計续崖。一般采用梯度下降法或擬牛頓法
?多項logistic回歸模型
??上述模型可以推廣為多項logistic回歸模型(multi-nominal logistic regression model)
最大熵模型
?最大熵原理
??最大熵原理是概率模型學(xué)習的一個準則:學(xué)習概率模型時,在所有可能的概率模型(分布)中团搞,熵最大的模型是最好的模型严望。
??假設(shè)隨機變量X的概率分布是P(X),則其熵為
??熵滿足不等式逻恐,
??|X|為x的取值個數(shù)像吻。僅當X服從均勻分布時,熵最大
?最大熵模型
??應(yīng)用最大熵原理得到的模型就是最大熵模型
??對于給定數(shù)據(jù)集复隆,可以確定聯(lián)合分布與邊緣分布的經(jīng)驗分布公式拨匆,
??用特征函數(shù)(feature function)f(x,y)描述x,y之間的一個事件,定義為挽拂,
??特征函數(shù)f(x,y)關(guān)于經(jīng)驗分布的期望為
??特征函數(shù)關(guān)于模型與經(jīng)驗分布的期望為
??假設(shè)這兩個期望值相等惭每,
??該式可以作為模型學(xué)習的約束條件。假設(shè)有n個特征函數(shù)亏栈,則可以得到n個約束條件台腥。
<br>
??定義:在條件概率分布P(Y|X)上的條件熵H(P)最大的模型為最大熵模型
?最大熵模型的學(xué)習
??等價于如下的約束優(yōu)化問題
??等價于如下的最小值問題
??求解過程如下。首先引入拉格朗日乘子绒北,定義拉格朗日函數(shù)L(P,w),
??原始問題是
??對偶問題是
??兩個問題是等價的黎侈。先求解對偶問題的極小化問題。對偶函數(shù)記作
??其解記作闷游,
??求L對P的偏導(dǎo)峻汉,可得到P,
??令偏導(dǎo)等于0脐往,得到
??另外由于P(y|x)關(guān)于y累加和為1俱济,得到
??其中,
??Z稱為規(guī)范化因子钙勃,f為特征函數(shù)蛛碌,w為特征權(quán)值。所求得P即為最大熵模型辖源。
??最后求解對偶問題外部的極大化問題
??其解為
?極大似然估計
??對偶函數(shù)的極大化等價于最大熵模型的極大似然估計
??條件概率分布P(Y|X)的對數(shù)似然函數(shù)可以表示為蔚携,
??當條件概率分布P(Y|X)為最大熵模型時希太,可得,
??對于對偶函數(shù)酝蜒,代入其最小化問題的最優(yōu)解Pw誊辉,同樣可以得到上述式子,即有亡脑,
??這樣堕澄,最大熵模型的學(xué)習問題就轉(zhuǎn)換為求解對數(shù)似然函數(shù)極大化或?qū)ε己瘮?shù)極大化問題。
??最大熵模型與logistic回歸模型霉咨,又稱為對數(shù)線性模型(log linear model)蛙紫。該類模型就是在給定數(shù)據(jù)集上進行極大似然估計或正則化的極大似然估計
模型學(xué)習的最優(yōu)化算法
??目標函數(shù)為似然函數(shù),屬于光滑的凸函數(shù)途戒,適用于多種最優(yōu)化方法坑傅。
?改進的迭代尺度法
??改進的迭代尺度法(improved iterative scaling, IIS)
??已知最大熵模型為
??其中,
??對數(shù)似然函數(shù)為
??IIS的想法是:
????假設(shè)最大熵模型當前的參數(shù)向量是
????我們希望找到一個新的參數(shù)向量使得模型的對數(shù)似然函數(shù)值增大喷斋。
????如果能找到這樣一種參數(shù)向量更新的方法唁毒,那么就能重復(fù)使用,直至最大值星爪。
??對數(shù)似然函數(shù)的改變量為浆西,
??利用不等式
??有