邏輯斯諦回歸與最大熵模型
- 邏輯斯諦回歸模型
- 最大熵模型
- 最大熵模型的學(xué)習(xí)
邏輯斯諦回歸(logistic regression)是統(tǒng)計學(xué)習(xí)中的經(jīng)典分類方法映皆。最大熵是概率模型學(xué)習(xí)的一個準(zhǔn)則,將其推廣到分類問題得到最大熵模型(maximum entropy model)。邏輯斯諦回歸模型與最大熵模型都屬于對數(shù)線性模型搂鲫。
邏輯斯諦回歸模型
-
邏輯斯諦分布
:設(shè)是連續(xù)隨機(jī)變量右核,
服從邏輯斯諦分布是指
具有下列分布函數(shù)和密度函數(shù)
式中,為位置參數(shù)殖氏,
為形狀參數(shù)众雷。
- 邏輯斯諦分布函數(shù),其圖像是一條 S 形曲線绎巨。該曲線以點(diǎn)
為中心對稱近尚,即滿足
曲線在中心附近增長速度較快,在兩端增長速度較慢场勤。形狀參數(shù)的值越小戈锻,曲線在中心附近增長得越快。
- 二項(xiàng)邏輯斯諦回歸模型(binomial logistic regression model)是一種分類模型和媳,由條件概率分布
表示格遭,形式為參數(shù)化的邏輯斯諦分布。這里留瞳,隨機(jī)變量
取值為實(shí)數(shù)拒迅,隨機(jī)變量
取值為1或0。我們通過監(jiān)督學(xué)習(xí)的方法來估計模型參數(shù)她倘。
- 二項(xiàng)邏輯斯諦回歸模型是如下的條件概率分布:
這里璧微,是輸入,
是輸出帝牡,
和
是參數(shù)往毡,
稱為權(quán)值向量,
稱為偏置靶溜,
為
和
的內(nèi)積开瞭。
- 邏輯斯諦回歸比較兩個條件概率值的大小,將實(shí)例
分到概率值較大的那一類罩息。
- 為了方便嗤详,將
,
瓷炮,這時葱色,邏輯斯諦回歸模型如下:
- 一個事件的
幾率
(odds)是指該事件發(fā)生的概率與該事件不發(fā)生的概率的比值。如果事件發(fā)生的概率是娘香,那么該事件的幾率是
苍狰,該事件的對數(shù)幾率(log odds)或 logit 函數(shù)是
對邏輯斯諦回歸而言
這就是說,在邏輯斯諦回歸模型中烘绽,輸出的對數(shù)幾率是輸入
的線性函數(shù)淋昭。或者說安接,輸出
的對數(shù)幾率是由輸入
的線性函數(shù)表示的模型翔忽,即邏輯斯諦回歸模型。
- 給定訓(xùn)練數(shù)據(jù)集
,其中
歇式,
驶悟,可以應(yīng)用極大似然估計法估計模型參數(shù),從而得到邏輯斯諦回歸模型材失。
設(shè)痕鳍,
似然函數(shù)為
對數(shù)似然函數(shù)為
對求極大值,就得到
的估計值豺憔。
這樣额获,問題就變成了以對數(shù)似然函數(shù)為目標(biāo)函數(shù)的最優(yōu)化問題。邏輯斯諦回歸學(xué)習(xí)中通常采用的方法是梯度下降法及擬牛頓法恭应。
- 二分類邏輯斯諦模型,可以將其推廣為多項(xiàng)邏輯斯諦回歸模型(multi-nominal logistic regression model)耘眨,用于多類分類昼榛。
最大熵模型
-
最大熵原理是概率模型學(xué)習(xí)的一個準(zhǔn)則。
最大熵原理認(rèn)為剔难,學(xué)習(xí)概率模型時胆屿,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型偶宫。通常用約束條件來確定概率模型的集合非迹,所以,最大熵原理也可以表述為在滿足約束條件的模型集合中選取熵最大的模型纯趋。
- 假設(shè)離散隨機(jī)變量
的概率分布式
憎兽,則其熵是
熵滿足以下不等式
式中,是
取值的個數(shù)吵冒,當(dāng)且僅當(dāng)
的分布式均勻分布時右邊的等號成立纯命。也就是說,
服從均勻分布時痹栖,熵最大亿汞。
- 直觀地,最大熵原理認(rèn)為要選擇的概率模型首先必須滿足已有的事實(shí)揪阿,即約束條件疗我。
在沒有更多信息的情況下,那些不確定的部分都是“等可能的”南捂。
- 等概率表示了對事實(shí)的無知吴裤。
- 給定訓(xùn)練數(shù)據(jù)集
,確定聯(lián)合分布
的經(jīng)驗(yàn)分布和邊緣分布
的經(jīng)驗(yàn)分布黑毅,分別以
和
表示
其中嚼摩,表示訓(xùn)練數(shù)據(jù)中樣本
出現(xiàn)的頻數(shù),
表示訓(xùn)練數(shù)據(jù)中輸入
出現(xiàn)的頻數(shù)。
表示訓(xùn)練樣本容量枕面。
- 用特征函數(shù)
描述輸入
和輸出
之間的某一個事實(shí)愿卒。
它是一個二值函數(shù)。
- 特征函數(shù)
關(guān)于經(jīng)驗(yàn)分布
的期望值潮秘,用
表示
特征函數(shù)關(guān)于模型
與經(jīng)驗(yàn)分布
的期望值琼开,用
表示
如果模型能夠獲取訓(xùn)練數(shù)據(jù)中的信息,那么就可以假設(shè)枕荞,我們將該假設(shè)作為模型學(xué)習(xí)的約束條件柜候。如果有多個特征函數(shù),那么就會有多個約束條件躏精。
-
最大熵模型定義:
假設(shè)滿足所有約束條件的模型集合為
定義在條件概率分布上的條件熵為
則模型集合中條件熵
最大的模型稱為最大熵模型渣刷。式中的對數(shù)為自然對數(shù)。
最大熵模型的學(xué)習(xí)
- 對于給定的訓(xùn)練數(shù)據(jù)集
以及特征函數(shù)
矗烛,
辅柴,最大熵模型的學(xué)習(xí)等價于約束最優(yōu)化問題
將最大值問題改寫為等價的最小值問題
將約束最優(yōu)化的原始問題轉(zhuǎn)換為無約束最優(yōu)化的對偶問題
引入拉格朗日乘子,定義拉格朗日函數(shù)
最優(yōu)化的原始問題是
對偶問題是
由于拉格朗日函數(shù)是
的凸函數(shù)瞭吃,原始問題的解與對偶問題的解釋等價的碌嘀。這樣可以求解對偶問題來求解原始問題。
求解對偶問題內(nèi)部極小化問題歪架,該函數(shù)是
的函數(shù)股冗,將其記作
稱為對偶函數(shù)。同時和蚪,將其解記作
具體地止状,求對
的偏導(dǎo)數(shù)
令偏導(dǎo)數(shù)等于 0,在的情況下解得
由于得
其中惠呼,
稱為規(guī)范化因子导俘;
是特征函數(shù);
是特征的權(quán)值剔蹋。
之后旅薄,對解對偶問題外部的極大化問題
將其解記為
這就是說,可以應(yīng)用最優(yōu)化算法求對偶函數(shù)的極大化泣崩,得到
少梁,用來表示
。這里矫付,
是學(xué)習(xí)到的最優(yōu)模型(最大熵模型)凯沪。也就是說,最大熵模型的學(xué)習(xí)歸結(jié)為對偶函數(shù)
的極大化买优。