1? Logistc 回歸模型
1.1?Logistic 分布
??定義 6.1 (logistic 分布)?設(shè) 是連續(xù)隨機變量靶擦,
服從 logistic 分布是指
具有下列分布函數(shù)和密度函數(shù)
其中,
為位置參數(shù)忘巧,
為形狀參數(shù)。
1.2?二項 logistic 回歸模型
??二項 logistic 回歸模型由條件概率分布 表示睦刃,形式為參數(shù)化的 logistic 分布砚嘴。這里隨機變量
取值為實數(shù),
取值為 0 或 1。
??定義 6.2 (二項 logistic 回歸模型)其中际长,
為輸入耸采,
為輸出,
和
為參數(shù)工育,
稱為權(quán)重向量虾宇,
稱為偏置,符號 “
” 表示向量內(nèi)積如绸。
??二項 logistic 回歸模型對于給定的輸入實例 嘱朽,可以通過定義計算
與
并比較大小,將實例
分到概率值更大的那一類怔接。
有時為了方便搪泳,令
,
扼脐,有
岸军。形式上仍然記為
,此時 logistic 回歸模型為:
1.3?模型參數(shù)估計
??Logisitic 回歸模型學習時瓦侮,給定訓練集 凛膏,其中,
脏榆,
,一般可以應(yīng)用極大似然估計法估計模型參數(shù)台谍。求得對數(shù)似然函數(shù)為
對
求最大值须喂,即可求到
的估計值
。那么學習得到的模型為
1.4?Logisitc 回歸模型的優(yōu)缺點
1. 優(yōu)點
- 實現(xiàn)簡單趁蕊,應(yīng)用廣泛坞生。
- 分類時計算量非常小,速度很快掷伙,存儲資源低是己。
- 便利的觀測樣本概率分數(shù)。
2. 缺點
- 當特征空間很大時任柜,邏輯回歸的性能不是很好卒废。
- 容易欠擬合,一般準確度不太高宙地。
- 依賴所有數(shù)據(jù)摔认,很難處理數(shù)據(jù)不平衡問題;
- 處理非線性數(shù)據(jù)較麻煩宅粥。在不引入其他方法的情況下参袱,只能處理線性可分的數(shù)據(jù)。
2?最大熵模型
2.1?最大熵原理
??最大熵原理認為:學習概率模型時,在所有可能的概率模型(分布)中抹蚀,熵最大的模型是最好的模型剿牺。
??假設(shè)離散隨機變量 的概率分布為
,則其熵為
熵滿足下列不等式
其中
為
的取值個數(shù)环壤,在前面的章節(jié)曾證明過晒来,當且僅當
的分布為均勻分布時右邊的等號成立。即當
服從均勻分布時镐捧,熵最大潜索。
2.2?最大熵模型的定義
??定義 6.3 (最大熵模型)?假設(shè)滿足所有約束條件的模型集合為其中,
表示特征函數(shù)
關(guān)于經(jīng)驗分布
的期望
表示特征函數(shù)
關(guān)于模型
與經(jīng)驗分布
的期望
特征函數(shù)
描述輸入
與輸出
之間的一個事實懂酱,若滿足則取 1竹习,否則取 0。定義在條件概率分布
熵的條件熵為
則模型集合
中條件熵
最大的模型稱為最大熵模型列牺。
2.3?最大熵模型的學習
??對于給定的數(shù)據(jù)集 以及特征函數(shù)
整陌,最大熵模型的學習等價于約束最優(yōu)化問題:
最大熵模型的求解思路和步驟如下:
- 運用 Lagrange 乘子法將求解最大熵模型等價的約束最優(yōu)化的問題轉(zhuǎn)化為無約束最優(yōu)化的問題,該問題為極小極大問題瞎领。
- 利用對偶問題的等價性泌辫,將無約束最優(yōu)化問題轉(zhuǎn)化為求解對偶形式的極大極小問題。
解得其中
稱為規(guī)范因子九默;
是特征函數(shù)震放;
是特征的權(quán)值。
??模型 就是所求的最大熵模型驼修。對偶函數(shù)的極大化等價于最大熵模型的極大似然估計殿遂。
3? 最大熵模型與 Logistic 模型的關(guān)系
??當類標簽只有兩個的時候,最大熵模型就是logistics回歸模型乙各。證明如下:
??設(shè) 墨礁,并且由于類標簽只有兩個故
,取特征函數(shù)
由 2.3 小節(jié)可知最大熵模型為
于是當
時有
同樣當
時有
此時耳峦,最大熵模型為
即為 logistic 回歸模型恩静。Q.E.D.
4?習題
習題6.2?寫出 logistic 回歸模型學習的梯度下降算法。
解:
logistic 回歸模型為:
求得對數(shù)似然函數(shù)為
將
求梯度蹲坷,可得
其中
于是 Logistic 回歸模型學習的梯度下降算法: