1? Logistc 回歸模型
1.1?Logistic 分布
??定義 6.1 (logistic 分布)?設(shè) 是連續(xù)隨機變量靶擦, 服從 logistic 分布是指 具有下列分布函數(shù)和密度函數(shù)
其中, 為位置參數(shù)忘巧, 為形狀參數(shù)。
1.2?二項 logistic 回歸模型
??二項 logistic 回歸模型由條件概率分布 表示睦刃,形式為參數(shù)化的 logistic 分布砚嘴。這里隨機變量 取值為實數(shù), 取值為 0 或 1。
??定義 6.2 (二項 logistic 回歸模型)其中际长, 為輸入耸采, 為輸出, 和 為參數(shù)工育, 稱為權(quán)重向量虾宇, 稱為偏置,符號 “” 表示向量內(nèi)積如绸。
??二項 logistic 回歸模型對于給定的輸入實例 嘱朽,可以通過定義計算 與 并比較大小,將實例 分到概率值更大的那一類怔接。
有時為了方便搪泳,令 ,扼脐,有 岸军。形式上仍然記為 ,此時 logistic 回歸模型為:
1.3?模型參數(shù)估計
??Logisitic 回歸模型學習時瓦侮,給定訓練集 凛膏,其中,脏榆,,一般可以應(yīng)用極大似然估計法估計模型參數(shù)台谍。求得對數(shù)似然函數(shù)為
對 求最大值须喂,即可求到 的估計值 。那么學習得到的模型為
1.4?Logisitc 回歸模型的優(yōu)缺點
1. 優(yōu)點
- 實現(xiàn)簡單趁蕊,應(yīng)用廣泛坞生。
- 分類時計算量非常小,速度很快掷伙,存儲資源低是己。
- 便利的觀測樣本概率分數(shù)。
2. 缺點
- 當特征空間很大時任柜,邏輯回歸的性能不是很好卒废。
- 容易欠擬合,一般準確度不太高宙地。
- 依賴所有數(shù)據(jù)摔认,很難處理數(shù)據(jù)不平衡問題;
- 處理非線性數(shù)據(jù)較麻煩宅粥。在不引入其他方法的情況下参袱,只能處理線性可分的數(shù)據(jù)。
2?最大熵模型
2.1?最大熵原理
??最大熵原理認為:學習概率模型時,在所有可能的概率模型(分布)中抹蚀,熵最大的模型是最好的模型剿牺。
??假設(shè)離散隨機變量 的概率分布為 ,則其熵為熵滿足下列不等式其中 為 的取值個數(shù)环壤,在前面的章節(jié)曾證明過晒来,當且僅當 的分布為均勻分布時右邊的等號成立。即當 服從均勻分布時镐捧,熵最大潜索。
2.2?最大熵模型的定義
??定義 6.3 (最大熵模型)?假設(shè)滿足所有約束條件的模型集合為其中, 表示特征函數(shù) 關(guān)于經(jīng)驗分布 的期望 表示特征函數(shù) 關(guān)于模型 與經(jīng)驗分布 的期望特征函數(shù) 描述輸入 與輸出 之間的一個事實懂酱,若滿足則取 1竹习,否則取 0。定義在條件概率分布 熵的條件熵為則模型集合 中條件熵 最大的模型稱為最大熵模型列牺。
2.3?最大熵模型的學習
??對于給定的數(shù)據(jù)集 以及特征函數(shù) 整陌,最大熵模型的學習等價于約束最優(yōu)化問題:
最大熵模型的求解思路和步驟如下:
- 運用 Lagrange 乘子法將求解最大熵模型等價的約束最優(yōu)化的問題轉(zhuǎn)化為無約束最優(yōu)化的問題,該問題為極小極大問題瞎领。
- 利用對偶問題的等價性泌辫,將無約束最優(yōu)化問題轉(zhuǎn)化為求解對偶形式的極大極小問題。
解得其中 稱為規(guī)范因子九默; 是特征函數(shù)震放; 是特征的權(quán)值。
??模型 就是所求的最大熵模型驼修。對偶函數(shù)的極大化等價于最大熵模型的極大似然估計殿遂。
3? 最大熵模型與 Logistic 模型的關(guān)系
??當類標簽只有兩個的時候,最大熵模型就是logistics回歸模型乙各。證明如下:
??設(shè) 墨礁,并且由于類標簽只有兩個故 ,取特征函數(shù)
由 2.3 小節(jié)可知最大熵模型為
于是當 時有
同樣當 時有
此時耳峦,最大熵模型為
即為 logistic 回歸模型恩静。Q.E.D.
4?習題
習題6.2?寫出 logistic 回歸模型學習的梯度下降算法。
解:
logistic 回歸模型為:
求得對數(shù)似然函數(shù)為
將 求梯度蹲坷,可得
其中
于是 Logistic 回歸模型學習的梯度下降算法: