邏輯回歸(Logistic Regression, LR)模型其實僅在線性回歸的基礎上度帮,套用了一個sigmod函數(shù)腺办,但也就由于這個sigmod函數(shù),使得邏輯回歸模型成為了機器學習領域一顆耀眼的明星孽拷,更是計算廣告學的核心。
關于LR模型的數(shù)學原理和參數(shù)求解方法半抱,已經(jīng)有很多優(yōu)秀的文章介紹過脓恕,在此我不再贅述。今天給大家介紹的主題是邏輯回歸模型中分類標簽的概率分布窿侈。
基于經(jīng)典統(tǒng)計學學派的觀點进肯,邏輯回歸的分類標簽是基于樣本特征通過二項分布產(chǎn)生的,分類器要做的實際上就是估計這個分布棉磨。
為什么說邏輯回歸的分類標簽是服從二項分布的呢江掩?
請先看邏輯回歸的hypothesis(假設)函數(shù):
LR模型是這樣工作的:對待分類樣本的特征向量x,把x帶入h函數(shù),算得hθ(x)环形。若hθ(x)大于預設門限(一般是0.5)策泣,則判定待分類樣本屬于類別1,否則屬于類別0抬吟。
簡單來說萨咕,邏輯回歸模型希望找到一個合適的θ,使得h函數(shù)在預測集上能有足夠好的表現(xiàn)火本。在此危队,我們假設預測集和訓練集滿足相同的概率分布。
那么钙畔,預測集和訓練集應該滿足怎樣的概率分布呢茫陆?先賢們已經(jīng)得出結論,二項分布擎析。
請回想二項分布的性質:
1)重復進行n次隨機試驗簿盅,n次試驗相互獨立,且事件發(fā)生與否的概率在每一次獨立試驗中都保持不變揍魂。
2)每次試驗僅有兩個可能結果桨醋,且兩種結果互斥。
邏輯回歸的h函數(shù)正是基于 “樣本分類標簽滿足二項分布”的假設而推導出來的现斋。
性質1的說明
針對性質1喜最,若樣本分類標簽不滿足“n次試驗相互獨立,且事件發(fā)生與否的概率在每一次獨立試驗中都保持不變”庄蹋,則對應到h函數(shù)瞬内,針對相同的自變量x,因變量h(x)會有不同的輸出值蔓肯,進而給出不同的分類標簽y遂鹊,這與我們對hypothesis 函數(shù)的定義相矛盾。
上面這段話可能有點費解蔗包,讓我用一個例子解釋:我訓練了一個女友心情分類器秉扑,分類器的輸入是一個二維特征向量 [我早上是否和她說了早安,我最近一周是否給她購買過禮物]
调限,分類器的輸出是開心/不開心
舟陆。訓練樣本如下:
訓練樣本 | 說早安 | 買禮物 | 女友心情 |
---|---|---|---|
樣本1 | 是 | 是 | 開心 |
樣本2 | 否 | 是 | 開心 |
樣本3 | 是 | 否 | 不開心 |
樣本4 | 否 | 否 | 不開心 |
分類器訓練好了,我滿心歡喜地來預測今天女友今天是否開心耻矮,[說了早安秦躯,買了禮物]
,結果女友今天吐槽我說“我同事的老公又給她買了新的項鏈裆装,我不開心”踱承。顯然倡缠,我們的分類器失效了。
事實上茎活,根據(jù)諺語"女人的心情昙沦,三分天注定,七分靠shopping"载荔,我們可以推斷出女友心情應該是隨機且不可預測的盾饮。LR模型在該場景完敗,奉勸大家還是多買買買來討好女朋友懒熙。
性質2的說明
針對性質2丘损,一個樣本只可能屬于一個分類標簽,這個比較好理解工扎,LR模型的分類結果是樣本i屬于類別C徘钥,不存在樣本i既屬于類別C又屬于類別D的情況。如果樣本可能屬于多個分類定庵,例如薛定諤的貓吏饿,就不適合使用LR模型來分類踪危。
總結
LR模型建立在 “樣本分類標簽滿足二項分布”的假設上蔬浙。因此,對于不滿足二項分布的場景贞远,LR模型無法準確分類畴博。解決的途徑可以是增加非線性特征、組合特征等蓝仲,使分類標簽在更高維特征空間滿足二項分布俱病;或是選擇決策樹、隨機森林等非線性模型袱结。
更多精彩內容亮隙,請關注我的個人博客。