邏輯回歸模型--分類標簽的概率分布

邏輯回歸(Logistic Regression, LR)模型其實僅在線性回歸的基礎上度帮,套用了一個sigmod函數(shù)腺办,但也就由于這個sigmod函數(shù),使得邏輯回歸模型成為了機器學習領域一顆耀眼的明星孽拷,更是計算廣告學的核心。
關于LR模型的數(shù)學原理和參數(shù)求解方法半抱,已經(jīng)有很多優(yōu)秀的文章介紹過脓恕,在此我不再贅述。今天給大家介紹的主題是邏輯回歸模型中分類標簽的概率分布窿侈。

基于經(jīng)典統(tǒng)計學學派的觀點进肯,邏輯回歸的分類標簽是基于樣本特征通過二項分布產(chǎn)生的,分類器要做的實際上就是估計這個分布棉磨。

為什么說邏輯回歸的分類標簽是服從二項分布的呢江掩?
請先看邏輯回歸的hypothesis(假設)函數(shù):


Hypothesis function

LR模型是這樣工作的:對待分類樣本的特征向量x,把x帶入h函數(shù),算得hθ(x)环形。若hθ(x)大于預設門限(一般是0.5)策泣,則判定待分類樣本屬于類別1,否則屬于類別0抬吟。
簡單來說萨咕,邏輯回歸模型希望找到一個合適的θ,使得h函數(shù)在預測集上能有足夠好的表現(xiàn)火本。在此危队,我們假設預測集和訓練集滿足相同的概率分布。

那么钙畔,預測集和訓練集應該滿足怎樣的概率分布呢茫陆?先賢們已經(jīng)得出結論,二項分布擎析。
請回想二項分布的性質:
1)重復進行n次隨機試驗簿盅,n次試驗相互獨立,且事件發(fā)生與否的概率在每一次獨立試驗中都保持不變揍魂。
2)每次試驗僅有兩個可能結果桨醋,且兩種結果互斥。
邏輯回歸的h函數(shù)正是基于 “樣本分類標簽滿足二項分布”的假設而推導出來的现斋。

性質1的說明

針對性質1喜最,若樣本分類標簽不滿足“n次試驗相互獨立,且事件發(fā)生與否的概率在每一次獨立試驗中都保持不變”庄蹋,則對應到h函數(shù)瞬内,針對相同的自變量x,因變量h(x)會有不同的輸出值蔓肯,進而給出不同的分類標簽y遂鹊,這與我們對hypothesis 函數(shù)的定義相矛盾。
上面這段話可能有點費解蔗包,讓我用一個例子解釋:我訓練了一個女友心情分類器秉扑,分類器的輸入是一個二維特征向量 [我早上是否和她說了早安,我最近一周是否給她購買過禮物]调限,分類器的輸出是開心/不開心舟陆。訓練樣本如下:

訓練樣本 說早安 買禮物 女友心情
樣本1 開心
樣本2 開心
樣本3 不開心
樣本4 不開心

分類器訓練好了,我滿心歡喜地來預測今天女友今天是否開心耻矮,[說了早安秦躯,買了禮物],結果女友今天吐槽我說“我同事的老公又給她買了新的項鏈裆装,我不開心”踱承。顯然倡缠,我們的分類器失效了。
事實上茎活,根據(jù)諺語"女人的心情昙沦,三分天注定,七分靠shopping"载荔,我們可以推斷出女友心情應該是隨機且不可預測的盾饮。LR模型在該場景完敗,奉勸大家還是多買買買來討好女朋友懒熙。

性質2的說明

針對性質2丘损,一個樣本只可能屬于一個分類標簽,這個比較好理解工扎,LR模型的分類結果是樣本i屬于類別C徘钥,不存在樣本i既屬于類別C又屬于類別D的情況。如果樣本可能屬于多個分類定庵,例如薛定諤的貓吏饿,就不適合使用LR模型來分類踪危。

總結

LR模型建立在 “樣本分類標簽滿足二項分布”的假設上蔬浙。因此,對于不滿足二項分布的場景贞远,LR模型無法準確分類畴博。解決的途徑可以是增加非線性特征、組合特征等蓝仲,使分類標簽在更高維特征空間滿足二項分布俱病;或是選擇決策樹、隨機森林等非線性模型袱结。

更多精彩內容亮隙,請關注我的個人博客

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末垢夹,一起剝皮案震驚了整個濱河市溢吻,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌果元,老刑警劉巖促王,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異而晒,居然都是意外死亡蝇狼,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進店門倡怎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來迅耘,“玉大人贱枣,你說我怎么就攤上這事〔ǎ” “怎么了冯事?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長血公。 經(jīng)常有香客問我昵仅,道長,這世上最難降的妖魔是什么累魔? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任摔笤,我火速辦了婚禮,結果婚禮上垦写,老公的妹妹穿的比我還像新娘吕世。我一直安慰自己,他們只是感情好梯投,可當我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布命辖。 她就那樣靜靜地躺著,像睡著了一般分蓖。 火紅的嫁衣襯著肌膚如雪尔艇。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天么鹤,我揣著相機與錄音终娃,去河邊找鬼。 笑死蒸甜,一個胖子當著我的面吹牛棠耕,可吹牛的內容都是我干的。 我是一名探鬼主播柠新,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼窍荧,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了恨憎?” 一聲冷哼從身側響起蕊退,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎框咙,沒想到半個月后咕痛,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡喇嘱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年茉贡,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片者铜。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡腔丧,死狀恐怖放椰,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情愉粤,我是刑警寧澤砾医,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站衣厘,受9級特大地震影響如蚜,放射性物質發(fā)生泄漏。R本人自食惡果不足惜影暴,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一错邦、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧型宙,春花似錦撬呢、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至搁嗓,卻和暖如春芯勘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背谱姓。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工借尿, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留刨晴,地道東北人屉来。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像狈癞,于是被迫代替她去往敵國和親茄靠。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內容