數(shù)據(jù)挖掘算法-邏輯回歸模型

1.什么是邏輯回歸模型氮趋?

首先婿屹,我們不要被邏輯回歸這個名字所誤導,邏輯回歸實際上是一個分類算法爽彤,它被用于將樣本數(shù)據(jù)進行分類的場景中养盗,比如預測一封郵件是否是垃圾郵件。
邏輯回歸的分類思想是:將每條樣本進行打分适篙,然后設置一個閾值往核,當樣本得分大于這個閾值時,分為一個類別嚷节,當樣本得分小于等于這個閾值時聂儒,劃分為另一個類別。(對于樣本得分等于閾值時硫痰,劃分為哪一個類別都可以衩婚,只要保持一致性即可)
關于邏輯回歸,可以用一句話來總結:邏輯回歸假設數(shù)據(jù)服從伯努利分布效斑,通過極大似然函數(shù)的方法非春,運用梯度下降來求解參數(shù),來達到將數(shù)據(jù)二分類的目的鳍悠。

邏輯回歸通常應用于目標變量是分類變量的場景税娜,比如:

  • 預測一封郵件是否是垃圾郵件
  • 判斷腫瘤是良性還是惡性

邏輯回歸的種類:

  1. 二元邏輯回歸
    分類結果只有兩種可能,例如:垃圾郵件和非垃圾郵件
  2. 多元邏輯回歸
    三種及以上無序的分類藏研,例如:預測哪類食物更被青睞(蔬菜敬矩、非蔬菜、素食)
  3. 有序邏輯回歸
    三種及以上有序的分類蠢挡,例如:排名1-3的電影

2.邏輯回歸的算法模型

對于邏輯回歸弧岳,模型的前面與線性回歸類似:

image.png

sigmoid函數(shù)

對于分類任務來說,分類模型不僅應該能夠提供某一樣本屬于哪個分類业踏,還要給出樣本屬于某一類別的概率禽炬。比如一封郵件是垃圾郵件的概率,腫瘤是惡性的概率等勤家。
邏輯回歸使用sigmoid函數(shù)將結果轉化為概率值:
sigmoid(z)=\frac{1}{1+e^{-z}}

image.png

從圖中可以看出腹尖,sigmoid函數(shù)具有以下特點:
1)當z的值從負無窮到正無窮變化時,函數(shù)的取值范圍為(0,1)伐脖,這正好是概率的取值范圍
2)當z取值為0時热幔,函數(shù)取值為0.5,因此可以將sigmoid(z)作為樣本屬于正例的概率讼庇,若函數(shù)取值大于0.5判定為類別1绎巨,否則判定為類別0
3)sigmoid函數(shù)的優(yōu)勢就是能以概率的方式來呈現(xiàn)樣本屬于某個類別的可能性

3.邏輯回歸的損失函數(shù)

在邏輯回歸中,使用sigmoid(z)來表示樣本屬于類別1的概率蠕啄,1-sigmoid(z)來表示樣本屬于類別0的概率场勤,我們通過極大似然估計來推導邏輯回歸的損失函數(shù)。為了方便,下面使用s(z)來表示sigmoid(z)

image.png

通過以上推導和媳,我們得出了邏輯回歸的損失函數(shù)格遭,接下來通過梯度下降法求解模型的參數(shù),也就是w和b的值窗价,一旦參數(shù)值確定如庭,我們就能對未知樣本數(shù)據(jù)進行預測。

4.邏輯回歸參數(shù)求解

這里采用梯度下降法求解邏輯回歸的損失函數(shù)撼港,梯度下降的迭代公式如下:
W_j=W_j+\Delta W_j=W_j-\eta \frac{\partial J(w)}{\partial W_j}

接下來只需要求解損失函數(shù)對W的梯度即可坪它,推導過程如下:

image.png

公式中i代表樣本數(shù),j代表特征數(shù)

因此在隨機梯度下降中帝牡,我們就可以這樣進行權重的調整:
W_j=W_j + \eta (y^{(i)} -s(z^{(i)})x_j^{(i)})

在批量梯度下降中往毡,將樣本數(shù)量相加即可:
W_j=W_j + \eta \sum_{i=1}^m (y^{(i)} -s(z^{(i)})x_j^{(i)})

經(jīng)過不斷反復迭代,最終求得W值靶溜,使得損失函數(shù)的值最小开瞭。

5.邏輯回歸的python代碼實現(xiàn)

使用邏輯回歸需要導入的包:

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

使用過程非常簡單,常用函數(shù)如下:

lr = LogisticRegression()
lr.fit(x_train, y_train)
# 預測值
y_hat = lr.predict(x_test)
# 查看預測的概率
probability = lr.predict_proba(x_test)
print("權重:", lr.coef_)
print("偏置:", lr.intercept_)
print("預測值:", y_hat)

6.參考鏈接

  1. 一文搞懂極大似然估計
  2. 超詳細 | 邏輯回歸大解析(手寫推導+Python代碼實現(xiàn))
  3. 【機器學習筆記】:從零開始學會邏輯回歸(一)
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末罩息,一起剝皮案震驚了整個濱河市嗤详,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌瓷炮,老刑警劉巖葱色,帶你破解...
    沈念sama閱讀 216,544評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異娘香,居然都是意外死亡苍狰,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評論 3 392
  • 文/潘曉璐 我一進店門烘绽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來淋昭,“玉大人,你說我怎么就攤上這事安接∠韬觯” “怎么了?”我有些...
    開封第一講書人閱讀 162,764評論 0 353
  • 文/不壞的土叔 我叫張陵盏檐,是天一觀的道長呀打。 經(jīng)常有香客問我,道長糯笙,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,193評論 1 292
  • 正文 為了忘掉前任撩银,我火速辦了婚禮给涕,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己够庙,他們只是感情好恭应,可當我...
    茶點故事閱讀 67,216評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著耘眨,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上翰绊,一...
    開封第一講書人閱讀 51,182評論 1 299
  • 那天箭养,我揣著相機與錄音,去河邊找鬼偶宫。 笑死非迹,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的纯趋。 我是一名探鬼主播憎兽,決...
    沈念sama閱讀 40,063評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼吵冒!你這毒婦竟也來了纯命?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 38,917評論 0 274
  • 序言:老撾萬榮一對情侶失蹤痹栖,失蹤者是張志新(化名)和其女友劉穎亿汞,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體结耀,經(jīng)...
    沈念sama閱讀 45,329評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡留夜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,543評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了图甜。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片碍粥。...
    茶點故事閱讀 39,722評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖黑毅,靈堂內(nèi)的尸體忽然破棺而出嚼摩,到底是詐尸還是另有隱情,我是刑警寧澤矿瘦,帶...
    沈念sama閱讀 35,425評論 5 343
  • 正文 年R本政府宣布枕面,位于F島的核電站,受9級特大地震影響缚去,放射性物質發(fā)生泄漏潮秘。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,019評論 3 326
  • 文/蒙蒙 一易结、第九天 我趴在偏房一處隱蔽的房頂上張望枕荞。 院中可真熱鬧柜候,春花似錦、人聲如沸躏精。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽矗烛。三九已至辅柴,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間瞭吃,已是汗流浹背碌嘀。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留虱而,地道東北人筏餐。 一個月前我還...
    沈念sama閱讀 47,729評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像牡拇,于是被迫代替她去往敵國和親魁瞪。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,614評論 2 353