40丨數(shù)據(jù)挖掘?qū)崙?zhàn)(2):用邏輯回歸分析信用卡詐騙

構(gòu)建邏輯回歸分類器

邏輯回歸是分類方法捶码,主要解決二分類問題汹押。
在邏輯回歸中使用了 Logistic 函數(shù)缘回,也稱為 Sigmoid 函數(shù)剂公。

為什么邏輯回歸算法是基于 Sigmoid 函數(shù)實現(xiàn)的呢希俩?你可以這樣理解:我們要實現(xiàn)一個二分類任務(wù),0 即為不發(fā)生纲辽,1 即為發(fā)生颜武。我們給定一些歷史數(shù)據(jù) X 和 y。其中 X 代表樣本的 n 個特征拖吼,y 代表正例和負例鳞上,也就是 0 或 1 的取值。通過歷史樣本的學(xué)習(xí)吊档,我們可以得到一個模型篙议,當給定新的 X 的時候,可以預(yù)測出 y。這里我們得到的 y 是一個預(yù)測的概率鬼贱,通常不是 0% 和100%移怯,而是中間的取值,那么我們就可以認為概率大于 50% 的時候这难,即為發(fā)生(正例)舟误,概率小于 50% 的時候,即為不發(fā)生(負例)姻乓。這樣就完成了二分類的預(yù)測嵌溢。

Sigmoid 函數(shù)

函數(shù)圖像

在sklearn 中,我們使用** LogisticRegression() 函數(shù)**構(gòu)建邏輯回歸分類器蹋岩,構(gòu)造參數(shù):

  1. penalty:懲罰項赖草,取值為 l1 或 l2,默認為 l2星澳。當模型參數(shù)滿足高斯分布的時候疚顷,使用 l2,當模型參數(shù)滿足拉普拉斯分布的時候禁偎,使用 l1腿堤;
  2. solver:代表的是邏輯回歸損失函數(shù)的優(yōu)化方法。有 5 個參數(shù)可選如暖,分別為 liblinear笆檀、lbfgs、newton-cg盒至、sag 和 saga酗洒。默認為 liblinear,適用于數(shù)據(jù)量小的數(shù)據(jù)集枷遂,當數(shù)據(jù)量大的時候可以選用 sag 或 saga 方法樱衷。
  3. max_iter:算法收斂的最大迭代次數(shù),默認為 10酒唉。
  4. n_jobs:擬合和預(yù)測的時候 CPU 的核數(shù)矩桂,默認是 1,也可以是整數(shù)痪伦,如果是 -1 則代表 CPU的核數(shù)侄榴。

模型評估指標

之前對模型做評估時,通常采用的是準確率 (accuracy)网沾,它指的是分類器正確分類的樣本數(shù)與總體樣本數(shù)之間的比例癞蚕。這個指標對大部分的分類情況是有效的,不過當分類結(jié)果嚴重不平衡的時候辉哥,準確率很難反應(yīng)模型的好壞桦山。
對于分類不平衡的情況,有兩個指標非常重要,它們分別是精確度和召回率度苔。

P 或 N 代表預(yù)測為正例還是負例匆篓,P 為正,N 為負寇窑;T 或 F代表的是預(yù)測結(jié)果是否正確鸦概,T 為正確,F(xiàn) 為錯誤甩骏。

精確率 P = TP/ (TP+FP)窗市,對應(yīng)怖分子例子,在所有判斷為恐怖分子的人數(shù)中饮笛,真正是恐怖分子的比例咨察。
召回率 R = TP/ (TP+FN),也稱為查全率福青。代表的是恐怖分子被正確識別出來的個數(shù)與恐怖分子總數(shù)的比例摄狱。
F1指標綜合了精確率和召回率,F(xiàn)1 作為精確率 P 和召回率 R 的調(diào)和平均无午,數(shù)值越大代表模型的結(jié)果越好媒役。


F1指標公式
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市宪迟,隨后出現(xiàn)的幾起案子酣衷,更是在濱河造成了極大的恐慌,老刑警劉巖次泽,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件穿仪,死亡現(xiàn)場離奇詭異,居然都是意外死亡意荤,警方通過查閱死者的電腦和手機啊片,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來玖像,“玉大人钠龙,你說我怎么就攤上這事∮澹” “怎么了?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵沈矿,是天一觀的道長上真。 經(jīng)常有香客問我铛碑,道長渠鸽,這世上最難降的妖魔是什么余境? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮格嘁,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘补履。我一直安慰自己瓷耙,他們只是感情好,可當我...
    茶點故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布妻怎。 她就那樣靜靜地躺著壳炎,像睡著了一般。 火紅的嫁衣襯著肌膚如雪逼侦。 梳的紋絲不亂的頭發(fā)上匿辩,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天,我揣著相機與錄音榛丢,去河邊找鬼铲球。 笑死,一個胖子當著我的面吹牛晰赞,可吹牛的內(nèi)容都是我干的稼病。 我是一名探鬼主播,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼掖鱼,長吁一口氣:“原來是場噩夢啊……” “哼然走!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起锨用,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤丰刊,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后增拥,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體啄巧,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年掌栅,在試婚紗的時候發(fā)現(xiàn)自己被綠了秩仆。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,115評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡猾封,死狀恐怖澄耍,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情晌缘,我是刑警寧澤齐莲,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站磷箕,受9級特大地震影響选酗,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜岳枷,卻給世界環(huán)境...
    茶點故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一芒填、第九天 我趴在偏房一處隱蔽的房頂上張望呜叫。 院中可真熱鬧,春花似錦殿衰、人聲如沸朱庆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽娱颊。三九已至,卻和暖如春蜀踏,著一層夾襖步出監(jiān)牢的瞬間维蒙,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工果覆, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留颅痊,地道東北人。 一個月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓局待,卻偏偏與公主長得像斑响,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子钳榨,可洞房花燭夜當晚...
    茶點故事閱讀 45,055評論 2 355