回歸算法 - 邏輯回歸

一疹瘦、定義

邏輯回歸(Logistic Regression)是一種用于解決二分類(0 or 1)問題的機器學習方法,用于估計某種事物的可能性。比如某用戶購買某商品的可能性,某病人患有某種疾病的可能性楔壤,以及某廣告被用戶點擊的可能性等。 注意惯驼,這里用的是“可能性”蹲嚣,而非數(shù)學上的“概率”,logisitc回歸的結果并非數(shù)學定義中的概率值跳座,不可以直接當做概率值來用端铛。例如:將一個樣本輸入到我們學習到的函數(shù)中,輸出0.7,意思就是這個樣本有70%的概率是正例,1-70%就是30%的概率為負例

logistic回歸是一種廣義的線性回歸分析模型泣矛,常用于數(shù)據(jù)挖掘疲眷,疾病自動診斷您朽,經(jīng)濟預測等領域狂丝。例如换淆,探討引發(fā)疾病的危險因素,并根據(jù)危險因素預測疾病發(fā)生的概率等几颜。以胃癌病情分析為例倍试,選擇兩組人群,一組是胃癌組蛋哭,一組是非胃癌組县习,兩組人群必定具有不同的體征與生活方式等。因此因變量就為是否胃癌谆趾,值為“是”或“否”躁愿,自變量就可以包括很多了,如年齡沪蓬、性別彤钟、飲食習慣、幽門螺桿菌感染等跷叉。自變量既可以是連續(xù)的逸雹,也可以是分類的。然后通過logistic回歸分析云挟,可以得到自變量的權重梆砸,從而可以大致了解到底哪些因素是胃癌的危險因素。同時根據(jù)該權值可以根據(jù)危險因素預測一個人患癌癥的可能性植锉。

二辫樱、基本原理

再來傳送門
邏輯回歸相當于是線性回歸和sigmoid函數(shù)的組合,首先介紹什么是sigmoid函數(shù):

image.png

image.png

如圖俊庇,sigmoid函數(shù)的因變量y取值為[0,1]狮暑。而邏輯回歸就是將y=ax+b和sigmoid函數(shù)的1/(1+e-1)組合起來,如上圖即是將其他函數(shù)的結果代入sig函數(shù)辉饱,從而得出[0,1]的區(qū)間結果搬男。按照下圖即是將第一個公式的z代入第二個公式的z,從而形成一個新的等式求解彭沼。

image.png

輸出結果是樣本預測為正例的概率(0到1之間的小數(shù))缔逛。接下來第二個步驟:選定一個閾值。
例如當我選閾值為0.5,那么小于0.5的一定是負例姓惑,哪怕他是0.49褐奴。此時我們判斷一個樣本為負例一定是準確的嗎?其實不一定,因為它還是有49%的概率為正例的。但是即便他是正例的概率為0.1于毙,我們隨機選擇1w個樣本來做預測敦冬,還是會有接近100個預測它是負例,誤差都會存在的唯沮。所以我們選定閾值的時候就是在選擇可以接受誤差的程度脖旱。

sigmod函數(shù)預測結果為一個0到1之間的小數(shù)堪遂,選定閾值的第一反應,大多都是選0.5萌庆,其實實際工作中并不一定是0.5溶褪,閾值的設定往往是根據(jù)實際情況來判斷的。假設此時我們的業(yè)務是做一個腫瘤的良性惡性判斷践险,選定閾值為0.5就意味著如果一個患者得惡性腫瘤的概率為0.49猿妈,模型依舊認為他沒有患惡性腫瘤巍虫,結果可能造成嚴重的醫(yī)療事故于游。此類情況我們應該將閾值設置的小一些,比如0.3垫言,造成的結果就是這個人做一個全面檢查贰剥,比起醫(yī)療事故來講,這個更好筷频。

三蚌成、優(yōu)缺點

1、優(yōu)點

(1)實現(xiàn)簡單凛捏,廣泛的應用于工業(yè)問題上
(2)分類時計算量非常小担忧,速度很快,存儲資源低
(3)便利的觀測樣本概率分數(shù)
(4)對邏輯回歸而言坯癣,多重共線性并不是問題瓶盛,它可以結合L2正則化來解決該問題
(5)計算代價不高,易于理解和實現(xiàn)

2示罗、缺點

(1)當特征空間很大時惩猫,邏輯回歸的性能不是很好
(2)容易欠擬合,一般準確度不太高
(3)不能很好地處理大量多類特征或變量
(4)只能處理兩分類問題(在此基礎上衍生出來的softmax可以用于多分類)蚜点,且必須線性可分
(5)對于非線性特征轧房,需要進行轉換

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市绍绘,隨后出現(xiàn)的幾起案子奶镶,更是在濱河造成了極大的恐慌,老刑警劉巖陪拘,帶你破解...
    沈念sama閱讀 216,544評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件厂镇,死亡現(xiàn)場離奇詭異,居然都是意外死亡左刽,警方通過查閱死者的電腦和手機捺信,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來悠反,“玉大人残黑,你說我怎么就攤上這事≌瘢” “怎么了梨水?”我有些...
    開封第一講書人閱讀 162,764評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長茵臭。 經(jīng)常有香客問我疫诽,道長,這世上最難降的妖魔是什么旦委? 我笑而不...
    開封第一講書人閱讀 58,193評論 1 292
  • 正文 為了忘掉前任奇徒,我火速辦了婚禮,結果婚禮上缨硝,老公的妹妹穿的比我還像新娘摩钙。我一直安慰自己,他們只是感情好查辩,可當我...
    茶點故事閱讀 67,216評論 6 388
  • 文/花漫 我一把揭開白布胖笛。 她就那樣靜靜地躺著,像睡著了一般宜岛。 火紅的嫁衣襯著肌膚如雪长踊。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,182評論 1 299
  • 那天萍倡,我揣著相機與錄音身弊,去河邊找鬼。 笑死列敲,一個胖子當著我的面吹牛阱佛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播戴而,決...
    沈念sama閱讀 40,063評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼瘫絮,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了填硕?” 一聲冷哼從身側響起麦萤,我...
    開封第一講書人閱讀 38,917評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎扁眯,沒想到半個月后壮莹,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,329評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡姻檀,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,543評論 2 332
  • 正文 我和宋清朗相戀三年命满,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片绣版。...
    茶點故事閱讀 39,722評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡胶台,死狀恐怖歼疮,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情诈唬,我是刑警寧澤韩脏,帶...
    沈念sama閱讀 35,425評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站铸磅,受9級特大地震影響赡矢,放射性物質發(fā)生泄漏。R本人自食惡果不足惜阅仔,卻給世界環(huán)境...
    茶點故事閱讀 41,019評論 3 326
  • 文/蒙蒙 一吹散、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧八酒,春花似錦空民、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至闭树,卻和暖如春耸棒,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背报辱。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評論 1 269
  • 我被黑心中介騙來泰國打工与殃, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人碍现。 一個月前我還...
    沈念sama閱讀 47,729評論 2 368
  • 正文 我出身青樓幅疼,卻偏偏與公主長得像,于是被迫代替她去往敵國和親昼接。 傳聞我的和親對象是個殘疾皇子爽篷,可洞房花燭夜當晚...
    茶點故事閱讀 44,614評論 2 353

推薦閱讀更多精彩內(nèi)容