一疹瘦、定義
邏輯回歸(Logistic Regression)是一種用于解決二分類(0 or 1)問題的機器學習方法,用于估計某種事物的可能性。比如某用戶購買某商品的可能性,某病人患有某種疾病的可能性楔壤,以及某廣告被用戶點擊的可能性等。 注意惯驼,這里用的是“可能性”蹲嚣,而非數(shù)學上的“概率”,logisitc回歸的結果并非數(shù)學定義中的概率值跳座,不可以直接當做概率值來用端铛。例如:將一個樣本輸入到我們學習到的函數(shù)中,輸出0.7,意思就是這個樣本有70%的概率是正例,1-70%就是30%的概率為負例
logistic回歸是一種廣義的線性回歸分析模型泣矛,常用于數(shù)據(jù)挖掘疲眷,疾病自動診斷您朽,經(jīng)濟預測等領域狂丝。例如换淆,探討引發(fā)疾病的危險因素,并根據(jù)危險因素預測疾病發(fā)生的概率等几颜。以胃癌病情分析為例倍试,選擇兩組人群,一組是胃癌組蛋哭,一組是非胃癌組县习,兩組人群必定具有不同的體征與生活方式等。因此因變量就為是否胃癌谆趾,值為“是”或“否”躁愿,自變量就可以包括很多了,如年齡沪蓬、性別彤钟、飲食習慣、幽門螺桿菌感染等跷叉。自變量既可以是連續(xù)的逸雹,也可以是分類的。然后通過logistic回歸分析云挟,可以得到自變量的權重梆砸,從而可以大致了解到底哪些因素是胃癌的危險因素。同時根據(jù)該權值可以根據(jù)危險因素預測一個人患癌癥的可能性植锉。
二辫樱、基本原理
再來傳送門
邏輯回歸相當于是線性回歸和sigmoid函數(shù)的組合,首先介紹什么是sigmoid函數(shù):
如圖俊庇,sigmoid函數(shù)的因變量y取值為[0,1]狮暑。而邏輯回歸就是將y=ax+b和sigmoid函數(shù)的1/(1+e-1)組合起來,如上圖即是將其他函數(shù)的結果代入sig函數(shù)辉饱,從而得出[0,1]的區(qū)間結果搬男。按照下圖即是將第一個公式的z代入第二個公式的z,從而形成一個新的等式求解彭沼。
輸出結果是樣本預測為正例的概率(0到1之間的小數(shù))缔逛。接下來第二個步驟:選定一個閾值。
例如當我選閾值為0.5,那么小于0.5的一定是負例姓惑,哪怕他是0.49褐奴。此時我們判斷一個樣本為負例一定是準確的嗎?其實不一定,因為它還是有49%的概率為正例的。但是即便他是正例的概率為0.1于毙,我們隨機選擇1w個樣本來做預測敦冬,還是會有接近100個預測它是負例,誤差都會存在的唯沮。所以我們選定閾值的時候就是在選擇可以接受誤差的程度脖旱。
sigmod函數(shù)預測結果為一個0到1之間的小數(shù)堪遂,選定閾值的第一反應,大多都是選0.5萌庆,其實實際工作中并不一定是0.5溶褪,閾值的設定往往是根據(jù)實際情況來判斷的。假設此時我們的業(yè)務是做一個腫瘤的良性惡性判斷践险,選定閾值為0.5就意味著如果一個患者得惡性腫瘤的概率為0.49猿妈,模型依舊認為他沒有患惡性腫瘤巍虫,結果可能造成嚴重的醫(yī)療事故于游。此類情況我們應該將閾值設置的小一些,比如0.3垫言,造成的結果就是這個人做一個全面檢查贰剥,比起醫(yī)療事故來講,這個更好筷频。
三蚌成、優(yōu)缺點
1、優(yōu)點
(1)實現(xiàn)簡單凛捏,廣泛的應用于工業(yè)問題上
(2)分類時計算量非常小担忧,速度很快,存儲資源低
(3)便利的觀測樣本概率分數(shù)
(4)對邏輯回歸而言坯癣,多重共線性并不是問題瓶盛,它可以結合L2正則化來解決該問題
(5)計算代價不高,易于理解和實現(xiàn)
2示罗、缺點
(1)當特征空間很大時惩猫,邏輯回歸的性能不是很好
(2)容易欠擬合,一般準確度不太高
(3)不能很好地處理大量多類特征或變量
(4)只能處理兩分類問題(在此基礎上衍生出來的softmax可以用于多分類)蚜点,且必須線性可分
(5)對于非線性特征轧房,需要進行轉換