介紹
- 邏輯回歸:Logistic Regression胯努,Logit Regression,是一種分類算法阶祭,常用于處理二分類圆仔,用來表示某件事情發(fā)生的可能性。任務是盡可能地擬合決策邊界甩十。
- 應用:銀行信用卡欺詐可能性(是欺詐消費船庇、不是欺詐消費)、下雨的可能性(下雨侣监、不下雨)鸭轮,購買一件商品的可能性(買、不買)橄霉,廣告被點擊的可能性(點窃爷、不點)
線性回歸與邏輯回歸
- 線性回歸:y=ax+b,在已知幾組數據(x,y的歷史數據情況下姓蜂,如何預測給定一個新的自變量x時y的值呢按厘?顯然需要先計算出兩個位置參數a,b的值,然后才可以進行預測钱慢。
- 但是在實際生活中逮京,因變量yy的會受到很多
的影響,兩個之間的關系也非線性關系那么簡單直接束莫±撩蓿可能是線性的草描、可能是多項式曲線型的、還有可能是多維空間的平面……
- y=ax+b輸出的是連續(xù)值策严,但因變量也有可能是離散值
-
線性回歸的分類問題與邏輯回歸分類:
.png
階躍函數
如果某個函數可以用半開區(qū)間的指示函數的有限次線性組合來表示穗慕,那么這個函數就是階躍函數。階躍函數是有限段分段常數函數的組合妻导。
[圖片上傳失敗...(image-cb2e92-1618128584134)]
Sigmoid函數
然而邏輯回歸是一個概率模型揍诽,我們需要的輸出結果在(0,1)之間,所以需要一個“映射函數”:邏輯回歸中常用的映射函數就是Sigmoid函數
但是栗竖,邏輯回歸的目標是解決二分類問題暑脆,在得到了一個概率值之后還需要對這個概率值進行“分類”。當概率值大于0.5時把樣本歸為正類狐肢、當概率值小于0.5時把樣本歸為負類添吗。
Logistic分布
累計分布函數:
概率密度函數:
其中μ表示位置參數,s表示形狀參數份名。形狀類似正態(tài)分布碟联、但峰度更高、尾部更長僵腺。
二項Logistic回歸模型
二項Logistic回歸模型是一種由條件概率分布P(Y|X)表示的分類模型鲤孵,以nn維隨機變量XX為輸入,Y∈{0,1}為輸出:
其中w也是一個n維的權值向量辰如,b為偏置普监。Logistic回歸只需要比較這兩個條件概率值的大小,選擇概率較大的那一類即可琉兜。
但是凯正,上述式子仍顯累贅。若令豌蟋,那么上面兩式可以轉化為:
幾率(Odds)
統(tǒng)計學中廊散,幾率表示事件發(fā)生的概率p與事件不發(fā)生的概率1?p的比值。
在Logistic回歸模型中梧疲,幾率取對數后表示為:
也就是說允睹,在Logistic回歸模型中,輸出Y=1的對數幾率是輸入xx的線性函數幌氮。
- 若線性函數趨近正無窮缭受,概率值P(Y=1|x)就越接近1,
- 若線性函數趨近負無窮浩销,概率值P(Y=1|x)就越接近0贯涎。邏輯回歸的主要思想就是:先擬合決策邊界、然后由映射函數建立邊界與分類概率的聯系慢洋。
何為最優(yōu)塘雳?
極大似然估計
已知一些樣本陆盘,需要尋找一組參數使得現有樣本出現概率最大化。
因為邏輯回歸假設之一是樣本服從伯努利分布败明,若令:
則似然函數可表示為:
對數似然:
損失函數(Loss/Cost Function)
用于衡量預測值與實際值的偏離程度隘马,損失函數的值越小表示分類器越精準∑薅ィ“最優(yōu)參數”就是使得損失函數取最小值酸员。
- 0-1損失函數:預測值與實際值不相等為1,相等為0.直接判斷錯分的個數讳嘱。
- 平方損失函數:誤差平方和幔嗦,常用于線性回歸。
- 對數損失函數:常用于模型輸出時每一類概率的分類器沥潭,例如邏輯回歸邀泉。
- Hinge損失函數:分類正確損失為0,否則損失為
钝鸽,SVM汇恤。
對數損失函數也叫交叉熵損失函數。熵代表某個事件的不確定性拔恰,交叉熵代表兩個概率分布(預測與真實)之間的差異性因谎。通過最小化交叉熵損失函數就可以最大化邏輯回歸分類器的精度。(補充:交叉熵損失的選取與最大熵模型有關)
表達式
其中表示第ii個真實值颜懊,
是第i個預測值财岔,
。
損失函數解釋一下:
當真實值時饭冬,
;
當真實值時使鹅,
;
將代入上式:
對數似然與對數損失函數的關系:
求解參數方法
梯度下降法
通過損失函數Loss對參數w求一階偏導來確定方向昌抠,并且確定步長α,來更新w:
直到|小于某個閾值或達到最大迭代次數停止鲁僚。
牛頓法
在現有極小點估計值的附近對Loss做二階泰勒展開炊苫,進而找到極小點的一個估計值,設為當前極小值估計值冰沙,那么有:
然后令侨艾,可以得到
訓練模型:輸入數據集為上式中只有θ這個向量是未知的。只要能夠找到一個參數向量θ使得L最小拓挥,那么這個θ就是最優(yōu)的參數向量唠梨。
使用模型:將得到的最優(yōu)θ帶入,然后根據一個閾值調整到0或1侥啤,就得到了樣本的所屬分類当叭。