一俩檬、簡(jiǎn)介
logistic回歸是經(jīng)典的二分類方法题画,其主要思想是: 根據(jù)現(xiàn)有數(shù)據(jù)對(duì)分類邊界線(Decision Boundary)建立回歸公式祭隔,以此進(jìn)行分類篮灼。
二忘古、重要概念
- logistic分布:
(1)概率分布函數(shù)F(x)和概率密度函數(shù)f(x)如下:
????F(x) = P(X<=x) =
???? f(x) =
(2)logistic分布的圖:
QQ20180913-0.JPG
可以看出來(lái)F(x)的概率分布(右圖)和sigmoid函數(shù)是類似的,而f(x)(左圖)是正態(tài)分布的诅诱。
2.logistic“回歸”
????假設(shè)現(xiàn)在有一些數(shù)據(jù)點(diǎn)髓堪,我們用一條直線對(duì)這些點(diǎn)進(jìn)行擬合(這條直線稱為最佳擬合直線),這個(gè)擬合的過(guò)程就叫做回歸,就是這條直線干旁。而實(shí)際上驶沼,我們是對(duì)z加一個(gè)非線性函數(shù)sigmoid,用來(lái)做分類争群。
-
二值型輸出分類函數(shù)Sigmoid
我們想要的函數(shù)應(yīng)該是: 能接受所有的輸入然后預(yù)測(cè)出類別回怜。例如,在兩個(gè)類的情況下换薄,上述函數(shù)輸出 0 或 1.或許你之前接觸過(guò)具有這種性質(zhì)的函數(shù)玉雾,該函數(shù)稱為 海維塞得階躍函數(shù)(Heaviside step function),或者直接稱為 單位階躍函數(shù)轻要。然而复旬,海維塞得階躍函數(shù)的問(wèn)題在于: 該函數(shù)在跳躍點(diǎn)上從 0 瞬間跳躍到 1,這個(gè)瞬間跳躍過(guò)程有時(shí)很難處理冲泥。幸好驹碍,另一個(gè)函數(shù)也有類似的性質(zhì)(可以輸出 0 或者 1 的性質(zhì)),且數(shù)學(xué)上更易處理柏蘑,這就是 Sigmoid 函數(shù)幸冻,又叫l(wèi)ogistic函數(shù)。sigmoid的計(jì)算公式和函數(shù)圖像如下:
image.png
至于為什么要用sigmoid函數(shù)作為激活函數(shù)呢咳焚?
參考這篇文章:
https://blog.csdn.net/wolfblood_zzx/article/details/74453434
4.logistic的代價(jià)函數(shù)(cost function)
為什么不用平方損失函數(shù)洽损,而選擇交叉熵(極大似然估計(jì)的方法)呢?
(1)平方損失函數(shù)
這里的h函數(shù)就是sigmoid函數(shù)革半。
這里的平方損失函數(shù)J 是非凸的碑定,而非凸函數(shù)存在多個(gè)局部最優(yōu)值,不利于梯度下降法求全局最有值又官。
如下是凸函數(shù)和非凸函數(shù):
(2)所以用交叉熵表示的損失函數(shù)
這是用log極大似然估計(jì)推導(dǎo)出來(lái)的公式延刘。
這個(gè)J函數(shù)的凸函數(shù),函數(shù)圖像如下:
可以看出來(lái)六敬,圖中只有一個(gè)局部最優(yōu)解碘赖。
-
梯度下降和梯度上升
這兩個(gè)是說(shuō)的一個(gè)東西,梯度下降是說(shuō)對(duì)于cost function外构,我們用地圖下降求最小值普泡;而對(duì)于objective function 我們用梯度上升求最大似然估計(jì)的值。
梯度下降的思想:
要找到某函數(shù)的最小值审编,最好的方法是沿著該函數(shù)的梯度方向探尋撼班。梯度分為梯度的方向和數(shù)值,梯度的方向是由導(dǎo)數(shù)決定垒酬,而數(shù)值是由步長(zhǎng)和導(dǎo)數(shù)共同決定的砰嘁。
參數(shù)迭代的公式如下:
image.png
6.局部最優(yōu)現(xiàn)象
上圖表示參數(shù) θ 與誤差函數(shù) J(θ) 的關(guān)系圖 (這里的誤差函數(shù)是損失函數(shù)件炉,所以我們要最小化損失函數(shù)),紅色的部分是表示 J(θ) 有著比較高的取值矮湘,我們需要的是斟冕,能夠讓 J(θ) 的值盡量的低。也就是深藍(lán)色的部分板祝。θ0宫静,θ1 表示 θ 向量的兩個(gè)維度(此處的θ0,θ1是x0和x1的系數(shù)券时,也對(duì)應(yīng)的是上文w0和w1)。
可能梯度下降的最終點(diǎn)并非是全局最小點(diǎn)伏伯,可能是一個(gè)局部最小點(diǎn)橘洞,如我們上圖中的右邊的梯度下降曲線,描述的是最終到達(dá)一個(gè)局部最小點(diǎn)说搅,這是我們重新選擇了一個(gè)初始點(diǎn)得到的炸枣。
看來(lái)我們這個(gè)算法將會(huì)在很大的程度上被初始點(diǎn)的選擇影響而陷入局部最小點(diǎn)。
參考文獻(xiàn):
機(jī)器學(xué)習(xí)實(shí)戰(zhàn):
https://github.com/apachecn/AiLearning/blob/dev/blog/ml/5.Logistic%E5%9B%9E%E5%BD%92.md吳恩達(dá)機(jī)器學(xué)習(xí)課程
https://study.163.com/course/courseMain.htm?courseId=1004570029
3.統(tǒng)計(jì)學(xué)習(xí)方法