一封救、邏輯回歸LR
(1)模型表達(dá)式:
(2)損失函數(shù):
(3)參數(shù)估計(jì):
(4)關(guān)于LR的一些提問(wèn):
? (a)邏輯回歸為什么使用極大似然函數(shù)作為損失函數(shù)送朱?
極大似然函數(shù)與對(duì)數(shù)損失等價(jià)捺典,使得最終的梯度更新與Sigmoid函數(shù)無(wú)關(guān)娇斩,更新速度穩(wěn)定茅主。而平方損失會(huì)導(dǎo)致梯度更新的速度很慢。
? (b)如果特征高度相關(guān)或者一個(gè)特征重復(fù)多遍會(huì)有什么影響弃酌?
如果在損失函數(shù)最終收斂的情況下氨菇,不會(huì)影響最終的效果。但是對(duì)于特征本身矢腻,假設(shè)只有一個(gè)特征门驾,不重復(fù)與重復(fù)多遍,訓(xùn)練結(jié)束后多柑,后者這些特征的權(quán)重和將會(huì)等于前者。
? (c)為什么我們還是要將高度相關(guān)的特征去掉楣责?
首先可以讓模型的可解釋性更好竣灌。其次可以提高訓(xùn)練速度,因?yàn)槿绻刑卣鞲叨认嚓P(guān)秆麸,就算損失函數(shù)本身收斂初嘹,但實(shí)際參數(shù)并沒(méi)有收斂,會(huì)拉低訓(xùn)練速度沮趣。并且特征多了屯烦,訓(xùn)練時(shí)間自然會(huì)提高。
二房铭、LR與SVM的異同
(1)相同點(diǎn):LR與SVM都是監(jiān)督學(xué)習(xí)模型中的線(xiàn)性分類(lèi)算法驻龟。
(2)不同點(diǎn):
? (a)本質(zhì)上是損失函數(shù)不同
總而言之,SVM只考慮邊界上的點(diǎn)(支持向量)帶來(lái)的影響缸匪,而LR考慮了數(shù)據(jù)集中所有點(diǎn)的影響翁狐。然而他們的目的卻相同,因?yàn)長(zhǎng)R通過(guò)非線(xiàn)性映射凌蔬,降低離分類(lèi)面遠(yuǎn)的點(diǎn)的權(quán)重露懒。
(b)對(duì)數(shù)據(jù)分布的依賴(lài)
SVM不直接依賴(lài)數(shù)據(jù)的分布,分類(lèi)平面受一類(lèi)點(diǎn)的影響砂心;LR受所有數(shù)據(jù)點(diǎn)的影響懈词,數(shù)據(jù)需要balance。
? (c)解決非線(xiàn)性問(wèn)題
SVM解決非線(xiàn)性問(wèn)題一般采用核函數(shù)辩诞,因?yàn)橹挥猩贁?shù)幾個(gè)點(diǎn)參與計(jì)算坎弯。而LR通常不使用核函數(shù),因?yàn)樗悬c(diǎn)都需要計(jì)算,計(jì)算復(fù)雜度很高荞怒。
? (d)SVM依賴(lài)數(shù)據(jù)表達(dá)的測(cè)度
(參考:https://www.zhihu.com/question/26768865/answer/34078149)
Linear SVM比較依賴(lài)penalty的系數(shù)(故實(shí)驗(yàn)中需要validation)和數(shù)據(jù)表達(dá)空間的測(cè)度洒琢,而(帶正則化)LR比較依賴(lài)對(duì)參數(shù)做L1正則化的系數(shù)。由于他們都是線(xiàn)性分類(lèi)器褐桌,在低維空間overfitting的能力都比較有限衰抑,在高維空間中LR會(huì)更加穩(wěn)定,因?yàn)長(zhǎng)inear SVM在計(jì)算margin有多寬時(shí)依賴(lài)距離測(cè)度(如果測(cè)度不好荧嵌,那么最大化邊界將沒(méi)有意義呛踊;這種現(xiàn)象在高維空間更明顯)。所以使用Linear SVM之前需要對(duì)數(shù)據(jù)做normalization啦撮,而LR不需要或者不敏感谭网。
注:不帶正則的LR,對(duì)其做normalization的目的是為了方便選擇優(yōu)化的起始值赃春,不代表最后的效果與normalization有關(guān)愉择。如果用最大熵模型解釋?zhuān)╤ttp://www.win-vector.com/dfiles/LogisticRegressionMaxEnt.pdf),實(shí)際優(yōu)化目標(biāo)與距離測(cè)度無(wú)關(guān)织中,其線(xiàn)性約束是可以被放縮的锥涕。
注2:Linear SVM在小數(shù)據(jù)集上表現(xiàn)好于LR,而在大規(guī)模數(shù)據(jù)上狭吼,LR應(yīng)用更廣泛层坠。
? (e)SVM損失函數(shù)自帶正則
SVM是結(jié)構(gòu)風(fēng)險(xiǎn)最小化,而不帶正則的LR是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化刁笙。