“邏輯回歸假設(shè)數(shù)據(jù)服從伯努利分布,通過(guò)極大化似然函數(shù)的方法成洗,運(yùn)用梯度下降來(lái)求解參數(shù)崔兴,來(lái)達(dá)到將數(shù)據(jù)二分類的目的”
上面這句話是對(duì)邏輯回歸的一個(gè)高度的概括彰导,下面將詳細(xì)的說(shuō)一下這句話的含義蛔翅。
一、邏輯回歸的假設(shè)
邏輯回歸有兩個(gè)假設(shè):
-
假設(shè)一:假設(shè)數(shù)據(jù)服從伯努利分布(0-1分布位谋、拋硬幣)山析。其假設(shè)hθ(x)是樣本為正類的概率,1-hθ(x)是樣本為負(fù)類的概率掏父。該模型可以表示為:
-
假設(shè)二:假設(shè)樣本為正類的概率p 為:
image.png
通過(guò)sigmod函數(shù)將值映射到0-1之間笋轨。
-
所以最終LR模型為:
image.png
二、邏輯回歸的損失函數(shù)
在邏輯回歸中赊淑,最常用的是代價(jià)函數(shù)是交叉熵(Cross Entropy)
三爵政、邏輯回歸的求解方法
如何求損失函數(shù)的最優(yōu)解呢?(注意損失函數(shù)指的是單個(gè)樣本的損失陶缺,成本函數(shù)是全部樣本的預(yù)測(cè)值和實(shí)際值之間的誤差的均值)
交差熵是一個(gè)凸函數(shù)钾挟,所以依然可以用梯度下降法求解(傳統(tǒng)方法)
通過(guò)上述過(guò)程可以得到一組最優(yōu)的系數(shù)w,它確定了不同類別數(shù)據(jù)之間的分割線饱岸。
四掺出、邏輯回歸的目的
該函數(shù)的目的便是將數(shù)據(jù)二分類,提高準(zhǔn)確率苫费。
五汤锨、邏輯回歸如何分類
邏輯回歸作為一個(gè)回歸(也就是y值是連續(xù)的),如何應(yīng)用到分類上去呢百框。y值確實(shí)是一個(gè)連續(xù)的變量闲礼。邏輯回歸的做法是劃定一個(gè)閾值,y值大于這個(gè)閾值的是一類铐维,y值小于這個(gè)閾值的是另外一類位仁。閾值具體如何調(diào)整根據(jù)實(shí)際情況選擇。一般會(huì)選擇0.5做為閾值來(lái)劃分方椎。
六聂抢、對(duì)邏輯回歸的進(jìn)一步提問(wèn)
1.邏輯回歸在訓(xùn)練的過(guò)程當(dāng)中,如果有很多的特征高度相關(guān)或者說(shuō)有一個(gè)特征重復(fù)了100遍棠众,會(huì)造成怎樣的影響琳疏?
- 先說(shuō)結(jié)論,如果在損失函數(shù)最終收斂的情況下闸拿,其實(shí)就算有很多特征高度相關(guān)也不會(huì)影響分類器的效果空盼。
- 但是對(duì)特征本身來(lái)說(shuō)的話,假設(shè)只有一個(gè)特征新荤,在不考慮采樣的情況下揽趾,你現(xiàn)在將它重復(fù)100遍。訓(xùn)練以后完以后苛骨,數(shù)據(jù)還是這么多篱瞎,但是這個(gè)特征本身重復(fù)了100遍苟呐,實(shí)質(zhì)上將原來(lái)的特征分成了100份,每一個(gè)特征都是原來(lái)特征權(quán)重值的百分之一俐筋。
- 如果在隨機(jī)采樣的情況下牵素,其實(shí)訓(xùn)練收斂完以后,還是可以認(rèn)為這100個(gè)特征和原來(lái)那一個(gè)特征扮演的效果一樣澄者,只是可能中間很多特征的值正負(fù)相消了笆呆。
2.為什么我們還是會(huì)在訓(xùn)練的過(guò)程當(dāng)中將高度相關(guān)的特征去掉?
- 去掉高度相關(guān)的特征會(huì)讓模型的可解釋性更好
- 可以大大提高訓(xùn)練的速度粱挡。如果模型當(dāng)中有很多特征高度相關(guān)的話赠幕,就算損失函數(shù)本身收斂了,但實(shí)際上參數(shù)是沒(méi)有收斂的询筏,這樣會(huì)拉低訓(xùn)練的速度榕堰。其次是特征多了,本身就會(huì)增大訓(xùn)練的時(shí)間屈留。
七、邏輯回歸的優(yōu)缺點(diǎn)總結(jié)
優(yōu)點(diǎn)
- 形式簡(jiǎn)單测蘑,模型的可解釋性非常好灌危。從特征的權(quán)重可以看到不同的特征對(duì)最后結(jié)果的影響,某個(gè)特征的權(quán)重值比較高碳胳,那么這個(gè)特征最后對(duì)結(jié)果的影響會(huì)比較大勇蝙。
- 模型效果不錯(cuò)。在工程上是可以接受的(作為baseline)挨约,如果特征工程做的好味混,效果不會(huì)太差,并且特征工程可以大家并行開(kāi)發(fā)诫惭,大大加快開(kāi)發(fā)的速度翁锡。
- 訓(xùn)練速度較快。分類的時(shí)候夕土,計(jì)算量?jī)H僅只和特征的數(shù)目相關(guān)馆衔。并且邏輯回歸的分布式優(yōu)化sgd發(fā)展比較成熟,訓(xùn)練的速度可以通過(guò)堆機(jī)器進(jìn)一步提高怨绣,這樣我們可以在短時(shí)間內(nèi)迭代好幾個(gè)版本的模型角溃。
- 資源占用小,尤其是內(nèi)存。因?yàn)橹恍枰鎯?chǔ)各個(gè)維度的特征值篮撑,减细。
- 方便輸出結(jié)果調(diào)整。邏輯回歸可以很方便的得到最后的分類結(jié)果赢笨,因?yàn)檩敵龅氖敲總€(gè)樣本的概率分?jǐn)?shù)未蝌,我們可以很容易的對(duì)這些概率分?jǐn)?shù)進(jìn)行cutoff驮吱,也就是劃分閾值(大于某個(gè)閾值的是一類,小于某個(gè)閾值的是一類)树埠。
缺點(diǎn):
- 準(zhǔn)確率并不是很高糠馆。因?yàn)樾问椒浅5暮?jiǎn)單(非常類似線性模型),很難去擬合數(shù)據(jù)的真實(shí)分布怎憋。
- 很難處理數(shù)據(jù)不平衡的問(wèn)題又碌。舉個(gè)例子:如果我們對(duì)于一個(gè)正負(fù)樣本非常不平衡的問(wèn)題比如正負(fù)樣本比 10000:1.我們把所有樣本都預(yù)測(cè)為正也能使損失函數(shù)的值比較小。但是作為一個(gè)分類器绊袋,它對(duì)正負(fù)樣本的區(qū)分能力不會(huì)很好毕匀。
- 處理非線性數(shù)據(jù)較麻煩。邏輯回歸在不引入其他方法的情況下癌别,只能處理線性可分的數(shù)據(jù)皂岔,或者進(jìn)一步說(shuō),處理二分類的問(wèn)題 展姐。
- 邏輯回歸本身無(wú)法篩選特征躁垛。有時(shí)候,我們會(huì)用gbdt來(lái)篩選特征圾笨,然后再上邏輯回歸教馆。
補(bǔ)充梯度下降知識(shí):
一、梯度下降類別
因?yàn)榫吞荻认陆当旧韥?lái)看的話就有隨機(jī)梯度下降擂达,批梯度下降土铺,small batch 梯度下降三種方式,面試官可能會(huì)問(wèn)這三種方式的優(yōu)劣以及如何選擇最合適的梯度下降方式板鬓。
- 批梯度下降會(huì)獲得全局最優(yōu)解悲敷,缺點(diǎn)是在更新每個(gè)參數(shù)的時(shí)候需要遍歷所有的數(shù)據(jù),計(jì)算量會(huì)很大俭令,并且會(huì)有很多的冗余計(jì)算后德,導(dǎo)致的結(jié)果是當(dāng)數(shù)據(jù)量大的時(shí)候,每個(gè)參數(shù)的更新都會(huì)很慢抄腔。
- 隨機(jī)梯度下降是以高方差頻繁更新探遵,優(yōu)點(diǎn)是使得sgd會(huì)跳到新的和潛在更好的局部最優(yōu)解,缺點(diǎn)是使得收斂到局部最優(yōu)解的過(guò)程更加的復(fù)雜妓柜。
- 小批量梯度下降結(jié)合了sgd和batch gd的優(yōu)點(diǎn)箱季,每次更新的時(shí)候使用n個(gè)樣本。減少了參數(shù)更新的次數(shù)棍掐,可以達(dá)到更加穩(wěn)定收斂結(jié)果藏雏,一般在深度學(xué)習(xí)當(dāng)中我們采用這種方法。
二、梯度下降缺點(diǎn):
- 第一個(gè)是如何對(duì)模型選擇合適的學(xué)習(xí)率掘殴。自始至終保持同樣的學(xué)習(xí)率其實(shí)不太合適赚瘦。因?yàn)橐婚_(kāi)始參數(shù)剛剛開(kāi)始學(xué)習(xí)的時(shí)候,此時(shí)的參數(shù)和最優(yōu)解隔的比較遠(yuǎn)奏寨,需要保持一個(gè)較大的學(xué)習(xí)率盡快逼近最優(yōu)解起意。但是學(xué)習(xí)到后面的時(shí)候,參數(shù)和最優(yōu)解已經(jīng)隔的比較近了病瞳,你還保持最初的學(xué)習(xí)率揽咕,容易越過(guò)最優(yōu)點(diǎn),在最優(yōu)點(diǎn)附近來(lái)回振蕩套菜,通俗一點(diǎn)說(shuō)亲善,就很容易學(xué)過(guò)頭了,跑偏了逗柴。
- 第二個(gè)是如何對(duì)參數(shù)選擇合適的學(xué)習(xí)率蛹头。在實(shí)踐中,對(duì)每個(gè)參數(shù)都保持的同樣的學(xué)習(xí)率也是很不合理的戏溺。有些參數(shù)更新頻繁渣蜗,那么學(xué)習(xí)率可以適當(dāng)小一點(diǎn)。有些參數(shù)更新緩慢旷祸,那么學(xué)習(xí)率就應(yīng)該大一點(diǎn)耕拷。
三、如何解決梯度下降的缺點(diǎn):引入自適應(yīng)梯度優(yōu)化法AdaGrad
后續(xù)學(xué)習(xí)理解后在進(jìn)行更新
參考文獻(xiàn):# 邏輯回歸的常見(jiàn)面試點(diǎn)總結(jié)