邏輯回歸LR模型的總結(jié)

“邏輯回歸假設(shè)數(shù)據(jù)服從伯努利分布,通過(guò)極大化似然函數(shù)的方法成洗，運(yùn)用梯度下降來(lái)求解參數(shù)崔兴，來(lái)達(dá)到將數(shù)據(jù)二分類的目的”

上面這句話是對(duì)邏輯回歸的一個(gè)高度的概括彰导，下面將詳細(xì)的說(shuō)一下這句話的含義蛔翅。

一、邏輯回歸的假設(shè)

邏輯回歸有兩個(gè)假設(shè)：

假設(shè)一：假設(shè)數(shù)據(jù)服從伯努利分布（0-1分布位谋、拋硬幣）山析。其假設(shè)hθ(x)是樣本為正類的概率，1-hθ(x)是樣本為負(fù)類的概率掏父。該模型可以表示為：
假設(shè)二：假設(shè)樣本為正類的概率p 為：

image.png

通過(guò)sigmod函數(shù)將值映射到0-1之間笋轨。
所以最終LR模型為：

image.png

二、邏輯回歸的損失函數(shù)

在邏輯回歸中赊淑，最常用的是代價(jià)函數(shù)是交叉熵(Cross Entropy)

image.png

三爵政、邏輯回歸的求解方法

如何求損失函數(shù)的最優(yōu)解呢？（注意損失函數(shù)指的是單個(gè)樣本的損失陶缺，成本函數(shù)是全部樣本的預(yù)測(cè)值和實(shí)際值之間的誤差的均值）

交差熵是一個(gè)凸函數(shù)钾挟，所以依然可以用梯度下降法求解（傳統(tǒng)方法）
通過(guò)上述過(guò)程可以得到一組最優(yōu)的系數(shù)w，它確定了不同類別數(shù)據(jù)之間的分割線饱岸。

四掺出、邏輯回歸的目的

該函數(shù)的目的便是將數(shù)據(jù)二分類，提高準(zhǔn)確率苫费。

五汤锨、邏輯回歸如何分類

邏輯回歸作為一個(gè)回歸(也就是y值是連續(xù)的)，如何應(yīng)用到分類上去呢百框。y值確實(shí)是一個(gè)連續(xù)的變量闲礼。邏輯回歸的做法是劃定一個(gè)閾值，y值大于這個(gè)閾值的是一類铐维，y值小于這個(gè)閾值的是另外一類位仁。閾值具體如何調(diào)整根據(jù)實(shí)際情況選擇。一般會(huì)選擇0.5做為閾值來(lái)劃分方椎。

六聂抢、對(duì)邏輯回歸的進(jìn)一步提問(wèn)

1.邏輯回歸在訓(xùn)練的過(guò)程當(dāng)中，如果有很多的特征高度相關(guān)或者說(shuō)有一個(gè)特征重復(fù)了100遍棠众，會(huì)造成怎樣的影響琳疏？

先說(shuō)結(jié)論，如果在損失函數(shù)最終收斂的情況下闸拿，其實(shí)就算有很多特征高度相關(guān)也不會(huì)影響分類器的效果空盼。
但是對(duì)特征本身來(lái)說(shuō)的話，假設(shè)只有一個(gè)特征新荤，在不考慮采樣的情況下揽趾，你現(xiàn)在將它重復(fù)100遍。訓(xùn)練以后完以后苛骨，數(shù)據(jù)還是這么多篱瞎，但是這個(gè)特征本身重復(fù)了100遍苟呐，實(shí)質(zhì)上將原來(lái)的特征分成了100份，每一個(gè)特征都是原來(lái)特征權(quán)重值的百分之一俐筋。
如果在隨機(jī)采樣的情況下牵素，其實(shí)訓(xùn)練收斂完以后，還是可以認(rèn)為這100個(gè)特征和原來(lái)那一個(gè)特征扮演的效果一樣澄者，只是可能中間很多特征的值正負(fù)相消了笆呆。

2.為什么我們還是會(huì)在訓(xùn)練的過(guò)程當(dāng)中將高度相關(guān)的特征去掉？

去掉高度相關(guān)的特征會(huì)讓模型的可解釋性更好
可以大大提高訓(xùn)練的速度粱挡。如果模型當(dāng)中有很多特征高度相關(guān)的話赠幕，就算損失函數(shù)本身收斂了，但實(shí)際上參數(shù)是沒(méi)有收斂的询筏，這樣會(huì)拉低訓(xùn)練的速度榕堰。其次是特征多了，本身就會(huì)增大訓(xùn)練的時(shí)間屈留。

七、邏輯回歸的優(yōu)缺點(diǎn)總結(jié)

優(yōu)點(diǎn)

形式簡(jiǎn)單测蘑，模型的可解釋性非常好灌危。從特征的權(quán)重可以看到不同的特征對(duì)最后結(jié)果的影響，某個(gè)特征的權(quán)重值比較高碳胳，那么這個(gè)特征最后對(duì)結(jié)果的影響會(huì)比較大勇蝙。
模型效果不錯(cuò)。在工程上是可以接受的（作為baseline)挨约，如果特征工程做的好味混，效果不會(huì)太差，并且特征工程可以大家并行開(kāi)發(fā)诫惭，大大加快開(kāi)發(fā)的速度翁锡。
訓(xùn)練速度較快。分類的時(shí)候夕土，計(jì)算量?jī)H僅只和特征的數(shù)目相關(guān)馆衔。并且邏輯回歸的分布式優(yōu)化sgd發(fā)展比較成熟，訓(xùn)練的速度可以通過(guò)堆機(jī)器進(jìn)一步提高怨绣，這樣我們可以在短時(shí)間內(nèi)迭代好幾個(gè)版本的模型角溃。
資源占用小,尤其是內(nèi)存。因?yàn)橹恍枰鎯?chǔ)各個(gè)維度的特征值篮撑，减细。
方便輸出結(jié)果調(diào)整。邏輯回歸可以很方便的得到最后的分類結(jié)果赢笨，因?yàn)檩敵龅氖敲總€(gè)樣本的概率分?jǐn)?shù)未蝌，我們可以很容易的對(duì)這些概率分?jǐn)?shù)進(jìn)行cutoff驮吱，也就是劃分閾值(大于某個(gè)閾值的是一類，小于某個(gè)閾值的是一類)树埠。

缺點(diǎn):

準(zhǔn)確率并不是很高糠馆。因?yàn)樾问椒浅５暮?jiǎn)單(非常類似線性模型)，很難去擬合數(shù)據(jù)的真實(shí)分布怎憋。
很難處理數(shù)據(jù)不平衡的問(wèn)題又碌。舉個(gè)例子：如果我們對(duì)于一個(gè)正負(fù)樣本非常不平衡的問(wèn)題比如正負(fù)樣本比 10000:1.我們把所有樣本都預(yù)測(cè)為正也能使損失函數(shù)的值比較小。但是作為一個(gè)分類器绊袋，它對(duì)正負(fù)樣本的區(qū)分能力不會(huì)很好毕匀。
處理非線性數(shù)據(jù)較麻煩。邏輯回歸在不引入其他方法的情況下癌别，只能處理線性可分的數(shù)據(jù)皂岔，或者進(jìn)一步說(shuō)，處理二分類的問(wèn)題展姐。
邏輯回歸本身無(wú)法篩選特征躁垛。有時(shí)候，我們會(huì)用gbdt來(lái)篩選特征圾笨，然后再上邏輯回歸教馆。

補(bǔ)充梯度下降知識(shí)：

一、梯度下降類別

因?yàn)榫吞荻认陆当旧韥?lái)看的話就有隨機(jī)梯度下降擂达，批梯度下降土铺，small batch 梯度下降三種方式，面試官可能會(huì)問(wèn)這三種方式的優(yōu)劣以及如何選擇最合適的梯度下降方式板鬓。

批梯度下降會(huì)獲得全局最優(yōu)解悲敷，缺點(diǎn)是在更新每個(gè)參數(shù)的時(shí)候需要遍歷所有的數(shù)據(jù)，計(jì)算量會(huì)很大俭令，并且會(huì)有很多的冗余計(jì)算后德，導(dǎo)致的結(jié)果是當(dāng)數(shù)據(jù)量大的時(shí)候，每個(gè)參數(shù)的更新都會(huì)很慢抄腔。
隨機(jī)梯度下降是以高方差頻繁更新探遵，優(yōu)點(diǎn)是使得sgd會(huì)跳到新的和潛在更好的局部最優(yōu)解，缺點(diǎn)是使得收斂到局部最優(yōu)解的過(guò)程更加的復(fù)雜妓柜。
小批量梯度下降結(jié)合了sgd和batch gd的優(yōu)點(diǎn)箱季，每次更新的時(shí)候使用n個(gè)樣本。減少了參數(shù)更新的次數(shù)棍掐，可以達(dá)到更加穩(wěn)定收斂結(jié)果藏雏，一般在深度學(xué)習(xí)當(dāng)中我們采用這種方法。

二、梯度下降缺點(diǎn)：

第一個(gè)是如何對(duì)模型選擇合適的學(xué)習(xí)率掘殴。自始至終保持同樣的學(xué)習(xí)率其實(shí)不太合適赚瘦。因?yàn)橐婚_(kāi)始參數(shù)剛剛開(kāi)始學(xué)習(xí)的時(shí)候，此時(shí)的參數(shù)和最優(yōu)解隔的比較遠(yuǎn)奏寨，需要保持一個(gè)較大的學(xué)習(xí)率盡快逼近最優(yōu)解起意。但是學(xué)習(xí)到后面的時(shí)候，參數(shù)和最優(yōu)解已經(jīng)隔的比較近了病瞳，你還保持最初的學(xué)習(xí)率揽咕，容易越過(guò)最優(yōu)點(diǎn)，在最優(yōu)點(diǎn)附近來(lái)回振蕩套菜，通俗一點(diǎn)說(shuō)亲善，就很容易學(xué)過(guò)頭了，跑偏了逗柴。
第二個(gè)是如何對(duì)參數(shù)選擇合適的學(xué)習(xí)率蛹头。在實(shí)踐中，對(duì)每個(gè)參數(shù)都保持的同樣的學(xué)習(xí)率也是很不合理的戏溺。有些參數(shù)更新頻繁渣蜗，那么學(xué)習(xí)率可以適當(dāng)小一點(diǎn)。有些參數(shù)更新緩慢旷祸，那么學(xué)習(xí)率就應(yīng)該大一點(diǎn)耕拷。

三、如何解決梯度下降的缺點(diǎn)：引入自適應(yīng)梯度優(yōu)化法AdaGrad

后續(xù)學(xué)習(xí)理解后在進(jìn)行更新

參考文獻(xiàn)：# 邏輯回歸的常見(jiàn)面試點(diǎn)總結(jié)

最后編輯于：2018.12.04 13:05:48

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末肋僧，一起剝皮案震驚了整個(gè)濱河市斑胜，隨后出現(xiàn)的幾起案子控淡，更是在濱河造成了極大的恐慌嫌吠，老刑警劉巖，帶你破解...
沈念sama閱讀 219,188評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件掺炭，死亡現(xiàn)場(chǎng)離奇詭異辫诅，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)涧狮，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,464評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門炕矮，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人者冤，你說(shuō)我怎么就攤上這事肤视。” “怎么了涉枫？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,562評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵邢滑，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我愿汰，道長(zhǎng)困后，這世上最難降的妖魔是什么乐纸？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,893評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮摇予，結(jié)果婚禮上汽绢，老公的妹妹穿的比我還像新娘。我一直安慰自己侧戴，他們只是感情好宁昭，可當(dāng)我...
茶點(diǎn)故事閱讀 67,917評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著救鲤，像睡著了一般久窟。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上本缠，一...
開(kāi)封第一講書(shū)人閱讀 51,708評(píng)論 1贊 305
城市分裂傳說(shuō)
那天斥扛，我揣著相機(jī)與錄音，去河邊找鬼丹锹。笑死稀颁，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的楣黍。我是一名探鬼主播匾灶，決...
沈念sama閱讀 40,430評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼租漂！你這毒婦竟也來(lái)了阶女？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,342評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤哩治，失蹤者是張志新（化名）和其女友劉穎秃踩，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體业筏，經(jīng)...
沈念sama閱讀 45,801評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡憔杨，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,976評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蒜胖。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片消别。...
茶點(diǎn)故事閱讀 40,115評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖台谢，靈堂內(nèi)的尸體忽然破棺而出寻狂，到底是詐尸還是另有隱情，我是刑警寧澤朋沮，帶...
沈念sama閱讀 35,804評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蛇券，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏怀读。R本人自食惡果不足惜诉位，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,458評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望菜枷。院中可真熱鬧苍糠，春花似錦、人聲如沸啤誊。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,008評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)蚊锹。三九已至瞳筏，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間牡昆，已是汗流浹背姚炕。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,135評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留丢烘，地道東北人柱宦。一個(gè)月前我還...
沈念sama閱讀 48,365評(píng)論 3贊 373
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像播瞳，于是被迫代替她去往敵國(guó)和親掸刊。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,055評(píng)論 2贊 355