邏輯回歸LR模型的總結(jié)

“邏輯回歸假設(shè)數(shù)據(jù)服從伯努利分布,通過(guò)極大化似然函數(shù)的方法成洗,運(yùn)用梯度下降來(lái)求解參數(shù)崔兴,來(lái)達(dá)到將數(shù)據(jù)二分類的目的”

上面這句話是對(duì)邏輯回歸的一個(gè)高度的概括彰导,下面將詳細(xì)的說(shuō)一下這句話的含義蛔翅。

一、邏輯回歸的假設(shè)

邏輯回歸有兩個(gè)假設(shè):

  • 假設(shè)一:假設(shè)數(shù)據(jù)服從伯努利分布(0-1分布位谋、拋硬幣)山析。其假設(shè)hθ(x)是樣本為正類的概率,1-hθ(x)是樣本為負(fù)類的概率掏父。該模型可以表示為:


  • 假設(shè)二:假設(shè)樣本為正類的概率p 為:


    image.png

    通過(guò)sigmod函數(shù)將值映射到0-1之間笋轨。

  • 所以最終LR模型為:


    image.png
二、邏輯回歸的損失函數(shù)

在邏輯回歸中赊淑,最常用的是代價(jià)函數(shù)是交叉熵(Cross Entropy)


image.png
三爵政、邏輯回歸的求解方法

如何求損失函數(shù)的最優(yōu)解呢?(注意損失函數(shù)指的是單個(gè)樣本的損失陶缺,成本函數(shù)是全部樣本的預(yù)測(cè)值和實(shí)際值之間的誤差的均值)

交差熵是一個(gè)凸函數(shù)钾挟,所以依然可以用梯度下降法求解(傳統(tǒng)方法)
通過(guò)上述過(guò)程可以得到一組最優(yōu)的系數(shù)w,它確定了不同類別數(shù)據(jù)之間的分割線饱岸。

四掺出、邏輯回歸的目的

該函數(shù)的目的便是將數(shù)據(jù)二分類,提高準(zhǔn)確率苫费。

五汤锨、邏輯回歸如何分類

邏輯回歸作為一個(gè)回歸(也就是y值是連續(xù)的),如何應(yīng)用到分類上去呢百框。y值確實(shí)是一個(gè)連續(xù)的變量闲礼。邏輯回歸的做法是劃定一個(gè)閾值,y值大于這個(gè)閾值的是一類铐维,y值小于這個(gè)閾值的是另外一類位仁。閾值具體如何調(diào)整根據(jù)實(shí)際情況選擇。一般會(huì)選擇0.5做為閾值來(lái)劃分方椎。

六聂抢、對(duì)邏輯回歸的進(jìn)一步提問(wèn)
1.邏輯回歸在訓(xùn)練的過(guò)程當(dāng)中,如果有很多的特征高度相關(guān)或者說(shuō)有一個(gè)特征重復(fù)了100遍棠众,會(huì)造成怎樣的影響琳疏?
  • 先說(shuō)結(jié)論,如果在損失函數(shù)最終收斂的情況下闸拿,其實(shí)就算有很多特征高度相關(guān)也不會(huì)影響分類器的效果空盼。
  • 但是對(duì)特征本身來(lái)說(shuō)的話,假設(shè)只有一個(gè)特征新荤,在不考慮采樣的情況下揽趾,你現(xiàn)在將它重復(fù)100遍。訓(xùn)練以后完以后苛骨,數(shù)據(jù)還是這么多篱瞎,但是這個(gè)特征本身重復(fù)了100遍苟呐,實(shí)質(zhì)上將原來(lái)的特征分成了100份,每一個(gè)特征都是原來(lái)特征權(quán)重值的百分之一俐筋。
  • 如果在隨機(jī)采樣的情況下牵素,其實(shí)訓(xùn)練收斂完以后,還是可以認(rèn)為這100個(gè)特征和原來(lái)那一個(gè)特征扮演的效果一樣澄者,只是可能中間很多特征的值正負(fù)相消了笆呆。
2.為什么我們還是會(huì)在訓(xùn)練的過(guò)程當(dāng)中將高度相關(guān)的特征去掉?
  • 去掉高度相關(guān)的特征會(huì)讓模型的可解釋性更好
  • 可以大大提高訓(xùn)練的速度粱挡。如果模型當(dāng)中有很多特征高度相關(guān)的話赠幕,就算損失函數(shù)本身收斂了,但實(shí)際上參數(shù)是沒(méi)有收斂的询筏,這樣會(huì)拉低訓(xùn)練的速度榕堰。其次是特征多了,本身就會(huì)增大訓(xùn)練的時(shí)間屈留。
七、邏輯回歸的優(yōu)缺點(diǎn)總結(jié)

優(yōu)點(diǎn)

  • 形式簡(jiǎn)單测蘑,模型的可解釋性非常好灌危。從特征的權(quán)重可以看到不同的特征對(duì)最后結(jié)果的影響,某個(gè)特征的權(quán)重值比較高碳胳,那么這個(gè)特征最后對(duì)結(jié)果的影響會(huì)比較大勇蝙。
  • 模型效果不錯(cuò)。在工程上是可以接受的(作為baseline)挨约,如果特征工程做的好味混,效果不會(huì)太差,并且特征工程可以大家并行開(kāi)發(fā)诫惭,大大加快開(kāi)發(fā)的速度翁锡。
  • 訓(xùn)練速度較快。分類的時(shí)候夕土,計(jì)算量?jī)H僅只和特征的數(shù)目相關(guān)馆衔。并且邏輯回歸的分布式優(yōu)化sgd發(fā)展比較成熟,訓(xùn)練的速度可以通過(guò)堆機(jī)器進(jìn)一步提高怨绣,這樣我們可以在短時(shí)間內(nèi)迭代好幾個(gè)版本的模型角溃。
  • 資源占用小,尤其是內(nèi)存。因?yàn)橹恍枰鎯?chǔ)各個(gè)維度的特征值篮撑,减细。
  • 方便輸出結(jié)果調(diào)整。邏輯回歸可以很方便的得到最后的分類結(jié)果赢笨,因?yàn)檩敵龅氖敲總€(gè)樣本的概率分?jǐn)?shù)未蝌,我們可以很容易的對(duì)這些概率分?jǐn)?shù)進(jìn)行cutoff驮吱,也就是劃分閾值(大于某個(gè)閾值的是一類,小于某個(gè)閾值的是一類)树埠。

缺點(diǎn):

  • 準(zhǔn)確率并不是很高糠馆。因?yàn)樾问椒浅5暮?jiǎn)單(非常類似線性模型),很難去擬合數(shù)據(jù)的真實(shí)分布怎憋。
  • 很難處理數(shù)據(jù)不平衡的問(wèn)題又碌。舉個(gè)例子:如果我們對(duì)于一個(gè)正負(fù)樣本非常不平衡的問(wèn)題比如正負(fù)樣本比 10000:1.我們把所有樣本都預(yù)測(cè)為正也能使損失函數(shù)的值比較小。但是作為一個(gè)分類器绊袋,它對(duì)正負(fù)樣本的區(qū)分能力不會(huì)很好毕匀。
  • 處理非線性數(shù)據(jù)較麻煩。邏輯回歸在不引入其他方法的情況下癌别,只能處理線性可分的數(shù)據(jù)皂岔,或者進(jìn)一步說(shuō),處理二分類的問(wèn)題 展姐。
  • 邏輯回歸本身無(wú)法篩選特征躁垛。有時(shí)候,我們會(huì)用gbdt來(lái)篩選特征圾笨,然后再上邏輯回歸教馆。

補(bǔ)充梯度下降知識(shí)

一、梯度下降類別

因?yàn)榫吞荻认陆当旧韥?lái)看的話就有隨機(jī)梯度下降擂达,批梯度下降土铺,small batch 梯度下降三種方式,面試官可能會(huì)問(wèn)這三種方式的優(yōu)劣以及如何選擇最合適的梯度下降方式板鬓。

  • 批梯度下降會(huì)獲得全局最優(yōu)解悲敷,缺點(diǎn)是在更新每個(gè)參數(shù)的時(shí)候需要遍歷所有的數(shù)據(jù),計(jì)算量會(huì)很大俭令,并且會(huì)有很多的冗余計(jì)算后德,導(dǎo)致的結(jié)果是當(dāng)數(shù)據(jù)量大的時(shí)候,每個(gè)參數(shù)的更新都會(huì)很慢抄腔。
  • 隨機(jī)梯度下降是以高方差頻繁更新探遵,優(yōu)點(diǎn)是使得sgd會(huì)跳到新的和潛在更好的局部最優(yōu)解,缺點(diǎn)是使得收斂到局部最優(yōu)解的過(guò)程更加的復(fù)雜妓柜。
  • 小批量梯度下降結(jié)合了sgd和batch gd的優(yōu)點(diǎn)箱季,每次更新的時(shí)候使用n個(gè)樣本。減少了參數(shù)更新的次數(shù)棍掐,可以達(dá)到更加穩(wěn)定收斂結(jié)果藏雏,一般在深度學(xué)習(xí)當(dāng)中我們采用這種方法。
二、梯度下降缺點(diǎn):
  • 第一個(gè)是如何對(duì)模型選擇合適的學(xué)習(xí)率掘殴。自始至終保持同樣的學(xué)習(xí)率其實(shí)不太合適赚瘦。因?yàn)橐婚_(kāi)始參數(shù)剛剛開(kāi)始學(xué)習(xí)的時(shí)候,此時(shí)的參數(shù)和最優(yōu)解隔的比較遠(yuǎn)奏寨,需要保持一個(gè)較大的學(xué)習(xí)率盡快逼近最優(yōu)解起意。但是學(xué)習(xí)到后面的時(shí)候,參數(shù)和最優(yōu)解已經(jīng)隔的比較近了病瞳,你還保持最初的學(xué)習(xí)率揽咕,容易越過(guò)最優(yōu)點(diǎn),在最優(yōu)點(diǎn)附近來(lái)回振蕩套菜,通俗一點(diǎn)說(shuō)亲善,就很容易學(xué)過(guò)頭了,跑偏了逗柴。
  • 第二個(gè)是如何對(duì)參數(shù)選擇合適的學(xué)習(xí)率蛹头。在實(shí)踐中,對(duì)每個(gè)參數(shù)都保持的同樣的學(xué)習(xí)率也是很不合理的戏溺。有些參數(shù)更新頻繁渣蜗,那么學(xué)習(xí)率可以適當(dāng)小一點(diǎn)。有些參數(shù)更新緩慢旷祸,那么學(xué)習(xí)率就應(yīng)該大一點(diǎn)耕拷。
三、如何解決梯度下降的缺點(diǎn):引入自適應(yīng)梯度優(yōu)化法AdaGrad

后續(xù)學(xué)習(xí)理解后在進(jìn)行更新

參考文獻(xiàn):# 邏輯回歸的常見(jiàn)面試點(diǎn)總結(jié)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末肋僧,一起剝皮案震驚了整個(gè)濱河市斑胜,隨后出現(xiàn)的幾起案子控淡,更是在濱河造成了極大的恐慌嫌吠,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件掺炭,死亡現(xiàn)場(chǎng)離奇詭異辫诅,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)涧狮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門炕矮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人者冤,你說(shuō)我怎么就攤上這事肤视。” “怎么了涉枫?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,562評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵邢滑,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我愿汰,道長(zhǎng)困后,這世上最難降的妖魔是什么乐纸? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,893評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮摇予,結(jié)果婚禮上汽绢,老公的妹妹穿的比我還像新娘。我一直安慰自己侧戴,他們只是感情好宁昭,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,917評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著救鲤,像睡著了一般久窟。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上本缠,一...
    開(kāi)封第一講書(shū)人閱讀 51,708評(píng)論 1 305
  • 那天斥扛,我揣著相機(jī)與錄音,去河邊找鬼丹锹。 笑死稀颁,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的楣黍。 我是一名探鬼主播匾灶,決...
    沈念sama閱讀 40,430評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼租漂!你這毒婦竟也來(lái)了阶女?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,342評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤哩治,失蹤者是張志新(化名)和其女友劉穎秃踩,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體业筏,經(jīng)...
    沈念sama閱讀 45,801評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡憔杨,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,976評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蒜胖。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片消别。...
    茶點(diǎn)故事閱讀 40,115評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖台谢,靈堂內(nèi)的尸體忽然破棺而出寻狂,到底是詐尸還是另有隱情,我是刑警寧澤朋沮,帶...
    沈念sama閱讀 35,804評(píng)論 5 346
  • 正文 年R本政府宣布蛇券,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏怀读。R本人自食惡果不足惜诉位,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,458評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望菜枷。 院中可真熱鬧苍糠,春花似錦、人聲如沸啤誊。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,008評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)蚊锹。三九已至瞳筏,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間牡昆,已是汗流浹背姚炕。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,135評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留丢烘,地道東北人柱宦。 一個(gè)月前我還...
    沈念sama閱讀 48,365評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像播瞳,于是被迫代替她去往敵國(guó)和親掸刊。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,055評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容