sklearn-caicai

五. 邏輯回歸

1. 概述

1.1 名為“回歸”的分類(lèi)器

z = \theta_ 0+\theta_ 1x_1 + \theta_ 2x_2 + ... + \theta_ nx_n=\theta ^\tau x

線性回歸的任務(wù)就是找出模型參數(shù)\theta _0,\theta^ \tau ,著名的最小二乘法就是用來(lái)求解線性回歸中參數(shù)的方法喇肋。

面試高危題:Sigmoid函數(shù)的公式和性質(zhì)

g(z) =?\frac{1}{1+e^{-z}}

Sigmoid函數(shù)是一個(gè)S型函數(shù)惠爽,當(dāng)自變量z趨近正無(wú)窮時(shí)次企,因變量g(z)趨近于1脯颜,而當(dāng)z趨近于負(fù)無(wú)窮時(shí)虽画,g(z)趨近于0舞蔽,它能夠?qū)⑷魏螌?shí)數(shù)映射到(0,1)區(qū)間码撰,使其可用于將任意值函數(shù)轉(zhuǎn)換為更合適二分類(lèi)的函數(shù)渗柿。因?yàn)檫@個(gè)性質(zhì),Sigmoid函數(shù)也被當(dāng)作是歸一化的一種方法脖岛,與之前的MinMaxScaler同理朵栖,是屬于數(shù)據(jù)預(yù)處理中的“縮放”功能,可以將數(shù)據(jù)壓縮到[0,1]之內(nèi)柴梆。區(qū)別在于MinMaxScaler歸一化之后陨溅,是可以取到0和1的,但Sigmoid只是無(wú)限趨近绍在。

線性回歸中z=\theta ^\tau x,將z代入门扇,就得到了二元邏輯回歸模型的一般形式:

g(z) = y(x) =?\frac{1}{1+e^{-\theta ^\tau x}}

二元指的是標(biāo)簽是二分類(lèi),x是可以有很多的偿渡,g(z)就是邏輯回歸返回的標(biāo)簽值臼寄。

1.2 為什么需要邏輯回歸

優(yōu)點(diǎn)

1. 邏輯回歸對(duì)線性關(guān)系的擬合效果好到喪心病狂,特征與標(biāo)簽之間的線性關(guān)系極強(qiáng)的數(shù)據(jù)溜宽,都是邏輯回歸的強(qiáng)項(xiàng)吉拳。相對(duì)的,邏輯回歸在非線性數(shù)據(jù)的效果很多時(shí)候比瞎猜還不如适揉,所以在已知數(shù)據(jù)之間的聯(lián)系是非線性的留攒,千萬(wàn)不要迷信邏輯回歸煤惩。

2. 邏輯回歸計(jì)算快:對(duì)于線性數(shù)據(jù),邏輯回歸的擬合和計(jì)算都非臣谔快盟庞,計(jì)算效率優(yōu)于SVM和隨機(jī)森林

3. 邏輯回歸返回的結(jié)果不是固定的0,1汤善,而是以小數(shù)形式呈現(xiàn)的類(lèi)概率數(shù)字:我們因此可以把邏輯回歸返回的結(jié)果當(dāng)成連續(xù)型數(shù)據(jù)來(lái)利用什猖。

另外,邏輯回歸還有抗噪能力強(qiáng)的有點(diǎn)红淡。

邏輯回歸的本質(zhì)就是一個(gè)返回對(duì)數(shù)幾率不狮,在線性數(shù)據(jù)上表現(xiàn)優(yōu)異的分類(lèi)器,主要被應(yīng)用在金融領(lǐng)域在旱。其數(shù)學(xué)目的是求解能夠讓模型對(duì)數(shù)據(jù)擬合程度最高的參數(shù)\theta 的值摇零,以此構(gòu)建預(yù)測(cè)函數(shù)y(x),然后將特征矩陣輸入預(yù)測(cè)函數(shù)來(lái)計(jì)算出邏輯回歸的結(jié)果y桶蝎。注意驻仅,雖然我們熟悉的邏輯回歸通常被用于處理二分類(lèi)問(wèn)題,但邏輯回歸也可以做多分類(lèi)登渣。

1.3 sklearn中的邏輯回歸

2. linear_model.LogisticRegression

2.1 二元邏輯回歸的損失函數(shù)

2.1.1 損失函數(shù)的概念和解惑

使用“損失函數(shù)”這個(gè)評(píng)估指標(biāo)噪服,來(lái)衡量參數(shù)\theta 的模型擬合訓(xùn)練集時(shí)產(chǎn)生的信息損失的大小,并以此衡量參數(shù)\theta 的優(yōu)劣胜茧。

我們?cè)谇蠼鈪?shù)\theta 時(shí)粘优,追求損失函數(shù)最小,讓模型在訓(xùn)練數(shù)據(jù)上的擬合效果最優(yōu)呻顽,即預(yù)測(cè)準(zhǔn)確率盡量接近100%雹顺。

關(guān)鍵概念:損失函數(shù)

衡量參數(shù)\theta 的優(yōu)劣的評(píng)估指標(biāo),用來(lái)求解最優(yōu)參數(shù)的工具廊遍。

損失函數(shù)小嬉愧,模型在訓(xùn)練集上表現(xiàn)優(yōu)異,擬合充分喉前,參數(shù)優(yōu)秀英染。

損失函數(shù)大,模型在訓(xùn)練集上表現(xiàn)差勁被饿,擬合不足四康,參數(shù)糟糕。

我們追求狭握,能夠讓損失函數(shù)最小化的參數(shù)組合闪金。

注意:沒(méi)有“求解參數(shù)”需要的模型沒(méi)有損失函數(shù),比如KNN,決策樹(shù)哎垦。

邏輯回歸的損失函數(shù)使用極大似然估計(jì)推到出來(lái)的囱嫩。

對(duì)邏輯回歸中過(guò)擬合的控制通過(guò)正則化來(lái)實(shí)現(xiàn)。

2.2 重要參數(shù)penalty&C

2.2.1正則化

2.2.2邏輯回歸中的特征工程

主要思想時(shí)降維:但是pca這種盲盒型不考慮

統(tǒng)計(jì)學(xué)方法

高效的嵌入embedding

2.3 梯度下降:重要參數(shù)max_iter

2.3.1 梯度下降求解邏輯回歸

梯度下降漏设,其實(shí)就是在眾多[\theta _1,\theta _2]可能的值中遍歷墨闲,一次次求解坐標(biāo)點(diǎn)的梯度向量,不斷讓損失函數(shù)的取值J逐漸逼近最小值郑口,再返回這個(gè)最小值對(duì)應(yīng)的參數(shù)取值[\theta _1^*,\theta _2^*]的過(guò)程鸳碧。

2.3.2 梯度的概念與解惑

求解梯度,實(shí)在損失函數(shù)J(\theta _1,\theta _2)上對(duì)損失函數(shù)自身的自變量\theta _1\theta _2求偏導(dǎo)犬性,而這兩個(gè)自變量瞻离,剛好是邏輯回歸的預(yù)測(cè)函數(shù)y(x) =?\frac{1}{1+e^{-\theta ^\tau x}} 的參數(shù)。(乒裆?套利??)

2.3.3 步長(zhǎng)的概念與解惑


2.4 二元回歸與多元回歸:重要參數(shù)solver&multi_class

2.5 樣本不均衡與參數(shù)class_weight

樣本不平衡是指在一組數(shù)據(jù)集中鹤耍,標(biāo)簽的一類(lèi)天生占有很大的比例肉迫,或誤分類(lèi)的代價(jià)很高,即我們想要捕捉某種特定的分類(lèi)的時(shí)候的情況稿黄。

使用參數(shù)class_weight對(duì)樣本標(biāo)簽進(jìn)行一定的均衡喊衫,給少量的標(biāo)簽更多的權(quán)重,讓模型更pain想少數(shù)類(lèi)抛猖。像捕獲少數(shù)類(lèi)的方向建模格侯。

我們有處理樣本不均衡的各種方法鼻听,其中主流的是采樣法财著,是通過(guò)重復(fù)樣本的方式來(lái)平衡標(biāo)簽,可以進(jìn)行上采樣(增加少數(shù)類(lèi)的樣本)撑碴,比如SMOTE撑教,或者下采樣(減少多數(shù)類(lèi)的樣本)。對(duì)于邏輯回歸來(lái)說(shuō)醉拓,上采樣是最好的辦法伟姐。

3. 案例:用邏輯回歸制作評(píng)分卡

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市亿卤,隨后出現(xiàn)的幾起案子愤兵,更是在濱河造成了極大的恐慌,老刑警劉巖排吴,帶你破解...
    沈念sama閱讀 218,122評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件秆乳,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)屹堰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)肛冶,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人扯键,你說(shuō)我怎么就攤上這事睦袖。” “怎么了荣刑?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,491評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵馅笙,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我嘶摊,道長(zhǎng)延蟹,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,636評(píng)論 1 293
  • 正文 為了忘掉前任叶堆,我火速辦了婚禮阱飘,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘虱颗。我一直安慰自己沥匈,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布忘渔。 她就那樣靜靜地躺著高帖,像睡著了一般。 火紅的嫁衣襯著肌膚如雪畦粮。 梳的紋絲不亂的頭發(fā)上散址,一...
    開(kāi)封第一講書(shū)人閱讀 51,541評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音宣赔,去河邊找鬼预麸。 笑死,一個(gè)胖子當(dāng)著我的面吹牛儒将,可吹牛的內(nèi)容都是我干的吏祸。 我是一名探鬼主播,決...
    沈念sama閱讀 40,292評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼钩蚊,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼贡翘!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起砰逻,我...
    開(kāi)封第一講書(shū)人閱讀 39,211評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤鸣驱,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后蝠咆,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體踊东,經(jīng)...
    沈念sama閱讀 45,655評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了递胧。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片碑韵。...
    茶點(diǎn)故事閱讀 39,965評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖缎脾,靈堂內(nèi)的尸體忽然破棺而出祝闻,到底是詐尸還是另有隱情,我是刑警寧澤遗菠,帶...
    沈念sama閱讀 35,684評(píng)論 5 347
  • 正文 年R本政府宣布联喘,位于F島的核電站,受9級(jí)特大地震影響辙纬,放射性物質(zhì)發(fā)生泄漏豁遭。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評(píng)論 3 329
  • 文/蒙蒙 一贺拣、第九天 我趴在偏房一處隱蔽的房頂上張望蓖谢。 院中可真熱鬧,春花似錦譬涡、人聲如沸闪幽。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,894評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)盯腌。三九已至,卻和暖如春陨瘩,著一層夾襖步出監(jiān)牢的瞬間腕够,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,012評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工舌劳, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留帚湘,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,126評(píng)論 3 370
  • 正文 我出身青樓蒿囤,卻偏偏與公主長(zhǎng)得像客们,于是被迫代替她去往敵國(guó)和親崇决。 傳聞我的和親對(duì)象是個(gè)殘疾皇子材诽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容