五. 邏輯回歸
1. 概述
1.1 名為“回歸”的分類(lèi)器
=
線性回歸的任務(wù)就是找出模型參數(shù),著名的最小二乘法就是用來(lái)求解線性回歸中參數(shù)的方法喇肋。
面試高危題:Sigmoid函數(shù)的公式和性質(zhì)
g(z) =?
Sigmoid函數(shù)是一個(gè)S型函數(shù)惠爽,當(dāng)自變量z趨近正無(wú)窮時(shí)次企,因變量g(z)趨近于1脯颜,而當(dāng)z趨近于負(fù)無(wú)窮時(shí)虽画,g(z)趨近于0舞蔽,它能夠?qū)⑷魏螌?shí)數(shù)映射到(0,1)區(qū)間码撰,使其可用于將任意值函數(shù)轉(zhuǎn)換為更合適二分類(lèi)的函數(shù)渗柿。因?yàn)檫@個(gè)性質(zhì),Sigmoid函數(shù)也被當(dāng)作是歸一化的一種方法脖岛,與之前的MinMaxScaler同理朵栖,是屬于數(shù)據(jù)預(yù)處理中的“縮放”功能,可以將數(shù)據(jù)壓縮到[0,1]之內(nèi)柴梆。區(qū)別在于MinMaxScaler歸一化之后陨溅,是可以取到0和1的,但Sigmoid只是無(wú)限趨近绍在。
線性回歸中z=,將z代入门扇,就得到了二元邏輯回歸模型的一般形式:
g(z) = y(x) =?
二元指的是標(biāo)簽是二分類(lèi),x是可以有很多的偿渡,g(z)就是邏輯回歸返回的標(biāo)簽值臼寄。
1.2 為什么需要邏輯回歸
優(yōu)點(diǎn)
1. 邏輯回歸對(duì)線性關(guān)系的擬合效果好到喪心病狂,特征與標(biāo)簽之間的線性關(guān)系極強(qiáng)的數(shù)據(jù)溜宽,都是邏輯回歸的強(qiáng)項(xiàng)吉拳。相對(duì)的,邏輯回歸在非線性數(shù)據(jù)的效果很多時(shí)候比瞎猜還不如适揉,所以在已知數(shù)據(jù)之間的聯(lián)系是非線性的留攒,千萬(wàn)不要迷信邏輯回歸煤惩。
2. 邏輯回歸計(jì)算快:對(duì)于線性數(shù)據(jù),邏輯回歸的擬合和計(jì)算都非臣谔快盟庞,計(jì)算效率優(yōu)于SVM和隨機(jī)森林
3. 邏輯回歸返回的結(jié)果不是固定的0,1汤善,而是以小數(shù)形式呈現(xiàn)的類(lèi)概率數(shù)字:我們因此可以把邏輯回歸返回的結(jié)果當(dāng)成連續(xù)型數(shù)據(jù)來(lái)利用什猖。
另外,邏輯回歸還有抗噪能力強(qiáng)的有點(diǎn)红淡。
邏輯回歸的本質(zhì)就是一個(gè)返回對(duì)數(shù)幾率不狮,在線性數(shù)據(jù)上表現(xiàn)優(yōu)異的分類(lèi)器,主要被應(yīng)用在金融領(lǐng)域在旱。其數(shù)學(xué)目的是求解能夠讓模型對(duì)數(shù)據(jù)擬合程度最高的參數(shù)的值摇零,以此構(gòu)建預(yù)測(cè)函數(shù)y(x),然后將特征矩陣輸入預(yù)測(cè)函數(shù)來(lái)計(jì)算出邏輯回歸的結(jié)果y桶蝎。注意驻仅,雖然我們熟悉的邏輯回歸通常被用于處理二分類(lèi)問(wèn)題,但邏輯回歸也可以做多分類(lèi)登渣。
1.3 sklearn中的邏輯回歸
2. linear_model.LogisticRegression
2.1 二元邏輯回歸的損失函數(shù)
2.1.1 損失函數(shù)的概念和解惑
使用“損失函數(shù)”這個(gè)評(píng)估指標(biāo)噪服,來(lái)衡量參數(shù)的模型擬合訓(xùn)練集時(shí)產(chǎn)生的信息損失的大小,并以此衡量參數(shù)
的優(yōu)劣胜茧。
我們?cè)谇蠼鈪?shù)時(shí)粘优,追求損失函數(shù)最小,讓模型在訓(xùn)練數(shù)據(jù)上的擬合效果最優(yōu)呻顽,即預(yù)測(cè)準(zhǔn)確率盡量接近100%雹顺。
關(guān)鍵概念:損失函數(shù)
衡量參數(shù)
的優(yōu)劣的評(píng)估指標(biāo),用來(lái)求解最優(yōu)參數(shù)的工具廊遍。
損失函數(shù)小嬉愧,模型在訓(xùn)練集上表現(xiàn)優(yōu)異,擬合充分喉前,參數(shù)優(yōu)秀英染。
損失函數(shù)大,模型在訓(xùn)練集上表現(xiàn)差勁被饿,擬合不足四康,參數(shù)糟糕。
我們追求狭握,能夠讓損失函數(shù)最小化的參數(shù)組合闪金。
注意:沒(méi)有“求解參數(shù)”需要的模型沒(méi)有損失函數(shù),比如KNN,決策樹(shù)哎垦。
邏輯回歸的損失函數(shù)使用極大似然估計(jì)推到出來(lái)的囱嫩。
對(duì)邏輯回歸中過(guò)擬合的控制通過(guò)正則化來(lái)實(shí)現(xiàn)。
2.2 重要參數(shù)penalty&C
2.2.1正則化
2.2.2邏輯回歸中的特征工程
主要思想時(shí)降維:但是pca這種盲盒型不考慮
統(tǒng)計(jì)學(xué)方法
高效的嵌入embedding
2.3 梯度下降:重要參數(shù)max_iter
2.3.1 梯度下降求解邏輯回歸
梯度下降漏设,其實(shí)就是在眾多[]可能的值中遍歷墨闲,一次次求解坐標(biāo)點(diǎn)的梯度向量,不斷讓損失函數(shù)的取值J逐漸逼近最小值郑口,再返回這個(gè)最小值對(duì)應(yīng)的參數(shù)取值[
]的過(guò)程鸳碧。
2.3.2 梯度的概念與解惑
求解梯度,實(shí)在損失函數(shù)J()上對(duì)損失函數(shù)自身的自變量
和
求偏導(dǎo)犬性,而這兩個(gè)自變量瞻离,剛好是邏輯回歸的預(yù)測(cè)函數(shù)y(x) =?
的參數(shù)。(乒裆?套利??)
2.3.3 步長(zhǎng)的概念與解惑
2.4 二元回歸與多元回歸:重要參數(shù)solver&multi_class
2.5 樣本不均衡與參數(shù)class_weight
樣本不平衡是指在一組數(shù)據(jù)集中鹤耍,標(biāo)簽的一類(lèi)天生占有很大的比例肉迫,或誤分類(lèi)的代價(jià)很高,即我們想要捕捉某種特定的分類(lèi)的時(shí)候的情況稿黄。
使用參數(shù)class_weight對(duì)樣本標(biāo)簽進(jìn)行一定的均衡喊衫,給少量的標(biāo)簽更多的權(quán)重,讓模型更pain想少數(shù)類(lèi)抛猖。像捕獲少數(shù)類(lèi)的方向建模格侯。
我們有處理樣本不均衡的各種方法鼻听,其中主流的是采樣法财著,是通過(guò)重復(fù)樣本的方式來(lái)平衡標(biāo)簽,可以進(jìn)行上采樣(增加少數(shù)類(lèi)的樣本)撑碴,比如SMOTE撑教,或者下采樣(減少多數(shù)類(lèi)的樣本)。對(duì)于邏輯回歸來(lái)說(shuō)醉拓,上采樣是最好的辦法伟姐。