線性回歸 (linear regression)
給定數(shù)據(jù)集纵散,其中
棘脐,
捕儒。線性回歸試圖學(xué)得一個線性模型
來盡可能好地擬合數(shù)據(jù)
冰啃。
為了求解模型參數(shù),我們通常采用均方誤差(mean squared error, MSE)損失函數(shù):
均方誤差有非常好的幾何意義刘莹,對應(yīng)了常用的歐氏距離阎毅。
采用最小化均方誤差來進(jìn)行模型求解的方法就是最小二乘法,我們高中就接觸過的方法点弯,可求得的解析解扇调。
邏輯回歸 (logistic regression)
在回歸任務(wù)中,抢肛,是連續(xù)變量狼钮。而在分類任務(wù)中,
是離散變量捡絮,比如二分類
熬芜,因此我們需要找個單調(diào)可微的函數(shù)將線性回歸的預(yù)測實值和分類任務(wù)的離散標(biāo)簽聯(lián)系起來。
針對二分類任務(wù)福稳,涎拉,線性回歸模型的預(yù)測實值
,為了將實值
映射到
,我們考慮利用
Sigmoid函數(shù)鼓拧,即:
當(dāng)時半火,
,預(yù)測標(biāo)簽為
季俩;
當(dāng)時钮糖,
,預(yù)測標(biāo)簽為
种玛。
Sigmoid函數(shù)值域為(0, 1)藐鹤,形似S曲線,可以方便將實值轉(zhuǎn)化為一個在0或1附近的值赂韵。
進(jìn)一步地娱节,我們將Sigmoid函數(shù)的輸出視為將樣本預(yù)測為正類
的概率,即:
然后我們采用極大似然法來估計模型參數(shù):
似然函數(shù)為
對數(shù)似然函數(shù)為
等價于最小化loss為
這就是交叉熵?fù)p失函數(shù)(Cross Entropy Loss Function)祭示。
更進(jìn)一步地肄满,我們將二分類任務(wù)的交叉熵?fù)p失函數(shù)擴展到多分類,假設(shè)總共分為類质涛,
稠歉,
。則:
表示第
個樣本真實標(biāo)簽是否為
汇陆,當(dāng)?shù)?img class="math-inline" src="https://math.jianshu.com/math?formula=i" alt="i" mathimg="1">個樣本屬于第
類時怒炸,
,否則
毡代。
表示第
個樣本被預(yù)測為第
類的概率阅羹。
為了分析方便,我們令教寂,則當(dāng)?shù)?img class="math-inline" src="https://math.jianshu.com/math?formula=i" alt="i" mathimg="1">個樣本的真實標(biāo)簽為
時捏鱼,該項可簡寫為:
兩者關(guān)聯(lián)
- 線性回歸采用均方誤差損失等價于極大似然。
在邏輯回歸中酪耕,求解模型參數(shù)我們采用的是極大似然估計法导梆;而在線性回歸中,求解模型參數(shù)我們采用了最小二乘法迂烁。
但其實本質(zhì)上看尼,線性回歸求解參數(shù)采用最小化均方誤差等價于極大似然估計,證明如下:
首先婚被,我們將模型參數(shù)也融入向量
中狡忙,可得線性回歸采用均方誤差損失函數(shù)為:
我們假設(shè)預(yù)測值和真實值之間的誤差服從標(biāo)準(zhǔn)正態(tài)分布,即
址芯,則有:
所以灾茁,
忽略常量,
可以看出窜觉,最小化Loss等價于極大化似然。
- 邏輯回歸也稱對數(shù)幾率回歸北专,幾率(odds)的定義為將樣本預(yù)測為正例的概率與樣本預(yù)測為負(fù)例的概率的比值禀挫,因此對數(shù)幾率定義為:
可見在邏輯回歸中,樣本預(yù)測為正例的對數(shù)幾率是輸入的線性函數(shù)拓颓,因此也稱對數(shù)幾率回歸语婴。