(readme:1.3.1 以“.”為區(qū)分可以分為三部分碳默,第二部分該部分有共有幾個(gè)小節(jié)侵俗,第三部分為當(dāng)前為第幾小節(jié))
? ? ? ?這里主要介紹的是線性回歸的理論佑刷,將在線性回歸(1.3.3)中具體介紹線性回歸的開發(fā)流程玖媚。
1.什么是線性回歸
? ? ? ?在統(tǒng)計(jì)學(xué)中挠唆,線性回歸(linear regression)是利用稱為線性回歸方程的最小二乘函數(shù)對一個(gè)或多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析贿条。這種函數(shù)是一個(gè)或多個(gè)稱為回歸系數(shù)的模型參數(shù)的線性組合。只有一個(gè)自變量的情況稱為簡單回歸增热,大于一個(gè)自變量情況的叫做多元回歸(multivariate linear regression)整以。(來自維基百科)? ? ? ? ? ? ?簡單的說,線性回歸就是給出一個(gè)點(diǎn)集D峻仇,用一個(gè)函數(shù)去擬合這個(gè)點(diǎn)集公黑,并且使得點(diǎn)集與擬合函數(shù)間的誤差最小。
? ? ? ?對于給定數(shù)據(jù)集摄咆,其中
凡蚜。
線性回歸模型試圖找到一個(gè)參數(shù)來表述特征值與目標(biāo)之間的關(guān)系:
? ? ? ? (1)
為了表示方便 可以將(1)式寫成:
? ? ? ? (2)? ?
i表示第 i 個(gè)樣本,j 表示樣本中第 j 個(gè)屬性吭从。
? ? ? ? 注意:上面定義中 j 的取值范圍是1~n朝蜘; (2)式中 j 的取值范圍是0~n,此時(shí)?此時(shí)
即為(1)式中的偏移量b。
? ? ? ? 形如?如果特征向量
?只有一個(gè)信息字段特征1 影锈,則該問題被稱作一元線性回歸(simple linear regression?)芹务;如果特征向量
?有多個(gè)字段信息特征, 該問題也被稱作多元線性回歸(multivariate linear regression)鸭廷。
1.2 線性回歸的損失函數(shù)
? ? ? ?在線性回歸的過程中枣抱,預(yù)測結(jié)果和真實(shí)結(jié)果是存在誤差的,誤差的大小通常用損失函數(shù) 表示辆床。在回歸里面每個(gè)方法都有自己的損失函數(shù)佳晶。所以本文中(1)式可以寫成? ? ? ? (3)?
(2)式中b表示函數(shù)的偏置,為了表示方便可以將(2)中一樣寫成
? ? ? ? (4)
一般來說讼载,在機(jī)器學(xué)習(xí)算法表示中轿秧,更習(xí)慣用(2)式和(4)來表示。
1.3 廣義線性回歸的定義
? ? ? ? 在現(xiàn)實(shí)生活中并不是所有的特征向量都能夠用簡單的用特征與權(quán)重的線性組合表示咨堤,如下圖菇篡,函數(shù)與某些特征向量之間可能是平方、立方等的關(guān)系一喘,這種情況的回歸方程被稱作廣義線性回歸驱还。
? ? ? ??。其中凸克,
是系數(shù)议蟆,
是這個(gè)系數(shù)組成的向量,它的影響著不同維度的
在回歸函數(shù)中的影響度萎战。例如咐容,對于房子的售價(jià)來說,表示房子朝向的權(quán)重
一定比表示房子面積權(quán)重的
更小蚂维。