一、定義
1、一元線性回歸
線性回歸是利用數(shù)理統(tǒng)計中回歸分析规求,來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法,運用十分廣泛卵惦。其表達(dá)形式為y = w'x+e阻肿,e為誤差服從均值為0的正態(tài)分布。
在統(tǒng)計學(xué)中沮尿,線性回歸(Linear Regression)是利用稱為線性回歸方程的最小平方函數(shù)對一個或多個自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析丛塌。這種函數(shù)是一個或多個稱為回歸系數(shù)的模型參數(shù)的線性組合。只有一個自變量的情況稱為簡單回歸畜疾,大于一個自變量情況的叫做多元回歸赴邻。
2、多元線性回歸
一元線性回歸是一個主要影響因素作為自變量來解釋因變量的變化啡捶,在現(xiàn)實問題研究中姥敛,因變量的變化往往受幾個重要因素的影響,此時就需要用兩個或兩個以上的影響因素作為自變量來解釋因變量的變化瞎暑,這就是多元回歸亦稱多重回歸彤敛。當(dāng)多個自變量與因變量之間是線性關(guān)系時与帆,所進(jìn)行的回歸分析就是多元線性回歸。 設(shè)y為因變量X1,X2…Xk為自變量墨榄,并且自變量與因變量之間為線性關(guān)系時玄糟,則多元線性回歸模型為:Y=b0+b1x1+…+bkxk+e
其中,b0為常數(shù)項袄秩,b1,b2…bk為回歸系數(shù)阵翎,b1為X1,X2…Xk固定時,x1每增加一個單位對y的效應(yīng)之剧,即x1對y的偏回歸系數(shù)郭卫;同理b2為X1,X2…Xk固定時,x2每增加一個單位對y的效應(yīng)猪狈,即,x2對y的偏回歸系數(shù)辩恼,等等雇庙。如果兩個自變量x1,x2同一個因變量y呈線相關(guān)時,可用二元線性回歸模型描述為:Y=b0+b1x1+b2x2+e
線性回歸模型經(jīng)常用最小二乘逼近來擬合灶伊,但他們也可能用別的方法來擬合疆前,比如用最小化“擬合缺陷”在一些其他規(guī)范里(比如最小絕對誤差回歸),或者在橋回歸中最小化最小二乘損失函數(shù)的懲罰.相反,最小二乘逼近可以用來擬合那些非線性的模型.因此聘萨,盡管“最小二乘法”和“線性模型”是緊密相連的竹椒,但他們是不能劃等號的。
二米辐、算法原理
我們最常使用最小二乘法去進(jìn)行線性回歸預(yù)測胸完,對于觀測數(shù)據(jù),它通過最小化每個數(shù)據(jù)點到線的垂直偏差平方和來計算最佳擬合線翘贮。因為在相加時赊窥,偏差先平方,所以正負(fù)值沒有抵消狸页,和方差一樣锨能。如下圖各個顏色的直線就是每個數(shù)據(jù)點到線的垂直偏差。
實際上芍耘,當(dāng)a和b在某一特定數(shù)字時址遇,損失函數(shù)會是最小的,此時的a和b即為最佳的擬合解斋竞。
如果有講的不好的地方倔约,不怕還有動畫傳送門,大家可以看看坝初。
三跺株、優(yōu)缺點
1复濒、優(yōu)點
(1)思想簡單,實現(xiàn)容易乒省。建模迅速巧颈,對于小數(shù)據(jù)量、簡單的關(guān)系很有效
(2)是許多強(qiáng)大的非線性模型的基礎(chǔ)
(3)線性回歸模型十分容易理解袖扛,結(jié)果具有很好的可解釋性砸泛,有利于決策分析
(4)蘊含機(jī)器學(xué)習(xí)中的很多重要思想
(5)能解決回歸問題
2、缺點
(1)線性回歸對異常值非常敏感蛆封。它會嚴(yán)重影響回歸線唇礁,最終影響預(yù)測值
(2)對于非線性數(shù)據(jù)或者數(shù)據(jù)特征間具有相關(guān)性多項式回歸難以建模,難以很好地表達(dá)高度復(fù)雜的數(shù)據(jù)