1. 模型簡(jiǎn)介
模型思想
多元線性回歸(multiple linear regression) 模型的目的是構(gòu)建一個(gè)回歸方程生百,利用多個(gè)自變量估計(jì)因變量胃夏,從而解釋和預(yù)測(cè)因變量的值雕沉。多元線性回歸模型中的因變量和大多數(shù)自變量為定量值,某些定性指標(biāo)需要轉(zhuǎn)換為定量值才能應(yīng)用到回歸方程中。
意義
事物的聯(lián)系也是多方面的,而影響事物發(fā)展的因素是多樣的凉泄。由多個(gè)自變量的最優(yōu)組合共同來(lái)估計(jì)因變量,比單一的自變量預(yù)測(cè)更有效侣肄,更符合實(shí)際旧困。
比如糖尿病人的血糖變化可能受胰島素、糖化血紅蛋白稼锅、血清總膽固醇、甘油三酯等多種指標(biāo)的影響僚纷。但很多情況下矩距,由于自變量的單位是不一樣的,需要做標(biāo)準(zhǔn)化處理怖竭。比如在消費(fèi)水平預(yù)測(cè)模型中锥债,工資水平、受教育程度痊臭、職業(yè)哮肚、地區(qū)、家庭負(fù)擔(dān)等因素都會(huì)影響到消費(fèi)水平广匙,而這些影響因素的單位和量級(jí)肯定是不同的允趟,雖然不會(huì)影響自變量的重要程度,但是對(duì)回歸系數(shù)的大小還是有直接影響作用的鸦致。標(biāo)準(zhǔn)化回歸系數(shù)沒有單位潮剪,其值越大,說(shuō)明該自變量對(duì)因變量的影響越大分唾。
2. 多元線性回歸模型
一般形式
其中抗碰,Y為因變量,X為自變量绽乔,上式中共有k個(gè)自變量和一個(gè)常數(shù)項(xiàng)弧蝇。如果自變量經(jīng)過標(biāo)準(zhǔn)化處理,則上式?jīng)]有常數(shù)項(xiàng)折砸,換句話說(shuō)看疗,Y的期望值與自變量的函數(shù)關(guān)系如下:
上式也被稱為多元總體線性回歸方程。
如果有n組觀測(cè)數(shù)據(jù)鞍爱,則可以采用方程組形式表示
其矩陣形式為:
簡(jiǎn)化形式見下式:
條件
使用多元線性回歸必須滿足如下的幾個(gè)條件:(1) 因變量Y和自變量X之間具有線性關(guān)系鹃觉。(2) 各觀測(cè)值Y相互獨(dú)立。(3) 殘差e服從均值為0睹逃,方差為δ^2的正態(tài)分布盗扇,也就是對(duì)自變量的任意一組觀測(cè)值祷肯,因變量Y具有相同的方差,且服從正態(tài)分布疗隶。
參數(shù)估計(jì)
多元線性回歸方程有k+1個(gè)待估計(jì)的系數(shù)
利用一組觀測(cè)值可以對(duì)它們進(jìn)行估計(jì)佑笋,常用的參數(shù)估計(jì)方法是最小二乘法。普通最小二乘法過最小化誤差的平方和尋找最佳函數(shù)斑鼻,常用矩陣運(yùn)算求解系數(shù)矩陣蒋纬。
假設(shè)利用上式計(jì)算得到了估計(jì)的系數(shù)矩陣β,則可以進(jìn)一步計(jì)算樣本擬合值或回歸值坚弱。
其中蜀备,Y的某個(gè)分量的擬合函數(shù)為
對(duì)于真實(shí)的樣本觀測(cè)值和擬合值之間的差值,我們稱為殘差:
最小二乘法的思想就是使得樣本數(shù)據(jù)的殘差平方和最小荒叶,進(jìn)而得到最優(yōu)的回歸系數(shù)碾阁。即使得
取得最小值。利用上式對(duì)k+1個(gè)系數(shù)求偏導(dǎo)數(shù)些楣,并使得導(dǎo)數(shù)為0脂凶,即求得β的普通最小二乘估計(jì)量。矩陣計(jì)算公式參考上邊系數(shù)矩陣估計(jì)方程愁茁。
3. 模型檢驗(yàn)與評(píng)價(jià)
方差分析
我們假設(shè)系數(shù)全為0蚕钦,利用傳統(tǒng)的假設(shè)檢驗(yàn)方法,計(jì)算F檢驗(yàn)或t檢驗(yàn)統(tǒng)計(jì)量鹅很,驗(yàn)證回歸方程是否有統(tǒng)計(jì)學(xué)意義嘶居。如果利用excel或spss,可以得到如下圖所示的回歸方差分析表道宅。
如果F值大于置信邊界值食听,或P小于0.01,則認(rèn)為系數(shù)不全相等且回歸方程有統(tǒng)計(jì)學(xué)意義污茵。
決定系數(shù)
決定系數(shù)R^2樱报,取值范圍為[0,1],代表自變量能夠解釋因變量的比例泞当,其值越接近1迹蛤,說(shuō)明模型對(duì)數(shù)據(jù)的擬合程度越好。
復(fù)相關(guān)系數(shù)
可以用來(lái)度量因變量Y和自變量X之間的線性相關(guān)程度襟士,亦即觀察值和估計(jì)值之間的相關(guān)程度盗飒。其值R為決定系數(shù)的平方根。
偏回歸平方和
指的是在固定其他k-1個(gè)自變量的條件下陋桂,某一自變量對(duì)因變量Y的貢獻(xiàn)程度或影響程度逆趣。相當(dāng)于在回歸方程中剔除某自變量后引起回歸平方和的減少量,或者在k-1個(gè)自變量的基礎(chǔ)上增加某自變量后引起的回歸平方和的增加量嗜历。
SS回(X)指的是偏回歸平方和宣渗,其值越大說(shuō)明相應(yīng)的自變量越重要抖所。
t檢驗(yàn)方法與偏回歸平方和檢驗(yàn)等價(jià),利用假設(shè)檢驗(yàn)的形式驗(yàn)證某自變量是否對(duì)因變量有顯著的影響作用痕囱,其驗(yàn)證方法與F檢驗(yàn)類似田轧,t檢驗(yàn)統(tǒng)計(jì)量的計(jì)算公式如下:
4. 案例解析
暫時(shí)先分享幾個(gè)其他人的博客吧。
首先是最簡(jiǎn)單的例子鞍恢,可以手工計(jì)算的小栗子傻粘,請(qǐng)參考這個(gè)課件,一邊講概念帮掉,一邊進(jìn)行具體的計(jì)算弦悉。
然后是利用SPSS這個(gè)統(tǒng)計(jì)軟件的案例,軟件功能強(qiáng)大蟆炊,但是使用起來(lái)還要多看說(shuō)明警绩,不然有些功能還是不知道怎么實(shí)現(xiàn)。
再然后是強(qiáng)大的統(tǒng)計(jì)編程R語(yǔ)言的解讀盅称,強(qiáng)大的繪圖功能可以方便我們做出很多好看的分析圖表來(lái),比如下面這張圖后室。
最后是Python語(yǔ)言的實(shí)現(xiàn)博客簡(jiǎn)易篇和提升篇缩膝,兩篇的難易程度不同,大家可以自行選擇岸霹。
參考文獻(xiàn)
[1]. 課件-多元線性回歸分析-結(jié)合例子來(lái)講疾层,容易理解
[2]. 百度百科-多元線性回歸-簡(jiǎn)單介紹
[3]. 博客-多元線性回歸-公式很詳細(xì)