基本形式
給定包含條記錄的數(shù)據(jù)集:
線性回歸模型試圖學(xué)習(xí)一個線性模型以盡可能地預(yù)測因變量:
多元線性回歸的假設(shè)
同大多數(shù)算法一樣绍撞,多元線性回歸的準(zhǔn)確性也基于它的假設(shè)正勒,在符合假設(shè)的情況下構(gòu)建模型才能得到擬合效果較好的表達(dá)式和統(tǒng)計性質(zhì)較優(yōu)的估計參數(shù)。
- 誤差項是一個期望值為零的隨機變量傻铣,即
- 的方差是相同的章贞,即
- 的值是相互獨立的
- 是一個服從正態(tài)分布的隨機變量
參數(shù)估計
將線性表達(dá)式寫為向量形式:
利用最小二乘法令均方誤差最小化:
注:當(dāng)線性回歸模型存在多重共線性問題時,可能會有多組解使得均方誤差最小化非洲,常見的解決方法是引入正則化鸭限。
線性回歸模型的變形
1.對數(shù)線性回歸
對數(shù)線性回歸本質(zhì)上仍然是線性回歸模型,只是我們將因變量的對數(shù)作為模型新的因變量:
2.廣義線性模型
當(dāng)數(shù)據(jù)集不適合用傳統(tǒng)的多元線性回歸方法擬合時两踏,我們可以考慮對因變量做一些合理的變換败京。最常用的就是對數(shù)線性回歸,還有很多其他的變換統(tǒng)稱為“廣義線性模型”generalized linear model
:
其中是單調(diào)可微函數(shù)梦染。
顯著性檢驗
在一元線性回歸中赡麦,我們可以根據(jù)因變量和因變量的圖像來檢驗是否符合線性關(guān)系。在多元線性回歸中無法用圖形幫助判斷是否隨作線性變化帕识,因此顯著性檢驗就顯得尤為重要泛粹。檢驗包括單個/多個回歸系數(shù)的顯著性檢驗和回歸方程的整體顯著性檢驗。
1.回歸系數(shù)的顯著性檢驗
對于任意一個參數(shù)渡冻,構(gòu)造原假設(shè)與備擇假設(shè):
當(dāng)成立時戚扳,我們構(gòu)造統(tǒng)計量:
其中是的對角線上第個元素。給定顯著性水平族吻,檢驗的拒絕域為:
2.回歸方程的顯著性檢驗
構(gòu)造原假設(shè):
備擇假設(shè)即不全為零帽借,當(dāng)原假設(shè)成立時,構(gòu)造統(tǒng)計量:
其中超歌,通常我們將前者稱為回歸平方和砍艾,后者稱為殘差平方和。給定顯著性水平巍举,檢驗的拒絕域為:
我們常使用來衡量回歸直線對觀測值的擬合程度脆荷,表示總體利差平方和,這個思想和回歸方程的整體顯著性檢驗殊途同歸懊悯。
參數(shù)區(qū)間估計
由的統(tǒng)計性質(zhì)可知:
因此的區(qū)間估計可寫為:
Reference
[1] 統(tǒng)計建模與R軟件
[2] 商務(wù)與經(jīng)濟統(tǒng)計