參考書目為安德森的《商務與經濟統(tǒng)計》兔辅,以下為個人的學習總結腊敲,如果有錯誤歡迎指正。有需要本書pdf的幢妄,鏈接在本文末尾兔仰。(僅限個人學習使用,請勿牟利)
第十四章 簡單線性回歸
用統(tǒng)計方法來建立一個表示變量之間的相互關系的方程蕉鸳,這種統(tǒng)計方法稱為回歸分析乎赴。
應變量(dependent variable):被預測的變量(y)
自變量(independent variable):用來預測應變量的一個或多個變量(x)
本章討論簡單線性回歸:一個自變量,一個應變量潮尝。
14.1 簡單線性回歸模型
例子:Armand比薩餅連鎖店想探究學校附近的門店的學生人數(shù)(x)與連鎖店銷售收入(y)之間的關系榕吼。
14.1.1 回歸模型和回歸方程
描述y如何依賴于x和誤差項的方程被稱為回歸模型
簡單線性回歸模型:
其中和
稱為模型參數(shù),
是一個隨機變量勉失,稱為模型的誤差項羹蚣。
回到Armand比薩餅連鎖店的總體可以看作若干子總體組成的集合。如8000名學生的門店構成一個子總體乱凿。那么每一個子總體都有一個值的分布顽素。每一個自總體都有一個期望值咽弦。描述期望值
如何依賴于
的方程稱為回歸方程。
簡單線性回歸方程:
也可以寫成:
14.1.2 估計的回歸方程
通常胁出,我們只能把樣本統(tǒng)計量和
作為總體參數(shù)
和
的估計量型型。
估計的簡單線性回歸方程:
14.2 最小二乘法
最小二乘法(least squares method):是利用樣本數(shù)據(jù)建立估計的回歸方程的一種方法。
為了讓估計的回歸直線能對樣本數(shù)據(jù)有一個好的擬合全蝶,我們希望觀測值
最小二乘法就是讓和預測值
之間的離差平方和達到最小的方法,求得
和
即最小二乘法準則:min
估計的回歸方程的斜率和軸截距:
經過計算得到:
于是估計的回歸方式:
14.3 判定系數(shù)
估計的回歸方程是否很好地你和了樣本數(shù)據(jù)抑淫。判定系數(shù)(coefficient of determination)為估計的回歸方程提供了一個擬合優(yōu)度的度量绷落。
稱為第i個殘差,殘差或誤差的平方和是用最小二乘法最小化的量
誤差平方和始苇,
經過下圖的計算得到
總的平方和:
經過下圖的計算砌烁,得到SST=15730
回歸平方和:
SST、SSR和SSE之間的關系:
- SST:總的平方和
- SSR:回歸平方和
- SSE:誤差平方和
我們可以把SSR理解為SST被解釋的部分埂蕊,SSE理解為SST未被解釋的部分往弓。三者知二求一。
判定系數(shù):
在0~1之間蓄氧,為1時稱作完全擬合函似,如Armand比薩餅連鎖店的例子:
理解:可以把理解為總平方和中能被估計的回歸方程解釋的百分比。即季度銷售收入變異性的90.27%能被學生人數(shù)和銷售收入之間的線性關系所解釋喉童。
相關系數(shù)(correlation coefficient)的值介于-1~1之間撇寞。為-1、1和0分別代表完全負向的線性關系堂氯、完全正向的線性關系蔑担、沒有線性關系。
樣本相關系數(shù):
這里的符號指的是正負咽白。如ARmand比薩餅連鎖店啤握,可以得出結論人數(shù)和銷售額有強的正向線性關系。
總結:
- 相關系數(shù)的適用范圍被限制在兩變量之間存在線性關系的情況
- 判定系數(shù)對非線性關系以及多個變量的相關關系都適用晶框。(適用范圍廣)
- 實際應用中排抬,在社會科學問題中
低于0.25,但是也令人滿意授段;自然科學問題中
常常大于0.6蹲蒲,有時大于0.9。具體應用要看場景侵贵。
14.4 模型的假定
回歸分析中的顯著性檢驗是以對誤差項的下列假定為依據(jù)進行的届搁。
- 誤差項
是一個平均值或期望為0的隨機變量,
- 對所有
值,
的方差都是相同的卡睦,用
表示
的方差宴胧。
即對所有值,
的方差都是相等的么翰。
-
的值是相互獨立的牺汤。每個特定的
與對應的
與別的
值對應的
不相關。
- 對所有
值浩嫌,誤差項
是一個正態(tài)分布的隨機變量。這也意味著:因為
是
的一個線性函數(shù)补胚,對所有的
值码耐,
也是一個正態(tài)分布的隨機變量。
14.5 顯著性檢驗
的期望值是關于
的一個線性函數(shù):
溶其。
-
為0骚腥,則不存在線性關系
-
不為0,則存在線性關系
我們需要做一個假設檢驗瓶逃,來判定是否為0
14.5.1
的估計
殘差平方和SSE是實際觀測值關于估計的回歸直線變異性的度量束铭。均方誤差
因為,所以
由于計算SSe需要估計兩個參數(shù)(和
)厢绝,所以SSE的自由度為n-2
均方誤差(的估計量)
估計的標準誤差
14.5.2 t檢驗
要存在線性關系契沫,必須。假設:
,
再Armand比薩餅連鎖店的例子中昔汉,我們不斷地抽取10家店作為樣本懈万。可以得到更多估計地回歸方程靶病。
地抽樣分布
- 期望值:
- 標準差:
- 分布形式:正態(tài)分布
由于未知会通,我們可以用估計值
代入,得到
的估計的標準差:
簡單線性回歸顯著性的t檢驗
假設:,
檢驗統(tǒng)計量:
拒絕法則:
- p-值法:若p-值
娄周,則拒絕
- 臨界值法:若
或者
涕侈,則拒絕
其中,自由度為n-2煤辨,這里是上側面積為
的t值裳涛。
在Armand比薩餅店的例子中:,
掷酗,此時p-值遠遠小于0.01调违,所以拒絕
認為銷售收入和學生人數(shù)存在顯著關系。
14.5.3
的置信區(qū)間
這個置信區(qū)間的置信系數(shù)泻轰,
為自由度為n-2時技肩,t分布上側面積為
的t值。
例如:Armand比薩餅連鎖的例子,令置信系數(shù)虚婿,
此時旋奢,我們也可以通過置信區(qū)間來對的顯著性進行t檢驗,由于
的假設值時0然痊,而0不在置信區(qū)間
里至朗,所以我們也可以拒絕
14.5.4 F檢驗
在檢驗回歸方程顯著性時:
- 如果只有一個自變量,F(xiàn)檢驗和t檢驗都能有一致的結論剧浸。
- 如果有兩個及以上的自變量時锹引,F(xiàn)檢驗只能被用來檢驗回歸方程總體的顯著關系。
F檢驗的基本原理:基于簡歷的兩個獨立的估計量唆香。已知MSE時
的一個估計量嫌变,如果
成立,則回歸平方和SSR除以自由度就給出了
的另一個獨立的估計量躬它,被稱為來自于回歸的均方腾啥,簡稱均方回歸(MSR)
其中回歸自由度等于模型中自變量的個數(shù)
本章中回歸模型只有一個自變量,所以
簡單線性回歸顯著性的F檢驗
- 假設:
,
- 檢驗統(tǒng)計量:
- 拒絕法則:
- p-值法:
冯吓,拒絕
- 臨界值法:
倘待,拒絕
- p-值法:
其中,是分子自由度為1组贺,分母自由度為n-2時凸舵,F(xiàn)分布上側面積為
的F值。如果
不成立锣披,MSE仍然是
的一個無偏估計量贞间,而MSR會高估
。如果
成立雹仿,則MSR和MSE都是無偏估計量增热,比值趨向于1。
可以用ANOVA表來簡練地概括方差分析地運算過程胧辽。
14.5.5 關于顯著性檢驗解釋的幾點注意
拒絕
峻仇,只能說明x和y存在顯著性關系,但不能說明有因果關系邑商。
要做出因果關系摄咆,需要別的理論上的充分證據(jù)。
-
證實x和y有統(tǒng)計顯著性關系人断,但并不能確定時線性關系吭从;只能說觀測值范圍內相關。
image 利用估計的回歸方程可以對觀測值范圍內的x值進行預測恶迈。但是超出范圍的要謹慎考慮涩金。
14.6 應用估計的回歸方程進行估計和預測
-
表示自變量x的一個給定值
-
表示
時,應變量y的可能值,是一個隨機變量步做。
-
表示當
時副渴,應變量y的期望值
-
表示
的點估計值,或者叫預測值全度。
14.6.1 區(qū)間估計
置信區(qū)間是對x的一個給定值煮剧,y的平均值的一個區(qū)間估計。
預測區(qū)間是對x的一個給定值将鸵,對應y的一個新的觀測值勉盅。也即y的一個個別值進行預測的一個區(qū)間估計。
預測區(qū)間的邊際誤差較大咨堤。
14.6.2 y的平均值和置信區(qū)間
要計算是如何接近真實的平均值
菇篡,我們需要估計
的方差。
方差點估計值:
標準差點估計值:
的置信區(qū)間
其中一喘,為置信系數(shù),
為自由度n-2時嗜暴,使t分布的上側面積
的t值凸克。
回到Armand比薩餅連鎖店,已知闷沥,自由度為n-2=8萎战,在有10000名學生時,
舆逃,邊際誤差
因此置信水平為95%的置信區(qū)間估計為:
特殊情況:當蚂维,
的估計的標準差最小。在這種情形下:
這也就意味著路狮,當時虫啥,能得到y(tǒng)的平均值最精確的估計量。如下圖奄妨。
14.6.3 y的一個個別值得預測區(qū)間
當我們想要預測時涂籽,季度銷售收入的預測值為
這個預測值和x=10的所有店鋪的季度銷售收入的平均值得點估計值是相同得。(這句話不太明白)
為了建立預測區(qū)間砸抛,當评雌,y得一個預測值
得方差由以下兩部分組成。
-
關于平均值
的方差直焙,它的估計量由
給出景东。
- 利用
估計
的方差,它的估計量由
給出奔誓。
當時斤吐,應變量y的預測值是
,我們用
表示
的預測值
的估計的方差,計算方式如下:
:
其中曲初,為置信系數(shù)体谒;
為自由度為n-2時,t分布上側面積為
的t值臼婆。
回到Armand比薩餅店抒痒,當x=10時,,
,邊際誤差
預測區(qū)間比置信區(qū)間更寬颁褂,當越接近
時故响,置信區(qū)間和預測區(qū)間就約精確。形狀如下圖所示:
14.7 計算機解法
書上介紹的Minitab
14.8 殘差分析:證實模型假定
第i次觀測的殘差:
回到本章第四節(jié)颁独,我們對中誤差項
的假定如下:
- 對所有的x值彩届,
的方差(
)都是相同的,
-
的值相互獨立
-
服從正態(tài)分布
基于這個假定誓酒,才能使用t檢驗和F檢驗來確定x和y之間的關系是否顯著樟蠕,置信區(qū)間和置信區(qū)間的估計。殘差提供了有關的最重要的信息靠柑。
殘差分析就是確定誤差項的假定是否成立的重要步驟寨辩。許多殘差分析都是對殘差圖形的仔細考察基礎上完成的,下面介紹這四種殘差圖歼冰。
14.8.1 關于x的殘差圖
自變量的殘差圖:
- 橫軸:
- 縱軸:殘差
如Armand比薩餅連鎖店的關于自變量x的殘差圖如下:
我們看Armand比薩餅連鎖店的殘差圖靡狞,感覺和a比較像,因此我們通過目測得到結論:殘差圖沒有提供足夠的證據(jù)隔嫡,讓我們對回歸模型所作的假定表示懷疑甸怕。
14.8.2 關于
的殘差圖
- 橫軸:應變量預測值
- 縱軸:殘差值
這個圖和關于x的殘差圖模式相同,不過這個殘差圖主要針對的時由多個自變量的多元回歸分析腮恩。
14.8.3 標準化殘差
第個殘差的標準差:
其中梢杭,代表第
個殘差的標準差;s代表估計的標準誤差庆揪。
第個觀測的標準化殘差:
回到Armand比薩餅連鎖店的例子式曲,下表為標準化殘差的計算過程和關于自變量x的標準化殘差圖:
標準化殘差圖能對隨機誤差項服從正態(tài)分布的假定提供一種直觀的人事。如果假定滿足缸榛,那么標準化殘差的分布看起來也應該服從一個標準正態(tài)分布吝羞。即95%的標準化殘差介于-2~2之間,所以我們沒理由懷疑
服從正態(tài)分布的假定内颗。
14.8.4 正態(tài)概率圖 (這一節(jié)看不懂钧排,需要重看)
正態(tài)概率圖是確定誤差項服從正態(tài)分布的假定成立的另一個方法。
先介紹正態(tài)分數(shù)的概念均澳,假設在一個標準正態(tài)分布中恨溜,我們隨機抽取10個數(shù)符衔,并且反復進行。然后把每個樣本中的10個數(shù)從小到大排序糟袁,那么每個樣本中最小值是一個隨機變量判族,稱作一階順序統(tǒng)計量。
統(tǒng)計學家已經證明项戴,來自樣本容量為10的樣本形帮,一階順序統(tǒng)計量的期望值為-1.55,這個期望值被稱作正態(tài)分數(shù)周叮。如下圖10個順序統(tǒng)計量對應10個正態(tài)分數(shù)辩撑。(一般n個觀測值組成的數(shù)據(jù)集,就有n個順序統(tǒng)計量和n個正態(tài)分數(shù))(這個地方看不懂)
14.9 殘差分析:異常值和有影響的觀測值
本節(jié)介紹如何利用殘差分析識別異常值或特別有影響的觀測值仿耽。
14.9.1 檢測異常值
如下圖合冀,有一個異常值。通常意味著數(shù)據(jù)錯誤(修正)或違背了模型假定的情形(保留)项贺。
一般根據(jù)散點圖就能探明異常值君躺。
14.9.2 檢測有影響的觀測值
有時,個別觀測值對我們得到的回歸結果產生一個強影響开缎,稱作有影響的觀測值晰洒,
有影響的觀測值可能是一個異常值(y值與去十有相當大的偏離),也可能是一個遠離自變量x平均值的觀測值啥箭,也可能兩者共同決定。
遇到的解決方法:
- 檢查觀測值的采集過程是否出問題
- 如果為有效觀測值治宣,那我們需要進一步認識x和y的關系急侥。
自變量是極端值的觀測值被稱為高杠桿率點,第次觀測的杠桿率(
表示):
我們可以計算上表第7個觀測值的杠桿率:
有影響的觀測值是由于大的殘差和高杠桿率的交互作用產生的。識別時只要考慮下面兩方面就能判斷华畏。
- 大的殘差
- 高杠桿率
鏈接: https://pan.baidu.com/s/1fc0q-Q4kj3g-7Fr4MHZaqw 提取碼: 333c 復制這段內容后打開百度網盤手機App鹏秋,操作更方便哦