第5章 多元線性回歸
5.1 二元線性回歸
一元線性回歸會遺漏變量
Xi1中蒸健,i表示第i個個體,1表示是第一個解釋變量
OLS估計量的最優(yōu)化問題仍為殘差平方和最小
對數(shù)化后的系數(shù)表示:x1增加1%個單位攻谁,y增加0.233%(求偏導:系數(shù)可以看做是y對x1求偏導)
reg y x1 x2
含義:二元回歸的命令
predict lny1
(option xb assumed峰档;fitted values)
含義:①擬合值可以命名為lny1继效,這個是隨便起的②xb就是βhat
predict e, residual
含義:計算殘差黍判,并將其記為e,residual表示計算殘差(默認的命令是計算擬合值的鳖宾,即fitted values)
list lny lny1 e
含義:羅列原始值lny吼砂,擬合值lny1以及殘差的擬合值
Iine lny lny1 year,lp(solid dash)
含義:畫圖比較lny,lny1(縱軸)鼎文,year是橫軸渔肩,(solid dash)表示用實現(xiàn)和虛線作區(qū)分
5.2 多元線性回歸模型
5.3 OLS估計量的推導
- 對于多元回歸模型,OLS估計量的最小化問題仍為使得殘差平方和SSR最小
5.4 OLS的幾何解釋
- 擬合值向量與殘差向量正交拇惋,故被解釋變量y可以分解為想和正交的擬合值yhat與殘差e之和
- 擬合值yhat可視為被解釋變量y向解釋變量超平面X的投影周偎。由于yhat=Xβhat,故擬合值向量yhat正好在超平面上撑帖,根據(jù)OLS的正交性蓉坎,殘差向量e與yhat正交。
5.5 擬合優(yōu)度
TSS(離差平方和)=ESS(回歸平方和)+RSS(殘差平方和)
擬合優(yōu)度R平方=ESS/TSS
-
矯正擬合優(yōu)度=1-[ESS/(n-k)]/[TSS/(n-1)]
備注1: ESS包含了n個離差磷仰,n個離差之和必為0(OLS估計中估計量求偏導為0袍嬉,其實就是定義了離差之和為0)境蔼,因此在這n個離差中真正可以自由取值的只有n-1個離差(只要前邊n-1個已經(jīng)取值了灶平,最后一個就不再是隨機變量,而是可以計算出來的)箍土,因此ESS的自由度是n-1
備注2: TSS包含n個殘差e逢享,n個e受到K個方程的約束,因此只有(n-k)個殘差是自由的
備注3: 若引入新的變量(即K變大)吴藻,K變大有兩個相反方向作用的發(fā)揮①引入K使得模型的解釋力上升瞒爬,殘差平方和ESS下降,從而矯正擬合優(yōu)度(adjust R2)上升②K變大沟堡,n-k變下侧但,[ESS/(n-k)]變大,從而矯正擬合優(yōu)度(adjust R2)上升下降航罗。因此考慮要不要加入新變量的時候禀横,要考慮引入變量的解釋力,是否可以抵消其自由度變大的損失粥血,所以我們在考慮模型的時候不能只追求R2越大越好柏锄,還要注意模型是否簡潔酿箭。
備注4: adjust R2的缺點:它有可能出現(xiàn)負值
備注5: R2以及adjust R2只反應擬合優(yōu)度的好壞,除此并無太多意義
5.6 古典線性回歸模型的假定
備注:古典線性回歸模型:上世紀五六十年代趾娃,計量經(jīng)濟學剛剛開始發(fā)展的時候所提出來的一些計量的理論
假定5.1 線性假定
備注:只要將回歸方程中變量的高次項(平方項等)或函數(shù)(求對數(shù))都作為變量來看待缭嫡,則已然滿足線性假定。
假定5.2 嚴格外生性
嚴格外生性意味著抬闷,在給定數(shù)據(jù)矩陣X的情況下妇蛀,擾動項的條件期望為0。因此笤成,擾動項均值獨立于所有解釋變量的觀測數(shù)據(jù)讥耗,而不僅僅是同一觀測數(shù)據(jù)xi中的解釋變量(就是說:[圖片上傳失敗...(image-2854a-1607309152743)] 不僅僅要獨立于解釋變量Xi,還有獨立于其他所有的解釋變量X1疹启、X2等鲜滩,即[圖片上傳失敗...(image-edec54-1607309152743)] 與所有個體的解釋變量都不相關(guān))。
嚴格外生的假定在大樣本的情況下可以放松违帆。
假定5.3 不存在嚴格的多重共線性
數(shù)據(jù)矩陣的各列向量為線性無關(guān)豪直,即不存在某個解釋變量為另一解釋變量的倍數(shù),或可以由其他解釋變量線性表出的情形荤懂。換言之茁裙,X中不存在多余的變量。
如果所有個體的教育年限都相同(就是不是列滿秩的)节仿,則導致()離差恒為0晤锥,()的離差平方和恒為0,分母不存在廊宪,導致不存在了矾瘾。
對于多元回歸,如果X列滿秩箭启,則X’X為正定矩陣壕翩,故(X’X)-1存在,故可計算=(X’X)-1X’y傅寡;反過來放妈,X不是列滿秩,則無法識別荐操。
數(shù)據(jù)矩陣X滿列秩是對數(shù)據(jù)的最低要求芜抒,現(xiàn)實數(shù)據(jù)不容易出現(xiàn)嚴格多重共線性,stata數(shù)據(jù)也會自動去掉某個數(shù)據(jù)的托启。
假定5.4 球形擾動項假定-同方差
含義:不同個體的擾動項之間不存在“自相關(guān)”或“序列相關(guān)”
5.7 OLS的小樣本性質(zhì)
在古典線性回歸模型的假定(線性假定宅倒、嚴格外生假定、不存在嚴格多重共線性)驾中,OLS估計量具有以下良好性質(zhì):
1. 線性性(linear estimator)
從OLS估計量的表達式=(X’X)-1X’y可以看出唉堪,βhat可視為y的線性組合(要把[(X’X)-1X’]看做系數(shù)矩陣)模聋,故為線性估計量
2. 無偏性
E(βhat|X)=β,即βhat不會系統(tǒng)地高估或者低估β
E(βhat)=β唠亚,可以使用迭代期望公式
3. 估計量的協(xié)方差矩陣
備注:球形擾動項假定是估計協(xié)方差矩陣的關(guān)鍵
4.高斯-馬爾科夫定理
含義:最小二乘法是最佳線性無偏估計(best linear unbiased estimator)
備注:若存在異方差链方,即主對角線上的元素不一樣,那么OLS估計量的方差就不一定是最小的灶搜,高斯-馬爾科夫定理不成立祟蚀。因此,球形擾動項假定是高斯馬爾科夫定理的關(guān)鍵
備注:對于非線性的割卖、有偏的估計量前酿,OLS估計量的方差也不一定是最小的
5. 對擾動項方差的無偏估計
- 第一步:用觀測值來估計
解釋:方差的估計公式是先平均,求差鹏溯,然后是平方罢维,但是這里只有,因為在大樣本情況下丙挽,是0肺孵,因此這里直接省略了
解釋:殘差的樣本均值為0,離差之和為0颜阐,因此雖然有n個殘差平窘,但是必須要滿足K個正規(guī)方程組,所以可以真正自由取值的只有n-K個凳怨。經(jīng)過n-K的矯正瑰艘,才是無偏估計,即E(s2)= .如果樣本容量n很大肤舞,當n趨于無窮時紫新,此時[(n-K)/n]趨近于1,此時是否進行小樣本矯正并無多大區(qū)別萨赁。
備注:s衡量的是擾動項的標準差弊琴,所以把它叫做回顧方程的標準誤,衡量回歸方程擾動項的波動幅度杖爽。
- 第二步,可以用來估計
備注:為什么標準差又叫做標準誤呢紫皇?解釋如下:
備注:后邊的統(tǒng)計推斷也有賴于標準誤慰安,標準誤可以知道店估計的準確程度。
5.8 單個系數(shù)的t檢驗
小樣本理論:無論樣本容量多少聪铺,小樣本理論都成立化焕,不需要讓樣本容量n趨于無窮
大樣本理論:要求樣本容量n趨于無窮,小樣本理論雖然使用于各種樣本容量铃剔,但不易推導統(tǒng)計量的分布撒桨,因此需要對隨機變量的概率做很強的假定查刻。
假定5.5 在給定的情況下,的條件分布為正態(tài)凤类,即~
????考慮最簡單的假設(shè)檢驗穗泵,即對單個回歸系數(shù)進行檢驗,需要檢驗的原假設(shè)(也稱為“零假設(shè)”)為谜疤,即
????備注:這個c通常為0佃延,來檢驗變量是否顯著的不等于,若等于夷磕,那么就沒有存在的意義了
????所以假設(shè)檢驗也是一種概率意義上的反證法履肃。首先假設(shè)原假設(shè)成立,然后看在原假設(shè)成立的前提下坐桩,是否導致不太可能發(fā)生的“小概率事件”再一次抽樣的樣本中出現(xiàn)尺棋。如果小概率事件竟然在一次抽樣試驗中被觀測到,那么說明原假設(shè)不可信绵跷,應拒絕原假設(shè)陡鹃,接受替代假設(shè)(也稱“備擇假設(shè)”),如下:
9:43fen