第5章 多元線性回歸

第5章 多元線性回歸

5.1 二元線性回歸

  • 一元線性回歸會遺漏變量

  • Xi1中蒸健,i表示第i個個體,1表示是第一個解釋變量

  • OLS估計量的最優(yōu)化問題仍為殘差平方和最小

  • 對數(shù)化后的系數(shù)表示:x1增加1%個單位攻谁,y增加0.233%(求偏導:系數(shù)可以看做是y對x1求偏導)

reg y x1 x2

含義:二元回歸的命令

predict lny1

(option xb assumed峰档;fitted values)

含義:①擬合值可以命名為lny1继效,這個是隨便起的②xb就是βhat

predict e, residual

含義:計算殘差黍判,并將其記為e,residual表示計算殘差(默認的命令是計算擬合值的鳖宾,即fitted values)

list lny lny1 e

含義:羅列原始值lny吼砂,擬合值lny1以及殘差的擬合值

Iine lny lny1 year,lp(solid dash)

含義:畫圖比較lny,lny1(縱軸)鼎文,year是橫軸渔肩,(solid dash)表示用實現(xiàn)和虛線作區(qū)分

5.2 多元線性回歸模型

5.3 OLS估計量的推導

  • 對于多元回歸模型,OLS估計量的最小化問題仍為使得殘差平方和SSR最小

5.4 OLS的幾何解釋

  • 擬合值向量與殘差向量正交拇惋,故被解釋變量y可以分解為想和正交的擬合值yhat與殘差e之和
圖1.png
  • 擬合值yhat可視為被解釋變量y向解釋變量超平面X的投影周偎。由于yhat=Xβhat,故擬合值向量yhat正好在超平面上撑帖,根據(jù)OLS的正交性蓉坎,殘差向量e與yhat正交。
圖2.png

5.5 擬合優(yōu)度

  • TSS(離差平方和)=ESS(回歸平方和)+RSS(殘差平方和)

  • 擬合優(yōu)度R平方=ESS/TSS

  • 矯正擬合優(yōu)度\overline{R}^2=1-[ESS/(n-k)]/[TSS/(n-1)]

    圖3.png

備注1: ESS包含了n個離差磷仰,n個離差之和必為0(OLS估計中估計量求偏導為0袍嬉,其實就是定義了離差之和為0)境蔼,因此在這n個離差中真正可以自由取值的只有n-1個離差(只要前邊n-1個已經(jīng)取值了灶平,最后一個就不再是隨機變量,而是可以計算出來的)箍土,因此ESS的自由度是n-1

備注2: TSS包含n個殘差e逢享,n個e受到K個方程的約束,因此只有(n-k)個殘差是自由的

備注3: 若引入新的變量(即K變大)吴藻,K變大有兩個相反方向作用的發(fā)揮①引入K使得模型的解釋力上升瞒爬,殘差平方和ESS下降,從而矯正擬合優(yōu)度(adjust R2)上升②K變大沟堡,n-k變下侧但,[ESS/(n-k)]變大,從而矯正擬合優(yōu)度(adjust R2)上升下降航罗。因此考慮要不要加入新變量的時候禀横,要考慮引入變量的解釋力,是否可以抵消其自由度變大的損失粥血,所以我們在考慮模型的時候不能只追求R2越大越好柏锄,還要注意模型是否簡潔酿箭。

備注4: adjust R2的缺點:它有可能出現(xiàn)負值

備注5: R2以及adjust R2只反應擬合優(yōu)度的好壞,除此并無太多意義

5.6 古典線性回歸模型的假定

備注:古典線性回歸模型:上世紀五六十年代趾娃,計量經(jīng)濟學剛剛開始發(fā)展的時候所提出來的一些計量的理論

假定5.1 線性假定

t圖4.png
圖5.png
圖6.png
圖7.png

備注:只要將回歸方程中變量的高次項(平方項等)或函數(shù)(求對數(shù))都作為變量來看待缭嫡,則已然滿足線性假定。

假定5.2 嚴格外生性

圖8.png

嚴格外生性意味著抬闷,在給定數(shù)據(jù)矩陣X的情況下妇蛀,擾動項的條件期望為0。因此笤成,擾動項均值獨立于所有解釋變量的觀測數(shù)據(jù)讥耗,而不僅僅是同一觀測數(shù)據(jù)xi中的解釋變量(就是說:[圖片上傳失敗...(image-2854a-1607309152743)] 不僅僅要獨立于解釋變量Xi,還有獨立于其他所有的解釋變量X1疹启、X2等鲜滩,即[圖片上傳失敗...(image-edec54-1607309152743)] 與所有個體的解釋變量都不相關(guān))。

嚴格外生的假定在大樣本的情況下可以放松违帆。

圖9.png
圖10.png

假定5.3 不存在嚴格的多重共線性

數(shù)據(jù)矩陣的各列向量為線性無關(guān)豪直,即不存在某個解釋變量為另一解釋變量的倍數(shù),或可以由其他解釋變量線性表出的情形荤懂。換言之茁裙,X中不存在多余的變量。

圖11.png

如果所有個體的教育年限都相同(就是不是列滿秩的)节仿,則導致(s_i-\bar s)離差恒為0晤锥,(s_i-\bar s)的離差平方和恒為0,分母不存在廊宪,導致\hat\beta不存在了矾瘾。

對于多元回歸,如果X列滿秩箭启,則X’X為正定矩陣壕翩,故(X’X)-1存在,故可計算\hat\beta=(X’X)-1X’y傅寡;反過來放妈,X不是列滿秩,則無法識別\hat\beta荐操。

數(shù)據(jù)矩陣X滿列秩是對數(shù)據(jù)的最低要求芜抒,現(xiàn)實數(shù)據(jù)不容易出現(xiàn)嚴格多重共線性,stata數(shù)據(jù)也會自動去掉某個數(shù)據(jù)的托启。

假定5.4 球形擾動項假定-同方差

圖12.png

含義:不同個體的擾動項之間不存在“自相關(guān)”或“序列相關(guān)”

5.7 OLS的小樣本性質(zhì)

在古典線性回歸模型的假定(線性假定宅倒、嚴格外生假定、不存在嚴格多重共線性)驾中,OLS估計量具有以下良好性質(zhì):

1. 線性性(linear estimator)

從OLS估計量的表達式\hat\beta=(X’X)-1X’y可以看出唉堪,βhat可視為y的線性組合(要把[(X’X)-1X’]看做系數(shù)矩陣)模聋,故為線性估計量

2. 無偏性

E(βhat|X)=β,即\hat\betaβhat不會系統(tǒng)地高估或者低估β

E(βhat)=β唠亚,可以使用迭代期望公式

3. 估計量\hat\beta的協(xié)方差矩陣

備注:球形擾動項假定是估計\hat\beta協(xié)方差矩陣的關(guān)鍵

圖13.png

4.高斯-馬爾科夫定理

含義:最小二乘法是最佳線性無偏估計(best linear unbiased estimator)
備注:若存在異方差链方,即主對角線上的元素不一樣,那么OLS估計量的方差就不一定是最小的灶搜,高斯-馬爾科夫定理不成立祟蚀。因此,球形擾動項假定是高斯馬爾科夫定理的關(guān)鍵
備注:對于非線性的割卖、有偏的估計量前酿,OLS估計量的方差也不一定是最小的

5. 對擾動項方差的無偏估計

  • 第一步:用觀測值s^2來估計\sigma^2
    圖14.png

解釋:方差的估計公式是先平均,求差鹏溯,然后是平方罢维,但是這里只有e_i^2,因為在大樣本情況下丙挽,\overline{e_i}是0肺孵,因此這里直接省略了
解釋:殘差的樣本均值為0,離差之和為0颜阐,因此雖然有n個殘差平窘,但是必須要滿足K個正規(guī)方程組,所以可以真正自由取值的只有n-K個凳怨。經(jīng)過n-K的矯正瑰艘,才是無偏估計,即E(s2)= \sigma^2.如果樣本容量n很大肤舞,當n趨于無窮時紫新,此時[(n-K)/n]趨近于1,此時是否進行小樣本矯正并無多大區(qū)別萨赁。
備注:s衡量的是擾動項的標準差弊琴,所以把它叫做回顧方程的標準誤,衡量回歸方程擾動項的波動幅度杖爽。

  • 第二步,可以用s^2(X'X)^{-1}來估計\hat\beta
圖15.png

備注:為什么標準差又叫做標準誤呢紫皇?解釋如下:


圖16.png

備注:后邊的統(tǒng)計推斷也有賴于標準誤慰安,標準誤可以知道店估計的準確程度。

5.8 單個系數(shù)的t檢驗

小樣本理論:無論樣本容量多少聪铺,小樣本理論都成立化焕,不需要讓樣本容量n趨于無窮

大樣本理論:要求樣本容量n趨于無窮,小樣本理論雖然使用于各種樣本容量铃剔,但不易推導統(tǒng)計量的分布撒桨,因此需要對隨機變量的概率做很強的假定查刻。

假定5.5 在給定X的情況下,\sigma|X的條件分布為正態(tài)凤类,即\sigma|X~N(0,\sigma^2I_n)
????考慮最簡單的假設(shè)檢驗穗泵,即對單個回歸系數(shù)\beta_k進行檢驗,需要檢驗的原假設(shè)(也稱為“零假設(shè)”)為0谜疤,即
H_0:\beta_k=c
????備注:這個c通常為0佃延,來檢驗變量x_{ik}是否顯著的不等于0,若等于0夷磕,那么\beta_k就沒有存在的意義了
????所以假設(shè)檢驗也是一種概率意義上的反證法履肃。首先假設(shè)原假設(shè)成立,然后看在原假設(shè)成立的前提下坐桩,是否導致不太可能發(fā)生的“小概率事件”再一次抽樣的樣本中出現(xiàn)尺棋。如果小概率事件竟然在一次抽樣試驗中被觀測到,那么說明原假設(shè)不可信绵跷,應拒絕原假設(shè)陡鹃,接受替代假設(shè)(也稱“備擇假設(shè)”),如下:
H_1: \beta_k\neq c
9:43fen

5.9 OLS的幾何解釋

5.10 OLS的幾何解釋

5.11 OLS的幾何解釋

5.12 OLS的幾何解釋

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末抖坪,一起剝皮案震驚了整個濱河市萍鲸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌擦俐,老刑警劉巖脊阴,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異蚯瞧,居然都是意外死亡嘿期,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進店門埋合,熙熙樓的掌柜王于貴愁眉苦臉地迎上來备徐,“玉大人,你說我怎么就攤上這事甚颂∶刍” “怎么了?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵振诬,是天一觀的道長蹭睡。 經(jīng)常有香客問我,道長赶么,這世上最難降的妖魔是什么肩豁? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上清钥,老公的妹妹穿的比我還像新娘琼锋。我一直安慰自己,他們只是感情好祟昭,可當我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布缕坎。 她就那樣靜靜地躺著,像睡著了一般从橘。 火紅的嫁衣襯著肌膚如雪念赶。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天恰力,我揣著相機與錄音叉谜,去河邊找鬼。 笑死踩萎,一個胖子當著我的面吹牛停局,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播香府,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼董栽,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了企孩?” 一聲冷哼從身側(cè)響起锭碳,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎勿璃,沒想到半個月后擒抛,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡补疑,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年歧沪,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片莲组。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡诊胞,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出锹杈,到底是詐尸還是另有隱情撵孤,我是刑警寧澤,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布嬉橙,位于F島的核電站早直,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏市框。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一糕韧、第九天 我趴在偏房一處隱蔽的房頂上張望枫振。 院中可真熱鬧喻圃,春花似錦、人聲如沸粪滤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽杖小。三九已至肆汹,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間予权,已是汗流浹背昂勉。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留扫腺,地道東北人岗照。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像笆环,于是被迫代替她去往敵國和親攒至。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容

  • 接著上一期繼續(xù)躁劣,間隔時間稍微有點久了~ 模型評估 從回歸模型返回的結(jié)果迫吐,我們能夠得到統(tǒng)計性數(shù)據(jù)(這里用到了stat...
    小貍投資閱讀 2,062評論 1 0
  • 一、遺漏變量偏差 遺漏變量偏差是指OLS估計量中存在的偏差账忘,它是在回歸變量與遺漏變量相關(guān)時產(chǎn)生的志膀。 遺漏變...
    流焱之舞閱讀 3,375評論 0 0
  • 總結(jié) 線性回歸是有監(jiān)督學習里最常見也是最簡單的一種形式,可以分為一元線性回歸和多元線性回歸闪萄,適用情況為是連續(xù)型數(shù)據(jù)...
    忘詞x閱讀 2,857評論 0 0
  • 1.多元線性回歸模型 一般的多元線性回歸模型可以寫為: 全部寫出來有如下: 其中矩陣X為: 2.OLS估計量的推導...
    凡有言說閱讀 3,061評論 0 1
  • 4.1 一元線性回歸模型簡介 1.模型簡介 2.stata實操 list s lnw in 1/10 含義:列出前...
    mhhhpl閱讀 2,080評論 0 0