高級計量經(jīng)濟學 16:短面板(上) (修正1)
在讀 paper 的時候,發(fā)現(xiàn)自己對短面板的框架邏輯有不全面的地方笛粘,在這里對各位讀者說聲對不起趁怔!
這是船新的版本湿硝,我將自己的理解融入其中,筆記順序與教材不同润努。
畢竟我也是現(xiàn)學現(xiàn)賣关斜,敬請諒解!
此文內容為《高級計量經(jīng)濟學及STATA應用》的筆記铺浇,陳強老師著痢畜,高等教育出版社出版。
我只將個人會用到的知識作了筆記鳍侣,并對教材較難理解的部分做了進一步闡述丁稀。為了更易于理解,我還對教材上的一些部分(包括證明和正文)做了修改倚聚。
僅供學習參考线衫,請勿轉載,侵刪惑折!
目錄
-
15 短面板
-
15.1 面板數(shù)據(jù)的特點
- 15.1.1 面板數(shù)據(jù)
- 15.1.2 面板數(shù)據(jù)的優(yōu)缺點
-
15.2 個體效應模型
- 15.2.1 面板數(shù)據(jù)的估計策略
- 15.2.2 對擾動項的討論
- 15.2.3 個體效應模型的兩大類:固定效應和隨機效應
- 15.3 混合回歸
-
15.4 固定效應模型的估計方法
- 15.4.1 個體固定效應
- a. 組內估計量
- b. LSDV(虛擬變量法)
- c. 一階差分法
- 15.4.2 時間固定效應
- a. LSDV(虛擬變量法)
- b. 時間趨勢項
- 15.4.1 個體固定效應
-
15.1 面板數(shù)據(jù)的特點
15.1 基本術語
15.1.1 面板數(shù)據(jù)
面板數(shù)據(jù)
( panel data )授账,也譯為平行數(shù)據(jù)
( longitudinal data ),指的是在一段時間內跟蹤同一組個體( individual )的數(shù)據(jù)惨驶。它既有橫截面的維度( 個個體 )白热,又有時間維度( 個時期 )。
比如敞咧,一個 的面板數(shù)據(jù)結構如表 15.1 所示:
通常的面板數(shù)據(jù) 較小棘捣,而 較大,在使用大樣本理論時讓 休建。這種面板數(shù)據(jù)被稱為短面板
( short panel )乍恐。反之,如果 較大而 較小测砂,則被稱為長面板
( long panel )茵烈。
如果在面板數(shù)據(jù)中,每個時期的樣本中的個體完全一樣砌些,則稱為平衡面板數(shù)據(jù)
( balanced panel )呜投;反之,則稱為非平衡面板數(shù)據(jù)
在面板模型中存璃,如果解釋變量包含被解釋變量的滯后值仑荐,則稱為動態(tài)面板
( dynamic panel );反之纵东,稱為靜態(tài)面板
( static panel )
15.1.2 面板數(shù)據(jù)的優(yōu)缺點
(1) 面板數(shù)據(jù)的優(yōu)點
可以解決遺漏變量的問題:遺漏變量偏差是一個普遍存在的問題粘招。雖然可以用工具變量法解決,但有效的工具變量常常很難找偎球。遺漏變量常常是由于不可觀測的個體差異或
異質性
( heterogeneity )造成的洒扎,如果這種個體差異不隨時間而改變
( time invariant )辑甜,則面板數(shù)據(jù)提供了遺漏變量問題的又一利器提供更多個體動態(tài)行為的信息:由于面板數(shù)據(jù)同時有橫截面與時間兩個維度,有時它可以解決單獨的橫截面數(shù)據(jù)或時間序列數(shù)據(jù)所不能解決的問題袍冷。比如磷醋,考慮如何區(qū)分規(guī)模效應與技術進步對企業(yè)生產(chǎn)效率的影響。對于截面數(shù)據(jù)來說胡诗,由于沒有時間維度邓线,故無法觀測到技術進步;對于單個企業(yè)的時間序列來說煌恢,又無法區(qū)分生產(chǎn)效率的提高究竟有多少是來自于規(guī)模擴大褂痰,又有多少是來自于技術進步。
樣本容量大:由于同時有截面維度與時間維度症虑,通常數(shù)據(jù)的樣本容量更大缩歪,從而可以提高估計的精確度。
(2) 截面數(shù)據(jù)的缺點
當然谍憔,截面數(shù)據(jù)也會帶來一些問題:
- 樣本數(shù)據(jù)通常不滿足 的假定匪蝙,因為同一個體在不同時期的擾動項一般存在自相關
- 收集成本高,不易獲得
15.2 個體效應模型
15.2.1 面板數(shù)據(jù)的估計策略
估計面板數(shù)據(jù)的一個極端策略是將其看成橫截面數(shù)據(jù)而進行混合回歸( pooled regression )习贫,即要求樣本中每個個體都擁有完全相同的回歸方程(在 15.3 討論)逛球。另一個極端策略是為每個個體估計一個單獨的回歸方程。
前者忽略了個體間不可觀測或被遺漏的異質性苫昌,而該異質性可能與解釋變量相關而導致估計不一致颤绕;后者則忽略了個體間的共性,也可能沒有足夠的的樣本容量祟身。
因此奥务,在實踐中常常采用折衷的估計策略:即假定個體的回歸方程擁有相同的斜率,但可以擁有不同的截距袜硫,以此來捕捉異質性氯葬,如圖 15.1 所示:
這種模型被稱為個體效應模型
( individual-specific effects model ),其模型形式為:
其中婉陷, 為不隨時間而變( time invariant )的個體特征( 即 )帚称,比如性別;而 則可以隨個體及時間而變( time-varying )秽澳。擾動項由 兩部分構成闯睹,成為復合擾動項
( composite erroe term ),而方程 也稱為復合擾動項模型
( error compoents model )担神。
15.2.2 對擾動項的討論
較早的文獻有時將 視為常數(shù)楼吃,但這也只是隨機變量的特例,即退化的隨機變量;而 為隨個體與時間而改變的擾動項所刀。
我們主要關注 ,這是因為“個體效應模型”的個體特征來源于 捞挥。 在幾何上代表個體異質性的截距浮创;在統(tǒng)計上則代表一個擾動項:
-
幾何上,沿用較早文獻的想法砌函,我們直接認為它就是截距就可以了斩披。 這個擾動項并不是“真正的”擾動項,“真正的擾動項”是 讹俊。你可以認為 是某個個體的稟賦垦沉。
舉個例子,我們在研究不同個體的受教育水平對其的收入的影響時仍劈,我沒有把智力因素加入解釋變量中厕倍。于是 就可能是每個個體的智力因素(注意,它并非解釋變量)贩疙。因為每個個體的智力本身是天生決定的讹弯,是隨機的;但在出生以后这溅,他的智力又不再隨時間而變了组民。
像智力水平這種不隨時間而變的擾動項,你可以認為這是一個個體天生的稟賦或者說個體天生的差異悲靴,它表現(xiàn)為“不同的截距”臭胜,也就是我們常津津樂道的“輸在起跑線上”。
統(tǒng)計上癞尚,方程 實際上是糅合了兩個回歸模型:
對這兩個模型耸三,分別有屬于自己的擾動項, 和 浇揩,加起來就是個體效應模型了吕晌。這樣可以更好理解復合擾動項的說法,不過就難以理解截距和個體效應的說法了临燃。
15.2.3 個體效應模型的兩大類:固定效應和隨機效應
在短面板睛驳,我們假設 為獨立同分布(長面板可以放松此假定),且與 不相關膜廊。另外乏沸,
如果 與某個解釋變量 或 相關,則進一步稱為
固定效應模型
( Fixed Effects Model, FE)爪瓜。這種情況下蹬跃,OLS估計是不一致的,解決的方法是將模型轉換铆铆。如果 與所有解釋變量 都不相關蝶缀,則進一步稱為
隨機效應模型
( Random Effects Model, RE)丹喻。從經(jīng)濟理論的角度看,隨機模型比較少見翁都,但仍需要通過數(shù)據(jù)來檢驗究竟使用 FE 還是 RE碍论。
顯然,與截面數(shù)據(jù)相比柄慰,面板數(shù)據(jù)提供了更為豐富的模型與估計方法鳍悠。
請十分十分重視“ 與某個解釋變量 或 是否相關”這一論斷
- 如果 與某個解釋變量 或 相關,那么我們就沒有辦法準確地估計 坐搔,這是內生性問題
- 為了準確地估計 藏研,我們的核心思想是如何消除內生性問題
- 解決的辦法有很多:我們可以消去 ,也可以人工增加一些如“虛擬變量”“時間趨勢”概行,把內生的信息從 中手動剝離出來蠢挡。
先給放一個邏輯框架,免得大家混淆本文后面的模型和估計方法凳忙。
- 面板數(shù)據(jù)
- 混合回歸模型(沒有個體效應)
- 個體效應模型(有個體效應)
- 固定效應模型( 與某個解釋變量 或 相關)
- 個體固定效應
- 組內估計量 (處理方法) + OLS (估計方法)
- LSDV法 (處理方法袒哥,即虛擬變量) + OLS (估計方法)
- 一階差分法 (處理方法) + OLS (估計方法)
- 時間固定效應
- 虛擬變量 (處理方法) + OLS (估計方法)
- 時間趨勢項 (處理方法) + OLS (估計方法)
- 隨機效應模型( 不與任何解釋變量 或 相關)
- … (我還沒學)
后面別給搞混淆了??
15.3 混合回歸
如果所有個體都擁有完全一樣的回歸方程,也就是說每個個體連截距項都相同消略,那么方程 的 就都相等堡称。我們記 為截距,即 艺演,那么方程 就可以寫成:
其中却紧, 不包含常數(shù)項。這樣胎撤,就可以把所有的數(shù)據(jù)放在一起晓殊,像對待橫截面數(shù)據(jù)那樣進行 OLS 回歸,故被稱為混合回歸
( polled regression )伤提∥装常混合回歸可以被稱為總體平均估計量
( Population-averaged estimator, PA),因為可以把它理解為將個體效應都平均掉了肿男。
由于面板數(shù)據(jù)的特點介汹,雖然通常可以假設不同個體之間的擾動項相互獨立舶沛,但同一個體在不同時間的擾動項之間往往存在自相關嘹承。此時,對標準誤的估計應該使用聚類穩(wěn)健的標準誤
( cluster-robust standard error )如庭,而所謂聚類( cluster )叹卷,就是由每個個體不同時期的所有觀測值所組成。同一聚類(個體)的觀測值允許存在相關性,而不同聚類(個體)的觀測值則不相關骤竹。
混合回歸的基本假設是不存在個體效應 帝牡。對于這個假設必須進行統(tǒng)計檢驗。由于個體效應以兩種不同的形態(tài)存在:固定效應蒙揣、隨機效應靶溜,故在下面會分別介紹其檢驗方法。
15.4 固定效應模型的估計方法
固定效應模型是指 與某個解釋變量 或 相關的個體效應模型鸣奔。換句話說,由于存在一些遺漏變量惩阶,使得 與解釋變量產(chǎn)生內生性挎狸。所以,固定效應模型求解的關鍵就是如何排除內生性的干擾断楷!
總的來看锨匆, 與某個解釋變量 或 相關分成兩種情況:
- 與不隨時間而變但隨個體而異的遺漏變量問題,解決這問題的模型我們稱為個體固定效應模型
- 與不隨個體而變但隨時間而異的遺漏變量問題冬筒,解決這類問題的模型稱為時間固定效應模型
我們下面來探討如何對兩種固定效應模型進行處理恐锣。
15.4.1 個體固定效應
a. 組內估計量
思想:消去 ,消除內生性
優(yōu)點:易于操作和理解
缺點:無法估計固定效應舞痰,需要嚴格外生性假設
如果 與某個解釋變量 或 相關土榴,那么此個體效應模型就變成了固定效應模型
。這種情況下响牛,OLS估計是不一致的玷禽。為了得到一致的 估計量,解決的方法是將模型轉換呀打,并將 消去矢赁。
給定個體 峰弹,將方程 兩邊對時間取平均佛南,可得:
用 則可以得到原模型的離差形式:
定義:
那么 就變成了:
在公式 中硼补, 已經(jīng)被消去懂缕,故只要 與 不相關怀伦,就可以使用 OLS 一致地估計 帅容,稱為固定效應估計量
( Fixed Effects Estimator )装畅,記為 晶衷。由于 使用了每個個體的組內離差信息恭应,故也被稱為組內估計量
( within estimator )咪啡。即使個體特征 與解釋變量 相關,只要使用組內估計量暮屡,就可以得到一致估計撤摸,這是面板數(shù)據(jù)的一大優(yōu)勢。
然而,在作離差變換的過程中准夷, 也被消掉了钥飞,于是無法估計 。也就是說固定效應模型無法估計不隨時間而變的變量的影響衫嵌,這是 FE 的一大缺點读宙。另外,為了保證 與 不相關楔绞,則要求第 個觀測值滿足嚴格外生性结闸,即:
這是因為 中包含了 的所有信息。換言之酒朵,擾動項必須與各期的解釋變量均不相關桦锄,這是一個比較強的假定。
b. LSDV法 (虛擬變量法)
思想:人工加入虛擬變量蔫耽,把內生性手動外生化
優(yōu)點:能夠估計出個體固定效應结耀,操作簡便,可解釋性強
缺點:如果 很大匙铡,計量軟件可能不支持
如果在原方程中引入 個虛擬變量(如果沒有截距图甜,則引入 個虛擬變量)來代表不同的個體,則可以得到與上述離差模型同樣的結果鳖眼,即:
其中黑毅,個體虛擬變量 如果 ;否則 钦讳〔├撸可以用 OLS 估計此方程,而且我們可以證明蜂厅, LSDV 法與組內估計量 FE 完全一樣匪凡。因此,F(xiàn)E 也被稱為最小二乘虛擬變量模型
( Least Square Dummy Variable Model, LSDV)
不過掘猿,如果作完 LSDV 后發(fā)現(xiàn)某些個體的虛擬變量不顯著將其刪去病游,那么 LSDV 的結果就不會與 FE 相同。使用 LSDV 的好處是可以得到對個體異質性 的估計(模型中的 )稠通,但如果 很大衬衬,則需要在回歸方程中加入很多虛擬變量,可能超出一些計量軟件的最大解釋變量數(shù)量改橘。
LSDV 法深受不少研究者的喜愛滋尉,因為它操作簡便,可解釋性也強飞主。
c. 15.4.3 一階差分法
思想:消去 狮惜,消除內生性
優(yōu)點:只要擾動項的一階差分與解釋變量的一階差分不相關高诺,估計就是一致的
缺點:估計效率低
考慮固定效應模型,可以對個體效應模型 進行差分處理:
于是碾篡,把兩個方程相減虱而,就可以得到一階差分方程,從而消除個體效應:
對此差分模型使用 OLS 估計即得到一階差分估計量
( First Differencing Estimator )开泽,記為 牡拇。由于 不再出現(xiàn)在差分方程中,只要擾動項的一階差分 與解釋變量的一階差分 不相關穆律,則 就是一致的惠呼,這比 的嚴格外生性要求更弱,是 的優(yōu)點峦耘。
不過剔蹋,可以證明,在 下贡歧, 比 更有效率滩租。因此赋秀,在實踐上利朵,主要使用 而不是 。但對于動態(tài)面板猎莲,嚴格外生性無法滿足绍弟,則主要用 。
15.4.2 時間固定效應
上面的個體固定效應解決了不隨時間而變但隨個體而變(time invariant)的遺漏變量問題著洼。
類似地樟遣,引入時間固定效應,則可解決不隨個體而變但隨時間而變(individual invariant)的遺漏變量問題身笤。
a. LSDV (虛擬變量法)
假設模型為:
其中豹悬, 不可觀測,定義 液荸,則上式可以寫成:
在上式瞻佛,可將 視為第 期獨有的截距項,并將其解釋為第 期 對被解釋變量 的效應娇钱。于是伤柄,這些 稱為時間固定效應(time fixed effects)。
顯然文搂,這個模型可以用 LSDV 法來估計适刀,即對每時期定義一個虛擬變量,然后把 個時間虛擬變量包括在回歸方程中煤蹭,比如:
其中笔喉,時間虛擬變量 如果 否則 取视。對于上面的式子,既考慮了個體固定效應( 的 )然遏、又考慮了時間固定效應( 的 )贫途,所以稱為雙向固定效應(Two-way FE)。相應的待侵,如果僅考慮個體固定效應(如15.4.1 的模型)則稱為單向固定效應(One-way FE)丢早。
b. LSDV (時間趨勢項)
有些情況,為了節(jié)省參數(shù)秧倾,可以引入時間趨勢項怨酝,以代替 個時間虛擬變量:
顯然,這個式子隱含著一個較強的假定:每個時期的時間效應應該增長那先, 隨時間 是均勻增長的农猬。
如果此假定不大可能成立,那么就應該使用 a. 的時間虛擬變量法售淡;該方法可以獨立估計每一期的時間固定效應斤葱,也可以用于判斷每期的時間效應是否大致相等。