面板數(shù)據(jù)的知識(shí)點(diǎn)總結(jié)和實(shí)戰(zhàn)經(jīng)驗(yàn)
首先匹厘,面板數(shù)據(jù)是什么嘀趟?
面板數(shù)據(jù)是指在一段時(shí)間內(nèi)跟蹤同一組個(gè)體的數(shù)據(jù),它既有橫截面維度(n個(gè)樣本)又有時(shí)間維度(t個(gè)時(shí)期)愈诚,所以面板數(shù)據(jù)的優(yōu)點(diǎn)在于樣本量比較大她按,而且兼具兩類數(shù)據(jù)的分析特點(diǎn),可以觀測(cè)到動(dòng)態(tài)變化
其次炕柔,為什么要使用面板數(shù)據(jù)酌泰?
面板數(shù)據(jù)的應(yīng)用大多是為了解決遺漏變量的問(wèn)題,一般來(lái)講如果我們的在構(gòu)建回歸模型的時(shí)候忽略了重要的解釋變量匕累,就會(huì)影響整個(gè)模型的解釋力度陵刹,所以我們需要去找這些重要的遺漏變量。通常我們會(huì)使用工具變量法來(lái)阻止這類問(wèn)題欢嘿,但是實(shí)際操作總是比較困難的衰琐,遺漏變量常常是基于個(gè)體不可觀測(cè)的一致性造成的(比如個(gè)體能力),如果這種差異不會(huì)隨時(shí)間而改變炼蹦,那么面板數(shù)據(jù)能很好的為我們解決這一問(wèn)題羡宙。
長(zhǎng)面板/短面板——社會(huì)學(xué)使用一般都是短面板,n>t,畢竟成型的數(shù)據(jù)調(diào)查還是開始不久
平衡面板/非平衡面板——看看是否數(shù)據(jù)完整
動(dòng)態(tài)面板/靜態(tài)面板——解釋變量是否包含被解釋變量的滯后值
最后掐隐,我們要如何利用面板數(shù)據(jù)來(lái)解決遺漏變量的問(wèn)題狗热?
1.混合回歸(pooled regression)--極端的把面板數(shù)據(jù)看成截面數(shù)據(jù),即假定不同個(gè)體之間的擾動(dòng)項(xiàng)相互獨(dú)立,強(qiáng)行忽略個(gè)體效應(yīng)進(jìn)行ols回歸匿刮,(也就是iid僧凰,隨機(jī)誤差獨(dú)立同分布),這時(shí)候估計(jì)會(huì)有偏
這里提及一個(gè)“聚類樣本”僻焚,是指雖然每個(gè)個(gè)體不同時(shí)期的觀測(cè)值很難相互獨(dú)立允悦,聚類樣本就是將同一個(gè)體不同時(shí)期的觀測(cè)值視作一個(gè)聚類,這樣同一聚類內(nèi)部相關(guān)虑啤,但是和其他聚類是可以獨(dú)立隙弛,這樣我們?nèi)匀豢梢允褂胦ls,但是要注意使用聚類穩(wěn)健標(biāo)準(zhǔn)誤(其實(shí)并不知道這是什么狞山,實(shí)際操作中使用普通標(biāo)準(zhǔn)誤的確是不準(zhǔn)確的全闷,一般會(huì)在指令后附加r)
2.分別回歸--即每個(gè)個(gè)體效應(yīng)都設(shè)計(jì)一個(gè)獨(dú)立的方程
操作起來(lái)非常不現(xiàn)實(shí)
3.個(gè)體效應(yīng)模型(individual-specific effects model)--折中方案,即假定每個(gè)個(gè)體回歸擁有相同的斜率萍启,但截距項(xiàng)不一樣
我們能不能舉出一個(gè)好記的例子呢?
ui和解釋變量相關(guān)驳遵,我們稱其為內(nèi)生性問(wèn)題淫奔,我們把那些關(guān)乎個(gè)體的無(wú)法測(cè)量的變量設(shè)計(jì)成ui(個(gè)體效應(yīng)),單獨(dú)提出來(lái)我們就能關(guān)注到解釋變量的凈效應(yīng)了
如果個(gè)體效應(yīng)ui和某個(gè)解釋變量相關(guān)堤结,我們稱其為固定效應(yīng)模型唆迁,反之為隨機(jī)效應(yīng)模型
4.固定效應(yīng)模型FE(具體公式推導(dǎo)詳見《計(jì)量經(jīng)濟(jì)學(xué)及stata應(yīng)用》的第十二章)
既然ui和解釋變量相關(guān)、多期ui也很難保證完全獨(dú)立竞穷,這違背了線性回歸的假定唐责,那么只要我們需要消掉個(gè)體效應(yīng)ui,ols估計(jì)方法還是能正常去用的
(1)組內(nèi)估計(jì)值--組內(nèi)去心瘾带,消去ui(明白了鼠哥,為了消除zi和ui,去心一減平均月弛,就消除了)
(2)LSDV法肴盏,把截距項(xiàng)設(shè)計(jì)成虛擬變量——跟多分類變量是一樣的,個(gè)體差異表現(xiàn)在虛擬變量結(jié)局上帽衙,黑龍江省一條菜皂、上海市就跟它不一樣啦
(3)一階差分法,什么叫一階差分厉萝?——相當(dāng)于我求一個(gè)前一期的方程恍飘,然后兩個(gè)方程做差榨崩,消掉不會(huì)因時(shí)間而變得zi和ui
(4)雙向固定效應(yīng),同時(shí)關(guān)注不隨個(gè)體而變章母,但隨時(shí)間而變的變量母蛛,再去用LSDV法去做ols——比如說(shuō)企業(yè)宏觀經(jīng)濟(jì)環(huán)境,不受個(gè)體企業(yè)控制乳怎,但是會(huì)因時(shí)間而變彩郊,比如金融危機(jī)前后,可能也是會(huì)帶來(lái)影響的蚪缀,我們就得考慮
5.隨機(jī)效應(yīng)模型RE(具體公式推導(dǎo)詳見《計(jì)量經(jīng)濟(jì)學(xué)及stata應(yīng)用》的第十二章)
雖然ui和解釋變量不相關(guān)秫逝,我們可以嘗試使用ols,但是因?yàn)閡i的存在询枚,同一個(gè)體不同時(shí)期的擾動(dòng)項(xiàng)之間仍然存在自相關(guān)(比如三十年內(nèi)同一企業(yè)的投資政策违帆,不太可能完全沒(méi)關(guān)系),我們稱其為不是球型擾動(dòng)項(xiàng)(組內(nèi)自相關(guān))這時(shí)使用ols效率不高
(1)使用GLS(廣義最小二乘法)金蜀,去除自相關(guān)
(2)組間估計(jì)值(為什么固模使用組內(nèi)而隨模使用組間刷后?)其實(shí)都是去心算法,只不過(guò)隨機(jī)效應(yīng)計(jì)算一個(gè)斯塔渊抄,代入公式計(jì)算廣義離差而已尝胆,就是名字不一樣
6.擬合優(yōu)度的度量:估計(jì)量對(duì)模型的擬合程度
如果使用個(gè)體效應(yīng)模型,應(yīng)該會(huì)匯報(bào)出三種“整體R方”护桦、“組內(nèi)R方”班巩、“組間R方”,如果是FE就參考組內(nèi)R方嘶炭,RE就參考組間R方
7.我應(yīng)該使用FE還是RE?
H0:ui與解釋變量不相關(guān)? H1:相關(guān)
如果H0被接受則為RE逊桦,反之FE
也就是豪斯曼檢驗(yàn)啦眨猎,但是傳統(tǒng)的豪斯曼檢驗(yàn)要求組間同方差并且只能解決組內(nèi)自相關(guān)(70年內(nèi)黑龍江省的經(jīng)濟(jì)政策,肯定會(huì)有關(guān)的)强经,組間異方差情況下不可使用睡陪,所以后期有人進(jìn)行修正,提出穩(wěn)健豪斯曼檢驗(yàn)匿情,具體操作可以看看書
8.實(shí)際操作中兰迫,我們?cè)趺催x擇是使用混合回歸還是FE/RE?
當(dāng)我們使用stata進(jìn)行FE模型檢驗(yàn)時(shí)炬称,表格會(huì)提供H0:所有ui都等于0 的原假設(shè)汁果,如果接受原假設(shè),則說(shuō)明個(gè)體效應(yīng)的存在沒(méi)什么意義玲躯,因?yàn)樗粫?huì)變化据德,一起放進(jìn)擾動(dòng)項(xiàng)就可以鳄乏,這時(shí)混合回歸是可以用的,但如果拒絕原假設(shè)棘利,說(shuō)明FE要好得多橱野;如果是RE模型檢驗(yàn),通過(guò)stata自帶的LM檢驗(yàn)善玫,其原假設(shè)H0:sigma_u的平方為0水援,如果拒絕原假設(shè)說(shuō)明原模型包含反應(yīng)個(gè)體特性的隨機(jī)擾動(dòng)項(xiàng)ui,就不能用混合回歸
思考問(wèn)題:
如果被解釋變量與個(gè)體特征有關(guān)茅郎,使用哪種模型--固定蜗元,如果殘差項(xiàng)中某些變量和解釋變量相關(guān),而同時(shí)對(duì)被解釋變量存在影響只洒,就會(huì)導(dǎo)致被解釋變量的系數(shù)是有偏且非一致的许帐。這時(shí)候就需要將這些變量加入模型中。但是有時(shí)候這些變量是不可觀測(cè)的毕谴,固定效應(yīng)回歸可以解決一部分這種問(wèn)題成畦。
如果豪斯曼檢驗(yàn)接受原假設(shè),可不可以使用固定效應(yīng)模型--可以涝开,因?yàn)榫退鉼i和解釋變量不相關(guān)循帐,現(xiàn)實(shí)情況里也很難找到同一聚類里完全組內(nèi)無(wú)關(guān)的情況,所以固定效應(yīng)模型還是更常用的
實(shí)踐部分
謝宇舀武、于嘉《生育對(duì)于我國(guó)女性工資率的影響》
研究問(wèn)題: 1.在我國(guó)拄养,生育是否會(huì)導(dǎo)致女性的工資率降低? 如果會(huì),降低的幅度是多少? ( 2) 在我國(guó)银舱,什么因素會(huì)影響女性的“生育代價(jià)”? 也就是說(shuō)瘪匿,生育對(duì)女性工資率的影響是否在不同群體間有所不同?
研究變量:
數(shù)據(jù)處理的一些注意事項(xiàng):
本文使用的數(shù)據(jù)是中國(guó)健康和營(yíng)養(yǎng)調(diào)查(CHNS)1993、1997寻馏、2000棋弥、2004、2006五次的調(diào)查數(shù)據(jù)诚欠,因?yàn)檫@個(gè)數(shù)據(jù)的問(wèn)卷不是統(tǒng)一放在一起的顽染,所以應(yīng)該是每個(gè)文件分別保存變量再合并再集中清理
一個(gè)處理未知值的方法唧垦,對(duì)于那些連續(xù)數(shù)值變量,比如時(shí)間翔悠。我們可以取一取平均值進(jìn)行填充业崖,但是類別變量就不要瞎弄了
描述性分析的一些注意事項(xiàng):
duplicates report 是把重復(fù)的情況列出來(lái)双炕,duplicate drop var狞悲,force是刪掉重復(fù)值
tabstat 是把描述性的內(nèi)容輸出成表格妇斤,而tab一般都是分散列的摇锋,我們還要自己往表里放。其中statistics(mean sd N)是指列出均值站超、標(biāo)準(zhǔn)差和樣本量荸恕,然后birth()是通過(guò)birth這個(gè)類別變量進(jìn)行報(bào)告,最后的format(%6.2f)就是調(diào)整格式死相,整數(shù)6位融求,保留2位小數(shù)點(diǎn),要注意這是連續(xù)變量的用法
如果想要把描述性的內(nèi)容以縱向表格的形式呈現(xiàn)出來(lái)算撮,可以加col后綴生宛,一般來(lái)講是類別變量的用法
封裝變量,也叫全局暫元肮柜,就是省點(diǎn)力氣不用敲那么多變量上去
操作面板數(shù)據(jù),首先要確定id 和 year ,然后全局暫元就用在逐步回歸上
注意一下审洞,rtf是一種文本格式莱睁,和doc一樣,但是輸出的表格是帶邊框的芒澜,doc卻沒(méi)有
compress nogap是使結(jié)果更緊湊
b(%4.3f) se(%6.4f) brackets? brackets把原本的小括號(hào)變成了中括號(hào)仰剿,b(%4.3f) 是回歸系數(shù)保留小數(shù)點(diǎn)后三位,se(%6.4f) 是將原本的t值用標(biāo)準(zhǔn)誤替代并保留4位小數(shù)痴晦,star(* 0.1 ** 0.05 *** 0.01)是手動(dòng)設(shè)置顯著性水平酥馍,title是輸出表格表頭,不過(guò)我輸出是亂碼阅酪,不造為什么
注意下theta是隨機(jī)變量需要報(bào)告的值,不附指令就跑不出來(lái)
兩種豪斯曼檢驗(yàn)汁针,之前說(shuō)過(guò)傳統(tǒng)豪斯曼不能應(yīng)對(duì)異方差术辐,所以提供了修正后的穩(wěn)健豪斯曼檢驗(yàn)