天鷹(中南財大——博士研究生)
E-mail: yanbinglh@163.com
本篇推文主要承接雙重差分(DID)后出現(xiàn)的處理效應(yīng)和傾向匹配得分插龄,以及后續(xù)的斷點回歸明也。對應(yīng)這三個大的計量模塊漂羊,我認為首要前提是理順三部分的關(guān)系,以便更好掌握每一部分的建模步驟以及對應(yīng)的Stata操作死讹。
1.傾向得分匹配法建模步驟
1.輸入數(shù)據(jù)
2.描述性分析
3.若是橫截面數(shù)據(jù), 請?zhí)^此步工猜。 面板單位根檢驗( 一
般T>=20乃秀, T較小, 單位根檢驗方法功效低藤肢。 ) 太闺,
4.若變量平穩(wěn), 進行如下操作嘁圈,
5\. 實驗組和控制組省骂, 是否是隨機分組得到的? ( 不管是
隨機實驗最住、 自然實驗钞澳、 還是觀測數(shù)據(jù)。 )
注意:從上述的理論操作流程圖中涨缚,我們能看出轧粟,首先要判斷數(shù)據(jù)是否是隨機分組數(shù)據(jù)(判斷多基于相關(guān)理論去定性分析),如果數(shù)據(jù)是隨機分組那么可以直接采用之前所講過的DID進行處理,如果數(shù)據(jù)非隨機兰吟,那么才會涉及到傾向匹配得分以及后續(xù)的斷點回歸等內(nèi)容通惫。
2.處理好下來幾組關(guān)系
- 2.1 依可測變量選擇與依不可測變量選擇?
通過定性分析混蔼, 是否有不可觀測的變量影響處理變量履腋?
【注意】
依可測變量選擇問題, 還有一類較為特殊的情形( 處理變量拄丰, 完全由某連續(xù)變量是否超過某斷點所決定府树。 )
精確斷點回歸模型
2.2 傾向得分匹配與偏差校正的匹配估計?
傾向得分匹配在傾向得分估計時料按, 可能受很多主觀因素的影響( 例如奄侠, 選probit模型還是logit模型; 估計傾向得分時载矿, 模型采用哪些變量建模等等) 峭咒。
偏差校正的匹配估計可以適當避免這個問題。
- 2.3 雙重差分傾向得分匹配验靡、 處理效應(yīng)模型與斷點回歸能真?
雙重差分傾向得分匹配:若影響處理變量Di的不可測變量
是不隨時間變化,且有面板數(shù)據(jù)逢勾。
處理效應(yīng)模型:基于Heckman(1979)樣本選擇模型的思想牡整, 直
接對處理變量Di 建模處理。
斷點回歸:處理變量Di 完全由某連續(xù)變量是否超過某一斷點所決定( 精確斷點回歸); 處理變量Di 不完全由某連續(xù)變量是否超過某一斷點所決定溺拱,還受其他因素的影響(模糊斷點回歸) 逃贝。
3.雙重差分傾向得分匹配(Stata操作演示)
命令與 diff 相同, 只是要選上傾向得分匹配對應(yīng)的選項迫摔。
- 3.1 數(shù)據(jù)說明
數(shù)據(jù)集來自 Card & Kruger(1994)
fte: 雇傭人數(shù)沐扳。
treated: 處理變量, 快餐店在新澤西州為1句占, 在賓夕法尼亞
州為0沪摄。
t: 實驗期虛擬變量, 時間為1992.11為1纱烘, 1992.2為0杨拐。
快餐品牌虛擬變量:
bk, kfc凹炸, roys戏阅, Wendys
- 3.2 命令選項介紹
**diff---------雙重差分法、倍差法啤它、倍分法**
diff outcome_var [if] [in] [weight] ,[ options]
outcome_var :結(jié)果變量奕筐。
----模型要求選項----
period(varname) :二元實驗期變量(1:實驗之后舱痘;0:實驗之前)。注意:如果數(shù)據(jù)里
包含周期頻率(如每月离赫、每季度芭逝、每年等),建議設(shè)定選項period(varname)渊胸,
treated(varname) :二元處理變量(1:被處理旬盯;0:被控制、未處理)翎猛。
----選項----
cov(varlist) :為模型設(shè)定前定處理協(xié)變量胖翰。當kernel被選用時,這些變量將用于去
估計傾向得分切厘。
kernel :執(zhí)行基于核的【雙重差分傾向得分匹配】萨咳。該選項將生成變量_weights和_ps,
_weights :來自核傾向得分匹配的權(quán)重疫稿;
_ps :pscore(varname)沒有提供傾向得分時培他,報告得分。
且該選項要求使用id(varname)遗座,除非重復(fù)橫截面設(shè)置舀凛。
id(varname) :kernel選項要求使用。
bw(#) :提供核函數(shù)的窗寬途蒋,默認為0.06猛遍。
ktype(kernel) :指定核函數(shù)的類型。分別為epanechnikov (默認)号坡,gaussian螃壤,
biweight,uniform 和 tricube筋帖。
rcs :表示核已設(shè)定(重復(fù)橫截面),該選項不要求id(varname)冤馏,選項rcs嚴格要求
cov(varlist)中的協(xié)變量不隨時點變化日麸。
qdid(quantile) :執(zhí)行分位數(shù)雙重差分估計,分位數(shù)從0.1-0.9逮光,可以與kernel和cov選項
聯(lián)合使用代箭,qdid選項不支持加權(quán)穩(wěn)健標準誤估計
pscore(varname) :提供傾向得分。
logit :指定傾向得分采用logit估計涕刚,默認是probit嗡综。
support :僅使用共同取值范圍內(nèi)的觀測值進行匹配。
在給定選項kernel的傾向得分下杜漠,執(zhí)行diff命令极景。
addcov(varlist) :除了用于估計傾向得分的協(xié)變量外察净,指定額外的協(xié)變量。
在多頻率數(shù)據(jù)的情形下盼樟,也可用于設(shè)定時點固定效應(yīng)氢卡。
ddd(varname) :三重差分選項。treated(varname)被視為第1類晨缴;ddd(varname)視為第2類译秦。
該選項不兼容kernel、test击碗、qdid(quantile)筑悴。
----SE/Robust----
cluster(varname) :計算聚類標準誤。
robust :計算穩(wěn)健標準誤稍途。
bs :對參數(shù)和標準誤采用bootstrap估計阁吝。
reps(int) :在bs被選用時,指定重復(fù)次數(shù)晰房,默認為50求摇。
----Balancing test----
test :采用balancing t檢驗,檢驗在基期時殊者,協(xié)變量在控制組和實驗組的均值是否有差異与境。
同時使用test和kernel選項,執(zhí)行加權(quán)協(xié)變量的balancing t檢驗猖吴。
----報告----
report :當設(shè)定選項kernel時摔刁,顯示所包含的協(xié)變量的推斷或傾向得分的估計。
nostar :去掉p值的星號海蔽。
-----------------------------------------------------------------------------*/
- 3.3 Stata具體操作演示
diff fte, t(treated) p(t) cov(bk kfc roys) kernel id(id) ///
support report robust
KERNEL PROPENSITY SCORE MATCHING DIFFERENCE-IN-DIFFERENCES
Estimation on common support
Report - Propensity score estimation with probit command
Atention: _pscore is estimated at baseline
Iteration 0: log likelihood = -198.21978
Iteration 1: log likelihood = -196.7657
Iteration 2: log likelihood = -196.7636
Probit regression Number of obs = 404
(注意此處默認采用Probit模型) LR chi2(3) = 2.91
Prob > chi2 = 0.4053
Log likelihood = -196.7636 Pseudo R2 = 0.0073
------------------------------------------------------------------------------
treated | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
bk | .1812529 .2090916 0.87 0.386 -.2285591 .5910649
kfc | .3888298 .246799 1.58 0.115 -.0948873 .8725469
roys | .2997977 .2318227 1.29 0.196 -.1545664 .7541618
_cons | .6476036 .1777446 3.64 0.000 .2992305 .9959767
------------------------------------------------------------------------------
Matching iterations...
...............................................................................................................................
> .............................................................................................................................
> ..........................................................................
DIFFERENCE-IN-DIFFERENCES ESTIMATION RESULTS
Number of observations in the DIFF-IN-DIFF: 795
Before After
Control: 78 76 154
Treated: 326 315 641
404 391
--------------------------------------------------------
Outcome var. | fte | S. Err. | |t| | P>|t|
----------------+---------+---------+---------+---------
Before | | | |
Control | 20.040 | | |
Treated | 17.065 | | |
Diff (T-C) | -2.975 | 1.442 | -2.06 | 0.039**
After | | | |
Control | 17.449 | | |
Treated | 17.499 | | |
Diff (T-C) | 0.050 | 1.073 | 0.05 | 0.963
| | | |
Diff-in-Diff | 3.026 | 1.797 | 1.68 | 0.093*
--------------------------------------------------------
R-square: 0.02
* Means and Standard Errors are estimated by linear regression
**Robust Std. Errors
**Inference: *** p<0.01; ** p<0.05; * p<0.1
指定傾向得分采用logit估計共屈,默認是probit
diff fte, t(treated) p(t) cov(bk kfc roys) kernel id(id) ///
support logit report robust
KERNEL PROPENSITY SCORE MATCHING DIFFERENCE-IN-DIFFERENCES
Estimation on common support
Report - Propensity score estimation with logit command
Atention: _pscore is estimated at baseline
Iteration 0: log likelihood = -198.21978
Iteration 1: log likelihood = -196.77862
Iteration 2: log likelihood = -196.7636
Iteration 3: log likelihood = -196.7636
Logistic regression Number of obs = 404
LR chi2(3) = 2.91
Prob > chi2 = 0.4053
Log likelihood = -196.7636 Pseudo R2 = 0.0073
------------------------------------------------------------------------------
treated | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
bk | .3108387 .3561643 0.87 0.383 -.3872306 1.008908
kfc | .6814511 .4335455 1.57 0.116 -.1682824 1.531185
roys | .520356 .4011747 1.30 0.195 -.265932 1.306644
_cons | 1.05315 .2998708 3.51 0.000 .465414 1.640886
------------------------------------------------------------------------------
Matching iterations...
...............................................................................................................................
> .............................................................................................................................
> ..........................................................................
DIFFERENCE-IN-DIFFERENCES ESTIMATION RESULTS
Number of observations in the DIFF-IN-DIFF: 795
Before After
Control: 78 76 154
Treated: 326 315 641
404 391
--------------------------------------------------------
Outcome var. | fte | S. Err. | |t| | P>|t|
----------------+---------+---------+---------+---------
Before | | | |
Control | 20.040 | | |
Treated | 17.065 | | |
Diff (T-C) | -2.975 | 1.442 | -2.06 | 0.039**
After | | | |
Control | 17.449 | | |
Treated | 17.499 | | |
Diff (T-C) | 0.050 | 1.073 | 0.05 | 0.963
| | | |
Diff-in-Diff | 3.026 | 1.797 | 1.68 | 0.093*
--------------------------------------------------------
R-square: 0.02
* Means and Standard Errors are estimated by linear regression
**Robust Std. Errors
**Inference: *** p<0.01; ** p<0.05; * p<0.1
平穩(wěn)檢驗(Balancing test)
test :采用balancing t檢驗,檢驗在基期時党窜,協(xié)變量在控制組和實驗組的均值是否有差異拗引。
同時使用test和kernel選項,執(zhí)行加權(quán)協(xié)變量的balancing t檢驗幌衣。
iff fte, t(treated) p(t) cov(bk kfc roys) kernel id(id) ///
support logit report robust test
Report - Propensity score estimation with logit command
Atention: _pscore is estimated at baseline
Iteration 0: log likelihood = -198.21978
Iteration 1: log likelihood = -196.77862
Iteration 2: log likelihood = -196.7636
Iteration 3: log likelihood = -196.7636
Logistic regression Number of obs = 404
LR chi2(3) = 2.91
Prob > chi2 = 0.4053
Log likelihood = -196.7636 Pseudo R2 = 0.0073
------------------------------------------------------------------------------
treated | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
bk | .3108387 .3561643 0.87 0.383 -.3872306 1.008908
kfc | .6814511 .4335455 1.57 0.116 -.1682824 1.531185
roys | .520356 .4011747 1.30 0.195 -.265932 1.306644
_cons | 1.05315 .2998708 3.51 0.000 .465414 1.640886
------------------------------------------------------------------------------
Matching iterations...
...............................................................................................................................
> .............................................................................................................................
> ..........................................................................
TWO-SAMPLE T TEST
Test on common support
Number of observations (baseline): 404
Before After
Control: 78 - 78
Treated: 326 - 326
404 -
t-test at period = 0:
----------------------------------------------------------------------------------------------
Weighted Variable(s) | Mean Control | Mean Treated | Diff. | |t| | Pr(|T|>|t|)
---------------------+------------------+--------------+------------+---------+---------------
fte | 20.040 | 17.065 | -2.975 | 2.06 | 0.0397**
bk | 0.468 | 0.408 | -0.060 | 0.93 | 0.3507
kfc | 0.144 | 0.209 | 0.064 | 1.42 | 0.1552
roys | 0.272 | 0.252 | -0.020 | 0.34 | 0.7362
----------------------------------------------------------------------------------------------
*** p<0.01; ** p<0.05; * p<0.1
Attention: option kernel weighs variables in cov(varlist)
Means and t-test are estimated by linear regression