天鷹 (中南財(cái)大 博士研究生)
E-mail:yanbinglh@163.com
目錄
- 背景
- 斷點(diǎn)回歸模型介紹
- 斷點(diǎn)回歸建模步驟
- 斷點(diǎn)回歸模型【Stata具體操作】
1. 背景
2018年, 四川省二本文科分?jǐn)?shù)線: 492分。
對(duì)于高考成績(jī)?yōu)?89, 490, 491, 492, 493, 494的考生歇万, 可認(rèn)為他們?cè)诟鞣矫妫ǎú唬?可觀測(cè)因素) 都沒(méi)有系統(tǒng)差異。甚至可以認(rèn)為筐钟, 他們的成績(jī)具有一定的隨機(jī)性, 有的考生發(fā)揮好的赋朦, 492, 493, 494達(dá)到了錄取分?jǐn)?shù)線( 處理組)篓冲;有的考生運(yùn)氣差點(diǎn), 489, 490, 491未達(dá)到錄取分?jǐn)?shù)線( 控制組) 宠哄。 ( 即壹将, 選( 猜) 錯(cuò)一道選擇題, 可能出現(xiàn)完全不同的結(jié)果琳拨。 )
一般地瞭恰, 對(duì)于較小的 θ >0, 高考成績(jī)落在[492 - θ, 492 + θ]之
間的考生狱庇, 好像是被隨機(jī)分組了一般惊畏。
① 對(duì)于水平差不多的考生, 若蒙對(duì)一道選擇題密任, 可能就考上了大學(xué)颜启; 相反, 若蒙錯(cuò)一題浪讳, 可能就上不了本科缰盏。 好像是上天對(duì)考分在此區(qū)間的考生能否考上大學(xué),進(jìn)行擲硬幣。
② 然而口猜, 對(duì)于600以上或300分以下的考生负溪, 他們的成績(jī)一般很難用運(yùn)氣好壞來(lái)解釋。故济炎, 不予考慮川抡。
由于是隨機(jī)分組, 因此须尚, 可一致估計(jì)在分?jǐn)?shù)線492附近的局部平均處理效應(yīng)(Local average treatment effect崖堤, 記為 LATE)
注意
① 樣本分組是否具有隨機(jī)性。 可通過(guò)檢驗(yàn)協(xié)變量在斷點(diǎn)兩側(cè)的分布是否存在顯著性差異來(lái)實(shí)現(xiàn)耐床。
② 斷點(diǎn)回歸密幔, 是假設(shè)存在局部隨機(jī)分組的。
③ 若分組變量為年齡(時(shí)間)撩轰,地理區(qū)域胯甩,存在非隨機(jī)斷點(diǎn)設(shè)計(jì)。
④ 斷點(diǎn)回歸得到的結(jié)論钧敞, 一般不能推廣至其他樣本蜡豹。
2. 斷點(diǎn)回歸模型介紹
2.1 精確斷點(diǎn)回歸模型
其中, X的取值范圍為
,
為L(zhǎng)ATE的估計(jì)量。
注意
① 對(duì)于模型(1)溉苛,由于
未知,一般采用非參數(shù)的核回歸的方法對(duì)參數(shù)進(jìn)行估計(jì)弄诲。
② 在模型(1)中愚战,可加入其它影響Yi 的影響因素Wi。
③ 若Wi 在處齐遵,也存在跳躍寂玲,此時(shí),不宜將
全部歸功于上大學(xué)的處理效應(yīng)梗摇。
④ 斷點(diǎn)回歸的前提假設(shè):的條件密度在
處連續(xù)拓哟。
⑤ 內(nèi)生分組: 個(gè)體事先知道分組規(guī)則, 并可通過(guò)自身操作完全控制分組變量伶授, 可自行選擇進(jìn)入控制組或處理組( 實(shí)驗(yàn)組)断序,導(dǎo)致斷點(diǎn)附近的內(nèi)生分組而非隨機(jī)分組,最終導(dǎo)致斷點(diǎn)回歸失效糜烹。
⑥ McCrary(2008)提出通過(guò)檢驗(yàn)分組變量X在斷點(diǎn)兩側(cè)的密度函數(shù)是否連續(xù)违诗, 來(lái)判斷是否存在內(nèi)生分組。
建議
① 分別匯報(bào)三角核與矩形核的局部線性回歸結(jié)果
② 分別匯報(bào)使用不同帶寬的結(jié)果
③ 分別匯報(bào)(不) 包括協(xié)變量的情形
④ 進(jìn)行模型設(shè)定檢驗(yàn)疮蹦, 包括檢驗(yàn)分組變量诸迟、 協(xié)變量的條件密度在斷
點(diǎn)處, 是否連續(xù)。
2.2 模糊斷點(diǎn)回歸模型
與精確斷點(diǎn)回歸不同之處
- 1.在模糊斷點(diǎn)的情形下阵苇, 處理變量D 不完全由分組變量X 決定壁公, 影響處理變量D 的其他因素也會(huì)影響Y,故绅项, 對(duì)于模型(1)而言紊册, OLS估計(jì)結(jié)果不一致。
- 2.例如趁怔, 影響上大學(xué)湿硝, 除了高考分?jǐn)?shù)外, 還有加分項(xiàng)等润努。
模糊斷點(diǎn)附近的局部平均處理效應(yīng)(Local average treatment effect关斜,記為L(zhǎng)ATE)
假定,給定铺浇,則
3. 斷點(diǎn)回歸建模步驟
- 輸入數(shù)據(jù)
- 描述性分析
- 若是橫截面數(shù)據(jù)痢畜, 請(qǐng)?zhí)^(guò)此步。( 面板單位根檢驗(yàn)( 一般T>=20鳍侣,T較小丁稀,單位根檢驗(yàn)方法功效低。) 若變量平穩(wěn)倚聚,進(jìn)行如下操作线衫,)
-
分析樣本是否滿足斷點(diǎn)回歸的條件。
理論操作流程圖
精確斷點(diǎn)回歸與模糊斷點(diǎn)回歸如何選擇
- g newwin=(d>=0)
- tabulate newwin win
- 或者
- gen xw=newwin-win
- list xw
- 此處惑折, 分組變量d的斷點(diǎn)是0授账, 生成新虛擬變量newwin
- 因此, 若newwin與處理變量win完全相等(newwin-win全部為0) 則屬于精確斷點(diǎn)回歸惨驶; 否則白热, 屬于模糊斷點(diǎn)回歸。 見(jiàn)下圖粗卜。
精確斷點(diǎn)回歸的建議
① 分別匯報(bào)三角核與矩形核的局部線性回歸結(jié)果
② 分別匯報(bào)使用不同帶寬的結(jié)果
③ 分別匯報(bào)(不) 包括協(xié)變量的情形
④ 進(jìn)行模型設(shè)定檢驗(yàn)屋确, 包括檢驗(yàn)分組變量、 協(xié)變量的條件密度在斷點(diǎn)處续扔,是否連續(xù)攻臀。
4. 斷點(diǎn)回歸模型【Stata具體操作】
* ssc install rd, replace /----安裝rd命令包------/
------------------------------rd------------------------------------
rd outcomevar [treatmentvar] assignmentvar [if] [in] [weight] [, options]
outcomevar :結(jié)果變量。
treatmentvar :處理變量测砂。若忽略處理變量treatmentvar茵烈,則默認(rèn)為【精確斷點(diǎn)】回歸,
且根據(jù)分組變量assignmentvar來(lái)計(jì)算處理變量砌些,
若assignmentvar>=z0呜投,則treatmentvar=1加匈,反之等于0。
assignmentvar :分組變量 Z仑荐。
----選項(xiàng)----
mbw(numlist) :指定最優(yōu)窗寬的倍數(shù)雕拼,默認(rèn)為mbw(100,50,200),即最優(yōu)窗寬的1,0.5,2倍
進(jìn)行局部線性回歸粘招。
z0(real) :斷點(diǎn)位置啥寇,默認(rèn)為z0(0),即原點(diǎn)洒扎。
strineq :當(dāng)assignmentvar嚴(yán)格大于z0時(shí)辑甜,treatmentvar=1,反之等于0袍冷。
covar(varlist) :指定加入局部線性回歸的控制變量磷醋。
x(varlist) :檢驗(yàn)這些控制變量在斷點(diǎn)處是否存在跳躍。
ddens :要求計(jì)算分組變量Z密度的斷點(diǎn)胡诗。
s(stubname) :要求估計(jì)結(jié)果保存為以stubname為開頭的新變量邓线。
graph :根據(jù)所選的每一窗寬,畫出對(duì)應(yīng)的局部線性回歸圖煌恢。
noscatter :不畫散點(diǎn)圖骇陈。
cluster(varlist) :方差協(xié)方差穩(wěn)健估計(jì)。
scopt(string) :為散點(diǎn)圖提供選項(xiàng)列表瑰抵。
lineopt(string) :為多個(gè)重疊的直線提供選項(xiàng)列表你雌。
n(real) :指定在計(jì)算局部線性回歸的點(diǎn)的個(gè)數(shù)。
bwidth(real) :局部線性回歸的窗寬二汛。默認(rèn)使用Imbens and Kalyanaraman (2009)給出的最優(yōu)窗寬估計(jì)匪蝙。
bdep :畫斷點(diǎn)回歸估計(jì)量與窗寬的圖形,分析斷點(diǎn)回歸估計(jì)量對(duì)窗寬的依賴程度习贫。
oxline :在bdep畫出的圖的最優(yōu)窗寬上畫一條直線,方便識(shí)別千元。
bingraph :畫箱圖而非散點(diǎn)圖苫昌。
binvar(varname) :指定變量取計(jì)算箱(binned means)。
kernel(rectangle) :使用矩形核(均勻核)幸海,默認(rèn)使用三角核祟身。
-----------------------------------------------------------------------------*/
McCrary(2008)檢驗(yàn)分組變量的密度函數(shù)在斷點(diǎn)處是否連續(xù)。
依此判斷物独,是否為【內(nèi)生分組】問(wèn)題袜硫。
【注意】需要安裝DCdensity命令包,
用sysdir找到系統(tǒng)位置挡篓,并復(fù)制到C:\ado\plus----
- 下載地址:https://eml.berkeley.edu/~jmccrary/DCdensity/
DCdensity d, breakpoint(0) generate(Xj Yj r0 fhat se_fhat) graphname(testrd.eps)
- 若不拒絕原假設(shè)婉陷,說(shuō)明無(wú)內(nèi)生分組帚称,可以考慮進(jìn)行斷點(diǎn)回歸;
- 否則秽澳,不可進(jìn)行斷點(diǎn)回歸闯睹。
- 此處,檢驗(yàn)不存在內(nèi)生分組担神,故【繼續(xù)】下面的操作楼吃。
- 4.1判斷是【精確斷點(diǎn)】回歸還是【模糊斷點(diǎn)】回歸?
g newwin=(d>=0)
tabulate newwin win
*或者妄讯,等價(jià)于
gen xw=newwin-win
l xw
| Dem Won Race
newwin | 0 1 | Total
-----------+----------------------+----------
0 | 131 0 | 131
1 | 0 218 | 218
-----------+----------------------+----------
Total | 131 218 | 349
此處孩锡,分組變量d的斷點(diǎn)是0,生成新虛擬變量newwin
因此亥贸,若newwin與處理變量win完全相等(即newwin-win全部等于0)躬窜,則屬于精確斷點(diǎn)回歸;否則砌函,屬于模糊斷點(diǎn)回歸斩披。
此處,是【精確斷點(diǎn)】回歸讹俊,故【繼續(xù)】下面的操作垦沉。
- 4.2選擇最優(yōu)窗寬:設(shè)置不同窗寬,通過(guò)圖形選擇
- 注意:選擇最優(yōu)窗寬時(shí)仍劈,可以考慮加協(xié)變量進(jìn)行選擇厕倍。大家自己嘗試。從默認(rèn)的3種窗寬mbw(100,50,200)中贩疙,選一個(gè)最優(yōu)的讹弯。
rd lne d, gr bdep oxline
1倍帶寬
0.5倍帶寬
2倍帶寬
最優(yōu)帶寬
- 4.3檢驗(yàn)協(xié)變量是否在斷點(diǎn)處,存在跳躍
rd lne d, mbw(105) x(i votpop black blucllr ///
farmer fedwrkr forborn manuf unemplyd union ///
urban veterans)
Two variables specified; treatment is
assumed to jump from zero to one at Z=0.
Assignment variable Z is d
Treatment variable X_T unspecified
Outcome variable y is lne
Estimating for bandwidth .29287775925349
Estimating for bandwidth .3075216472161645
------------------------------------------------------------------------------
lne | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
i | -.0044941 .1208008 -0.04 0.970 -.2412592 .2322711
votpop | -.0082128 .0062347 -1.32 0.188 -.0204326 .0040071
black | -.0036113 .020048 -0.18 0.857 -.0429046 .0356821
blucllr | .0026193 .0057316 0.46 0.648 -.0086144 .013853
farmer | -.0078737 .0037566 -2.10 0.036 -.0152366 -.0005109
fedwrkr | .0001617 .0037584 0.04 0.966 -.0072046 .0075281
forborn | -.015235 .0120682 -1.26 0.207 -.0388882 .0084183
manuf | .0147223 .0100352 1.47 0.142 -.0049463 .0343908
unemplyd | -.0007393 .0019069 -0.39 0.698 -.0044769 .0029982
union | -2.25e-06 3.66e-06 -0.61 0.540 -9.43e-06 4.94e-06
urban | .0370978 .0559882 0.66 0.508 -.072637 .1468326
veterans | .0015796 .0036205 0.44 0.663 -.0055164 .0086756
lwald | -.0773955 .1056062 -0.73 0.464 -.28438 .1295889
i105 | .0005436 .1182977 0.00 0.996 -.2313157 .2324029
votpop105 | -.0085126 .0061902 -1.38 0.169 -.0206451 .0036198
black105 | -.0062817 .0198615 -0.32 0.752 -.0452096 .0326461
blucllr105 | .0028461 .0056454 0.50 0.614 -.0082187 .0139109
farmer105 | -.007813 .0036862 -2.12 0.034 -.0150379 -.0005881
fedwrkr105 | .0002194 .0036927 0.06 0.953 -.0070181 .007457
forborn105 | -.0158846 .0120652 -1.32 0.188 -.039532 .0077628
manuf105 | .0152231 .0098664 1.54 0.123 -.0041146 .0345609
unemplyd105 | -.0007823 .0018752 -0.42 0.677 -.0044577 .0028931
union105 | -2.27e-06 3.62e-06 -0.63 0.529 -9.36e-06 4.81e-06
urban105 | .0363479 .0549041 0.66 0.508 -.0712622 .143958
veterans105 | .0017615 .0035538 0.50 0.620 -.0052038 .0087268
lwald105 | -.0764121 .1035813 -0.74 0.461 -.2794277 .1266035
------------------------------------------------------------------------------
- 檢驗(yàn)結(jié)果表明这溅,變量farmer的P值小于0.05组民,說(shuō)明變量farmer在斷點(diǎn)處存在跳躍,故剔除(注意內(nèi)生性問(wèn)題)悲靴。故臭胜,【繼續(xù)】下面的操作。
rd lne d, mbw(25(5)300) cov(i votpop black blucllr ///
fedwrkr forborn manuf unemplyd union ///
urban veterans) bdep ox
此處癞尚,最優(yōu)窗寬是105耸三,選100也可以的。
- 4.4【含協(xié)變量】的斷點(diǎn)回歸
rd lne d, gr mbw(100) covar(i votpop black blucllr ///
fedwrkr forborn manuf unemplyd union ///
urban veterans)
Two variables specified; treatment is
assumed to jump from zero to one at Z=0.
Assignment variable Z is d
Treatment variable X_T unspecified
Outcome variable y is lne
Command used for graph: lpoly; Kernel used: triangle (default)
Bandwidth: .29287776; loc Wald Estimate: -.07739553
Estimating for bandwidth .29287775925349
------------------------------------------------------------------------------
lne | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwald | .0253914 .0957051 0.27 0.791 -.1621871 .2129699
------------------------------------------------------------------------------
estimates store RD1
* 將窗寬mbw(100,105)對(duì)應(yīng)的情形都估計(jì)一遍浇揩。默認(rèn)三角核
rd lne d, mbw(105) covar(i votpop black blucllr ///
fedwrkr forborn manuf unemplyd union ///
urban veterans)
estimates store RD2
Two variables specified; treatment is
assumed to jump from zero to one at Z=0.
Assignment variable Z is d
Treatment variable X_T unspecified
Outcome variable y is lne
Estimating for bandwidth .29287775925349
Estimating for bandwidth .3075216472161645
------------------------------------------------------------------------------
lne | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwald | .0253914 .0957051 0.27 0.791 -.1621871 .2129699
lwald105 | .0286942 .0941935 0.30 0.761 -.1559216 .2133101
------------------------------------------------------------------------------
* 將窗寬mbw(100,105)對(duì)應(yīng)的情形都估計(jì)一遍仪壮。矩形核
rd lne d, mbw(105) covar(i votpop black blucllr ///
fedwrkr forborn manuf unemplyd union ///
urban veterans) kernel(rectangle)
estimates store RD3
Two variables specified; treatment is
assumed to jump from zero to one at Z=0.
Assignment variable Z is d
Treatment variable X_T unspecified
Outcome variable y is lne
Estimating for bandwidth .2300421672681958
Estimating for bandwidth .2415442756316056
------------------------------------------------------------------------------
lne | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwald | .0807209 .0965759 0.84 0.403 -.1085644 .2700063
lwald105 | .0801577 .094423 0.85 0.396 -.1049079 .2652233
------------------------------------------------------------------------------
三種情形回歸結(jié)果匯總
esttab RD1 RD2 RD3 using testrd1.doc, ar2(%8.4f) se(%8.4f) nogap brackets aic bic mtitles replace
------------------------------------------------------------
(1) (2) (3)
RD1 RD2 RD3
------------------------------------------------------------
lwald 0.0254 0.0254 0.0807
[0.0957] [0.0957] [0.0966]
lwald105 0.0287 0.0802
[0.0942] [0.0944]
------------------------------------------------------------
N 349 349 349
adj. R-sq
AIC . . .
BIC . . .
------------------------------------------------------------
Standard errors in brackets
* p<0.05, ** p<0.01, *** p<0.001