這期推送簡單介紹一下樣本選擇模型和處理效應模型,其中樣本選擇模型是一般意義上的Heckman
兩步法,后者則借鑒了Heckman
兩步法的構建思想,但又不完全等同于前者。模型介紹之后拌消,將利用help
文件中的示例數(shù)據(jù)與代碼簡單演示一下這兩個模型在Stata中的具體操作,然后簡單評述一下現(xiàn)階段文獻中對這兩個模型的理解與應用情況安券,最后結合一篇論文的公開數(shù)據(jù)與代碼進行結果復盤與二次驗證墩崩。
1、下劃線字體為鏈接侯勉,可點擊跳轉鹦筹;2、推文中的公式與代碼塊均可左右滑動址貌;3铐拐、該文首發(fā)于微信公眾號
DMETP
,歡迎關注练对;4遍蟋、需要本次推送所使用的數(shù)據(jù)和代碼的朋友,可以在公眾號后臺對話框內(nèi)回復關鍵詞heckman
螟凭。
一虚青、樣本選擇偏差與自選擇偏差
上期推送『雙重差分法 | PSM - DID』介紹了樣本選擇偏差與自選擇偏差的區(qū)別,最關鍵的一點在于兩者非隨機的選擇機制是不同的螺男。
樣本選擇偏差棒厘。樣本選擇偏差的非隨機選擇機制在于對樣本的選擇不隨機纵穿。在樣本數(shù)據(jù)的采集過程中,只對某部分群體進行調(diào)查奢人,但這部分群體與其他群體在某些方面的特征差異較大谓媒,因此根據(jù)這樣的樣本做回歸得到的普適性結論并不可信。體現(xiàn)在具體的數(shù)據(jù)集中就是达传,數(shù)據(jù)集中只有特定群體的樣本,或者迫筑,雖然有全部群體的所有解釋變量數(shù)據(jù)宪赶,但除特定群體之外的其他群體的被解釋變量數(shù)據(jù)缺失,在這兩種情況下進行的回歸脯燃,都將直接忽視其他群體的樣本信息(
y
缺失的樣本在參與回歸時將被drop掉)搂妻。實質(zhì)上,樣本選擇偏差說的就是參與回歸的樣本不能代表總體從而產(chǎn)生估計偏誤的問題辕棚。自選擇偏差欲主。自選擇偏差的非隨機選擇機制在于對自變量的選擇不隨機。在使用DID方法評估政策效應時逝嚎,一個明顯的事實就是扁瓢,相對于未實施政策的地區(qū)(控制組),實施政策的地區(qū)(處理組)通常情況下經(jīng)濟發(fā)展都較為發(fā)達补君、各類基礎設施建設都較為完善引几,而所謂的“政策效果評估”也即考察政策的經(jīng)濟效應,因此地區(qū)是否參與政策這一行為是內(nèi)生的挽铁。體現(xiàn)在回歸方程中就是伟桅,經(jīng)濟指標(如,
GDP
叽掘、人均GDP
楣铁、GDP
增長率等)作為被解釋變量y
,地區(qū)(在某時點)是否實施該項政策的啞元變量D
作為核心解釋變量更扁,但由于政策內(nèi)生盖腕,因此某些影響地區(qū)是否參與決策D
的(可觀測或不可觀測)因素也將同時影響經(jīng)濟指標y
,由于這些因素或者無法窮盡浓镜、或者影響形式未知赊堪、或者不可測度,因此被放到隨機擾動項中竖哩,造成解釋變量D
與擾動項ε
相關哭廉,即。實質(zhì)上相叁,自選擇偏差說的就是實驗組與控制組的先驗條件存在較大差異從而導致估計偏誤的問題遵绰。
兩者的區(qū)別辽幌。非隨機選擇機制的不同是兩者最大的區(qū)別,體現(xiàn)在具體回歸方程中就是椿访,樣本選擇偏差中被解釋變量
y
是否被觀測到或是否取值(而非取值大形谄蟆)是非隨機的;而自選擇偏差中啞元解釋變量D
的取值是非隨機的成玫。陳強(2014)《高級計量經(jīng)濟學及Stata應用(第二版)》第539頁認為加酵,樣本選擇問題通常不考慮某項目或政策的效應,故個體間的差異并不在于是否得到處理哭当,而在于是否能進入樣本(即被解釋變量是否可觀測)猪腕,通常
意味著
可觀測,而
則意味著
不可觀測钦勘。而在處理效應模型中陋葡,無論
或
,結果變量
均可觀測彻采。這種說法基本概括了兩者的區(qū)別腐缤,但有一個小問題,在樣本選擇偏差中肛响,
的取值與
是否可觀測并不存在必然的關系岭粤,因為
是一個確定并可準確測度的因素,而影響
是否可觀測的卻是一個不可觀測的潛變量特笋,這個潛變量由一系列控制變量與外生變量決定绍在。
二、兩個模型的估計思路
花大篇幅論述樣本選擇偏差與自選擇偏差這兩個問題雹有,自然是為了引出解決這兩個問題的具體方法偿渡。
2.1 樣本選擇模型
對于樣本選擇偏差導致的估計偏誤,將使用樣本選擇模型(Sample Selection Model)來緩解霸奕。樣本選擇偏差與樣本選擇模型(或稱Heckman兩步估計法溜宽、Heckit)由諾貝爾經(jīng)濟學獎獲得者Heckman教授于1979年提出。
[2] Heckman J J. Sample Selection Bias as a Specification Error[J]. Econometrica, 1979, 47(01): 153-161.
本質(zhì)上质帅,樣本選擇偏差其實是一個因遺漏變量而導致內(nèi)生性的特例(具體推導請看任意一本高級計量經(jīng)濟學教材适揉,如陳強(2014)《高級計量經(jīng)濟學及Stata應用(第二版)》第234頁、Hansen(2021)《ECONOMETRICS(Version 2021)》第852頁等)煤惩。
回歸方程中被遺漏的變量叫做逆米爾斯比率(Inverse Mill's Ratio嫉嘀,IMR
或),也被稱為風險函數(shù)(Hazard Function)魄揉,計算公式為:
其中剪侮,為第
個樣本在第一步回歸(選擇方程)的擬合值,
為標準正態(tài)的概率密度函數(shù)(Probability Density Function洛退,
pdf
)瓣俯,為累積分布函數(shù)(Cumulative Distribution Function杰标,
cdf
)。
因此彩匕,樣本選擇模型的估計思路是:首先腔剂,計算全部樣本的IMR
;隨后驼仪,將遺漏變量IMR
代入原回歸方程中掸犬,具體來說:
-
第一步 :用probit方法估計選擇方程,其中原回歸方程的被解釋變量
y
是否被觀測到或是否取值的虛擬變量y_dummy
作為probit的被解釋變量绪爸,解釋變量包括原回歸方程所有解釋變量和至少一個外生變量湾碎,該外生變量只影響y
是否取值,而不影響y
的大小毡泻,即滿足相關性和外生性的要求(但不是工具變量)胜茧。估計出所有變量的系數(shù)后粘优,將樣本數(shù)據(jù)代入至probit模型中仇味,計算出擬合值,再將
代入風險函數(shù)(公式
)中計算出
IMR
雹顺。這里有四點需要注意:第一丹墨,選擇方程的被解釋變量是原回歸方程中被解釋變量
y
是否被觀測到或是否取值的虛擬變量,即y_dummy
嬉愧,當y
取值不為空(包括取值為0)時贩挣,y_dummy
等于1,只有當y_dummy
取值為空(missing)時没酣,y_dummy
才等于0王财。關于這一點,現(xiàn)實應用中存在的問題是裕便,即便我們十分清楚存在樣本選擇偏差绒净,但由于前期數(shù)據(jù)搜集過程中直接忽視了y
取值為空的樣本,因此無法采用樣本選擇模型偿衰,因為樣本選擇模型第一步選擇方程使用的是所有樣本挂疆,包括y
取值為空的樣本和取值不為空的樣本。由于數(shù)據(jù)搜集過程存在問題下翎,因此許多文獻使用的所謂Heckman兩步法
實際上是一種“偽樣本選擇模型”缤言,與Heckman(1979)提出的兩步估計法(Two-Step Estimation,或Heckit)完全不同视事,而且也不是下文將要介紹的處理效應模型胆萧。第二,選擇方程的被解釋變量只能是原回歸方程中被解釋變量
y
是否被觀測到或是否取值的虛擬變量俐东,而不能是其他變量鸳碧,更不能是解釋變量是否取值的虛擬變量盾鳞。如果第一步回歸的被解釋變量是原回歸中解釋變量是否取值的虛擬變量,那么該模型就不再是樣本選擇模型了瞻离,而變成了下文將要介紹的處理效應模型腾仅,關于這一點,實際應用中經(jīng)常被搞混套利。第三推励,第一步選擇方程的解釋變量必須要包括原回歸中所有解釋變量和至少一個外生變量,也就是說肉迫,原回歸的解釋變量是選擇方程解釋變量的真子集验辞。如果只使用原回歸中一部分的解釋變量或不引入外生變量,那么就不能確保
IMR
與原回歸的隨機干擾項不相關喊衫,從而造成估計系數(shù)依然存在偏誤跌造。實際應用中,多數(shù)文獻并未引入外生變量族购,部分文獻甚至沒有匯報第一步選擇方程中的解釋變量壳贪,這樣的做法十分不推薦。此外寝杖,論文中如果引入了外生變量回季,就需要對相關性與外生性進行具體說明取募,其中相關性不能只從外生變量的回歸系數(shù)顯著這一個方面進行說明遭庶,還要從其他文獻和從理論上進行分析充尉;外生性的說明與之類似。第四只盹,第一步選擇方程只能使用probit模型進行回歸辣往,不能使用logit模型。在選擇方程中殖卑,假設擾動項服從正態(tài)分布站削,從而可以推導出將
IMR
代入原回歸方程可以緩解樣本選擇偏差問題,因此對于被解釋變量為0-1型的虛擬變量懦鼠,只能使用probit模型而不能使用logit模型钻哩,因為logit模型不具有擾動項服從正態(tài)分布的假設。但問題是肛冶,probit假設時間效應和個體效應與擾動項不相關街氢,即第一步選擇方程中只能使用隨機效應模型,不能使用更一般化的固定效應模型睦袖。實際應用中珊肃,多數(shù)文獻在匯報第一階段回歸結果時,在末尾加上“時間固定效應 - Yes”、“個體固定效應 - Yes”等伦乔,這樣的做法是有待商榷的厉亏,因為這根本就不是固定效應模型。
-
第二步 :將第一步回歸計算得到的
IMR
作為控制變量引入原回歸方程中烈和。如果IMR
顯著爱只,說明原回歸中存在樣本選擇偏差,需要使用樣本選擇模型進行緩解招刹,而其余變量的回歸系數(shù)則是緩解樣本選擇偏差后更為穩(wěn)健的結果恬试;如果IMR
不顯著,說明原回歸存在的樣本選擇偏差問題不是很嚴重疯暑,不需要使用樣本選擇模型训柴,當然,使用了也沒關系妇拯,因為引入控制變量的回歸結果可以與原回歸結果比較幻馁,作為一種形式的穩(wěn)健性檢驗。這里有兩點需要注意:第一越锈,兩步估計法中第二步回歸代入的是第一步回歸的結果仗嗦,因此第一步回歸的估計誤差也將被代入第二步,造成效率損失瞪浸,最終導致第二步估計系數(shù)的標準誤存在偏差儒将,影響p值進而影響系數(shù)顯著性吏祸。解決方法有兩種:一是對第二步回歸的標準誤進行校正處理对蒲,但標準誤的校正方法相對復雜,因此現(xiàn)階段采用這種解決方案的文獻幾乎沒有贡翘;二是使用極大似然估計(Maximum Likelihood Estimate蹈矮,MLE),直接對兩階段回歸進行整體估計鸣驱,這種方法在實際應用中使用較多泛鸟,但存在的問題在于如果樣本量太大,計算會非常耗時踊东。因此北滥,考慮到操作的簡便性、理解的直觀性以及對分布的假設更為寬松闸翅,目前國內(nèi)流行使用的還是兩步估計法再芋。
第二,第二步回歸使用的樣本數(shù)目少于第一步坚冀。假設所有的解釋變量(包括第一步的外生變量)都沒有缺失值济赎,僅被解釋變量
y
存在缺失值,那么第一步回歸中使用的樣本數(shù)目是全樣本,因為第一步選擇方程的被解釋變量y_dummy
設置為當y
取值不為空(包括y
取值為0)時y_dummy
等于1司训,y
取值為空時y_dummy
等于0构捡,故所有樣本的y_dummy
都有取值,因此都參與了第一步回歸壳猜。而第二步回歸中的被解釋變量y
存在缺失值勾徽,存在缺失值的樣本在參與回歸時將直接被剔除。因此第二步回歸使用的樣本數(shù)目少于第一步统扳,這也是樣本選擇模型一個最直觀的特征捂蕴,這與下文介紹的處理效應模型形成比較。
2.2 處理效應模型
對于自選擇偏差導致的估計偏誤闪幽,將使用處理效應模型(Treatment Effects Model)來緩解啥辨,該模型由Maddala(1983)提出。
[4] Maddala G S. Limited-Dependent and Qualitative Variables in Econometrics[M]. Cambridge University Press, 1986.
事實上盯腌,使用處理效應模型也只是一定程度上緩解自選擇偏差問題溉知。正如『上期推文的1.3小節(jié)』所論述的,決定個體是否參與實驗的因素可以分為兩種:
一種是可觀測因素腕够,如果個體參與實驗的決策依賴于可觀測因素级乍,就說明該個體的決策依可測變量選擇。
另一種是不可觀測因素帚湘,如果個體參與實驗的決策依賴于不可觀測因素玫荣,就說明該個體的決策依不可測變量選擇。
相應地大诸,解決自選擇偏差問題的方法也大致可以分為兩類:
解決依可測變量選擇問題的方法如上期介紹的
PSM
捅厂,通過控制處理組與控制組協(xié)變量的取值大致相等,從而達到變量選擇近似隨機的目的资柔。解決依不可測變量選擇問題的方法包括
PSM - DID
方法焙贷、斷點回歸方法(RDD
)以及這里的處理效應模型等。需要注意的是贿堰,單純的PSM
只能解決依可測變量選擇的內(nèi)生問題辙芍,而將PSM
和DID
結合(即PSM - DID
)就可以緩解一部分由不可觀測因素帶來的自選擇偏差問題。
處理效應模型的構建基于Heckman兩步法的思想羹与,但與Heckman兩步法或者樣本選擇模型有著本質(zhì)上的區(qū)別故硅,最明顯的區(qū)別在于,樣本選擇模型第一階段回歸的被解釋變量是第二階段被解釋變量y
是否取值的虛擬變量y_dummy
纵搁,并且y_dummy
不參與第二階段回歸吃衅;而處理效應模型第一階段回歸的被解釋變量是第二階段的核心解釋變量D
,并且D
的取值為0或1诡渴,不存在缺失值捐晶。
同樣菲语,自選擇偏差本質(zhì)上也是一個因遺漏變量而導致的內(nèi)生性問題,被遺漏的變量也是IMR
惑灵,但其計算公式與樣本選擇偏差存在區(qū)別山上。具體而言,存在自選擇偏差的回歸方程中被遺漏的IMR
計算公式為:
上式各字母的解釋同公式英支。關于
IMR
計算公式的更多細節(jié)佩憾,請參考Stata官方網(wǎng)站的回答(FAQs)。
明顯可以看到干花,公式說明在樣本選擇模型中妄帘,所有樣本的
IMR
均用一個公式來計算;公式說明在處理效應模型中池凄,
D
取值為1的樣本與D
取值為0的樣本的IMR
計算公式不同抡驼,而且由于處理效應模型第二階段回歸中所有樣本均參與了回歸,因此如果混用了計量模型將直接導致變量IMR
的取值錯誤肿仑,進而影響第二步回歸的估計結果致盟。
同樣,處理效應模型的估計思路是:首先尤慰,計算全部樣本的IMR馏锡;隨后,將遺漏變量IMR代入原回歸方程中伟端,具體來說:
-
第一步 :使用probit模型估計選擇方程杯道,其中選擇方程的被解釋變量是第二步回歸中的核心解釋變量
D
,該解釋變量為虛擬變量且不存在缺失值责蝠;選擇方程的解釋變量包括由第二階段回歸中所有解釋變量組成的控制變量集以及一個或多個外生變量組成的工具變量集Z
党巾,這里之所以直接說Z
是工具變量,是因為要求Z
滿足相關性與外生性玛歌,而相關性說的是Z
與原回歸方程中的解釋變量D
相關昧港,而非樣本選擇模型中的要求外生變量與y_dummy
相關擎椰。同樣支子,回歸模型只能使用probit方法,此外也不能使用固定效應模型达舒,在匯報時只能說是“個體效應 - Yes”或“時間效應 - Yes”值朋。- 需要注意的是,選擇方程中的工具變量應盡量避免使用
D
的滯后項D_lag
巩搏,原因在于如果是普通DID昨登,對于所有處理組來說政策實施時點都是一致的,那么在第一步回歸中贯底,D_lag
會因為多重共線性而被omitted丰辣;如果是多期DID撒强,盡管政策實施時點不固定,但總共的實施時點必然不會過多笙什,D_lag
同樣也會因為多重共線性而被omitted飘哨。而對于非DID的D
而言,滯后項D_lag
則有可能作為一個良好的工具變量琐凭,下文第六部分『公開數(shù)據(jù)的Stata實操』就是一個非DID的例子芽隆。
- 需要注意的是,選擇方程中的工具變量應盡量避免使用
-
第二步 :將樣本數(shù)據(jù)代入第一步選擇方程中,得到各個樣本的的擬合值
统屈,再將
代入處理效應模型的風險函數(shù)(公式
)中胚吁,計算得到各樣本的
IMR
,最后將IMR
作為額外的控制變量引入原回歸方程中愁憔,考察核心解釋變量D
以及IMR
的估計系數(shù)腕扶。如果IMR
的估計系數(shù)顯著,說明自選擇偏差問題不可忽視吨掌,此時核心解釋變量D
的系數(shù)就是考慮了自選擇偏差后的估計結果蕉毯,并可與基準回歸結果對比構成穩(wěn)健性檢驗;而如果IMR
的估計系數(shù)不顯著思犁,則說明自選擇偏差問題在原回歸中不明顯代虾,基準回歸結果本身就是可信的。- 需要注意的是激蹲,核心解釋變量
D
在兩步模型中均參與了回歸棉磨,其中第一階段回歸中D
作為被解釋變量,在第二階段回歸中作為解釋變量学辱,并且我們假設D
不存在缺失值乘瓤,因此處理效應模型兩步回歸中的樣本均是全樣本,這不同于樣本選擇模型策泣。
- 需要注意的是激蹲,核心解釋變量
2.3 估計思路的對比
總結一下樣本選擇模型和處理效應模型的估計思路的異同點衙傀。
相同點在于:
都是兩步估計法。Heckman于1979年提出的兩步估計法最開始是用于解決樣本選擇偏差的萨咕,即最初的Heckman兩步法指的就是樣本選擇模型统抬,后來有學者借鑒這種兩步估計法的思想,應用于解決自選擇偏差的處理效應模型危队。這兩個模型在估計思路上是一脈相承的聪建,而正是因為這種相似性,所以才導致各個學者對這兩個模型的錯誤理解與錯誤應用茫陆,這種錯誤在現(xiàn)階段的文獻中較為常見金麸。
都可以使用MLE進行模型的整體估計。兩步估計法(如2SLS簿盅、PSM - DID以及這里的樣本選擇模型和處理效應模型等)一個明顯的缺陷是挥下,第一步估計的誤差將被帶入第二步揍魂,導致效率損失。而使用MLE從整體上進行參數(shù)估計可以避免這種問題棚瘟,但如果樣本量過大愉烙,MLE估計耗時較長,且MLE對分布的假設較為嚴格解取,因此需要在估計的精準性步责、操作的簡便性等方面進行權衡。
第一階段回歸都需要引入外生變量禀苦,同時應包括第二階段的所有外生解釋變量蔓肯。引入的外生變量需滿足相關性和外生性的要求,即與選擇方程中的被解釋變量在理論上和統(tǒng)計上均具有相關性振乏,而與第二步回歸的被解釋變量不具有直接的相關關系蔗包。引入外生變量的目的是確保第一步計算得到的
IMR
在引入原回歸方程后不與干擾項相關。該外生變量在處理效應模型中可以直接稱作工具變量慧邮。此外调限,如果核心解釋變量D
是DID模型的did
項,那么為了防止出現(xiàn)多重共線性误澳,應該盡量避免使用D
的滯后項D_lag
作為工具變量耻矮。事實上,如果找到了一個良好的工具變量忆谓,也完全能夠使用2SLS解決內(nèi)生性問題裆装。此外,兩個模型除了都需要在第一階段引入至少一個外生變量倡缠,第一階段回歸中的其余控制變量也應該是第二階段回歸中所有的控制變量哨免,即應該包括所有的外生解釋變量,原因在于保證兩階段估計的一致性昙沦,詳情請看陳強教授的推文『工具變量法(五): 為何第一階段回歸應包括所有外生解釋變量』琢唾。然而,部分文獻在第一階段并未包括第二階段所有的外生解釋變量盾饮,少部分文獻甚至根本就不引入第二階段的外生解釋變量(如采桃,考慮滯后效應,直接引入第二階段外生解釋變量的滯后項)丐谋,并且在Stata處理效應模型的官方命令etregress
的help
文件的演示案例中芍碧,第一階段回歸也并未包括所有的外生解釋變量,原因可能在于IMR
是一個非線性項号俐,因此不包含所有外生解釋變量引起的內(nèi)生性問題可能并沒有2SLS那么嚴重。第一步回歸都只能是probit模型定庵。由于logit模型不具備擾動項服從正態(tài)分布的假設吏饿,如果使用logit模型估計選擇方程踪危,將直接導致
IMR
計算錯誤,因為Heckman(1979)在推導IMR
時猪落,假設選擇方程的隨機擾動項服從正態(tài)分布贞远。這與PSM不同,PSM估計概率方程可以使用logit模型笨忌,也可以使用probit模型蓝仲,并且實際使用中流行的是logit模型。然而官疲,選擇方程使用probit模型進行估計有一個問題不可忽視袱结,那就是probit(包括Stata的xtprobit
)不能估計固定效應模型,因此即便在回歸方程中引入時間虛擬變量和個體虛擬變量途凫,控制的也只是“時間效應”和“個體效應”垢夹,不能加入“固定”二字。
不同點在于:
解決的問題不同维费。樣本選擇模型解決的是樣本選擇偏差導致的內(nèi)生性問題果元,處理效應模型解決(或者“緩解”)的是依不可觀測因素導致的自選擇偏差問題。在實際應用中犀盟,部分文獻在分析內(nèi)生性問題時將樣本選擇偏差與自選擇偏差混淆而晒,從而使用的模型也是不恰當?shù)摹T跀?shù)據(jù)搜集過程中阅畴,對被解釋變量存在缺失值的樣本欣硼,多數(shù)文獻的做法是直接把這些樣本剔除,因而即便文章中考慮到了樣本選擇偏差問題恶阴,我們也無法使用樣本選擇模型(或Heckman兩步法)诈胜。事實上,囿于數(shù)據(jù)缺陷冯事,大多數(shù)實證類論文都不具備實施Heckman兩步法的條件焦匈。對于DID類的實證論文,對內(nèi)生性的分析角度應該更多考慮從自選擇偏差切入昵仅,而非樣本選擇偏差缓熟,因為各樣本處理組虛擬變量
D
的取值本身就提供了自選擇偏差分析的條件,即D
取值為1的樣本與D
取值為0的樣本在某些方面是否存在明顯的特征差異摔笤?或者够滑,是否存在某些因素影響了各樣本是否實施政策的決定,而這些因素在兩組間又是否存在巨大差異吕世?同時彰触,這些因素是否在理論與統(tǒng)計意義上影響我們想研究的經(jīng)濟指標?在這樣的分析之后命辖,就可以使用處理效應模型來緩解因自選擇偏差而導致的估計偏誤况毅。變量的設置不同分蓖。在樣本選擇模型第一階段回歸方程中,被解釋變量是原方程中的被解釋變量
y
是否被觀測到的虛擬變量y_dummy
尔许,該變量不參與第二階段回歸么鹤,同時第一階段引入的外生變量直接影響的是y_dummy
。在處理效應模型第一階段回歸方程中味廊,被解釋變量是原方程的核心解釋變量D
蒸甜,D
取值為0或1,且不存在缺失值余佛,該變量還同時參與了第二階段回歸柠新,此外第一階段引入的外生變量(或稱工具變量)直接影響的是D
。各階段樣本參與回歸的數(shù)目不同衙熔。假設除關鍵變量登颓,其余變量都不存在缺失值,那么對于樣本選擇模型來說红氯,第一階段回歸的解釋變量均不存在缺失值框咙,被解釋變量
y_dummy
取值為0或1,也不存在缺失值痢甘,因此選擇方程中參與回歸的樣本是全樣本喇嘱,第二階段由于被解釋變量y
本身就存在缺失值,因此參與第二階段回歸的樣本不是全樣本塞栅,從而第一階段的樣本多于第二階段者铜。對于處理效應模型來說,所有變量均不存在缺失值放椰,因此兩階段參與回歸的樣本是相同的作烟,雖然在第一階段引入滯后項D_lag
作為工具變量的情況下會損失一部分樣本,但由于計算出來的IMR
同樣也存在缺失值砾医,從而第二階段參與回歸的樣本也將與第一階段相同拿撩。IMR
的計算公式不同。從公式和公式
就可以看出如蚜,對于樣本選擇模型压恒,各樣本的
IMR
計算公式相同;對于處理效應模型來說错邦,D
取值為1的樣本和D
取值為0的樣本IMR
計算公式并不相同探赫,并且所有樣本的IMR
均參與了第二步回歸。所以撬呢,如果混淆了樣本選擇模型和處理效應模型伦吠,將直接導致變量IMR
的計算錯誤,反而進一步造成了估計偏誤。
下面推文的第三讨勤、第四部分將分別使用示例數(shù)據(jù)演示樣本選擇模型和處理效應模型在Stata中的規(guī)范操作箭跳。