這篇文章是和小伙伴L(zhǎng)F協(xié)作完成的
傾向值匹配(propensity score matching,PSM)
一、為什么需要匹配?
隨機(jī)實(shí)驗(yàn)很好捆愁,但成本高,做起來有時(shí)無法落地窟却,不切實(shí)際昼丑。比如為了研究大學(xué)教育對(duì)收入的影響,不可能找一批已經(jīng)考上大學(xué)的學(xué)生夸赫,隨機(jī)分為兩組菩帝,一組是上大學(xué),一組不去上大學(xué)茬腿,然后等畢業(yè)再來看兩組的收入差異吧呼奢。
在多數(shù)情況下,研究者只有觀測(cè)數(shù)據(jù)切平,沒有實(shí)驗(yàn)數(shù)據(jù)握础,處理組和控制組的成員不是由隨機(jī)分配產(chǎn)生,而是可以自由選擇參與其中悴品。正是由于選擇效應(yīng)的存在禀综,并非隨機(jī)分組简烘,傾向值匹配(propensity score matching,PSM)就有用武之地啦。
二定枷、匹配的思路是什么孤澎?
針對(duì)非隨機(jī)分組的個(gè)體,匹配估計(jì)量的基本思路是:找到屬于控制組的某個(gè)個(gè)體j依鸥,使其與屬于處理組的個(gè)體i在可測(cè)變量的取值上盡可能的相似(“匹配”)亥至,即Xi = Xj
又由于給定Xi,Y0i贱迟,Y1i對(duì)立于Di ,因此個(gè)體i與j進(jìn)入處理組的概率詳盡姐扮,具有可比性。
因此可以將Yj作為Y0i的估計(jì)量衣吠;進(jìn)一步茶敏,可以將Y1i-Yj作為對(duì)個(gè)體i的處理效應(yīng)。
什么是匹配缚俏?
匹配是一種非實(shí)驗(yàn)方法惊搏,是對(duì)于一些沒有采用或不方便采用實(shí)驗(yàn)方法區(qū)分處理組和控制組的數(shù)據(jù)采用的一種近似實(shí)驗(yàn)的方法。
匹配方法假定忧换,控制協(xié)變量之后恬惯,具有相同特征的個(gè)體對(duì)政策具有相同的反應(yīng)。 換句話說亚茬,不可觀測(cè)因素不影響個(gè)體是否接受政策干預(yù)的決策酪耳,選擇僅僅發(fā)生在可觀測(cè)變量上。
因此刹缝,對(duì)每一個(gè)實(shí)驗(yàn)組個(gè)體而言碗暗,可以根據(jù)可觀測(cè)特征為其選擇一個(gè)控制組個(gè)體構(gòu)成反事實(shí)。
匹配的目的在于確保干預(yù)效應(yīng)估計(jì)梢夯,是建立在可比個(gè)體之間的不同結(jié)果基礎(chǔ)上言疗。最簡(jiǎn)單的匹配方式是將處理組和控制組中協(xié)變量值相同的兩個(gè)個(gè)體進(jìn)行配對(duì)分析。
舉個(gè)栗子
對(duì)于控制組的個(gè)體1颂砸,由于X1 = X5 =2 噪奄,因此個(gè)體1與處理組的個(gè)體5匹配。Y01的估計(jì)量為7人乓,Y11的估計(jì)量為8梗醇;
對(duì)于控制組的個(gè)體2,沒有相同的匹配撒蟀,只有近似的匹配X4 = X6 =3叙谨。Y02的估計(jì)量為8,而Y12的估計(jì)量為(Y4 + Y6)/2 = 7.5
對(duì)于整個(gè)樣本的匹配結(jié)果保屯,此時(shí)需要計(jì)算平均處理效應(yīng)(又稱“平均因果效應(yīng)ACE”):
ATE = E(Y1i-Y0i) =((8-7)+(7.5-8)+(7.5-6)+(9-7.5)+(8-7)+(6-7.5)+(7-5))/7 = 0.143
關(guān)于平均處理效應(yīng)ATE
但我們更關(guān)心參加培訓(xùn)的匹配結(jié)果手负,即只需要計(jì)算參與者平均處理效應(yīng)(又叫“參與者處理效應(yīng)TOT”)
ATT = E(Y1i-Y0i|Di=1)=((9-7.5)+(8-7)+(6-7.5)+(7-5))/4=0.25
但如果協(xié)變量不是某一個(gè)變量涤垫,而是一組變量時(shí),這種簡(jiǎn)單的匹配方式就不再適用竟终。
在現(xiàn)實(shí)生活中蝠猬,數(shù)據(jù)偏差和混雜變量比較多。由于存在很多其他變量混淆自變量和因變量之間的關(guān)系统捶,研究者很難直接探索二者間的凈效果榆芦。這些混淆變量的影響通常被稱為選擇性誤差,需要通過傾向值匹配的方法來控制和消除喘鸟。
三匆绣、什么是傾向值?
傾向值指的是什黑,被研究個(gè)體在控制可觀察到的混雜變量的情況下崎淳,接受某種干預(yù)的條件概率。
給定Xi愕把,個(gè)體i的傾向值(傾向得分)為個(gè)體i進(jìn)入處理組的條件概率拣凹,即P(Xi) = P(Di=1|X=Xi)
以Di={0,1}表示個(gè)體i是否參加培訓(xùn)
四、什么是傾向值匹配恨豁?
PSM的實(shí)質(zhì)就是把許多可觀察到的混雜變量整合成一個(gè)變量:傾向值嚣镜。
由于具有相同或相近傾向值的個(gè)體的其他變量在分布上具有相同的特征,故將處理組和控制組的個(gè)體根據(jù)傾向值進(jìn)行匹配橘蜜,從而平衡兩組樣本的基線數(shù)據(jù)菊匿,達(dá)到類似隨機(jī)分組的效果。
由于混雜變量在傾向值匹配的過程中被控制起來扮匠,兩組個(gè)體在結(jié)果上的差異就只能歸因于有無干預(yù)措施。
回到大學(xué)教育對(duì)收入影響的例子凡涩,PSM想要解決的問題就是棒搜,由于A同學(xué)已經(jīng)讀了大學(xué),如何估計(jì)出A要是不讀大學(xué)活箕,A的收入會(huì)是多少力麸?**
傾向值匹配能從樣本中,對(duì)每個(gè)人讀大學(xué)的概率進(jìn)行估計(jì)育韩。然后選出與 A 同學(xué)有相似念大學(xué)的概率克蚂,卻沒有去讀的同學(xué) B 作為 A 同學(xué)的對(duì)照,然后再來看他們的區(qū)別筋讨。當(dāng)樣本中的每位“大學(xué)生 A” 都找到了匹配的“非大學(xué)生 B” 埃叭,就能對(duì)這兩組樣本進(jìn)行比較研究了。
關(guān)于stata操作放在下一篇推文
參考資料:
- PSM與政策評(píng)估(附Stata實(shí)現(xiàn))阿虎定量筆記
- 應(yīng)用計(jì)量經(jīng)濟(jì)學(xué)講稿 許文立
公眾號(hào)推薦
更多推薦:
推薦|優(yōu)質(zhì)公眾號(hào)