模型系列-PSM原理介紹

這篇文章是和小伙伴L(zhǎng)F協(xié)作完成的

傾向值匹配(propensity score matching,PSM)

一、為什么需要匹配?

隨機(jī)實(shí)驗(yàn)很好捆愁,但成本高,做起來有時(shí)無法落地窟却,不切實(shí)際昼丑。比如為了研究大學(xué)教育對(duì)收入的影響,不可能找一批已經(jīng)考上大學(xué)的學(xué)生夸赫,隨機(jī)分為兩組菩帝,一組是上大學(xué),一組不去上大學(xué)茬腿,然后等畢業(yè)再來看兩組的收入差異吧呼奢。

在多數(shù)情況下,研究者只有觀測(cè)數(shù)據(jù)切平,沒有實(shí)驗(yàn)數(shù)據(jù)握础,處理組和控制組的成員不是由隨機(jī)分配產(chǎn)生,而是可以自由選擇參與其中悴品。正是由于選擇效應(yīng)的存在禀综,并非隨機(jī)分組简烘,傾向值匹配(propensity score matching,PSM)就有用武之地啦。

二定枷、匹配的思路是什么孤澎?

針對(duì)非隨機(jī)分組的個(gè)體,匹配估計(jì)量的基本思路是:找到屬于控制組的某個(gè)個(gè)體j依鸥,使其與屬于處理組的個(gè)體i在可測(cè)變量的取值上盡可能的相似(“匹配”)亥至,即Xi = Xj

又由于給定Xi,Y0i贱迟,Y1i對(duì)立于Di ,因此個(gè)體i與j進(jìn)入處理組的概率詳盡姐扮,具有可比性。

因此可以將Yj作為Y0i的估計(jì)量衣吠;進(jìn)一步茶敏,可以將Y1i-Yj作為對(duì)個(gè)體i的處理效應(yīng)。

什么是匹配缚俏?

匹配是一種非實(shí)驗(yàn)方法惊搏,是對(duì)于一些沒有采用或不方便采用實(shí)驗(yàn)方法區(qū)分處理組和控制組的數(shù)據(jù)采用的一種近似實(shí)驗(yàn)的方法。

匹配方法假定忧换,控制協(xié)變量之后恬惯,具有相同特征的個(gè)體對(duì)政策具有相同的反應(yīng)。 換句話說亚茬,不可觀測(cè)因素不影響個(gè)體是否接受政策干預(yù)的決策酪耳,選擇僅僅發(fā)生在可觀測(cè)變量上。

因此刹缝,對(duì)每一個(gè)實(shí)驗(yàn)組個(gè)體而言碗暗,可以根據(jù)可觀測(cè)特征為其選擇一個(gè)控制組個(gè)體構(gòu)成反事實(shí)。

匹配的目的在于確保干預(yù)效應(yīng)估計(jì)梢夯,是建立在可比個(gè)體之間的不同結(jié)果基礎(chǔ)上言疗。最簡(jiǎn)單的匹配方式是將處理組和控制組中協(xié)變量值相同的兩個(gè)個(gè)體進(jìn)行配對(duì)分析。

舉個(gè)栗子

例子

對(duì)于控制組的個(gè)體1颂砸,由于X1 = X5 =2 噪奄,因此個(gè)體1與處理組的個(gè)體5匹配。Y01的估計(jì)量為7人乓,Y11的估計(jì)量為8梗醇;

對(duì)于控制組的個(gè)體2,沒有相同的匹配撒蟀,只有近似的匹配X4 = X6 =3叙谨。Y02的估計(jì)量為8,而Y12的估計(jì)量為(Y4 + Y6)/2 = 7.5

對(duì)于整個(gè)樣本的匹配結(jié)果保屯,此時(shí)需要計(jì)算平均處理效應(yīng)(又稱“平均因果效應(yīng)ACE”):

ATE = E(Y1i-Y0i) =((8-7)+(7.5-8)+(7.5-6)+(9-7.5)+(8-7)+(6-7.5)+(7-5))/7 = 0.143

關(guān)于平均處理效應(yīng)ATE

但我們更關(guān)心參加培訓(xùn)的匹配結(jié)果手负,即只需要計(jì)算參與者平均處理效應(yīng)(又叫“參與者處理效應(yīng)TOT”)
ATT = E(Y1i-Y0i|Di=1)=((9-7.5)+(8-7)+(6-7.5)+(7-5))/4=0.25

但如果協(xié)變量不是某一個(gè)變量涤垫,而是一組變量時(shí),這種簡(jiǎn)單的匹配方式就不再適用竟终。

在現(xiàn)實(shí)生活中蝠猬,數(shù)據(jù)偏差和混雜變量比較多。由于存在很多其他變量混淆自變量和因變量之間的關(guān)系统捶,研究者很難直接探索二者間的凈效果榆芦。這些混淆變量的影響通常被稱為選擇性誤差,需要通過傾向值匹配的方法來控制和消除喘鸟。

三匆绣、什么是傾向值?

傾向值指的是什黑,被研究個(gè)體在控制可觀察到的混雜變量的情況下崎淳,接受某種干預(yù)的條件概率。

給定Xi愕把,個(gè)體i的傾向值(傾向得分)為個(gè)體i進(jìn)入處理組的條件概率拣凹,即P(Xi) = P(Di=1|X=Xi)

以Di={0,1}表示個(gè)體i是否參加培訓(xùn)

四、什么是傾向值匹配恨豁?

PSM的實(shí)質(zhì)就是把許多可觀察到的混雜變量整合成一個(gè)變量:傾向值嚣镜。

由于具有相同或相近傾向值的個(gè)體的其他變量在分布上具有相同的特征,故將處理組和控制組的個(gè)體根據(jù)傾向值進(jìn)行匹配橘蜜,從而平衡兩組樣本的基線數(shù)據(jù)菊匿,達(dá)到類似隨機(jī)分組的效果。

由于混雜變量在傾向值匹配的過程中被控制起來扮匠,兩組個(gè)體在結(jié)果上的差異就只能歸因于有無干預(yù)措施。

回到大學(xué)教育對(duì)收入影響的例子凡涩,PSM想要解決的問題就是棒搜,由于A同學(xué)已經(jīng)讀了大學(xué),如何估計(jì)出A要是不讀大學(xué)活箕,A的收入會(huì)是多少力麸?**

傾向值匹配能從樣本中,對(duì)每個(gè)人讀大學(xué)的概率進(jìn)行估計(jì)育韩。然后選出與 A 同學(xué)有相似念大學(xué)的概率克蚂,卻沒有去讀的同學(xué) B 作為 A 同學(xué)的對(duì)照,然后再來看他們的區(qū)別筋讨。當(dāng)樣本中的每位“大學(xué)生 A” 都找到了匹配的“非大學(xué)生 B” 埃叭,就能對(duì)這兩組樣本進(jìn)行比較研究了。

關(guān)于stata操作放在下一篇推文

參考資料:

  1. PSM與政策評(píng)估(附Stata實(shí)現(xiàn))阿虎定量筆記
  2. 應(yīng)用計(jì)量經(jīng)濟(jì)學(xué)講稿 許文立

公眾號(hào)推薦

阿虎定量筆記

更多推薦:
推薦|優(yōu)質(zhì)公眾號(hào)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末悉罕,一起剝皮案震驚了整個(gè)濱河市赤屋,隨后出現(xiàn)的幾起案子立镶,更是在濱河造成了極大的恐慌,老刑警劉巖类早,帶你破解...
    沈念sama閱讀 222,865評(píng)論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件媚媒,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡涩僻,警方通過查閱死者的電腦和手機(jī)缭召,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,296評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來逆日,“玉大人嵌巷,你說我怎么就攤上這事∑粮唬” “怎么了晴竞?”我有些...
    開封第一講書人閱讀 169,631評(píng)論 0 364
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)狠半。 經(jīng)常有香客問我噩死,道長(zhǎng),這世上最難降的妖魔是什么神年? 我笑而不...
    開封第一講書人閱讀 60,199評(píng)論 1 300
  • 正文 為了忘掉前任已维,我火速辦了婚禮,結(jié)果婚禮上已日,老公的妹妹穿的比我還像新娘垛耳。我一直安慰自己,他們只是感情好飘千,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,196評(píng)論 6 398
  • 文/花漫 我一把揭開白布堂鲜。 她就那樣靜靜地躺著,像睡著了一般护奈。 火紅的嫁衣襯著肌膚如雪缔莲。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,793評(píng)論 1 314
  • 那天霉旗,我揣著相機(jī)與錄音痴奏,去河邊找鬼。 笑死厌秒,一個(gè)胖子當(dāng)著我的面吹牛读拆,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播鸵闪,決...
    沈念sama閱讀 41,221評(píng)論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼檐晕,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了蚌讼?” 一聲冷哼從身側(cè)響起棉姐,我...
    開封第一講書人閱讀 40,174評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤屠列,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后伞矩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體笛洛,經(jīng)...
    沈念sama閱讀 46,699評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,770評(píng)論 3 343
  • 正文 我和宋清朗相戀三年乃坤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了苛让。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,918評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡湿诊,死狀恐怖狱杰,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情厅须,我是刑警寧澤仿畸,帶...
    沈念sama閱讀 36,573評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站朗和,受9級(jí)特大地震影響错沽,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜眶拉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,255評(píng)論 3 336
  • 文/蒙蒙 一千埃、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧忆植,春花似錦放可、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,749評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至拾氓,卻和暖如春冯挎,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背痪枫。 一陣腳步聲響...
    開封第一講書人閱讀 33,862評(píng)論 1 274
  • 我被黑心中介騙來泰國(guó)打工织堂, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留叠艳,地道東北人奶陈。 一個(gè)月前我還...
    沈念sama閱讀 49,364評(píng)論 3 379
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像附较,于是被迫代替她去往敵國(guó)和親吃粒。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,926評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容