Omitted Variable Bias (OBV) 指的是待错, 一個(gè)統(tǒng)計(jì)模型遺漏了一些變量嘶卧, 而模型把遺漏變量對(duì)響應(yīng)變量的影響, 算在了已經(jīng)包含的變量頭上(張冠李戴了)摄职。
發(fā)生 OBV 的必要條件
- 被遺漏的變量確實(shí)對(duì)Response Variable 有影響
- 被遺漏的變量必須和已包含的變量相關(guān) (相關(guān)系數(shù)不為0)
詳解
假設(shè)真實(shí)的因果關(guān)系是這樣的:
(1)
也就是說(shuō),響應(yīng)變量 y 被 x 获列,z 影響谷市,其中 u 是誤差項(xiàng)。假設(shè) x 和 z 有如下關(guān)系
(2)
把 (2)帶入 (1) 中击孩, 得到:
(3)
由 (3)可以得知迫悠, 當(dāng)遺漏了 z 時(shí), x 的系數(shù)就變成了 (b + cf) 而不是 b 巩梢。 其中 b 是 x 和 y 的直接關(guān)系创泄, 而 cf 是間接關(guān)系艺玲。
cf 包含了 OBV 的 extend 和 direction
- extend: cf 的絕對(duì)值
- direction: cf 的正負(fù)性
其中:
- 當(dāng) cf > 0 時(shí), x 的作用會(huì)被 bias 變大 (夸大x的用處)
- 當(dāng) cf < 0 時(shí)鞠抑, x 的作用會(huì)被 bias 變小 (貶低x的用處)
例子
一個(gè)測(cè)算被雇傭與本科學(xué)歷的回歸如下
employed ~ college
結(jié)果如下
之后饭聚, 研究者發(fā)現(xiàn), 還應(yīng)該引入是否是黑人這個(gè)變量搁拙, 于是秒梳,模型改為
employed ~ college + black
結(jié)果如下
分析: 在第一個(gè)模型中, 由于遺漏了 black 這個(gè)變量箕速,導(dǎo)致高估了獲得大學(xué)學(xué)位的重要性 (0.0244 vs 0.0231)酪碘。
思考題
基于以上兩個(gè)回歸結(jié)果, 黑人獲得大學(xué)學(xué)位的情況如何 盐茎?
解答:
對(duì)應(yīng)公式 (1) (2) (3)兴垦, 其中 :
- college 是 x
- black 是 z
從第一個(gè)模型可得: (b + cf) = 0.0244 , 第二個(gè)模型可得 b = 0.0231, 由此可得:
cf = 0.0244 - 0.0231 = 0.0013
另外, 從第二個(gè)模型可知字柠, c = -0.0347 ,
所以
f = 0.0013 / -0.0347 = -0.037
也就是說(shuō):
x (college) 和 z (black) 是負(fù)相關(guān)的探越, 所以可以得到, 黑人更少的獲得大學(xué)學(xué)位窑业。