張靜瑤(浙江海洋大學)撩嚼,E-mail 1132358871@qq.com
加入控制變量后我的變量符號變了
1 背景
1.1 問題的引入
兩小兒辯車
- 王小兒:我發(fā)現(xiàn)車越長越貴,比如挖帘,奧迪 A6L 就比 A4L 貴多完丽;
- 李小兒:那也未必,奧迪 R8 只有 4 米 4拇舀,但可以買兩輛 A6L了逻族。 還有,我二爸開的那個公交車骄崩,12 米聘鳞,才 30 萬薄辅!
在大家做實證分析的最初階段,經(jīng)常會有一個困擾:原本主效應很符合預期目標搁痛,但加入了一個或幾個控制變量后长搀,主效應要么符號變了,要么不顯著了鸡典。可是枪芒,關(guān)鍵控制變量不加入的話彻况,審稿人必然會提出質(zhì)疑。這是怎么回事了舅踪?
要回答這個問題纽甘,讓我們先從條件期望說起。
1.2 什么是條件期望
1.2.1 舉例說明
春節(jié)臨近抽碌,如何應對親戚的“問候殺”悍赢,是一個亟待解決的現(xiàn)實問題。試想货徙,舉國歡慶的日子左权,大家齊坐一堂,面對讀碩讀博歸家的你痴颊,七大姑問到:“大閨女赏迟,老大不小了,該干點正事談個對象什么的呢蠢棱,讀那么多書干嘛呀”锌杀,你咽了咽口水“讀書好啊,以后可以多掙錢孝敬您老人家”泻仙,話音未落糕再,八大姑道:“哎呀瞎說,你看隔壁二狗子玉转,高中沒讀完去做生意突想,現(xiàn)在賺老多錢了”….氣氛頓時尷尬了,除了咽口水外冤吨,該怎么“杠”回去…
那就要了解條件期望的概念了:條件期望函數(shù)記為 蒿柳,是關(guān)于 的函數(shù),考慮到 是隨機的漩蟆,所以條件期望函數(shù)也是隨機的垒探。比如給定 為受教育水平的一個定值,如 怠李,那么 就是表示所有讀 12 年書的個體圾叼,其收入水平的期望值蛤克。
1.2.2 用圖說明
圖中,橫軸表示受教育水平夷蚊,縱軸則為收入构挤,在每一個給定的受教育水平下(如:受教育年限 12 年)度硝,收入服從一個近似正態(tài)的隨機分布孔轴。可以看到悟衩,由于存在著無法忽視的個體差異箱歧,使得某些低教育者的收入要高于某些高教育者的收入矾飞,但通常而言,教育水平高的人賺的更多呀邢。
看到這里洒沦,學習過初級計量經(jīng)濟學的同學肯定會想到,對价淌,是“個人能力”的影響申眼,是“個人能力”讓二狗子和大閨女產(chǎn)生了收入的差異。確實如此蝉衣,那么“個人能力”便是一個需要控制的重要變量括尸。
2 Stata 實操
2.1 回到原例
2.1.1 加入控制變量和不加控制變量的回歸分析結(jié)果做對比
讓我們回到“小兒辯車”的引子。調(diào)入官方自帶的汽車數(shù)據(jù)买乃,研究汽車長度 length 對汽車價格 price 的影響姻氨。在多元回歸中,加入的控制變量分別為里程數(shù) mpg 和汽車重量 weight
. sysuse "auto.dta", clear
. cap eststo clear
. eststo: reg price length
. eststo: reg price length mpg weight
. esttab, nogap
. reganat price length mpg weight, dis(length) ///
. biscat biline scheme(s2color)
2.1.2 回歸結(jié)果
--------------------------------------------
(1) (2)
price price
--------------------------------------------
length 57.20*** -104.9**
(4.06) (-2.64)
mpg -86.79
(-1.03)
weight 4.365***
(3.74)
_cons -4584.9* 14542.4**
(-1.72) (2.47)
--------------------------------------------
N 74 74
--------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01
對比 length 的系數(shù)可見剪验,在一元回歸時該系數(shù)顯著為正(57.2)肴焊,而加入控制變量后,系數(shù)為負(-104.9)并在 10% 的水平下顯著功戚。
2.1.3 利用 reganat
命令對多元回歸模型進行圖解檢驗娶眷。
虛線擬合線表示了不加入控制變量時 length 的影響,而實線是加入控制變量之后的啸臀。由之初的右上傾斜變?yōu)橛蚁聝A斜届宠,這是一個本質(zhì)性地改變。
2.2.1 原因分析
事實上乘粒,在多元回歸 中豌注,系數(shù) 更準確的應該被稱為偏回歸系數(shù),表示在剔除掉 的“貢獻”后灯萍, 對 的影響轧铁。若 與 并不獨立,那么錯誤的使用一元回歸 旦棉,系數(shù) 中就包含了 的一部分“貢獻”齿风。
2.2.2 通過實例演示
先進行正常的多元回歸药薯,加入主效應變量 length 和控制變量 mpg weight
- sysuse auto.dta, clear
- reg price length mpg weight
- est store m1
接著,我們利用解構(gòu)回歸(regression anatomy)來“解讀”正常的多元回歸:1.先用 length 對控制變量 mpg weight 進行回歸救斑,然后可以得到一個殘差項童本。2. 再用被解釋變量對上一步的殘差項進行回歸。
. reg length mpg weight
. predict e, res
. reg price e
. est store m2
. esttab m1 m2 , nogap.
2.2.3 估計結(jié)果
--------------------------------------------
(1) (2)
price price
--------------------------------------------
length -104.9***
(-2.64)
mpg -86.79
(-1.03)
weight 4.365***
(3.74)
e -104.9*
(-2.22)
_cons 14542.4* 6165.3***
(2.47) (18.46)
--------------------------------------------
N 74 74
--------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01
可以看到脸候,最后得到的主效應估計結(jié)果一致穷娱,均為 -104.9 。在用 length 對控制變量 mpg weight 回歸后得到的殘差項纪他,表示 length 剔除了其他解釋變量對自己的影響的“結(jié)果”鄙煤,將其再與被解釋變量的回歸就是一個“凈”的效應。
3 結(jié)語
可見茶袒,加入控制變量后,我們關(guān)心的估計系數(shù)是否會產(chǎn)生變化凉馆,取決于與控制變量之間的獨立性薪寓。
我們列出將會出現(xiàn)的四種情形
- 與控制變量之間完全獨立,則加入控制變量對估計系數(shù)無影響(情形 1)
- 與控制變量之間高度相關(guān)澜共,則加入控制變量與的估計系數(shù)都不顯著(情形 2)
- 與控制變量之間相關(guān)向叉,且完全通過控制變量的“途徑”來影響被解釋變量,則估計系數(shù)不顯著(情形 3)
- 與控制變量之間相關(guān)嗦董,則加入控制變量后母谎,主要解釋變量的估計系數(shù)會出現(xiàn)大小和符號變化。具體變化取決于與控制變量間的正負相關(guān)性京革。(情形4)