張靜瑤(浙江海洋大學(xué))歼指,E-mail 1132358871@qq.com
加入控制變量后我的變量符號(hào)變了
1 背景
1.1 問題的引入
兩小兒辯車
- 王小兒:我發(fā)現(xiàn)車越長(zhǎng)越貴,比如,奧迪 A6L 就比 A4L 貴多;
- 李小兒:那也未必奶甘,奧迪 R8 只有 4 米 4,但可以買兩輛 A6L了祭椰。 還有臭家,我二爸開的那個(gè)公交車,12 米方淤,才 30 萬钉赁!
在大家做實(shí)證分析的最初階段,經(jīng)常會(huì)有一個(gè)困擾:原本主效應(yīng)很符合預(yù)期目標(biāo)携茂,但加入了一個(gè)或幾個(gè)控制變量后你踩,主效應(yīng)要么符號(hào)變了,要么不顯著了讳苦〈ぃ可是,關(guān)鍵控制變量不加入的話鸳谜,審稿人必然會(huì)提出質(zhì)疑膝藕。這是怎么回事了?
要回答這個(gè)問題卿堂,讓我們先從條件期望說起束莫。
1.2 什么是條件期望
- 舉例說明
春節(jié)臨近,如何應(yīng)對(duì)親戚的“問候殺”草描,是一個(gè)亟待解決的現(xiàn)實(shí)問題览绿。試想,舉國(guó)歡慶的日子穗慕,大家齊坐一堂饿敲,面對(duì)讀碩讀博歸家的你,七大姑問到:“大閨女逛绵,老大不小了怀各,該干點(diǎn)正事談個(gè)對(duì)象什么的呢,讀那么多書干嘛呀”术浪,你咽了咽口水“讀書好啊瓢对,以后可以多掙錢孝敬您老人家”,話音未落胰苏,八大姑道:“哎呀瞎說硕蛹,你看隔壁二狗子,高中沒讀完去做生意,現(xiàn)在賺老多錢了”….氣氛頓時(shí)尷尬了法焰,除了咽口水外秧荆,該怎么“杠”回去…
那就要了解條件期望的概念了:條件期望函數(shù)記為 ,是關(guān)于
的函數(shù)埃仪,考慮到
是隨機(jī)的乙濒,所以條件期望函數(shù)也是隨機(jī)的。比如給定
為受教育水平的一個(gè)定值卵蛉,如
颁股,那么
就是表示所有讀 12 年書的個(gè)體,其收入水平的期望值傻丝。
- 用圖說明
圖中豌蟋,橫軸表示受教育水平,縱軸則為收入桑滩,在每一個(gè)給定的受教育水平下(如:受教育年限 12 年),收入服從一個(gè)近似正態(tài)的隨機(jī)分布允睹≡俗迹可以看到,由于存在著無法忽視的個(gè)體差異缭受,使得某些低教育者的收入要高于某些高教育者的收入胁澳,但通常而言,教育水平高的人賺的更多米者。
看到這里韭畸,學(xué)習(xí)過初級(jí)計(jì)量經(jīng)濟(jì)學(xué)的同學(xué)肯定會(huì)想到,對(duì)蔓搞,是“個(gè)人能力”的影響胰丁,是“個(gè)人能力”讓二狗子和大閨女產(chǎn)生了收入的差異。確實(shí)如此喂分,那么“個(gè)人能力”便是一個(gè)需要控制的重要變量锦庸。
2 Stata 實(shí)操
2.1 回到原例
讓我們回到“小兒辯車”的引子。調(diào)入官方自帶的汽車數(shù)據(jù)蒲祈,研究汽車長(zhǎng)度 length 對(duì)汽車價(jià)格 price 的影響甘萧。在多元回歸中,加入的控制變量分別為里程數(shù) mpg 和汽車重量 weight
- 利用
reganat
命令對(duì)多元回歸模型進(jìn)行圖解檢驗(yàn)
. sysuse "auto.dta", clear
. cap eststo clear
. eststo: reg price length
. eststo: reg price length mpg weight
. esttab, nogap
. reganat price length mpg weight, dis(length) ///
. biscat biline scheme(s2color)
虛線擬合線表示了不加入控制變量時(shí) length 的影響梆掸,而實(shí)線是加入控制變量之后的扬卷。由之初的右上傾斜變?yōu)橛蚁聝A斜,這是一個(gè)本質(zhì)性地改變酸钦。
- 回歸結(jié)果
--------------------------------------------
(1) (2)
price price
--------------------------------------------
length 57.20*** -104.9**
(4.06) (-2.64)
mpg -86.79
(-1.03)
weight 4.365***
(3.74)
_cons -4584.9* 14542.4**
(-1.72) (2.47)
--------------------------------------------
N 74 74
--------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01
對(duì)比 length 的系數(shù)可見怪得,在一元回歸時(shí)該系數(shù)顯著為正(57.2),而加入控制變量后,系數(shù)為負(fù)(-104.9)并在 10% 的水平下顯著汇恤。
- 原因分析
若真實(shí)的回歸模型為 ① 庞钢,若此時(shí)將
的“貢獻(xiàn)”剔除掉之后,得到的回歸模型是
② 因谎,此時(shí)的
=
基括,因此
,出現(xiàn)了內(nèi)生性問題财岔。
此時(shí)风皿,若對(duì)②式進(jìn)行回歸,我們可以得到一個(gè) 的系數(shù)值匠璧,但是再加入
后桐款,即再對(duì)①式進(jìn)行回歸,我們發(fā)現(xiàn)系數(shù)
的系數(shù)值變了 夷恍,其原因就是出現(xiàn)了我們上述所討論的問題魔眨。
2.2 通過實(shí)例演示
先進(jìn)行正常的多元回歸,加入主效應(yīng)變量 length 和控制變量 mpg weight
- sysuse auto.dta, clear
- reg price length mpg weight
- est store m1
接著酿雪,我們利用解構(gòu)回歸(regression anatomy)(參考《基本無害的計(jì)量經(jīng)濟(jì)學(xué)》)來“解讀”正常的多元回歸:1.先用 length 對(duì)控制變量 mpg weight 進(jìn)行回歸遏暴,然后可以得到一個(gè)殘差項(xiàng)。2. 再用被解釋變量對(duì)上一步的殘差項(xiàng)進(jìn)行回歸指黎。
. reg length mpg weight
. predict e, res
. reg price e
. est store m2
. esttab m1 m2 , nogap.
- 估計(jì)結(jié)果
--------------------------------------------
(1) (2)
price price
--------------------------------------------
length -104.9***
(-2.64)
mpg -86.79
(-1.03)
weight 4.365***
(3.74)
e -104.9*
(-2.22)
_cons 14542.4* 6165.3***
(2.47) (18.46)
--------------------------------------------
N 74 74
--------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01
可以看到朋凉,最后得到的主效應(yīng)估計(jì)結(jié)果一致,均為 -104.9 醋安。在用 length 對(duì)控制變量 mpg weight 回歸后得到的殘差項(xiàng)杂彭,表示 length 剔除了其他解釋變量對(duì)自己的影響的“結(jié)果”,將其再與被解釋變量的回歸就是一個(gè)“凈”的效應(yīng)吓揪。
3 總結(jié)
可見亲怠,加入控制變量后,我們關(guān)心的估計(jì)系數(shù)是否會(huì)產(chǎn)生變化磺芭,取決于與控制變量之間的獨(dú)立性赁炎。
我們列出將會(huì)出現(xiàn)的四種情形
- 與控制變量之間完全獨(dú)立,則加入控制變量對(duì)估計(jì)系數(shù)無影響(情形 1)
- 與控制變量之間高度相關(guān)钾腺,則加入控制變量與的估計(jì)系數(shù)都不顯著(情形 2)
- 與控制變量之間相關(guān)徙垫,且完全通過控制變量的“途徑”來影響被解釋變量,則估計(jì)系數(shù)不顯著(情形 3)
- 與控制變量之間相關(guān)放棒,則加入控制變量后姻报,主要解釋變量的估計(jì)系數(shù)會(huì)出現(xiàn)大小和符號(hào)變化。具體變化取決于與控制變量間的正負(fù)相關(guān)性间螟。(情形4)