張靜瑤(浙江海洋大學),1132358871@qq.com
加入控制變量后我的變量符號變了
1 背景
1.1 問題的引入
兩小兒辯車
- 王小兒:我發(fā)現(xiàn)車越長越貴淆衷,比如验残,奧迪 A6L 就比 A4L 貴多捂贿;
- 李小兒:那也未必纠修,奧迪 R8 只有 4 米 4,但可以買兩輛 A6L了厂僧。 還有扣草,我二爸開的那個公交車,12 米颜屠,才 30 萬辰妙!
在大家做實證分析的最初階段,經(jīng)常會有一個困擾:原本主效應很符合預期目標甫窟,但加入了一個或幾個控制變量后上岗,主效應要么符號變了,要么不顯著了蕴坪。可是敬锐,關鍵控制變量不加入的話背传,審稿人必然會提出質疑。這是怎么回事了台夺?
要回答這個問題径玖,讓我們先從條件期望說起。
1.2 什么是條件期望
1.2.1 舉例說明
春節(jié)臨近颤介,如何應對親戚的“問候殺”梳星,是一個亟待解決的現(xiàn)實問題。試想滚朵,舉國歡慶的日子冤灾,大家齊坐一堂,面對讀碩讀博歸家的你辕近,七大姑問到:“大閨女韵吨,老大不小了,該干點正事談個對象什么的呢移宅,讀那么多書干嘛呀”归粉,你咽了咽口水“讀書好啊椿疗,以后可以多掙錢孝敬您老人家”,話音未落糠悼,八大姑道:“哎呀瞎說届榄,你看隔壁二狗子,高中沒讀完去做生意倔喂,現(xiàn)在賺老多錢了”….氣氛頓時尷尬了铝条,除了咽口水外,該怎么“杠”回去…
那就要了解條件期望的概念了:條件期望函數(shù)記為 滴劲,是關于
的函數(shù)攻晒,考慮到
是隨機的,所以條件期望函數(shù)也是隨機的班挖。比如給定
為受教育水平的一個定值鲁捏,如
,那么
就是表示所有讀 12 年書的個體萧芙,其收入水平的期望值给梅。
1.2.1 用圖說明
圖中,橫軸表示受教育水平双揪,縱軸則為收入动羽,在每一個給定的受教育水平下(如:受教育年限 12 年),收入服從一個近似正態(tài)的隨機分布渔期≡讼牛可以看到,由于存在著無法忽視的個體差異疯趟,使得某些低教育者的收入要高于某些高教育者的收入拘哨,但通常而言,教育水平高的人賺的更多信峻。
看到這里倦青,學習過初級計量經(jīng)濟學的同學肯定會想到,對盹舞,是“個人能力”的影響产镐,是“個人能力”讓二狗子和大閨女產(chǎn)生了收入的差異。確實如此踢步,那么“個人能力”便是一個需要控制的重要變量癣亚。
2 Stata 實操
2.1 回到原例
2.1.1 加入控制變量和不加控制變量的回歸分析結果做對比
讓我們回到“小兒辯車”的引子。調入官方自帶的汽車數(shù)據(jù)获印,研究汽車長度 length 對汽車價格 price 的影響逃糟。在多元回歸中,加入的控制變量分別為里程數(shù) mpg 和汽車重量 weight
. sysuse "auto.dta", clear
. cap eststo clear
. eststo: reg price length
. eststo: reg price length mpg weight
. esttab, nogap
. reganat price length mpg weight, dis(length) ///
. biscat biline scheme(s2color)
2.1.2 回歸結果
--------------------------------------------
(1) (2)
price price
--------------------------------------------
length 57.20*** -104.9**
(4.06) (-2.64)
mpg -86.79
(-1.03)
weight 4.365***
(3.74)
_cons -4584.9* 14542.4**
(-1.72) (2.47)
--------------------------------------------
N 74 74
--------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01
對比 length 的系數(shù)可見,在一元回歸時該系數(shù)顯著為正(57.2)绰咽,而加入控制變量后菇肃,系數(shù)為負(-104.9)并在 10% 的水平下顯著。
2.1.3 利用 reganat
命令對多元回歸模型進行圖解檢驗取募。
虛線擬合線表示了不加入控制變量時 length 的影響琐谤,而實線是加入控制變量之后的。由之初的右上傾斜變?yōu)橛蚁聝A斜玩敏,這是一個本質性地改變斗忌。
2.2.1 原因分析
事實上,在多元回歸 中旺聚,系數(shù)
更準確的應該被稱為偏回歸系數(shù)织阳,表示在剔除掉
的“貢獻”后,
對
的影響砰粹。若
與
并不獨立唧躲,那么錯誤的使用一元回歸
,系數(shù)
中就包含了
的一部分“貢獻”碱璃。
2.2.1 通過實例演示
先進行正常的多元回歸弄痹,加入主效應變量 length 和控制變量 mpg weight
- sysuse auto.dta, clear
- reg price length mpg weight
- est store m1
接著,我們利用解構回歸(regression anatomy)來“解讀”正常的多元回歸:1.先用 length 對控制變量 mpg weight 進行回歸嵌器,然后可以得到一個殘差項肛真。2. 再用被解釋變量對上一步的殘差項進行回歸。
. reg length mpg weight
. predict e, res
. reg price e
. est store m2
. esttab m1 m2 , nogap.
2.2.3 估計結果
--------------------------------------------
(1) (2)
price price
--------------------------------------------
length -104.9***
(-2.64)
mpg -86.79
(-1.03)
weight 4.365***
(3.74)
e -104.9*
(-2.22)
_cons 14542.4* 6165.3***
(2.47) (18.46)
--------------------------------------------
N 74 74
--------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01
可以看到爽航,最后得到的主效應估計結果一致蚓让,均為 -104.9 。在用 length 對控制變量 mpg weight 回歸后得到的殘差項讥珍,表示 length 剔除了其他解釋變量對自己的影響的“結果”历极,將其再與被解釋變量的回歸就是一個“凈”的效應。
3 結語
可見串述,加入控制變量后,我們關心的估計系數(shù)是否會產(chǎn)生變化寞肖,取決于與控制變量之間的獨立性纲酗。
我們列出將會出現(xiàn)的四種情形
- 與控制變量之間完全獨立,則加入控制變量對估計系數(shù)無影響(情形 1)
- 與控制變量之間高度相關新蟆,則加入控制變量與的估計系數(shù)都不顯著(情形 2)
- 與控制變量之間相關觅赊,且完全通過控制變量的“途徑”來影響被解釋變量,則估計系數(shù)不顯著(情形 3)
- 與控制變量之間相關琼稻,則加入控制變量后吮螺,主要解釋變量的估計系數(shù)會出現(xiàn)大小和符號變化。具體變化取決于與控制變量間的正負相關性。(情形4)