2019-12-06

張靜瑤(浙江海洋大學),1132358871@qq.com


加入控制變量后我的變量符號變了


1 背景

1.1 問題的引入

兩小兒辯車

  • 王小兒:我發(fā)現(xiàn)車越長越貴淆衷,比如验残,奧迪 A6L 就比 A4L 貴多捂贿;
  • 李小兒:那也未必纠修,奧迪 R8 只有 4 米 4,但可以買兩輛 A6L了厂僧。 還有扣草,我二爸開的那個公交車,12 米颜屠,才 30 萬辰妙!

在大家做實證分析的最初階段,經(jīng)常會有一個困擾:原本主效應很符合預期目標甫窟,但加入了一個或幾個控制變量后上岗,主效應要么符號變了,要么不顯著了蕴坪。可是敬锐,關鍵控制變量不加入的話背传,審稿人必然會提出質疑。這是怎么回事了台夺?
要回答這個問題径玖,讓我們先從條件期望說起。

1.2 什么是條件期望

1.2.1 舉例說明

春節(jié)臨近颤介,如何應對親戚的“問候殺”梳星,是一個亟待解決的現(xiàn)實問題。試想滚朵,舉國歡慶的日子冤灾,大家齊坐一堂,面對讀碩讀博歸家的你辕近,七大姑問到:“大閨女韵吨,老大不小了,該干點正事談個對象什么的呢移宅,讀那么多書干嘛呀”归粉,你咽了咽口水“讀書好啊椿疗,以后可以多掙錢孝敬您老人家”,話音未落糠悼,八大姑道:“哎呀瞎說届榄,你看隔壁二狗子,高中沒讀完去做生意倔喂,現(xiàn)在賺老多錢了”….氣氛頓時尷尬了铝条,除了咽口水外,該怎么“杠”回去…

那就要了解條件期望的概念了:條件期望函數(shù)記為 E(Y_i|X_i)滴劲,是關于 X_i 的函數(shù)攻晒,考慮到 X_i 是隨機的,所以條件期望函數(shù)也是隨機的班挖。比如給定 X 為受教育水平的一個定值鲁捏,如 X=12,那么 E(Y_i|X_i=12) 就是表示所有讀 12 年書的個體萧芙,其收入水平的期望值给梅。

1.2.1 用圖說明

圖片1.png

圖中,橫軸表示受教育水平双揪,縱軸則為收入动羽,在每一個給定的受教育水平下(如:受教育年限 12 年),收入服從一個近似正態(tài)的隨機分布渔期≡讼牛可以看到,由于存在著無法忽視的個體差異疯趟,使得某些低教育者的收入要高于某些高教育者的收入拘哨,但通常而言,教育水平高的人賺的更多信峻。

看到這里倦青,學習過初級計量經(jīng)濟學的同學肯定會想到,對盹舞,是“個人能力”的影響产镐,是“個人能力”讓二狗子和大閨女產(chǎn)生了收入的差異。確實如此踢步,那么“個人能力”便是一個需要控制的重要變量癣亚。

2 Stata 實操

2.1 回到原例

2.1.1 加入控制變量和不加控制變量的回歸分析結果做對比

讓我們回到“小兒辯車”的引子。調入官方自帶的汽車數(shù)據(jù)获印,研究汽車長度 length 對汽車價格 price 的影響逃糟。在多元回歸中,加入的控制變量分別為里程數(shù) mpg 和汽車重量 weight

. sysuse "auto.dta", clear
. cap eststo clear
. eststo: reg price length
. eststo: reg price length mpg weight
. esttab, nogap 
. reganat price length mpg weight, dis(length) ///
.              biscat biline scheme(s2color)  

2.1.2 回歸結果

--------------------------------------------
                      (1)             (2)   
                    price           price   
--------------------------------------------
length              57.20***       -104.9** 
                   (4.06)         (-2.64)   
mpg                                -86.79   
                                  (-1.03)   
weight                              4.365***
                                   (3.74)   
_cons             -4584.9*        14542.4** 
                  (-1.72)          (2.47)   
--------------------------------------------
N                      74              74   
--------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01

對比 length 的系數(shù)可見,在一元回歸時該系數(shù)顯著為正(57.2)绰咽,而加入控制變量后菇肃,系數(shù)為負(-104.9)并在 10% 的水平下顯著。

2.1.3 利用 reganat 命令對多元回歸模型進行圖解檢驗取募。

圖片2.png

虛線擬合線表示了不加入控制變量時 length 的影響琐谤,而實線是加入控制變量之后的。由之初的右上傾斜變?yōu)橛蚁聝A斜玩敏,這是一個本質性地改變斗忌。

2.2.1 原因分析

事實上,在多元回歸 Y_i=α+β_1x_i+β_2x_2+e_i 中旺聚,系數(shù)β_1 更準確的應該被稱為偏回歸系數(shù)织阳,表示在剔除掉 x_2 的“貢獻”后,x_1y 的影響砰粹。若 x_1x_2 并不獨立唧躲,那么錯誤的使用一元回歸 Y_i=α+β_1x_i+e_i,系數(shù) β_1 中就包含了 x_2 的一部分“貢獻”碱璃。

2.2.1 通過實例演示

先進行正常的多元回歸弄痹,加入主效應變量 length 和控制變量 mpg weight

  • sysuse auto.dta, clear
  • reg price length mpg weight
  • est store m1

接著,我們利用解構回歸(regression anatomy)來“解讀”正常的多元回歸:1.先用 length 對控制變量 mpg weight 進行回歸嵌器,然后可以得到一個殘差項肛真。2. 再用被解釋變量對上一步的殘差項進行回歸。

. reg length mpg weight
. predict e, res
. reg price e
. est store m2
. esttab m1 m2 , nogap.  

2.2.3 估計結果

--------------------------------------------
                      (1)             (2)   
                    price           price   
--------------------------------------------
length         -104.9***       
                 (-2.64)        
mpg             -86.79                 
                  (-1.03)   
weight           4.365***
                  (3.74)   
e                                        -104.9*
                                        (-2.22)  
_cons           14542.4*          6165.3***
                    (2.47)            (18.46)   
--------------------------------------------
N                      74              74   
--------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01

可以看到爽航,最后得到的主效應估計結果一致蚓让,均為 -104.9 。在用 length 對控制變量 mpg weight 回歸后得到的殘差項讥珍,表示 length 剔除了其他解釋變量對自己的影響的“結果”历极,將其再與被解釋變量的回歸就是一個“凈”的效應。

3 結語

可見串述,加入控制變量后,我們關心的估計系數(shù)是否會產(chǎn)生變化寞肖,取決于與控制變量之間的獨立性纲酗。

我們列出將會出現(xiàn)的四種情形

  • 與控制變量之間完全獨立,則加入控制變量對估計系數(shù)無影響(情形 1)
情形1.png
  • 與控制變量之間高度相關新蟆,則加入控制變量與的估計系數(shù)都不顯著(情形 2)
情形2.png
  • 與控制變量之間相關觅赊,且完全通過控制變量的“途徑”來影響被解釋變量,則估計系數(shù)不顯著(情形 3)
情形3.png
  • 與控制變量之間相關琼稻,則加入控制變量后吮螺,主要解釋變量的估計系數(shù)會出現(xiàn)大小和符號變化。具體變化取決于與控制變量間的正負相關性。(情形4)
情形4.png
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末鸠补,一起剝皮案震驚了整個濱河市萝风,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌紫岩,老刑警劉巖规惰,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異泉蝌,居然都是意外死亡歇万,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進店門勋陪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來贪磺,“玉大人,你說我怎么就攤上這事诅愚『” “怎么了?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵呻粹,是天一觀的道長壕曼。 經(jīng)常有香客問我,道長等浊,這世上最難降的妖魔是什么腮郊? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮筹燕,結果婚禮上轧飞,老公的妹妹穿的比我還像新娘。我一直安慰自己撒踪,他們只是感情好过咬,可當我...
    茶點故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著制妄,像睡著了一般掸绞。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上耕捞,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天衔掸,我揣著相機與錄音,去河邊找鬼俺抽。 笑死敞映,一個胖子當著我的面吹牛,可吹牛的內容都是我干的磷斧。 我是一名探鬼主播振愿,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼捷犹,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了冕末?” 一聲冷哼從身側響起萍歉,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎栓霜,沒想到半個月后翠桦,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡胳蛮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年销凑,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片仅炊。...
    茶點故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡斗幼,死狀恐怖,靈堂內的尸體忽然破棺而出抚垄,到底是詐尸還是另有隱情蜕窿,我是刑警寧澤,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布呆馁,位于F島的核電站桐经,受9級特大地震影響,放射性物質發(fā)生泄漏浙滤。R本人自食惡果不足惜阴挣,卻給世界環(huán)境...
    茶點故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望纺腊。 院中可真熱鬧畔咧,春花似錦、人聲如沸揖膜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽壹粟。三九已至拜隧,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間趁仙,已是汗流浹背洪添。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留幸撕,地道東北人薇组。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓外臂,卻偏偏與公主長得像坐儿,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,884評論 2 354