虛擬變量是計量經(jīng)濟學研究中常用的用來反映定性因素變化的變量敲霍,例如季節(jié)變動俊马、政策變動、宏觀環(huán)境變化等等肩杈。之前對此有簡單的了解柴我,認為是非常簡單直觀的一種變量設(shè)定。直到最近寫的論文中模型部分用到了虛擬變量扩然,深入了解才發(fā)現(xiàn)問題多多艘儒。在充分搞清楚了“虛擬變量陷阱”之后,來適時地做一下總結(jié)夫偶,也算是溫故知新界睁。
虛擬變量的作用簡單來說就是“數(shù)據(jù)分類器”,利用變量和變量的線性組合表示某一種特定的狀態(tài)兵拢。
最容易讓人感到比較難理解的就是“虛擬變量陷阱”了翻斟。首先是定義:如果模型中每個定性因素有m個相互排斥的類型, 且模型有截距項说铃,則模型中只能引入m-1個虛擬變量访惜, 否則會出現(xiàn)完全多重共線性敞斋,稱為虛擬變量陷阱(dummy variable regression)。
理解這個問題可以從兩個角度出發(fā):
1.理性角度:重點放在為什么會出現(xiàn)“多重共線性上”疾牲,利用線性代數(shù)的知識就很容易理解。貼上人大經(jīng)濟論壇上一位網(wǎng)友的回答:
2.感性角度:通常直觀上理解最好的方式就是舉個栗子衙解。譬如阳柔,我想知道某一天某購物網(wǎng)站的訪問量的變化是否跟這一天是周幾有關(guān),以及有怎樣的關(guān)系蚓峦。一周有7天舌剂,想研究變化肯定需要先設(shè)定一個基準。所以我們需要抽出7天中的一天來作為這個基準暑椰,以便其他6天能跟這一天進行比較霍转。可以設(shè)定虛擬變量為D2一汽,D3避消,...,D7召夹,當值為1時分別表示這天是周二岩喷,周三,...监憎,周日纱意,而都為0時即表示這天是周一【ɡ回歸方程中虛擬變量前的系數(shù)也即是各自與基準類別比較的結(jié)果偷霉,即虛擬變量的系數(shù)的解釋與其基準類有關(guān)。如果給周一也設(shè)定一個虛擬變量D1褐筛,那么等于將其和其他六天放在了同一個標準上类少,無法進行比較,而且當值為0時也沒有任何意義渔扎,也無從得出虛擬變量的系數(shù)瞒滴。
還有一個要注意的點:若模型包含多個定性變量,且每個定性變量有多種分類赞警,則引入模型的虛擬變量將消耗大量的自由度妓忍,故應(yīng)權(quán)衡進入模型中虛擬變量的個數(shù)以免超過樣本觀察值的個數(shù)。不過虛擬變量個數(shù)超過樣本觀測個數(shù)這種情況應(yīng)該不太容易出現(xiàn)吧愧旦。世剖。。0.0
暫時總結(jié)這么多笤虫,后續(xù)有繼續(xù)學習的地方再補充~