我們知道哭靖,當(dāng)分類自變量的類別大于兩個(gè)的時(shí)候坦敌,需要建立一組虛擬變量(啞變量)來代表變量的歸屬性質(zhì)。一般虛擬變量的數(shù)目比分類變量的數(shù)目少一個(gè)碉碉,少掉的那個(gè)就作為參照類(reference category),參照類的選取是隨意的淮韭。
問題來了:為什么要這么做呢垢粮?如果把這個(gè)類別變量(尤其是有序變量)當(dāng)做連續(xù)變量處理,有什么不對的地方嗎靠粪?
舉個(gè)栗子:教育變量在回歸中作為控制變量蜡吧。按教育程度由低到高依次記為 1~6粱腻,回歸中把教育作為一個(gè)連續(xù)變量 edu 和作為 6 個(gè)啞變量 edu1~edu6 處理有何不同?
從系數(shù)含義來講斩跌,作為連續(xù)變量的 edu, 其系數(shù)代表每提升一個(gè)教育程度對因變量的影響捞慌。由于結(jié)果中只有一個(gè)系數(shù)耀鸦,其潛在假設(shè)是 edu1 和 edu2 對因變量影響的差異 = edu2 和 edu3 對因變量影響的差異 = edu3 和 edu4 對因變量影響的差異 = ……。現(xiàn)實(shí)中滿足這種假設(shè)的情形極為少見啸澡。
若作為啞變量處理袖订,參照類的系數(shù)為 0,其余啞變量的系數(shù)代表與參照類相比對因變量的影響多多少(高出的截距)嗅虏。它允許各類之間的影響存在差異洛姑,可以刻畫的情形更多,適用范圍更廣皮服。
從模型上看楞艾,作為連續(xù)變量處理的模型為
作為虛擬變量處理的模型為
引入虛擬變量的本質(zhì)是對不同類別的子樣本使用不同的截距項(xiàng)(引入虛擬變量的交乘項(xiàng)則是使用不同斜率)。該式子等價(jià)于
回到問題上龄广,在類別變量是有序的硫眯,且編碼間隔為 1, 且已知相鄰類別間對因變量的影響大致相等的情況下择同,作為連續(xù)變量處理的模型估計(jì)出來的系數(shù) 是不是無偏的两入?此時(shí)的
與
有什么關(guān)系?
(親身實(shí)踐表明敲才,確實(shí)會有偏誤裹纳,系數(shù)和 t 統(tǒng)計(jì)量都會偏大(負(fù)數(shù)的話絕對值更小)紧武。在樣本量較小剃氧、類別變量較多的情況下,比如用子樣本回歸阻星,用連續(xù)變量處理會使不顯著的會變?yōu)轱@著她我。另一個(gè)問題是:當(dāng)模型中的啞變量太多,是否會降低系數(shù)的顯著性迫横?)
在通常情況下番舆,虛擬變量往往用作控制變量。如果不關(guān)心 的系數(shù)準(zhǔn)確性矾踱,這樣的模型設(shè)定會不會影響核心解釋變量的估計(jì)量
的準(zhǔn)確性恨狈?