2019-02-22,星期五赃绊,晴
在構(gòu)建回歸模型時砂吞,如果自變量X為連續(xù)性變量,回歸系數(shù)β可以解釋為:在其他自變量不變的條件下兴溜,X每改變一個單位,所引起的因變量Y的平均變化量;如果自變量X為二分類變量拙徽,例如是否飲酒(1=是刨沦,0=否),則回歸系數(shù)β可以解釋為:其他自變量不變的條件下膘怕,X=1(飲酒者)與X=0(不飲酒者)相比想诅,所引起的因變量Y的平均變化量。
但是岛心,當自變量X為多分類變量時侧蘸,例如職業(yè)、學歷鹉梨、血型讳癌、疾病嚴重程度等等,此時僅用一個回歸系數(shù)來解釋多分類變量之間的變化關(guān)系存皂,及其對因變量的影響晌坤,就顯得太不理想。
此時旦袋,我們通常會將原始的多分類變量轉(zhuǎn)化為啞變量骤菠,每個啞變量只代表某兩個級別或若干個級別間的差異,通過構(gòu)建回歸模型疤孕,每一個啞變量都能得出一個估計的回歸系數(shù)商乎,從而使得回歸的結(jié)果更易于解釋,更具有實際意義祭阀。
啞變量
啞變量(Dummy Variable)鹉戚,又稱為虛擬變量、虛設變量或名義變量专控,從名稱上看就知道抹凳,它是人為虛設的變量,通常取值為0或1伦腐,來反映某個變量的不同屬性赢底。對于有n個分類屬性的自變量,通常需要選取1個分類作為參照柏蘑,因此可以產(chǎn)生n-1個啞變量幸冻。
將啞變量引入回歸模型,雖然使模型變得較為復雜咳焚,但可以更直觀地反映出該自變量的不同屬性對于因變量的影響洽损,提高了模型的精度和準確度。
舉一個例子黔攒,如職業(yè)因素趁啸,假設分為學生、農(nóng)民督惰、工人不傅、公務員、其他共5個分類赏胚,其中以“其他職業(yè)”作為參照访娶,此時需要設定4啞變量X1-X4,如下所示:
X1=1觉阅,學生崖疤;X1=0,非學生典勇;
X2=1劫哼,農(nóng)民;X2=0割笙,非農(nóng)民权烧;
X3=1,工人伤溉;X3=0般码,非工人;
X4=1乱顾,公務員板祝;X4=0,非公務員走净;
那么對于每一種職業(yè)分類券时,其賦值就可以轉(zhuǎn)化為以下形式:
什么情況下需要設置啞變量
- 對于無序多分類變量,引入模型時需要轉(zhuǎn)化為啞變量
舉一個例子伏伯,如血型革为,一般分為A、B舵鳞、O震檩、AB四個類型,為無序多分類變量蜓堕,通常情況下在錄入數(shù)據(jù)的時候抛虏,為了使數(shù)據(jù)量化,我們常會將其賦值為1套才、2迂猴、3、4背伴。
從數(shù)字的角度來看沸毁,賦值為1峰髓、2、3息尺、4后携兵,它們是具有從小到大一定的順序關(guān)系的,而實際上搂誉,四種血型之間并沒有這種大小關(guān)系存在徐紧,它們之間應該是相互平等獨立的關(guān)系。如果按照1炭懊、2并级、3、4賦值并帶入到回歸模型中是不合理的侮腹,此時我們就需要將其轉(zhuǎn)化為啞變量嘲碧。
- 對于有序多分類變量,引入模型時需要酌情考慮
例如疾病的嚴重程度父阻,一般分為輕呀潭、中、重度至非,可認為是有序多分類變量钠署,通常情況下我們也常會將其賦值為1、2荒椭、3(等距)或1谐鼎、2、4(等比)等形式趣惠,通過由小到大的數(shù)字關(guān)系狸棍,來體現(xiàn)疾病嚴重程度之間一定的等級關(guān)系。
但需要注意的是味悄,一旦賦值為上述等距或等比的數(shù)值形式草戈,這在某種程度上是認為疾病的嚴重程度也呈現(xiàn)類似的等距或等比的關(guān)系。而事實上由于疾病在臨床上的復雜性侍瑟,不同的嚴重程度之間并非是嚴格的等距或等比關(guān)系唐片,因此再賦值為上述形式就顯得不太合理,此時可以將其轉(zhuǎn)化為啞變量進行量化涨颜。
- 對于連續(xù)性變量费韭,進行變量轉(zhuǎn)化時可以考慮設定為啞變量
對于連續(xù)性變量,很多人認為可以直接將其帶入到回歸模型中即可庭瑰,但有時我們還需要結(jié)合實際的臨床意義星持,對連續(xù)性變量作適當?shù)霓D(zhuǎn)換。例如年齡弹灭,以連續(xù)性變量帶入模型時督暂,其解釋為年齡每增加一歲時對于因變量的影響揪垄。但往往年齡增加一歲,其效應是很微弱的逻翁,并沒有太大的實際意義饥努。
此時,我們可以將年齡這個連續(xù)性變量進行離散化卢未,按照10歲一個年齡段進行劃分肪凛,如0-10堰汉、11-20辽社、21-30、31-40等等翘鸭,將每一組賦值為1滴铅、2、3就乓、4汉匙,此時構(gòu)建模型的回歸系數(shù)就可以解釋為年齡每增加10歲時對因變量的影響。
以上賦值方式是基于一個前提生蚁,即年齡與因變量之間存在著一定的線性關(guān)系噩翠。但有時候可能會出現(xiàn)以下情況,例如在年齡段較低和較高的人群中邦投,某種疾病的死亡率較高伤锚,而在中青年人群中,死亡率卻相對較低志衣,年齡和死亡結(jié)局之間呈現(xiàn)一個U字型的關(guān)系屯援,此時再將年齡段賦值為1、2念脯、3狞洋、4就顯得不太合理了。
因此绿店,當我們無法確定自變量和因變量之間的變化關(guān)系吉懊,將連續(xù)性自變量離散化時,可以考慮進行啞變量轉(zhuǎn)換假勿。
還有一種情況惕它,例如將BMI按照臨床診斷標準分為體重過低、正常體重废登、超重淹魄、肥胖等幾種分類時,由于不同分類之間劃分的切點是不等距的堡距,此時賦值為1甲锡、2兆蕉、3就不太符合實際情況,也可以考慮將其轉(zhuǎn)化為啞變量缤沦。
如何選擇啞變量的參照組
在上面的內(nèi)容中我們提到虎韵,對于有n個分類的自變量,需要產(chǎn)生n-1個啞變量缸废,當所有n-1個啞變量取值都為0的時候包蓝,這就是該變量的第n類屬性,即我們將這類屬性作為參照企量。
例如上面提到的以職業(yè)因素為例测萎,共分為學生、農(nóng)民届巩、工人硅瞧、公務員、其他共5個分類恕汇,設定了4啞變量腕唧,其中職業(yè)因素中“其它”這個屬性,每個啞變量的賦值均為0瘾英,此時我們就將“其它”這個屬性作為參照枣接,在最后進行模型解釋時,所有類別啞變量的回歸系數(shù)缺谴,均表示該啞變量與參照相比之后對因變量的影響但惶。
在設定啞變量時,應該選擇哪一類作為參照呢瓣赂?
- 一般情況下榆骚,可以選擇有特定意義的,或者有一定順序水平的類別作為參照
例如煌集,婚姻狀態(tài)分為未婚妓肢、已婚、離異苫纤、喪偶等情況碉钠,可以將“未婚”作為參照;或者如學歷卷拘,分為小學喊废、中學、大學栗弟、研究生等類別污筷,存在著一定的順序,可以將“小學”作為參照乍赫,以便于回歸系數(shù)更容易解釋瓣蛀。
- 可以選擇臨床正常水平作為參照
例如陆蟆,BMI按照臨床診斷標準分為體重過低、正常體重惋增、超重叠殷、肥胖等類別,此時可以選擇“正常體重”作為參照诈皿,其他分類都與正常體重進行比較林束,更具有臨床實際意義。
- 還可以將研究者所關(guān)注的重點類別作為參照
例如血型稽亏,分為A壶冒、B、O措左、AB四個類型依痊,研究者更關(guān)注O型血的人避除,因此可以將O型作為參照怎披,來分析其他血型與O型相比后對于結(jié)局產(chǎn)生影響的差異。
下面我們將結(jié)合SPSS軟件瓶摆,向大家介紹在回歸模型中何如實現(xiàn)啞變量的設置凉逛,并對引入啞變量后的模型結(jié)果進行解讀。
作者:大胖頭leo
來源:CSDN
原文:https://blog.csdn.net/a8131357leo/article/details/80321055
版權(quán)聲明:本文為博主原創(chuàng)文章群井,轉(zhuǎn)載請附上博文鏈接状飞!