回歸模型中的啞變量

2019-02-22,星期五赃绊,晴
在構(gòu)建回歸模型時砂吞,如果自變量X為連續(xù)性變量,回歸系數(shù)β可以解釋為:在其他自變量不變的條件下兴溜,X每改變一個單位,所引起的因變量Y的平均變化量;如果自變量X為二分類變量拙徽,例如是否飲酒(1=是刨沦,0=否),則回歸系數(shù)β可以解釋為:其他自變量不變的條件下膘怕,X=1(飲酒者)與X=0(不飲酒者)相比想诅,所引起的因變量Y的平均變化量。

但是岛心,當自變量X為多分類變量時侧蘸,例如職業(yè)、學歷鹉梨、血型讳癌、疾病嚴重程度等等,此時僅用一個回歸系數(shù)來解釋多分類變量之間的變化關(guān)系存皂,及其對因變量的影響晌坤,就顯得太不理想。

此時旦袋,我們通常會將原始的多分類變量轉(zhuǎn)化為啞變量骤菠,每個啞變量只代表某兩個級別或若干個級別間的差異,通過構(gòu)建回歸模型疤孕,每一個啞變量都能得出一個估計的回歸系數(shù)商乎,從而使得回歸的結(jié)果更易于解釋,更具有實際意義祭阀。

啞變量

啞變量(Dummy Variable)鹉戚,又稱為虛擬變量、虛設變量或名義變量专控,從名稱上看就知道抹凳,它是人為虛設的變量,通常取值為0或1伦腐,來反映某個變量的不同屬性赢底。對于有n個分類屬性的自變量,通常需要選取1個分類作為參照柏蘑,因此可以產(chǎn)生n-1個啞變量幸冻。

將啞變量引入回歸模型,雖然使模型變得較為復雜咳焚,但可以更直觀地反映出該自變量的不同屬性對于因變量的影響洽损,提高了模型的精度和準確度。

舉一個例子黔攒,如職業(yè)因素趁啸,假設分為學生、農(nóng)民督惰、工人不傅、公務員、其他共5個分類赏胚,其中以“其他職業(yè)”作為參照访娶,此時需要設定4啞變量X1-X4,如下所示:

X1=1觉阅,學生崖疤;X1=0,非學生典勇;

X2=1劫哼,農(nóng)民;X2=0割笙,非農(nóng)民权烧;

X3=1,工人伤溉;X3=0般码,非工人;

X4=1乱顾,公務員板祝;X4=0,非公務員走净;

那么對于每一種職業(yè)分類券时,其賦值就可以轉(zhuǎn)化為以下形式:

什么情況下需要設置啞變量

  1. 對于無序多分類變量,引入模型時需要轉(zhuǎn)化為啞變量

舉一個例子伏伯,如血型革为,一般分為A、B舵鳞、O震檩、AB四個類型,為無序多分類變量蜓堕,通常情況下在錄入數(shù)據(jù)的時候抛虏,為了使數(shù)據(jù)量化,我們常會將其賦值為1套才、2迂猴、3、4背伴。

從數(shù)字的角度來看沸毁,賦值為1峰髓、2、3息尺、4后携兵,它們是具有從小到大一定的順序關(guān)系的,而實際上搂誉,四種血型之間并沒有這種大小關(guān)系存在徐紧,它們之間應該是相互平等獨立的關(guān)系。如果按照1炭懊、2并级、3、4賦值并帶入到回歸模型中是不合理的侮腹,此時我們就需要將其轉(zhuǎn)化為啞變量嘲碧。

  1. 對于有序多分類變量,引入模型時需要酌情考慮

例如疾病的嚴重程度父阻,一般分為輕呀潭、中、重度至非,可認為是有序多分類變量钠署,通常情況下我們也常會將其賦值為1、2荒椭、3(等距)或1谐鼎、2、4(等比)等形式趣惠,通過由小到大的數(shù)字關(guān)系狸棍,來體現(xiàn)疾病嚴重程度之間一定的等級關(guān)系。

但需要注意的是味悄,一旦賦值為上述等距或等比的數(shù)值形式草戈,這在某種程度上是認為疾病的嚴重程度也呈現(xiàn)類似的等距或等比的關(guān)系。而事實上由于疾病在臨床上的復雜性侍瑟,不同的嚴重程度之間并非是嚴格的等距或等比關(guān)系唐片,因此再賦值為上述形式就顯得不太合理,此時可以將其轉(zhuǎn)化為啞變量進行量化涨颜。

  1. 對于連續(xù)性變量费韭,進行變量轉(zhuǎn)化時可以考慮設定為啞變量

對于連續(xù)性變量,很多人認為可以直接將其帶入到回歸模型中即可庭瑰,但有時我們還需要結(jié)合實際的臨床意義星持,對連續(xù)性變量作適當?shù)霓D(zhuǎn)換。例如年齡弹灭,以連續(xù)性變量帶入模型時督暂,其解釋為年齡每增加一歲時對于因變量的影響揪垄。但往往年齡增加一歲,其效應是很微弱的逻翁,并沒有太大的實際意義饥努。

此時,我們可以將年齡這個連續(xù)性變量進行離散化卢未,按照10歲一個年齡段進行劃分肪凛,如0-10堰汉、11-20辽社、21-30、31-40等等翘鸭,將每一組賦值為1滴铅、2、3就乓、4汉匙,此時構(gòu)建模型的回歸系數(shù)就可以解釋為年齡每增加10歲時對因變量的影響。

以上賦值方式是基于一個前提生蚁,即年齡與因變量之間存在著一定的線性關(guān)系噩翠。但有時候可能會出現(xiàn)以下情況,例如在年齡段較低和較高的人群中邦投,某種疾病的死亡率較高伤锚,而在中青年人群中,死亡率卻相對較低志衣,年齡和死亡結(jié)局之間呈現(xiàn)一個U字型的關(guān)系屯援,此時再將年齡段賦值為1、2念脯、3狞洋、4就顯得不太合理了。

因此绿店,當我們無法確定自變量和因變量之間的變化關(guān)系吉懊,將連續(xù)性自變量離散化時,可以考慮進行啞變量轉(zhuǎn)換假勿。

還有一種情況惕它,例如將BMI按照臨床診斷標準分為體重過低、正常體重废登、超重淹魄、肥胖等幾種分類時,由于不同分類之間劃分的切點是不等距的堡距,此時賦值為1甲锡、2兆蕉、3就不太符合實際情況,也可以考慮將其轉(zhuǎn)化為啞變量缤沦。

如何選擇啞變量的參照組

在上面的內(nèi)容中我們提到虎韵,對于有n個分類的自變量,需要產(chǎn)生n-1個啞變量缸废,當所有n-1個啞變量取值都為0的時候包蓝,這就是該變量的第n類屬性,即我們將這類屬性作為參照企量。

例如上面提到的以職業(yè)因素為例测萎,共分為學生、農(nóng)民届巩、工人硅瞧、公務員、其他共5個分類恕汇,設定了4啞變量腕唧,其中職業(yè)因素中“其它”這個屬性,每個啞變量的賦值均為0瘾英,此時我們就將“其它”這個屬性作為參照枣接,在最后進行模型解釋時,所有類別啞變量的回歸系數(shù)缺谴,均表示該啞變量與參照相比之后對因變量的影響但惶。

在設定啞變量時,應該選擇哪一類作為參照呢瓣赂?

  1. 一般情況下榆骚,可以選擇有特定意義的,或者有一定順序水平的類別作為參照

例如煌集,婚姻狀態(tài)分為未婚妓肢、已婚、離異苫纤、喪偶等情況碉钠,可以將“未婚”作為參照;或者如學歷卷拘,分為小學喊废、中學、大學栗弟、研究生等類別污筷,存在著一定的順序,可以將“小學”作為參照乍赫,以便于回歸系數(shù)更容易解釋瓣蛀。

  1. 可以選擇臨床正常水平作為參照

例如陆蟆,BMI按照臨床診斷標準分為體重過低、正常體重惋增、超重叠殷、肥胖等類別,此時可以選擇“正常體重”作為參照诈皿,其他分類都與正常體重進行比較林束,更具有臨床實際意義。

  1. 還可以將研究者所關(guān)注的重點類別作為參照

例如血型稽亏,分為A壶冒、B、O措左、AB四個類型依痊,研究者更關(guān)注O型血的人避除,因此可以將O型作為參照怎披,來分析其他血型與O型相比后對于結(jié)局產(chǎn)生影響的差異。

下面我們將結(jié)合SPSS軟件瓶摆,向大家介紹在回歸模型中何如實現(xiàn)啞變量的設置凉逛,并對引入啞變量后的模型結(jié)果進行解讀。

作者:大胖頭leo
來源:CSDN
原文:https://blog.csdn.net/a8131357leo/article/details/80321055
版權(quán)聲明:本文為博主原創(chuàng)文章群井,轉(zhuǎn)載請附上博文鏈接状飞!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市书斜,隨后出現(xiàn)的幾起案子诬辈,更是在濱河造成了極大的恐慌,老刑警劉巖荐吉,帶你破解...
    沈念sama閱讀 218,451評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件焙糟,死亡現(xiàn)場離奇詭異,居然都是意外死亡样屠,警方通過查閱死者的電腦和手機穿撮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來痪欲,“玉大人悦穿,你說我怎么就攤上這事∫堤撸” “怎么了栗柒?”我有些...
    開封第一講書人閱讀 164,782評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長知举。 經(jīng)常有香客問我瞬沦,道長深员,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,709評論 1 294
  • 正文 為了忘掉前任蛙埂,我火速辦了婚禮倦畅,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘绣的。我一直安慰自己叠赐,他們只是感情好,可當我...
    茶點故事閱讀 67,733評論 6 392
  • 文/花漫 我一把揭開白布屡江。 她就那樣靜靜地躺著芭概,像睡著了一般。 火紅的嫁衣襯著肌膚如雪惩嘉。 梳的紋絲不亂的頭發(fā)上罢洲,一...
    開封第一講書人閱讀 51,578評論 1 305
  • 那天,我揣著相機與錄音文黎,去河邊找鬼惹苗。 笑死,一個胖子當著我的面吹牛耸峭,可吹牛的內(nèi)容都是我干的桩蓉。 我是一名探鬼主播,決...
    沈念sama閱讀 40,320評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼劳闹,長吁一口氣:“原來是場噩夢啊……” “哼院究!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起本涕,我...
    開封第一講書人閱讀 39,241評論 0 276
  • 序言:老撾萬榮一對情侶失蹤业汰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后菩颖,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體样漆,經(jīng)...
    沈念sama閱讀 45,686評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,878評論 3 336
  • 正文 我和宋清朗相戀三年位他,在試婚紗的時候發(fā)現(xiàn)自己被綠了氛濒。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,992評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡鹅髓,死狀恐怖舞竿,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情窿冯,我是刑警寧澤骗奖,帶...
    沈念sama閱讀 35,715評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響执桌,放射性物質(zhì)發(fā)生泄漏鄙皇。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,336評論 3 330
  • 文/蒙蒙 一仰挣、第九天 我趴在偏房一處隱蔽的房頂上張望伴逸。 院中可真熱鬧,春花似錦膘壶、人聲如沸错蝴。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽顷锰。三九已至,卻和暖如春亡问,著一層夾襖步出監(jiān)牢的瞬間官紫,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評論 1 270
  • 我被黑心中介騙來泰國打工州藕, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留束世,地道東北人。 一個月前我還...
    沈念sama閱讀 48,173評論 3 370
  • 正文 我出身青樓慎框,卻偏偏與公主長得像良狈,于是被迫代替她去往敵國和親后添。 傳聞我的和親對象是個殘疾皇子笨枯,可洞房花燭夜當晚...
    茶點故事閱讀 44,947評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 數(shù)據(jù)預處理一方面提高數(shù)據(jù)的質(zhì)量,另一方面是要讓數(shù)據(jù)更好的適應特定的挖掘工具遇西。統(tǒng)計發(fā)現(xiàn)馅精,在數(shù)據(jù)挖掘過程中,數(shù)據(jù)預處理...
    熊定坤閱讀 4,721評論 0 4
  • 1. 簡述相關(guān)分析和回歸分析的區(qū)別和聯(lián)系粱檀。 回歸分析和相關(guān)分析都是研究兩個或兩個以上變量之間關(guān)系的方法洲敢。 廣義上說...
    安也也閱讀 8,688評論 0 3
  • 一、關(guān)于互聯(lián)網(wǎng)金融授信產(chǎn)品的風控建模 如何利用機器學習以及大數(shù)據(jù)技術(shù)來降低風險呢茄蚯?如何建立信用評分的模型呢压彭?本文將...
    apricoter閱讀 20,965評論 10 33
  • 歡迎來到小于的王者地盤皱碘,小于已經(jīng)更新了王者峽谷71位英雄全新的推薦出裝以及銘文搭配(新英雄百里玄策的教學已經(jīng) 上線...
    王者小于幫閱讀 144評論 0 1
  • 這是一篇讀后感询一,書目《親愛的夏綠蒂》,作者是臺灣的紀錄片女丁雯靜,事業(yè)遭遇滑鐵盧健蕊,于是重返家庭菱阵,這才發(fā)現(xiàn)女兒沉迷于...
    沫沫666閱讀 406評論 1 2