一文掌握多分類logistic回歸

Logistic回歸分析(logit回歸)一般可分為3類罚渐,分別是二元Logistic回歸分析迅耘、多分類Logistic回歸分析和有序Logistic回歸分析税娜。logistic回歸分析類型如下所示月洛。

Logistic回歸分析用于研究X對Y的影響,并且對X的數(shù)據(jù)類型沒有要求践叠,X可以為定類數(shù)據(jù)言缤,也可以為定量數(shù)據(jù),但要求Y必須為定類數(shù)據(jù)禁灼,并且根據(jù)Y的選項數(shù)管挟,使用相應(yīng)的數(shù)據(jù)分析方法。

· 如果Y有兩個選項弄捕,如愿意和不愿意僻孝、是和否,那么應(yīng)該使用二元Logistic回歸分析(SPSSAU【進階方法->二元logit】)守谓;

?· 如果Y有多個選項穿铆,并且各個選項之間可以對比大小,例如斋荞,1代表“不愿意”荞雏,2代表“無所謂”,3代表“愿意”平酿,這3個選項具有對比意義凤优,數(shù)值越高,代表樣本的愿意程度越高蜈彼,那么應(yīng)該使用多元有序Logistic回歸分析(SPSSAU【進階方法->有序logit】)筑辨;

?· 如果Y有多個選項,并且各個選項之間不具有對比意義幸逆,例如棍辕,1代表“淘寶”,2代表“天貓”还绘,3代表“京東”楚昭,4代表“亞馬遜中國”,數(shù)值僅代表不同類別拍顷,數(shù)值大小不具有對比意義抚太,那么應(yīng)該使用多元無序Logistic回歸分析(SPSSAU【進階方法->多分類logit】)。


1菇怀、多分類logistic回歸分析基本說明

只要是logistic回歸凭舶,都是研究X對于Y的影響,區(qū)別在于因變量Y上爱沟,logistic回歸時帅霜,因變量Y是看成定類數(shù)據(jù)的,如果為二元(即選項只有2個)呼伸,那么就是二元logistic回歸身冀; 如果Y是多個類別且類別之間無法進行對比程度或者大小,則為多分類logistic回歸括享;如果Y是多個類別且類別之間可以對比程度大新Ц(也稱為定量數(shù)據(jù),或者有序定類數(shù)據(jù))铃辖,此時則使用有序logistic回歸剩愧。

多分類logistic回歸的難點在于:因變量為類別數(shù)據(jù),研究X對Y的影響時娇斩,如果為類別數(shù)據(jù)仁卷,那么不能說越如何越如何,比如不能說越滿意越愿意購買犬第;而只能說相對小米手機來說锦积,對于手機外觀越滿意越愿意購買蘋果手機。這就是類別數(shù)據(jù)的特點歉嗓,一定是相對某某而言丰介。這就導(dǎo)致了多分類logistic回歸分析時,文字分析的難度加大鉴分,最好是使用SPSSAU的智能文字分析對應(yīng)查看哮幢。

單獨進行多分類logistic回歸時,通常需要有以下步驟冠场,分別是數(shù)據(jù)處理家浇,模型似然比檢驗,參數(shù)估計分析和模型預(yù)測效果分析共4個步驟碴裙。


1)?數(shù)據(jù)處理

?

如果說因變量Y的類別個數(shù)很多钢悲,比如為10個,此時建議時對類別進行組合下舔株,盡量少的減少類別數(shù)量莺琳,便于后續(xù)進行分析。此步驟可通過SPSSAU【數(shù)據(jù)處理->數(shù)據(jù)編碼】完成载慈。

?


如果說自變量X是定類數(shù)據(jù)惭等,那么可對X進行虛擬啞變量處理,使用SPSSAU數(shù)據(jù)處理模塊的生成變量功能办铡。關(guān)于虛擬啞變量問題辞做,可參閱SPSSAU的手冊琳要。其實定類數(shù)據(jù)在做影響關(guān)系研究時,通常都會做虛擬啞變量處理秤茅。而且做完之后稚补,放入模型時一定要少放一項,比如專業(yè)分成理工科框喳,文科類课幕,體育藝術(shù)類。那么分析時一定要少放一項(少放的項是參考項)五垮,因為這涉及到分析時進行文字描述乍惊。至于少放那一項,由研究者自行決定即可放仗。

?

處理完成數(shù)據(jù)润绎,確保數(shù)據(jù)沒有問題后,直接進入SPSSAU【進階方法->多分類logit】進行分析即可匙监。


2)?模型似然比檢驗


模型似然比檢驗用于對整個模型的有效性進行分析凡橱,一般對應(yīng)的P值小于0.05即可。同時SPSSAU還提供AIC和BIC這兩個指標(biāo)值亭姥,如果模型有多個稼钩,而且希望進行模型之間的優(yōu)劣比較,可使用此兩個指標(biāo)达罗,此兩個指標(biāo)是越小越好坝撑。具體可直接查看SPSSAU的智能分析和分析建議即可。


3)?參數(shù)估計分析

?

參數(shù)估計分析其實就已經(jīng)開始進入實質(zhì)性的分析了粮揉。首先可分析R方巡李,即模型的擬合水平情況,SPSSAU提供3個R方值指標(biāo)扶认,分別是McFadden?R?方侨拦、Cox & Snell?R?方和Nagelkerke?R?方。此3個R?方均為偽R?方值辐宾,其值越大越好狱从,但其無法非常有效的表達模型的擬合程度,意義相對交小叠纹,而且多數(shù)情況此3個指標(biāo)值均會特別小季研,研究人員不用過分關(guān)注于此3個指標(biāo)值。一般報告其中任意一個R方值指標(biāo)即可誉察。

?

接著分析回歸系數(shù)与涡,即X對于Y的影響。一定記住,分析時是先基于以***作為參照時驼卖,X對于**有正向影響氨肌。比如相對于小米手機作為參照項,用戶對于手機外觀的在乎程度會正向影響到用戶選擇蘋果手機酌畜。簡而言之即說明儒飒,相對小米手機,用戶越在乎外觀時檩奠,更加可能選擇蘋果手機。


4)?模型預(yù)測效果分析

?

多分類logistic回歸建模時附帽,還可以對模型的預(yù)測效果進行分析埠戳,當(dāng)然一般情況下我們關(guān)注于影響關(guān)系,因而對于預(yù)測效果等不那么看重蕉扮。即模型預(yù)測質(zhì)量的關(guān)注乎相對較低整胃,多數(shù)時候直接忽略它。


2喳钟、如何使用SPSSAU進行多分類logistic回歸操作

關(guān)于多分類logistic回歸的操作上屁使,SPSSAU操作如下:



此處的X為3個,分別是性別奔则,學(xué)歷和年齡蛮寂,學(xué)歷和年齡是定量數(shù)據(jù)直接納入模型中即可。但是性別是定類數(shù)據(jù)易茬,所以先做了虛擬啞變量(數(shù)據(jù)處理->生成變量功能)酬蹋,然后性別分為兩項分別是男和女,以男作為參照項抽莱,因此把女放入了模型中范抓。

至于分析結(jié)果如下:

此處模型檢驗的原定假設(shè)為:是否放入自變量(性別_女, 學(xué)歷, 年齡)兩種情況時模型質(zhì)量均一樣;這里p值小于0.05食铐,因而說明拒絕原定假設(shè)匕垫,即說明本次構(gòu)建模型時,放入的自變量具有有效性虐呻,本次模型構(gòu)建有意義象泵。

模型的R方值僅為0.025,但一般報告下即可铃慷,偽R方值一般都比較低单芜。特別需要注意分析:

上表格加藍色底紋的項為P值小于0.05即呈現(xiàn)出顯著的項,接下來逐一說明下犁柜,

性別_女的回歸系數(shù)值為-0.309洲鸠,并且呈現(xiàn)出0.05水平的顯著性(z=-2.127,p=0.033<0.05),這說明相對于男性來講扒腕,女性更加偏好于小米手機绢淀。為什么這樣闡述呢,首先在多分類logistic回歸瘾腰,SPSSAU將因變量Y的第1項(此處為小米手機)作為參照項皆的。那么性別_女呈現(xiàn)出負向影響,就說明‘越女性蹋盆,越偏向于小米手機’费薄,因而結(jié)論就是,相對于華為手機來講栖雾,女性明顯更加偏好于小米手機楞抡。

相對小米手機來講,年齡的回歸系數(shù)值為-0.437析藕,并且呈現(xiàn)出0.01水平的顯著性(z=-6.076召廷,p=0.000<0.01),負向影響账胧,即說明年齡越大(此處年齡是定量數(shù)據(jù)所以可以說年齡越大越如何)竞慢,用戶越不偏好華為手機。那就是說年齡越大用戶越偏好于小米手機治泥。

接著筹煮,相對于小米手機來講,在蘋果手機進行對比時居夹,性別_女的回歸系數(shù)值為0.436寺谤,并且呈現(xiàn)出0.01水平的顯著性(z=4.192,p=0.000<0.01)吮播,意味著相對小米手機变屁,性別_女會對蘋果顯著的正向影響關(guān)系。那就是說相對小米手機來講意狠,女性更加偏好于蘋果手機的意思粟关。


3、多分類logistic相關(guān)問題环戈?

在使用SPSSSAU進行多分類logistic回歸時闷板,可能會出現(xiàn)一些問題,比如提示奇異矩陣院塞,質(zhì)量異常遮晚,Y值只能為0或1等,接下來一一說明拦止。


第1點:出現(xiàn)奇異矩陣或質(zhì)量異常

如果做多分類logsitic回歸時提示奇異矩陣县遣,通常有兩個原因糜颠,一是虛擬啞變量設(shè)置后,本應(yīng)該少放1項作為參考項但是并沒有萧求,而是把所有的啞變量項都放入框中其兴,這會導(dǎo)致絕對的共線性問題即會出現(xiàn)奇異矩陣矩陣。二是X之間有著太強的共線性(可使用通用方法的線性回歸查看下VIF值)夸政,此時也可能導(dǎo)致模型無法擬合等元旬。先找出原因,然后把有問題的項移出模型中即可守问。

?

同時匀归,如果因變量Y的分布極其不均勻,SPSSAU建議可先對類別進行組合耗帕,可使用數(shù)據(jù)處理里面的數(shù)據(jù)編碼完成朋譬。

?

第2點:提示“Y的選項過少或過多”?

如果出現(xiàn)此提示取具,意味著因變量Y的選項不符合多分類logistic回歸分析要求梳毙,通常情況下因變量Y的分類個數(shù)應(yīng)該介于3~8個之間茵汰。

  • ?用戶可使用頻數(shù)分析功能進行查看因變量Y的選項個數(shù)情況;

  • 如果選項個數(shù)過多需要進行合并處理等探越,可使用【數(shù)據(jù)處理->數(shù)據(jù)編碼】功能操作。

?

第3點:OR值的意義

OR值=exp(b)值窑业,即回歸系數(shù)的指數(shù)次方钦幔,該值在醫(yī)學(xué)研究里面使用較多,實際意義是X增加1個單位時常柄,Y的增加幅度鲤氢。如果僅僅是研究影響關(guān)系,該值意義較小西潘。

?

第4點: wald值或z值

z 值=回歸系數(shù)/標(biāo)準(zhǔn)誤卷玉,該值為中間過程值無意義,只需要看p 值即可喷市。有的軟件會提供wald值(但不提供z 值相种,該值也無實際意義),wald值= z 值的平方品姓。


第5點: McFadden?R?方寝并、Cox & Snell?R?方和Nagelkerke?R?方相關(guān)問題?

Logit回歸時會提供此3個R?方值(分別是McFadden?R?方腹备、Cox & Snell?R?方和Nagelkerke?R?方)衬潦,此3個R?方均為偽R?方值,其值越大越好植酥,但其無法非常有效的表達模型的擬合程度镀岛,意義相對交小,而且多數(shù)情況此3個指標(biāo)值均會特別小,研究人員不用過分關(guān)注于此3個指標(biāo)值哎媚。一般報告其中任意一個R方值指標(biāo)即可喇伯。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市拨与,隨后出現(xiàn)的幾起案子稻据,更是在濱河造成了極大的恐慌,老刑警劉巖买喧,帶你破解...
    沈念sama閱讀 211,042評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件捻悯,死亡現(xiàn)場離奇詭異,居然都是意外死亡淤毛,警方通過查閱死者的電腦和手機今缚,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評論 2 384
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來低淡,“玉大人姓言,你說我怎么就攤上這事≌崽#” “怎么了何荚?”我有些...
    開封第一講書人閱讀 156,674評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長猪杭。 經(jīng)常有香客問我餐塘,道長,這世上最難降的妖魔是什么皂吮? 我笑而不...
    開封第一講書人閱讀 56,340評論 1 283
  • 正文 為了忘掉前任戒傻,我火速辦了婚禮,結(jié)果婚禮上蜂筹,老公的妹妹穿的比我還像新娘需纳。我一直安慰自己,他們只是感情好艺挪,可當(dāng)我...
    茶點故事閱讀 65,404評論 5 384
  • 文/花漫 我一把揭開白布候齿。 她就那樣靜靜地躺著,像睡著了一般闺属。 火紅的嫁衣襯著肌膚如雪慌盯。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,749評論 1 289
  • 那天掂器,我揣著相機與錄音亚皂,去河邊找鬼。 笑死国瓮,一個胖子當(dāng)著我的面吹牛灭必,可吹牛的內(nèi)容都是我干的狞谱。 我是一名探鬼主播,決...
    沈念sama閱讀 38,902評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼禁漓,長吁一口氣:“原來是場噩夢啊……” “哼跟衅!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起播歼,我...
    開封第一講書人閱讀 37,662評論 0 266
  • 序言:老撾萬榮一對情侶失蹤伶跷,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后秘狞,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體叭莫,經(jīng)...
    沈念sama閱讀 44,110評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年烁试,在試婚紗的時候發(fā)現(xiàn)自己被綠了雇初。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,577評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡减响,死狀恐怖靖诗,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情支示,我是刑警寧澤刊橘,帶...
    沈念sama閱讀 34,258評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站悼院,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏咒循。R本人自食惡果不足惜据途,卻給世界環(huán)境...
    茶點故事閱讀 39,848評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望叙甸。 院中可真熱鬧颖医,春花似錦、人聲如沸裆蒸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽僚祷。三九已至佛致,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間辙谜,已是汗流浹背俺榆。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留装哆,地道東北人罐脊。 一個月前我還...
    沈念sama閱讀 46,271評論 2 360
  • 正文 我出身青樓定嗓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親萍桌。 傳聞我的和親對象是個殘疾皇子宵溅,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,452評論 2 348

推薦閱讀更多精彩內(nèi)容