Logistic回歸分析(logit回歸)一般可分為3類罚渐,分別是二元Logistic回歸分析迅耘、多分類Logistic回歸分析和有序Logistic回歸分析税娜。logistic回歸分析類型如下所示月洛。
Logistic回歸分析用于研究X對Y的影響,并且對X的數(shù)據(jù)類型沒有要求践叠,X可以為定類數(shù)據(jù)言缤,也可以為定量數(shù)據(jù),但要求Y必須為定類數(shù)據(jù)禁灼,并且根據(jù)Y的選項數(shù)管挟,使用相應(yīng)的數(shù)據(jù)分析方法。
· 如果Y有兩個選項弄捕,如愿意和不愿意僻孝、是和否,那么應(yīng)該使用二元Logistic回歸分析(SPSSAU【進階方法->二元logit】)守谓;
?· 如果Y有多個選項穿铆,并且各個選項之間可以對比大小,例如斋荞,1代表“不愿意”荞雏,2代表“無所謂”,3代表“愿意”平酿,這3個選項具有對比意義凤优,數(shù)值越高,代表樣本的愿意程度越高蜈彼,那么應(yīng)該使用多元有序Logistic回歸分析(SPSSAU【進階方法->有序logit】)筑辨;
?· 如果Y有多個選項,并且各個選項之間不具有對比意義幸逆,例如棍辕,1代表“淘寶”,2代表“天貓”还绘,3代表“京東”楚昭,4代表“亞馬遜中國”,數(shù)值僅代表不同類別拍顷,數(shù)值大小不具有對比意義抚太,那么應(yīng)該使用多元無序Logistic回歸分析(SPSSAU【進階方法->多分類logit】)。
1菇怀、多分類logistic回歸分析基本說明
只要是logistic回歸凭舶,都是研究X對于Y的影響,區(qū)別在于因變量Y上爱沟,logistic回歸時帅霜,因變量Y是看成定類數(shù)據(jù)的,如果為二元(即選項只有2個)呼伸,那么就是二元logistic回歸身冀; 如果Y是多個類別且類別之間無法進行對比程度或者大小,則為多分類logistic回歸括享;如果Y是多個類別且類別之間可以對比程度大新Ц(也稱為定量數(shù)據(jù),或者有序定類數(shù)據(jù))铃辖,此時則使用有序logistic回歸剩愧。
多分類logistic回歸的難點在于:因變量為類別數(shù)據(jù),研究X對Y的影響時娇斩,如果為類別數(shù)據(jù)仁卷,那么不能說越如何越如何,比如不能說越滿意越愿意購買犬第;而只能說相對小米手機來說锦积,對于手機外觀越滿意越愿意購買蘋果手機。這就是類別數(shù)據(jù)的特點歉嗓,一定是相對某某而言丰介。這就導(dǎo)致了多分類logistic回歸分析時,文字分析的難度加大鉴分,最好是使用SPSSAU的智能文字分析對應(yīng)查看哮幢。
單獨進行多分類logistic回歸時,通常需要有以下步驟冠场,分別是數(shù)據(jù)處理家浇,模型似然比檢驗,參數(shù)估計分析和模型預(yù)測效果分析共4個步驟碴裙。
1)?數(shù)據(jù)處理
?
如果說因變量Y的類別個數(shù)很多钢悲,比如為10個,此時建議時對類別進行組合下舔株,盡量少的減少類別數(shù)量莺琳,便于后續(xù)進行分析。此步驟可通過SPSSAU【數(shù)據(jù)處理->數(shù)據(jù)編碼】完成载慈。
?
如果說自變量X是定類數(shù)據(jù)惭等,那么可對X進行虛擬啞變量處理,使用SPSSAU數(shù)據(jù)處理模塊的生成變量功能办铡。關(guān)于虛擬啞變量問題辞做,可參閱SPSSAU的手冊琳要。其實定類數(shù)據(jù)在做影響關(guān)系研究時,通常都會做虛擬啞變量處理秤茅。而且做完之后稚补,放入模型時一定要少放一項,比如專業(yè)分成理工科框喳,文科類课幕,體育藝術(shù)類。那么分析時一定要少放一項(少放的項是參考項)五垮,因為這涉及到分析時進行文字描述乍惊。至于少放那一項,由研究者自行決定即可放仗。
?
處理完成數(shù)據(jù)润绎,確保數(shù)據(jù)沒有問題后,直接進入SPSSAU【進階方法->多分類logit】進行分析即可匙监。
2)?模型似然比檢驗
模型似然比檢驗用于對整個模型的有效性進行分析凡橱,一般對應(yīng)的P值小于0.05即可。同時SPSSAU還提供AIC和BIC這兩個指標(biāo)值亭姥,如果模型有多個稼钩,而且希望進行模型之間的優(yōu)劣比較,可使用此兩個指標(biāo)达罗,此兩個指標(biāo)是越小越好坝撑。具體可直接查看SPSSAU的智能分析和分析建議即可。
3)?參數(shù)估計分析
?
參數(shù)估計分析其實就已經(jīng)開始進入實質(zhì)性的分析了粮揉。首先可分析R方巡李,即模型的擬合水平情況,SPSSAU提供3個R方值指標(biāo)扶认,分別是McFadden?R?方侨拦、Cox & Snell?R?方和Nagelkerke?R?方。此3個R?方均為偽R?方值辐宾,其值越大越好狱从,但其無法非常有效的表達模型的擬合程度,意義相對交小叠纹,而且多數(shù)情況此3個指標(biāo)值均會特別小季研,研究人員不用過分關(guān)注于此3個指標(biāo)值。一般報告其中任意一個R方值指標(biāo)即可誉察。
?
接著分析回歸系數(shù)与涡,即X對于Y的影響。一定記住,分析時是先基于以***作為參照時驼卖,X對于**有正向影響氨肌。比如相對于小米手機作為參照項,用戶對于手機外觀的在乎程度會正向影響到用戶選擇蘋果手機酌畜。簡而言之即說明儒飒,相對小米手機,用戶越在乎外觀時檩奠,更加可能選擇蘋果手機。
4)?模型預(yù)測效果分析
?
多分類logistic回歸建模時附帽,還可以對模型的預(yù)測效果進行分析埠戳,當(dāng)然一般情況下我們關(guān)注于影響關(guān)系,因而對于預(yù)測效果等不那么看重蕉扮。即模型預(yù)測質(zhì)量的關(guān)注乎相對較低整胃,多數(shù)時候直接忽略它。
2喳钟、如何使用SPSSAU進行多分類logistic回歸操作
關(guān)于多分類logistic回歸的操作上屁使,SPSSAU操作如下:
此處的X為3個,分別是性別奔则,學(xué)歷和年齡蛮寂,學(xué)歷和年齡是定量數(shù)據(jù)直接納入模型中即可。但是性別是定類數(shù)據(jù)易茬,所以先做了虛擬啞變量(數(shù)據(jù)處理->生成變量功能)酬蹋,然后性別分為兩項分別是男和女,以男作為參照項抽莱,因此把女放入了模型中范抓。
至于分析結(jié)果如下:
此處模型檢驗的原定假設(shè)為:是否放入自變量(性別_女, 學(xué)歷, 年齡)兩種情況時模型質(zhì)量均一樣;這里p值小于0.05食铐,因而說明拒絕原定假設(shè)匕垫,即說明本次構(gòu)建模型時,放入的自變量具有有效性虐呻,本次模型構(gòu)建有意義象泵。
模型的R方值僅為0.025,但一般報告下即可铃慷,偽R方值一般都比較低单芜。特別需要注意分析:
上表格加藍色底紋的項為P值小于0.05即呈現(xiàn)出顯著的項,接下來逐一說明下犁柜,
性別_女的回歸系數(shù)值為-0.309洲鸠,并且呈現(xiàn)出0.05水平的顯著性(z=-2.127,p=0.033<0.05),這說明相對于男性來講扒腕,女性更加偏好于小米手機绢淀。為什么這樣闡述呢,首先在多分類logistic回歸瘾腰,SPSSAU將因變量Y的第1項(此處為小米手機)作為參照項皆的。那么性別_女呈現(xiàn)出負向影響,就說明‘越女性蹋盆,越偏向于小米手機’费薄,因而結(jié)論就是,相對于華為手機來講栖雾,女性明顯更加偏好于小米手機楞抡。
相對小米手機來講,年齡的回歸系數(shù)值為-0.437析藕,并且呈現(xiàn)出0.01水平的顯著性(z=-6.076召廷,p=0.000<0.01),負向影響账胧,即說明年齡越大(此處年齡是定量數(shù)據(jù)所以可以說年齡越大越如何)竞慢,用戶越不偏好華為手機。那就是說年齡越大用戶越偏好于小米手機治泥。
接著筹煮,相對于小米手機來講,在蘋果手機進行對比時居夹,性別_女的回歸系數(shù)值為0.436寺谤,并且呈現(xiàn)出0.01水平的顯著性(z=4.192,p=0.000<0.01)吮播,意味著相對小米手機变屁,性別_女會對蘋果顯著的正向影響關(guān)系。那就是說相對小米手機來講意狠,女性更加偏好于蘋果手機的意思粟关。
3、多分類logistic相關(guān)問題环戈?
在使用SPSSSAU進行多分類logistic回歸時闷板,可能會出現(xiàn)一些問題,比如提示奇異矩陣院塞,質(zhì)量異常遮晚,Y值只能為0或1等,接下來一一說明拦止。
第1點:出現(xiàn)奇異矩陣或質(zhì)量異常
如果做多分類logsitic回歸時提示奇異矩陣县遣,通常有兩個原因糜颠,一是虛擬啞變量設(shè)置后,本應(yīng)該少放1項作為參考項但是并沒有萧求,而是把所有的啞變量項都放入框中其兴,這會導(dǎo)致絕對的共線性問題即會出現(xiàn)奇異矩陣矩陣。二是X之間有著太強的共線性(可使用通用方法的線性回歸查看下VIF值)夸政,此時也可能導(dǎo)致模型無法擬合等元旬。先找出原因,然后把有問題的項移出模型中即可守问。
?
同時匀归,如果因變量Y的分布極其不均勻,SPSSAU建議可先對類別進行組合耗帕,可使用數(shù)據(jù)處理里面的數(shù)據(jù)編碼完成朋譬。
?
第2點:提示“Y的選項過少或過多”?
如果出現(xiàn)此提示取具,意味著因變量Y的選項不符合多分類logistic回歸分析要求梳毙,通常情況下因變量Y的分類個數(shù)應(yīng)該介于3~8個之間茵汰。
?用戶可使用頻數(shù)分析功能進行查看因變量Y的選項個數(shù)情況;
如果選項個數(shù)過多需要進行合并處理等探越,可使用【數(shù)據(jù)處理->數(shù)據(jù)編碼】功能操作。
?
第3點:OR值的意義
OR值=exp(b)值窑业,即回歸系數(shù)的指數(shù)次方钦幔,該值在醫(yī)學(xué)研究里面使用較多,實際意義是X增加1個單位時常柄,Y的增加幅度鲤氢。如果僅僅是研究影響關(guān)系,該值意義較小西潘。
?
第4點: wald值或z值
z 值=回歸系數(shù)/標(biāo)準(zhǔn)誤卷玉,該值為中間過程值無意義,只需要看p 值即可喷市。有的軟件會提供wald值(但不提供z 值相种,該值也無實際意義),wald值= z 值的平方品姓。
第5點: McFadden?R?方寝并、Cox & Snell?R?方和Nagelkerke?R?方相關(guān)問題?
Logit回歸時會提供此3個R?方值(分別是McFadden?R?方腹备、Cox & Snell?R?方和Nagelkerke?R?方)衬潦,此3個R?方均為偽R?方值,其值越大越好植酥,但其無法非常有效的表達模型的擬合程度镀岛,意義相對交小,而且多數(shù)情況此3個指標(biāo)值均會特別小,研究人員不用過分關(guān)注于此3個指標(biāo)值哎媚。一般報告其中任意一個R方值指標(biāo)即可喇伯。