導(dǎo)語:影響關(guān)系研究是所有研究中最為常見的。我們都知道當(dāng)Y是定量數(shù)據(jù)時,線性回歸可以用來分析影響關(guān)系泊交。如果現(xiàn)在想對某件事情發(fā)生的概率進(jìn)行預(yù)估,比如一件衣服的是否有人想購買?這里的Y是“是否愿意購買”活合,屬于分類數(shù)據(jù),所以不能使用回歸分析物赶。
如果Y為定類數(shù)據(jù)白指,研究影響關(guān)系,正確做法是選擇Logistic回歸分析酵紫。
一告嘲、概念
Logistic回歸分析也用于研究影響關(guān)系,即X對于Y的影響情況奖地。Y為定量數(shù)據(jù)橄唬,X可以是定量數(shù)據(jù)或定類數(shù)據(jù)。
Logistic回歸和線性回歸最大的區(qū)別在于参歹,Y的數(shù)據(jù)類型仰楚。線性回歸分析的因變量Y屬于定量數(shù)據(jù),而Logistic回歸分析的因變量Y屬于分類數(shù)據(jù)犬庇。(還不理解什么是數(shù)據(jù)類型僧界?戳鏈接:基本概念)
二、 Logistic回歸分類
Logistic回歸在進(jìn)一步細(xì)分臭挽,又可分為二元Logit(Logistic)回歸捂襟、多分類Logit(Logistic)回歸,有序Logit(Logistic)回歸欢峰。
如果Y值僅兩個選項葬荷,分別是有和無之類的分類數(shù)據(jù),選擇二元Logistic回歸分析纽帖。Y值的選項有多個宠漩,并且選項之間沒有大小對比關(guān)系,則可以使用多元Logistic回歸分析抛计。Y值的選項有多個哄孤,并且選項之間可以對比大小關(guān)系,選項具有對比意義吹截,應(yīng)該使用多元有序Logistic回歸分析瘦陈。
三、Logistic回歸的使用場景
Logistic回歸分析可用于估計某個事件發(fā)生的可能性波俄,也可分析某個問題的影響因素有哪些晨逝。
醫(yī)學(xué)研究中,Logistic回歸常用于對某種疾病的危險因素分析懦铺。像是分析年齡捉貌、吸煙、飲酒、飲食情況等是否屬于2型糖尿病的危險因素趁窃。
問卷研究中牧挣,Logistic回歸常被用在分析非量表題上,像是將樣本基本背景信息作為X醒陆,購買意愿作為Y瀑构,分析性別、年齡刨摩、家庭條件是否會影響購買意愿寺晌。
其中,二元Logistic回歸分析的使用頻率最高澡刹,使用簡單方便容易理解和描述呻征,下面以二元Logistic回歸為例,對操作步驟罢浇,及結(jié)果解讀進(jìn)行說明陆赋。
四、案例應(yīng)用
(1)背景
有一份關(guān)于大學(xué)生對某商品購買意愿的調(diào)查問卷己莺。共收集到468份問卷數(shù)據(jù)奏甫,研究者要將“性別”、“年齡”凌受、“專業(yè)”阵子、“月生活費”四個變量作為潛在的影響因素,購買意愿為Y胜蛉,做二元Logistic回歸分析挠进。
這些自變量中,性別和文化程度是定類數(shù)據(jù)誊册,需要設(shè)定對照參考項领突,這里將女生和醫(yī)學(xué)專業(yè)作為對比參照項。年齡和月收入為定量數(shù)據(jù)直接放入案怯。
(2)分析步驟
①數(shù)據(jù)預(yù)處理
首先將定類數(shù)據(jù)做啞變量處理君旦,SPSSAU要求Logistic回歸Y值只可為1和0,不能取其他數(shù)字嘲碱。所以在正式分析前金砍,還要處理下Y值。操作示意圖如下:
②二元Logistic回歸分析
將全部分析項(設(shè)成啞變量的要少放一項)放入分析框內(nèi)麦锯,點擊開始二元Logit回歸恕稠。
(3)結(jié)果分析
SPSSAU共輸出四個結(jié)果表格,分別是基本匯總表扶欣、似然比檢驗表鹅巍、二元Logit回歸分析表千扶、預(yù)測準(zhǔn)確率表。
①基礎(chǔ)匯總表
表1為基礎(chǔ)匯總表骆捧,主要用來匯總數(shù)據(jù)信息澎羞,查看Y值的分布比例以及是否有缺失數(shù)據(jù)。如果缺失數(shù)據(jù)過多敛苇,或者Y值分布非常不均勻煤痕,可能會導(dǎo)致模型質(zhì)量較差。
從上表可知接谨,將性別, 年齡, 專業(yè), 月生活費作為自變量,而將new_購買意愿作為因變量進(jìn)行二元Logit回歸分析塘匣,從上表可以看出脓豪,總共有468個樣本參加分析,并且沒有缺失數(shù)據(jù)忌卤。
②似然比檢驗表
表2為模型似然比檢驗結(jié)果扫夜,用于分析模型整體是否有效。主要關(guān)注P值驰徊,AIC和BIC值用于多次分析時的對比笤闯;兩個值越低越好;如果多次進(jìn)行分析棍厂,可對比此兩個值的變化情況颗味,說明模型構(gòu)建的優(yōu)化過程。
從上表可知:此處模型檢驗的原定假設(shè)為:是否放入自變量(性別_男, 理工類, 文科類, 藝體類, 年齡, 月生活費)兩種情況時模型質(zhì)量均一樣牺弹;這里P值小于0.05浦马,因而說明拒絕原定假設(shè),即說明本次構(gòu)建模型時张漂,放入的自變量具有有效性晶默,本次模型構(gòu)建有意義。
③回歸分析匯總表
表3為二元Logistic回歸分析結(jié)果航攒,用于分析模型整體情況磺陡,以及每個X對Y的影響情況(顯著性、影響程度等)漠畜。
其中主要關(guān)注P值币他,回歸系數(shù),OR值和R Pseudo R2盆驹。
P值:判斷X對Y是否呈現(xiàn)出顯著性的影響圆丹,P<0.05說明X會對Y產(chǎn)生影響關(guān)系。
回歸系數(shù):回歸系數(shù)值躯喇,當(dāng)P小于0.05時有意義辫封。
OR值:優(yōu)勢比硝枉,值與1作比較,越接近1影響程度越小倦微,反之影響程度越大妻味。
Pseudo R2:用于說明模型整體情況。
從上表可知欣福,模型偽R平方值(Pseudo R平方)為0.089责球,意味所有變量能解釋購買意愿的8.9%變化原因。根據(jù)P值及OR值取值可知拓劝,理工類雏逾、藝體類、年齡對購買意愿有顯著性的正向影響郑临,意味著相比醫(yī)學(xué)專業(yè)學(xué)生栖博,理工、藝體專業(yè)學(xué)生的購買意愿更大厢洞;以及購買意愿隨著年齡增長而提高仇让。
④模型預(yù)測準(zhǔn)確率匯總表
表4為二元Logit回歸預(yù)測準(zhǔn)確率表,用于在分析后對模型質(zhì)量進(jìn)行判斷躺翻。
從上表可知:研究模型的整體預(yù)測準(zhǔn)確率為77.14%丧叽,模型擬合情況比較糟糕。當(dāng)真實值為不購買時公你,預(yù)測錯誤率為79.51%踊淳;另外當(dāng)真實值為購買時,預(yù)測錯誤率為2.89%陕靠。
如果實際研究中嚣崭,數(shù)據(jù)預(yù)測準(zhǔn)確率很低,比如低于85%懦傍,此時可以考慮刪除部分X雹舀,也或者對X進(jìn)行一些數(shù)據(jù)編碼組合處理,多次進(jìn)行二元Logit回歸分析進(jìn)行對比結(jié)果粗俱,選出最優(yōu)的模型結(jié)果说榆。這里就不再繼續(xù)說明。
?
五寸认、其他說明
1签财、注意因變量的賦值和啞變量參考項的選擇。Y對應(yīng)的數(shù)字一定只能為0和1偏塞;如果不是唱蒸,可以使用‘?dāng)?shù)據(jù)編碼’功能設(shè)置。啞變量選擇不同的選項作為參考項灸叼,其結(jié)果意義不相同神汹。
2庆捺、如果X的個數(shù)非常多(比如超過10個),需要先進(jìn)行甄別選擇出有意義的X屁魏,比如使用方差分析或者卡方分析滔以,選出X與Y有顯著差異的X放入二元logit回歸模型中。
登錄SPSSAU官網(wǎng)體驗在線數(shù)據(jù)分析????