只要學(xué)習(xí)過數(shù)據(jù)分析今妄,或者對數(shù)據(jù)分析有一些簡單的了解郑口,使用過spssau、spss盾鳞、stata這些統(tǒng)計(jì)分析軟件,都知道有回歸分析腾仅。按照數(shù)學(xué)上的定義來看,回歸分析指研究一組隨機(jī)變量(Y1 推励,Y2 鹤耍,…,Yi)和另一組(X1验辞,X2稿黄,…跌造,Xk)變量之間關(guān)系的統(tǒng)計(jì)分析方法族购,又稱多重回歸分析陵珍。通常Y1,Y2瑟幕,…,Yi是因變量收苏,X1愤兵、X2,…秆乳,Xk是自變量。
其實(shí)說簡單點(diǎn)就是研究X對于Y的影響關(guān)系肛冶,這就是回歸分析扯键。但是,這并不夠呢馅笙,看下圖厉亏,總共19種回歸(其實(shí)還有不單獨(dú)列出),這如何區(qū)分爱只,到底應(yīng)該使用哪一種回歸呢,這19種回歸分析有啥區(qū)別呢窝趣。為什么會(huì)這如此多的回歸分析呢训柴?
一、首先回答下:為什么會(huì)有如此多的回歸分析方法散址?
在研究X對于Y的影響時(shí)乖阵,會(huì)區(qū)分出很多種情況预麸,比如Y有的是定類數(shù)據(jù)儒将,Y有的是定量數(shù)據(jù)(如果不懂,可閱讀基礎(chǔ)概念)贡翘,也有可能Y有多個(gè)或者1個(gè)砰逻,同時(shí)每種回歸分析還有很多前提條件,如果不滿足則有對應(yīng)的其它回歸方法進(jìn)行解決踊东。這也就解決了為什么會(huì)有如此多的回歸分析方法刚操。接下來會(huì)逐一說明這19種回歸分析方法。
二菊霜、回歸分析按數(shù)據(jù)類型分類
首先將回歸分析中的Y(因變量)進(jìn)行數(shù)據(jù)類型區(qū)分,如果是定量且1個(gè)(比如身高)记某,通常我們會(huì)使用線性回歸构捡,如果Y為定類且1個(gè)(比如是否愿意購買蘋果手機(jī)),此時(shí)叫logistic回歸贺拣,如果Y為定量且多個(gè)捂蕴,此時(shí)應(yīng)該使用PLS回歸(即偏最小二乘回歸)。
線性回歸再細(xì)分:如果回歸模型中X僅為1個(gè)涡匀,此時(shí)就稱為簡單線性回歸或者一元線性回歸溉知;如果X有多個(gè)腕够,此時(shí)稱為多元線性回歸舌劳。
Logistic回歸再細(xì)分:如果Y為兩類比如0和1(比如1為愿意和0為不愿意,1為購買和0為不購買)大诸,此時(shí)就叫二元logistic回歸贯卦;如果Y為多類比如1,2撵割,3(比如DELL, Thinkpad, Mac),此時(shí)就會(huì)多分類logistic回歸;如果Y為多類且有序比如1羹与,2外遇,3(比如1為不愿意,2為中立诡渴,3為愿意)菲语,此時(shí)可以使用有序logistic回歸。如果Y為兩類時(shí)山上,有時(shí)候會(huì)使用二元Probit回歸模型。
除此之外哮伟,如果Y為定量且為多個(gè)妄帘,很多時(shí)候會(huì)將Y合并概括成1個(gè)(比如使用平均值),然后使用線性回歸鬼廓,反之可考慮使用PLS回歸(但此種情況使用其實(shí)較少致盟,PLS回歸模型非常復(fù)雜)尤慰。
三雷蹂、深入說明線性因歸模型
我們常見的回歸分析中,線性回歸和logistic回歸最為常見荔泳。也是當(dāng)前研究最多虐杯,并且使用最為普遍昧港,以及最為人接受容易理解的研究方法。
尤其是線性回歸创肥,其使用最為成熟,研究最多巩搏,而且絕大多數(shù)生活現(xiàn)象均可使用線性回歸進(jìn)行研究趾代,因而結(jié)合回歸分析還會(huì)多出一些回歸方法;同時(shí)回歸分析模型會(huì)有很多假定禽捆,或者滿足條件飘哨,如果不滿足這些假定或者條件就會(huì)導(dǎo)致模型使用出錯(cuò),此時(shí)就有對應(yīng)的其它回歸模型出來解決這些問題浊服,因而跟著線性回歸后面又出來很多的回歸胚吁。如下圖:
線性回歸是研究X對于Y的影響,如果說有多個(gè)X述呐,希望讓模型自動(dòng)找出有意義的X蕉毯,此時(shí)就可以使用逐步回歸思犁。另外在很一些管理類研究中會(huì)涉及到中介作用或者調(diào)節(jié)作用进肯,此時(shí)就可能使用到分層回歸或者分組回歸等。
在進(jìn)行線性回歸分析時(shí)学辱,如果說模型出現(xiàn)共線性問題VIF值很大环形,此時(shí)就可以使用嶺回歸進(jìn)行解決策泣,嶺回歸的使用較為廣泛,其實(shí)還有Lasso回歸也可以解決共線性問題抬吟,但是使用非常少而已。
如果數(shù)據(jù)中有異常值危队,常見的解決辦法是先把異常值去除掉钙畔,但有的時(shí)候確實(shí)無法去除掉異常值,此時(shí)可考慮使用穩(wěn)健回歸分析模型簿盅。
線性回歸的前提是X和Y之間有著線性關(guān)系叔锐,但有的時(shí)候X和Y并不是線性關(guān)系,此時(shí)就有著曲線回歸和非線性回歸這兩種回歸出來供使用讨盒,曲線回歸其實(shí)質(zhì)上是將曲線模型表達(dá)式轉(zhuǎn)換成線性關(guān)系表達(dá)式進(jìn)行研究步责,而非線性回歸較為復(fù)雜當(dāng)然使用也非常少,其和線性回歸完全不是一回事情蔓肯。以及Poisson回歸(泊松回歸)是指Y符合泊松分布特征時(shí)使用的回歸研究模型。
四蔗包、其它
除此之外,還有比如加權(quán)WLS回歸等舟陆,使用較少,不單獨(dú)說明秦躯。
最后特別說明的一種回歸模型叫Cox回歸踱承,這是醫(yī)學(xué)研究中使用較多的一種方法,是研究生存影響關(guān)系茎活,比如研究抑郁癥生存時(shí)間,癌癥的死亡時(shí)間影響關(guān)系情況等桅滋。
綜上所述身辨,一次性將19種回歸匯總芍碧,基本上都可以在SPSSAU上面找到,關(guān)于各類回歸方法的使用定庵,以及具體原理踪危,可查看SPSSAU官網(wǎng),以及可使用SPSSAU上面的案例數(shù)據(jù)畴博,逐一進(jìn)行操作分析蓝仲。