1、什么是回歸分析智蝠?
回歸分析是研究自變量X和因變量Y之間數(shù)量變化關(guān)系的一種分析方法聪铺,主要是通過建立因變量Y和影響他的自變量Xi(i1,2,3...)之間的回歸模型,衡量自變量Xi對(duì)因變量Y的影響能力烛亦,進(jìn)而可以用來預(yù)測(cè)因變量Y的發(fā)展趨勢(shì)诈泼。
相關(guān)分析和回歸分析的聯(lián)系:
都是研究及測(cè)度兩個(gè)或兩個(gè)以上變量之間關(guān)系的方法。一般是先進(jìn)行相關(guān)分析煤禽,計(jì)算相關(guān)系數(shù)铐达,然后在建立回歸模型,最后用回歸模型進(jìn)行推算或預(yù)測(cè)檬果。
相關(guān)分析和回歸分析的區(qū)別:
先關(guān)分析研究的是隨機(jī)變量瓮孙,不區(qū)分自變量和因變量;回歸分析研究的變量要定義出自變量和因變量选脊,并且自變量是確定的普通變量杭抠,因變量是隨機(jī)變量。
相關(guān)分析主要描述變量之間相關(guān)關(guān)系的密切程度恳啥;回歸分析不僅僅可以揭示變量X對(duì)變量Y的影響程度偏灿,還可以根據(jù)回歸模型進(jìn)行預(yù)測(cè)。
回歸模型主要包括線性回歸和非線性回歸钝的。線性回歸有分為簡(jiǎn)單線性回歸和多重線性回歸翁垂;非線性回歸一般需要通過對(duì)數(shù)轉(zhuǎn)化等方式轉(zhuǎn)化為線性回歸的形式進(jìn)行研究。
2扁藕、線性回歸分析步驟
1)根據(jù)預(yù)測(cè)目標(biāo),確定自變量和因變量
圍繞業(yè)務(wù)問題疚脐,明確預(yù)測(cè)目標(biāo)亿柑,根據(jù)經(jīng)驗(yàn)和常識(shí)或過往數(shù)據(jù)等初步確定自變量和因變量
2)繪制散點(diǎn)圖,確定回歸模型類型
繪制散點(diǎn)圖棍弄,初步判斷自變量和因變量之間是否基友線性相關(guān)關(guān)系望薄,同時(shí)進(jìn)行相關(guān)分析,判斷相關(guān)程度和方向呼畸,從而確立回歸模型的類型
3)估計(jì)模型參數(shù)痕支,建立回歸模型
最小二乘法進(jìn)行模型參數(shù)的估計(jì),建立回歸模型
4)對(duì)回歸模型就行檢驗(yàn)
通過對(duì)真?zhèn)€模型及各個(gè)參數(shù)的統(tǒng)計(jì)顯著性檢驗(yàn)蛮原,逐步優(yōu)化和最終確立回歸模型
5)利用回歸模型進(jìn)行預(yù)測(cè)
模型通過檢驗(yàn)后卧须,應(yīng)用到新的數(shù)據(jù)中,進(jìn)行預(yù)測(cè)
一儒陨、簡(jiǎn)單線性回歸分析簡(jiǎn)介
簡(jiǎn)單線性回歸也稱之為一元線性回歸花嘶,就是模型中只有一個(gè)自變量,他主要用來處理一個(gè)自變量與一個(gè)因變量之間的線性關(guān)系蹦漠。
模型為:Y=a+bX+ε
Y:因變量椭员;
?X:自變量;
?a:常數(shù)笛园,也就是截距隘击;
?b:回歸系數(shù)侍芝,也就是斜率;
ε:隨機(jī)誤差埋同,即隨機(jī)變量對(duì)因變量產(chǎn)生的影響州叠。
什么是最小二乘法?
最小二乘法又叫做最小平方法莺禁,通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配留量。
一是將誤差最小化,二是將誤差最小化的方法是將誤差的平方和最小化哟冬÷ハǎ“平方”有稱之為“二乘”,用平方的方法是要規(guī)避負(fù)數(shù)對(duì)計(jì)算的影響浩峡。
最小二乘法在回歸模型上的應(yīng)用可岂,就是要似的觀測(cè)點(diǎn)和估計(jì)點(diǎn)之間的距離的平方和達(dá)到最小,距離最近翰灾,也就是使得盡可能多的觀測(cè)點(diǎn)落在或者更加靠近這條擬合出來的直線上缕粹。
第一步:根據(jù)預(yù)測(cè)目標(biāo),確定自變量和因變量
“廣告費(fèi)用”作為自變量纸淮,“銷售額”最為因變量平斩,評(píng)估廣告對(duì)銷售額的具體影響。
第二步:繪制散點(diǎn)圖咽块,確定回歸模型類型
結(jié)論:兩個(gè)變量之間存在明顯的線性相關(guān)關(guān)系
第三步:估計(jì)模型參數(shù)绘面,簡(jiǎn)歷回歸模型
【統(tǒng)計(jì)】界面中,“估算值”的作用是估算出回歸系數(shù)侈沪,要勾選揭璃。
“模型擬合”的作用是輸出判定系數(shù)R的平方
【選項(xiàng)】界面,一定要勾選“在方程中包括常量”亭罪,目的是輸出擬合直線的截距a瘦馍。
由于是簡(jiǎn)單線性回歸,方法選擇“輸入”即可应役,因?yàn)橹挥袃蓚€(gè)變量情组,具體的區(qū)別在下一篇“多重線性回歸分析”里具體作出說明。
第四步:對(duì)回歸模型進(jìn)行檢驗(yàn)
這張表說的是簡(jiǎn)單線性回歸模型建立過程的相關(guān)信息箩祥。
自變量是廣告費(fèi)用呻惕,因變量是銷售額,自變量的步進(jìn)方法是輸入滥比。
相關(guān)系數(shù)R:解釋變量之間的相關(guān)性亚脆,R=0.816>0.8,為高度正向相關(guān)關(guān)系盲泛。
判定系數(shù)R方:也叫擬合優(yōu)度或決定系數(shù)濒持,表示擬合得到的模型能解釋因變量變化的百分比键耕,R方越接近1,表示回歸模型擬合效果越好柑营。本例中R方為0.666表示自變量“廣告費(fèi)用”能解釋因變量“銷售額”模型變化的66.6%的數(shù)據(jù)屈雄,模型擬合效果一般,尚可接受官套。如果是多重線性回歸模型則看調(diào)整后的R方酒奶。
標(biāo)準(zhǔn)估算的誤差:反映了建立的模型預(yù)測(cè)因變量的精度,在對(duì)比多個(gè)回歸模型的擬合效果時(shí)奶赔,常會(huì)比較該指標(biāo)惋嚎,值越小,說明擬合效果越好站刑。
這張表的主要作用是通過F檢驗(yàn)來判斷回歸模型的回歸效果另伍,即檢驗(yàn)因變量和自變量之間的線性關(guān)系是否顯著,用線性模型來描述他們之間的關(guān)系是否恰當(dāng)绞旅。
只要看F和顯著性P摆尝,因?yàn)镕還需要查看(F分布臨界值表),所以可直接用顯著性P得出結(jié)果因悲。
0<=顯著性P<=0.1堕汞,則表明結(jié)果具有極其顯著的統(tǒng)計(jì)學(xué)意義;
0.1<顯著性P<=0.5晃琳,則表明結(jié)果具有顯著的統(tǒng)計(jì)學(xué)意義讯检;
顯著性P>0.5,則表明結(jié)果不具有顯著的統(tǒng)計(jì)學(xué)意義蝎土。
這個(gè)表主要用與回歸模型的描述和回歸系數(shù)的顯著性檢驗(yàn)视哑。
簡(jiǎn)單線性回歸模型:Y=377+14.475X
顯著性P=0<0.01绣否,說明回歸系數(shù)b具有極其顯著的統(tǒng)計(jì)學(xué)意義誊涯。
第五步:利用回歸模型進(jìn)行預(yù)測(cè)
1、數(shù)據(jù)較少時(shí)蒜撮,手動(dòng)計(jì)算即可
2暴构、數(shù)據(jù)較多時(shí),SPSS自動(dòng)計(jì)算段磨,方法如下:
在【保存】選項(xiàng)里勾選“未標(biāo)準(zhǔn)化”
這樣就可以在元數(shù)據(jù)中增加一個(gè)新的變量PRE-1表示結(jié)果取逾。