回歸分析是一種預(yù)測性的建模技術(shù)景埃,它研究的是因變量(目標(biāo))和自變量(預(yù)測器)之間的關(guān)系跪帝。這種技術(shù)通常用于預(yù)測分析,時(shí)間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系崎苗。
相關(guān)分析主要研究變量之間的密切關(guān)聯(lián)程度狐粱,一般用相關(guān)系數(shù)corr表示,處于[-1,1]胆数,兩個(gè)變量同步(corr>0)或異步(corr<0)變化的程度肌蜻。
回歸則是有某一個(gè)或者某一些變量唯一確定另外一個(gè)變量的關(guān)系。還可通過回歸方程進(jìn)行預(yù)測和控制 必尼。
在平時(shí)的工作中蒋搜,并非每一個(gè)變量都有用,有時(shí)維度較多時(shí),還要降維豆挽。篩選變量時(shí)酸休,總是先看看他們的相關(guān)系數(shù)(corr)怎么樣,太小的就過濾掉了祷杈。然后篩選出合適的變量斑司,進(jìn)行回歸分析和預(yù)測。
一但汞、一元線性回歸
回歸模型中只含一個(gè)自變量宿刮,它主要用來處理一個(gè)自變量與一個(gè)因變量之間的線性關(guān)系。簡單線性回歸模型為:
Y=a+bX+ε
式中私蕾,Y:因變量僵缺,X:自變量,a:常數(shù)項(xiàng)踩叭,是回歸直線在縱坐標(biāo)軸上的截距磕潮;b:回歸系數(shù),是回歸直線的斜率容贝;ε:隨機(jī)誤差自脯,即隨機(jī)因素對因變量所產(chǎn)生的影響。
1斤富、最小二乘法
最小二乘法其實(shí)又叫最小平方法膏潮,是一種數(shù)據(jù)擬合的優(yōu)化技術(shù)。實(shí)質(zhì)上是利用最小誤差的平方尋求數(shù)據(jù)的最佳匹配函數(shù)满力,利用最小二乘法可以便捷的求得未知的數(shù)據(jù)焕参,起到預(yù)測的作用,并且是的這些預(yù)測的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間的誤差平方和達(dá)到最小油额。一般應(yīng)用在曲線擬合的目的上叠纷。
2、擬合優(yōu)度檢驗(yàn)
度量擬合優(yōu)度的統(tǒng)計(jì)量是可決系數(shù)(亦稱確定系數(shù))R2潦嘶。R2最大值為1涩嚣。R2的值越接近1,說明回歸直線對觀測值的擬合程度越好衬以;反之缓艳,R2的值越小校摩,說明回歸直線對觀測值的擬合程度越差看峻。
3、顯著性檢驗(yàn)
線性回歸方差分析表的主要作用是通過F檢驗(yàn)來判斷回歸模型的回歸效果衙吩,即檢驗(yàn)因變量與所有自變量之間的線性關(guān)系是否顯著互妓,用線性模型來描述它們之間的關(guān)系是否恰當(dāng)。主要有平方和(SS)、自由度(df)冯勉、均方(MS)澈蚌、F(F統(tǒng)計(jì)量)、顯著性(P值)五大指標(biāo)灼狰。通常只需要關(guān)注F和顯著性(P值)兩個(gè)指標(biāo)宛瞄,其中主要參考顯著性(P值),因?yàn)橛?jì)算出F統(tǒng)計(jì)量交胚,還需要查找統(tǒng)計(jì)表(F分布臨界值表)份汗,并與之進(jìn)行比較大小才能得出結(jié)果,而顯著性(P值)可直接與顯著性水平α(0.01,0.05)比較得出結(jié)果蝴簇。
顯著性(P值)是在顯著性水平α(常用取值0.01或0.05)下F的臨界值杯活,一般我們以此來衡量檢驗(yàn)結(jié)果是否具有顯著性,如果顯著性(P值)>0.05熬词,則結(jié)果不具有顯著的統(tǒng)計(jì)學(xué)意義旁钧;如果0.01<顯著性(P值)<0.05,則結(jié)果具有顯著的統(tǒng)計(jì)學(xué)意義互拾;如果顯著性(P值)<0.01歪今,則結(jié)果具有極其顯著的統(tǒng)計(jì)學(xué)意義。
二颜矿、多元線性回歸
多元回歸分析預(yù)測法彤委,是指通過對兩個(gè)或兩個(gè)以上的自變量與一個(gè)因變量的相關(guān)分析,建立預(yù)測模型進(jìn)行預(yù)測的方法或衡。當(dāng)自變量與因變量之間存在線性關(guān)系時(shí)焦影,稱為多元線性回歸分析。
1封断、多重共線性
多重共線性是指線性回歸模型中的解釋變量之間由于存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系而使模型估計(jì)失真或難以估計(jì)準(zhǔn)確斯辰。
一般來說,由于經(jīng)濟(jì)數(shù)據(jù)的限制使得模型設(shè)計(jì)不當(dāng)坡疼,導(dǎo)致設(shè)計(jì)矩陣中解釋變量間存在普遍的相關(guān)關(guān)系彬呻。完全共線性的情況并不多見,一般出現(xiàn)的是在一定程度上的共線性柄瑰,即近似共線性闸氮。
2、變量選擇與逐步回歸
1教沾、選擇“最優(yōu)”回歸子集的方法
1)“最優(yōu)”子集的變量篩選法
2)計(jì)算量很大的全子集法
3)計(jì)算量適中的選擇法
2蒲跨、變量選擇的幾個(gè)準(zhǔn)則
(1)殘差平方和Q愈小愈好或復(fù)相關(guān)系數(shù)R越靠近1越好
(2)剩余標(biāo)準(zhǔn)差s越小越好
(3)回歸方程中包含的自變量的個(gè)數(shù)m越少越好
逐步回歸基本步驟: