多元回歸分析中的共線性問題
原創(chuàng) 2015-11-13 ccccfys spss統(tǒng)計分析
多重共線性:回歸模型中,兩個或者兩個以上的自變量彼此相關時,稱回歸模型中存在多重共線性鳞芙。
為什么多重共線性會導致一系列問題呢?試想一下,假如兩個變量完全共線性,設兩個變量為A,B.那么A=xB筐眷,x是常數(shù)。如果把這兩個變量帶入回歸方程习柠,由于一個變量完全可以用另外一個變量乘以一個常數(shù)來表示匀谣,帶入兩個變量照棋,就需要給他們分配系數(shù),怎么分配呢武翎,顯然有很多種可能必怜,而計算機并不知道哪一種是最好的,但是在輸出結果時后频,它會給你一種,管它是不是你想要的呢暖途,它只關心跑完了自己的程序”跋В現(xiàn)實中的共線性問題一般不會是完全共線性,但有時候共線性問題會很嚴重驻售,具體有相關指標露久,請看下面其他內容。
多重共線性導致的問題:
1)線性關系顯著(F檢驗顯著欺栗,或者回歸關系顯著)毫痕,大部分回歸系數(shù)卻不顯著;
2)回歸系數(shù)的符號與理論或者預期不符合迟几。
多重共線性的識別:
1)各自變量之間顯著相關(使用散點圖矩陣和相關系數(shù)矩陣)
2)線性關系檢驗顯著(F檢驗顯著)消请,各自變量系數(shù)卻大多數(shù)不顯著
3)回歸系數(shù)正負號與預期相反
4)容忍度(tolerance)小于0.1或者方差擴大因子(VIF)大于10,認為存在嚴重共線性
多重共線性問題的處理
1)刪除相關性很強的兩個自變量中的一個类腮,或者刪除多個相關性很強的自變量中的幾個變量臊泰;
2)提取主成分,將多個相關性很強的變量包含的信息濃縮到一個變量中蚜枢;
什么時候可以不關心多重共線性問題呢缸逃?
1)模型不是用來解釋現(xiàn)實事物之間的關系,因此不用進行系數(shù)的檢驗厂抽,不用考慮多重共線性問題需频;
2)利用回歸方程在自變量樣本值范圍內預測因變量(注意自變量的取值只能在自變量最小值和最大值范圍內)由于是進行預測,只關心結果筷凤,不考慮過程昭殉。