在進行線性回歸分析時,很容易出現(xiàn)自變量共線性問題霉咨,通常情況下VIF值大于10說明嚴重共線蛙紫,VIF大于5則說明有共線性問題;當出現(xiàn)共線性問題時途戒,可能導致回歸系數(shù)的符號與實際情況完全相反坑傅,本應該顯著的自變量不顯著,本不顯著的自變量卻呈現(xiàn)出顯著性喷斋;共線性問題會導致數(shù)據(jù)研究出來嚴重偏差甚至完全相反的結論唁毒,因而需要解決此問題。
針對共線性問題的解決方案上星爪,可以有以下幾種處理方法:
如果是使用逐步回歸解決多重共線性問題浆西,其為‘技巧式’處理,其讓算法自動找出顯著的X顽腾,通常情況下近零,此種做法會避開共線性的變量,實質上其并沒有直面共線性問題,只是很可能避開了共線性而已久信,在實際研究中使用較多猪瞬;除此之外,Lasso回歸和Lasso回歸是直觀共線性問題的兩種處理方式入篮,Lasso回歸和lasso回歸在于對損失函數(shù)進行改造陈瘦,但此兩種方法的具體損失函數(shù)改造上,Lasso回歸是使用L2正則化潮售,Lasso回歸是使用L1正則化痊项。相對來講,Lasso回歸用于解決共線性問題的時候較多酥诽,Lasso回歸除了有解決共線性問題的功能外鞍泉,其還可用于進行‘特征篩選’,即找出有意義的自變量X(特征項)肮帐,一般在機器學習領域使用此功能較多咖驮。
除此之外,主成分分析是利用降維的思想去解釋共線性問題训枢,比如有10個X托修,其利用降維原理將10個X降維成比如3個主成分,然后后續(xù)再進行分析比如線性回歸(此種做法稱作主成分回歸)恒界。而PLS回歸是同時利用主成分和回歸混合在一起的處理方式睦刃,一般用于非常小的樣本(比如小于100的樣本時),經(jīng)濟領域中使用主成分相對較多十酣,但在其它領域中可能使用PLS回歸相對較多涩拙。
類似于Ridge Regression,Lasso回歸的分析時也分為兩個步驟:分別是結合軌跡圖尋找最佳K值耸采;輸入K值進行回歸建模兴泥。
第一步:Lasso回歸分析前需要結合軌跡圖確認K值;K值的選擇原則是各個自變量的標準化回歸系數(shù)趨于穩(wěn)定時的最小K值虾宇。K值越小則偏差越小搓彻,K值為0時則為普通線性OLS回歸;SPSSAU提供K值智能建議文留,也可通過主觀識別判斷選擇K值好唯;
第二步:對于K值竭沫,其越小越好燥翅,通常建議小于1;確定好K值后蜕提,即可主動輸入K值森书,得出Lasso回歸模型估計。
SPSSAU操作截圖如下:
如果輸入框中不輸入值,此時SPSSAU默認是生成軌跡圖凛膏,即識別最佳K值(當然SPSSAU會智能化建議最佳K值)杨名;如果輸入K值,此時SPSSAU則輸出Lasso回歸模型結果猖毫。
Lasso回歸分析案例
1?背景
現(xiàn)測得胎兒身高台谍、頭圍、體重和胎兒受精周齡數(shù)據(jù)吁断,希望建立胎兒身高趁蕊、頭圍、體重去和胎兒受精周齡間的回歸模型仔役。根據(jù)醫(yī)學常識情況(同時結合普通線性最小二乘法OLS回歸測量)掷伙,發(fā)現(xiàn)三個自變量之間有著很強的共線性,VIF值高于200又兵;因為很明顯的可知任柜,胎兒身高、體重之間肯定有著很強的正相關關系沛厨。因而此類數(shù)據(jù)有著很強的共線性宙地,不能使用常見的最小二乘法OLS回歸分析∧嫫ぃ可使用Lasso回歸模型處理共線性問題绸栅。
2?理論
Lasso回歸分析(Lasso Regression)是一種用于解決線性回歸分析中自變量共線性的研究算法。針對Lasso回歸:其研究步驟共為2步,分別是結合軌跡圖尋找最佳K值页屠;輸入K值進行回歸建模粹胯。
第一步:Lasso回歸分析前需要結合軌跡圖確認K值;K值的選擇原則是各個自變量的標準化回歸系數(shù)趨于穩(wěn)定時的最小K值辰企。K值越小則偏差越小风纠,K值為0時則為普通線性OLS回歸;SPSSAU提供K值智能建議牢贸,也可通過主觀識別判斷選擇K值竹观;
第二步:對于K值,其越小越好潜索,通常建議小于1臭增;確定好K值后,即可主動輸入K值竹习,得出Lasso回歸模型估計誊抛。
對于Lasso回歸研究,如果不輸入K值整陌,此時SPSSAU默認是生成軌跡圖拗窃,即識別最佳K值(當然SPSSAU會智能化建議最佳K值)瞎领;如果輸入K值,此時SPSSAU則輸出Lasso回歸模型結果随夸。
3?操作
使用SPSSAU進行Lasso回歸研究時:首先不輸入K值九默,則得到軌跡圖用于判斷最佳K值(SPSSAU也會智能建議最佳K值);得到最佳K值后宾毒,輸入具體值驼修,最終SPSSAU會輸出模型結果。本案例時SPSSAU建議K值為0.3诈铛。
4 SPSSAU輸出結果
軌跡圖描述不同K值時邪锌,自變量進行Lasso回歸時標準化回歸系數(shù)的變化情況。如果說標準化回歸系數(shù)趨于穩(wěn)定癌瘾,此時對應的最小K值觅丰,即為最佳K值。此過程的判斷帶有一定的主觀性妨退,比如上圖中妇萄,K值看上去選擇為0.3,也或者0.4均可咬荷。建議以更小的K值作為標準冠句;同時,可直接使用SPSSAU提供的建議最佳K值幸乒。
本案例中SPSSAU建議最佳K值為0.01懦底,因而重新進行分析時輸入0.3,得到最終Lasso回歸模型結果如下表:
5 文字分析
具體文字分析例子如下:
本次研究胎兒身高罕扎、頭圍聚唐、體重對于胎兒受精周齡數(shù)據(jù)的影響;使用線性回歸分析時發(fā)現(xiàn)VIF值出現(xiàn)大于200腔召,即存在著嚴重的共線性問題杆查。因而使用性能更好的Lasso回歸模型進行研究。Lasso回歸模型研究共分為兩步臀蛛,第一步是通過軌跡圖識別最佳K值亲桦;第二步是利用確定好的最佳K值進行建立模型,得到最終模型浊仆。使用SPSSAU進行研究時客峭,SPSSAU建議使用最佳K值為0.3,而且對比軌跡圖判斷可知抡柿,K值從0.3逐步增大時舔琅,自變量的標準化回歸系數(shù)趨于穩(wěn)定,因而最終K值取為0.3沙绝,最終得到Lasso回歸模型搏明。
將身長(cm), 頭圍(cm), 體重(g)作為自變量鼠锈,而將胎兒受精周齡作為因變量進行Ridge回歸分析闪檬,K值取為0.3星著,模型R平方值為0.859,意味著身長(cm), 頭圍(cm), 體重(g)可以解釋胎兒受精周齡的85.9%變化原因粗悯。對模型進行F檢驗時發(fā)現(xiàn)模型通過F檢驗(F?(3,7)=14.263,?p?=0.002<0.05)虚循,也即說明身長(cm), 頭圍(cm), 體重(g)中至少一項會對胎兒受精周齡產(chǎn)生影響關系。
模型公式為:胎兒受精周齡=13.481 + 0.091*身長(cm) + 0.000*頭圍(cm) + 0.006*體重(g)样傍。身長(cm)的回歸系數(shù)值為0.091(t=3.148横缔,p=0.016<0.05),意味著身長(cm)會對胎兒受精周齡產(chǎn)生顯著的正向影響關系衫哥。頭圍(cm)的回歸系數(shù)值為0.000(t=0.000茎刚,p=1.000>0.05),意味著頭圍(cm)并不會對胎兒受精周齡產(chǎn)生影響關系撤逢。體重(g)的回歸系數(shù)值為0.006(t=5.035膛锭,p=0.002<0.01),意味著體重(g)會對胎兒受精周齡產(chǎn)生顯著的正向影響關系蚊荣〕跽總結分析可知:身長(cm), 體重(g)會對胎兒受精周齡產(chǎn)生顯著的正向影響關系。但是頭圍(cm)并不會對胎兒受精周齡產(chǎn)生影響關系互例。
總結分析可知:身長(cm), 體重(g)會對胎兒受精周齡產(chǎn)生顯著的正向影響關系奢入。但是頭圍(cm)并不會對胎兒受精周齡產(chǎn)生影響關系。
6?剖析
Lasso回歸分析需要特別注意兩點媳叨,分別是共線性判斷和分析步驟腥光。
① 是否呈現(xiàn)出共線性,一定需要有理有據(jù)糊秆,比如VIF值過高柴我,也或者自變量之間的相關關系過高(比如大于0.6);如果數(shù)據(jù)并沒有共線性扩然,依舊建議使用普通線性最小二乘法回歸艘儒。
② Lasso回歸建模共分為兩步,分別是尋找最佳K值和建模夫偶。軌跡圖中界睁,如果過了某點時趨于穩(wěn)定,則該點對應的K值為最佳K值兵拢,以及K值是越小越好翻斟。
7 疑難解惑
① F?值括號里面的兩個值分別是什么?
如果是F?值想計算得到p?值,需要提供兩個自由度值df?1和df?2说铃。一般情況下访惜,df?1等于自變量數(shù)量嘹履;df?2等于樣本量 - (自變量數(shù)量+1)。此兩個值僅為中間過程值债热,規(guī)范格式上需要寫成這樣而已砾嫉,無其它實際意義。
② 智能分析每次都提示k值為0.99窒篱?
SPSSAU提供的智能分析是一種建議性質焕刮,它會結合交叉對比算法自動提供一個建議;實際研究中墙杯,lasso回歸K值的判斷帶有較強的主觀性質配并,因而研究者可結合嶺跡圖選擇合適的K值。同時可將SPSSAU提供的建議K值高镐,與主觀判斷得到的K值分別進行分析溉旋,然后對比各項指標(比如R方值)進行使用即可。
③ lasso回歸分析前是否需要對數(shù)據(jù)進行標準化處理嫉髓?
lasso回歸時观腊,可先對數(shù)據(jù)進行標準化處理(數(shù)據(jù)處理->生成變量功能),然后再進行l(wèi)asso回歸分析岩喷,當然也可以直接針對標準化回歸系數(shù)進行分析即可恕沫,SPSSAU默認有輸出標準化回歸系數(shù)。
④ Lasso回歸與嶺回歸如何選擇纱意?
Lasso回歸和嶺回歸時婶溯,它們均可以解決共線性問題,但一般使用嶺回歸相對較多偷霉,正常情況下二者去解決共線性回歸時結論應該保持一致迄委。與此同時,lasso回歸可用于‘特征篩選’类少,但嶺回歸并無此功能叙身。Lasso回歸和嶺回歸在數(shù)學原理上的區(qū)別為損失函數(shù)的不同,lasso回歸使用L1正則化硫狞,嶺回歸使用L2正則化信轿。
本案例數(shù)據(jù)參考資料:
張文彤,董偉.SPSS統(tǒng)計分析高級教程[M]. 第2版. 北京:高等教育出版社, 2015.04: 130-132.