Lasso回歸分析如何處理共線性問題堕澄?

在進行線性回歸分析時,很容易出現(xiàn)自變量共線性問題霉咨,通常情況下VIF值大于10說明嚴重共線蛙紫,VIF大于5則說明有共線性問題;當出現(xiàn)共線性問題時途戒,可能導致回歸系數(shù)的符號與實際情況完全相反坑傅,本應該顯著的自變量不顯著,本不顯著的自變量卻呈現(xiàn)出顯著性喷斋;共線性問題會導致數(shù)據(jù)研究出來嚴重偏差甚至完全相反的結論唁毒,因而需要解決此問題。

針對共線性問題的解決方案上星爪,可以有以下幾種處理方法:

如果是使用逐步回歸解決多重共線性問題浆西,其為‘技巧式’處理,其讓算法自動找出顯著的X顽腾,通常情況下近零,此種做法會避開共線性的變量,實質上其并沒有直面共線性問題,只是很可能避開了共線性而已久信,在實際研究中使用較多猪瞬;除此之外,Lasso回歸和Lasso回歸是直觀共線性問題的兩種處理方式入篮,Lasso回歸和lasso回歸在于對損失函數(shù)進行改造陈瘦,但此兩種方法的具體損失函數(shù)改造上,Lasso回歸是使用L2正則化潮售,Lasso回歸是使用L1正則化痊项。相對來講,Lasso回歸用于解決共線性問題的時候較多酥诽,Lasso回歸除了有解決共線性問題的功能外鞍泉,其還可用于進行‘特征篩選’,即找出有意義的自變量X(特征項)肮帐,一般在機器學習領域使用此功能較多咖驮。

除此之外,主成分分析是利用降維的思想去解釋共線性問題训枢,比如有10個X托修,其利用降維原理將10個X降維成比如3個主成分,然后后續(xù)再進行分析比如線性回歸(此種做法稱作主成分回歸)恒界。而PLS回歸是同時利用主成分和回歸混合在一起的處理方式睦刃,一般用于非常小的樣本(比如小于100的樣本時),經(jīng)濟領域中使用主成分相對較多十酣,但在其它領域中可能使用PLS回歸相對較多涩拙。

類似于Ridge Regression,Lasso回歸的分析時也分為兩個步驟:分別是結合軌跡圖尋找最佳K值耸采;輸入K值進行回歸建模兴泥。

第一步:Lasso回歸分析前需要結合軌跡圖確認K值;K值的選擇原則是各個自變量的標準化回歸系數(shù)趨于穩(wěn)定時的最小K值虾宇。K值越小則偏差越小搓彻,K值為0時則為普通線性OLS回歸;SPSSAU提供K值智能建議文留,也可通過主觀識別判斷選擇K值好唯;

第二步:對于K值竭沫,其越小越好燥翅,通常建議小于1;確定好K值后蜕提,即可主動輸入K值森书,得出Lasso回歸模型估計。

SPSSAU操作截圖如下:

如果輸入框中不輸入值,此時SPSSAU默認是生成軌跡圖凛膏,即識別最佳K值(當然SPSSAU會智能化建議最佳K值)杨名;如果輸入K值,此時SPSSAU則輸出Lasso回歸模型結果猖毫。


Lasso回歸分析案例

1?背景

現(xiàn)測得胎兒身高台谍、頭圍、體重和胎兒受精周齡數(shù)據(jù)吁断,希望建立胎兒身高趁蕊、頭圍、體重去和胎兒受精周齡間的回歸模型仔役。根據(jù)醫(yī)學常識情況(同時結合普通線性最小二乘法OLS回歸測量)掷伙,發(fā)現(xiàn)三個自變量之間有著很強的共線性,VIF值高于200又兵;因為很明顯的可知任柜,胎兒身高、體重之間肯定有著很強的正相關關系沛厨。因而此類數(shù)據(jù)有著很強的共線性宙地,不能使用常見的最小二乘法OLS回歸分析∧嫫ぃ可使用Lasso回歸模型處理共線性問題绸栅。

2?理論

Lasso回歸分析(Lasso Regression)是一種用于解決線性回歸分析中自變量共線性的研究算法。針對Lasso回歸:其研究步驟共為2步,分別是結合軌跡圖尋找最佳K值页屠;輸入K值進行回歸建模粹胯。

第一步:Lasso回歸分析前需要結合軌跡圖確認K值;K值的選擇原則是各個自變量的標準化回歸系數(shù)趨于穩(wěn)定時的最小K值辰企。K值越小則偏差越小风纠,K值為0時則為普通線性OLS回歸;SPSSAU提供K值智能建議牢贸,也可通過主觀識別判斷選擇K值竹观;

第二步:對于K值,其越小越好潜索,通常建議小于1臭增;確定好K值后,即可主動輸入K值竹习,得出Lasso回歸模型估計誊抛。

對于Lasso回歸研究,如果不輸入K值整陌,此時SPSSAU默認是生成軌跡圖拗窃,即識別最佳K值(當然SPSSAU會智能化建議最佳K值)瞎领;如果輸入K值,此時SPSSAU則輸出Lasso回歸模型結果随夸。

3?操作


使用SPSSAU進行Lasso回歸研究時:首先不輸入K值九默,則得到軌跡圖用于判斷最佳K值(SPSSAU也會智能建議最佳K值);得到最佳K值后宾毒,輸入具體值驼修,最終SPSSAU會輸出模型結果。本案例時SPSSAU建議K值為0.3诈铛。

4 SPSSAU輸出結果


軌跡圖描述不同K值時邪锌,自變量進行Lasso回歸時標準化回歸系數(shù)的變化情況。如果說標準化回歸系數(shù)趨于穩(wěn)定癌瘾,此時對應的最小K值觅丰,即為最佳K值。此過程的判斷帶有一定的主觀性妨退,比如上圖中妇萄,K值看上去選擇為0.3,也或者0.4均可咬荷。建議以更小的K值作為標準冠句;同時,可直接使用SPSSAU提供的建議最佳K值幸乒。

本案例中SPSSAU建議最佳K值為0.01懦底,因而重新進行分析時輸入0.3,得到最終Lasso回歸模型結果如下表:

5 文字分析

具體文字分析例子如下:

本次研究胎兒身高罕扎、頭圍聚唐、體重對于胎兒受精周齡數(shù)據(jù)的影響;使用線性回歸分析時發(fā)現(xiàn)VIF值出現(xiàn)大于200腔召,即存在著嚴重的共線性問題杆查。因而使用性能更好的Lasso回歸模型進行研究。Lasso回歸模型研究共分為兩步臀蛛,第一步是通過軌跡圖識別最佳K值亲桦;第二步是利用確定好的最佳K值進行建立模型,得到最終模型浊仆。使用SPSSAU進行研究時客峭,SPSSAU建議使用最佳K值為0.3,而且對比軌跡圖判斷可知抡柿,K值從0.3逐步增大時舔琅,自變量的標準化回歸系數(shù)趨于穩(wěn)定,因而最終K值取為0.3沙绝,最終得到Lasso回歸模型搏明。

將身長(cm), 頭圍(cm), 體重(g)作為自變量鼠锈,而將胎兒受精周齡作為因變量進行Ridge回歸分析闪檬,K值取為0.3星著,模型R平方值為0.859,意味著身長(cm), 頭圍(cm), 體重(g)可以解釋胎兒受精周齡的85.9%變化原因粗悯。對模型進行F檢驗時發(fā)現(xiàn)模型通過F檢驗(F?(3,7)=14.263,?p?=0.002<0.05)虚循,也即說明身長(cm), 頭圍(cm), 體重(g)中至少一項會對胎兒受精周齡產(chǎn)生影響關系。

模型公式為:胎兒受精周齡=13.481 + 0.091*身長(cm) + 0.000*頭圍(cm) + 0.006*體重(g)样傍。身長(cm)的回歸系數(shù)值為0.091(t=3.148横缔,p=0.016<0.05),意味著身長(cm)會對胎兒受精周齡產(chǎn)生顯著的正向影響關系衫哥。頭圍(cm)的回歸系數(shù)值為0.000(t=0.000茎刚,p=1.000>0.05),意味著頭圍(cm)并不會對胎兒受精周齡產(chǎn)生影響關系撤逢。體重(g)的回歸系數(shù)值為0.006(t=5.035膛锭,p=0.002<0.01),意味著體重(g)會對胎兒受精周齡產(chǎn)生顯著的正向影響關系蚊荣〕跽總結分析可知:身長(cm), 體重(g)會對胎兒受精周齡產(chǎn)生顯著的正向影響關系。但是頭圍(cm)并不會對胎兒受精周齡產(chǎn)生影響關系互例。

總結分析可知:身長(cm), 體重(g)會對胎兒受精周齡產(chǎn)生顯著的正向影響關系奢入。但是頭圍(cm)并不會對胎兒受精周齡產(chǎn)生影響關系。

6?剖析

Lasso回歸分析需要特別注意兩點媳叨,分別是共線性判斷和分析步驟腥光。

① 是否呈現(xiàn)出共線性,一定需要有理有據(jù)糊秆,比如VIF值過高柴我,也或者自變量之間的相關關系過高(比如大于0.6);如果數(shù)據(jù)并沒有共線性扩然,依舊建議使用普通線性最小二乘法回歸艘儒。

② Lasso回歸建模共分為兩步,分別是尋找最佳K值和建模夫偶。軌跡圖中界睁,如果過了某點時趨于穩(wěn)定,則該點對應的K值為最佳K值兵拢,以及K值是越小越好翻斟。

7 疑難解惑

① F?值括號里面的兩個值分別是什么?

如果是F?值想計算得到p?值,需要提供兩個自由度值df?1和df?2说铃。一般情況下访惜,df?1等于自變量數(shù)量嘹履;df?2等于樣本量 - (自變量數(shù)量+1)。此兩個值僅為中間過程值债热,規(guī)范格式上需要寫成這樣而已砾嫉,無其它實際意義。

② 智能分析每次都提示k值為0.99窒篱?

SPSSAU提供的智能分析是一種建議性質焕刮,它會結合交叉對比算法自動提供一個建議;實際研究中墙杯,lasso回歸K值的判斷帶有較強的主觀性質配并,因而研究者可結合嶺跡圖選擇合適的K值。同時可將SPSSAU提供的建議K值高镐,與主觀判斷得到的K值分別進行分析溉旋,然后對比各項指標(比如R方值)進行使用即可。

③ lasso回歸分析前是否需要對數(shù)據(jù)進行標準化處理嫉髓?

lasso回歸時观腊,可先對數(shù)據(jù)進行標準化處理(數(shù)據(jù)處理->生成變量功能),然后再進行l(wèi)asso回歸分析岩喷,當然也可以直接針對標準化回歸系數(shù)進行分析即可恕沫,SPSSAU默認有輸出標準化回歸系數(shù)。

④ Lasso回歸與嶺回歸如何選擇纱意?

Lasso回歸和嶺回歸時婶溯,它們均可以解決共線性問題,但一般使用嶺回歸相對較多偷霉,正常情況下二者去解決共線性回歸時結論應該保持一致迄委。與此同時,lasso回歸可用于‘特征篩選’类少,但嶺回歸并無此功能叙身。Lasso回歸和嶺回歸在數(shù)學原理上的區(qū)別為損失函數(shù)的不同,lasso回歸使用L1正則化硫狞,嶺回歸使用L2正則化信轿。

本案例數(shù)據(jù)參考資料:

張文彤,董偉.SPSS統(tǒng)計分析高級教程[M]. 第2版. 北京:高等教育出版社, 2015.04: 130-132.


?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市残吩,隨后出現(xiàn)的幾起案子财忽,更是在濱河造成了極大的恐慌,老刑警劉巖泣侮,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件即彪,死亡現(xiàn)場離奇詭異,居然都是意外死亡活尊,警方通過查閱死者的電腦和手機隶校,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門漏益,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人深胳,你說我怎么就攤上這事绰疤。” “怎么了稠屠?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵峦睡,是天一觀的道長翎苫。 經(jīng)常有香客問我权埠,道長,這世上最難降的妖魔是什么煎谍? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任攘蔽,我火速辦了婚禮,結果婚禮上呐粘,老公的妹妹穿的比我還像新娘满俗。我一直安慰自己,他們只是感情好作岖,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布唆垃。 她就那樣靜靜地躺著,像睡著了一般痘儡。 火紅的嫁衣襯著肌膚如雪辕万。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天沉删,我揣著相機與錄音渐尿,去河邊找鬼。 笑死矾瑰,一個胖子當著我的面吹牛砖茸,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播殴穴,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼凉夯,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了采幌?” 一聲冷哼從身側響起劲够,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎植榕,沒想到半個月后再沧,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡尊残,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年炒瘸,在試婚紗的時候發(fā)現(xiàn)自己被綠了淤堵。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡顷扩,死狀恐怖拐邪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情隘截,我是刑警寧澤扎阶,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站婶芭,受9級特大地震影響东臀,放射性物質發(fā)生泄漏。R本人自食惡果不足惜犀农,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一惰赋、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧呵哨,春花似錦赁濒、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至挨务,卻和暖如春击你,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背耘子。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工果漾, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人谷誓。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓绒障,卻偏偏與公主長得像,于是被迫代替她去往敵國和親捍歪。 傳聞我的和親對象是個殘疾皇子户辱,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容