Lasso回歸分析如何處理共線性問題堕澄？

在進行線性回歸分析時，很容易出現(xiàn)自變量共線性問題霉咨，通常情況下VIF值大于10說明嚴重共線蛙紫，VIF大于5則說明有共線性問題；當出現(xiàn)共線性問題時途戒，可能導致回歸系數(shù)的符號與實際情況完全相反坑傅，本應該顯著的自變量不顯著，本不顯著的自變量卻呈現(xiàn)出顯著性喷斋；共線性問題會導致數(shù)據(jù)研究出來嚴重偏差甚至完全相反的結論唁毒，因而需要解決此問題。

針對共線性問題的解決方案上星爪，可以有以下幾種處理方法：

如果是使用逐步回歸解決多重共線性問題浆西，其為‘技巧式’處理，其讓算法自動找出顯著的X顽腾，通常情況下近零，此種做法會避開共線性的變量，實質上其并沒有直面共線性問題，只是很可能避開了共線性而已久信，在實際研究中使用較多猪瞬；除此之外，Lasso回歸和Lasso回歸是直觀共線性問題的兩種處理方式入篮，Lasso回歸和lasso回歸在于對損失函數(shù)進行改造陈瘦，但此兩種方法的具體損失函數(shù)改造上，Lasso回歸是使用L2正則化潮售，Lasso回歸是使用L1正則化痊项。相對來講，Lasso回歸用于解決共線性問題的時候較多酥诽，Lasso回歸除了有解決共線性問題的功能外鞍泉，其還可用于進行‘特征篩選’，即找出有意義的自變量X（特征項）肮帐，一般在機器學習領域使用此功能較多咖驮。

除此之外，主成分分析是利用降維的思想去解釋共線性問題训枢，比如有10個X托修，其利用降維原理將10個X降維成比如3個主成分，然后后續(xù)再進行分析比如線性回歸（此種做法稱作主成分回歸）恒界。而PLS回歸是同時利用主成分和回歸混合在一起的處理方式睦刃，一般用于非常小的樣本（比如小于100的樣本時），經(jīng)濟領域中使用主成分相對較多十酣，但在其它領域中可能使用PLS回歸相對較多涩拙。

類似于Ridge Regression，Lasso回歸的分析時也分為兩個步驟：分別是結合軌跡圖尋找最佳K值耸采；輸入K值進行回歸建模兴泥。

第一步：Lasso回歸分析前需要結合軌跡圖確認K值；K值的選擇原則是各個自變量的標準化回歸系數(shù)趨于穩(wěn)定時的最小K值虾宇。K值越小則偏差越小搓彻，K值為0時則為普通線性OLS回歸；SPSSAU提供K值智能建議文留，也可通過主觀識別判斷選擇K值好唯；

第二步：對于K值竭沫，其越小越好燥翅，通常建議小于1；確定好K值后蜕提，即可主動輸入K值森书，得出Lasso回歸模型估計。

SPSSAU操作截圖如下：

如果輸入框中不輸入值，此時SPSSAU默認是生成軌跡圖凛膏，即識別最佳K值（當然SPSSAU會智能化建議最佳K值）杨名；如果輸入K值，此時SPSSAU則輸出Lasso回歸模型結果猖毫。

Lasso回歸分析案例

1?背景

現(xiàn)測得胎兒身高台谍、頭圍、體重和胎兒受精周齡數(shù)據(jù)吁断，希望建立胎兒身高趁蕊、頭圍、體重去和胎兒受精周齡間的回歸模型仔役。根據(jù)醫(yī)學常識情況（同時結合普通線性最小二乘法OLS回歸測量）掷伙，發(fā)現(xiàn)三個自變量之間有著很強的共線性，VIF值高于200又兵；因為很明顯的可知任柜，胎兒身高、體重之間肯定有著很強的正相關關系沛厨。因而此類數(shù)據(jù)有著很強的共線性宙地，不能使用常見的最小二乘法OLS回歸分析∧嫫ぃ可使用Lasso回歸模型處理共線性問題绸栅。

2?理論

Lasso回歸分析（Lasso Regression）是一種用于解決線性回歸分析中自變量共線性的研究算法。針對Lasso回歸：其研究步驟共為2步,分別是結合軌跡圖尋找最佳K值页屠；輸入K值進行回歸建模粹胯。

第一步：Lasso回歸分析前需要結合軌跡圖確認K值；K值的選擇原則是各個自變量的標準化回歸系數(shù)趨于穩(wěn)定時的最小K值辰企。K值越小則偏差越小风纠，K值為0時則為普通線性OLS回歸；SPSSAU提供K值智能建議牢贸，也可通過主觀識別判斷選擇K值竹观；

第二步：對于K值，其越小越好潜索，通常建議小于1臭增；確定好K值后，即可主動輸入K值竹习，得出Lasso回歸模型估計誊抛。

對于Lasso回歸研究，如果不輸入K值整陌，此時SPSSAU默認是生成軌跡圖拗窃，即識別最佳K值（當然SPSSAU會智能化建議最佳K值）瞎领；如果輸入K值，此時SPSSAU則輸出Lasso回歸模型結果随夸。

3?操作

使用SPSSAU進行Lasso回歸研究時：首先不輸入K值九默，則得到軌跡圖用于判斷最佳K值（SPSSAU也會智能建議最佳K值）；得到最佳K值后宾毒，輸入具體值驼修，最終SPSSAU會輸出模型結果。本案例時SPSSAU建議K值為0.3诈铛。

4 SPSSAU輸出結果

軌跡圖描述不同K值時邪锌，自變量進行Lasso回歸時標準化回歸系數(shù)的變化情況。如果說標準化回歸系數(shù)趨于穩(wěn)定癌瘾，此時對應的最小K值觅丰，即為最佳K值。此過程的判斷帶有一定的主觀性妨退，比如上圖中妇萄，K值看上去選擇為0.3，也或者0.4均可咬荷。建議以更小的K值作為標準冠句；同時，可直接使用SPSSAU提供的建議最佳K值幸乒。

本案例中SPSSAU建議最佳K值為0.01懦底，因而重新進行分析時輸入0.3，得到最終Lasso回歸模型結果如下表：

5 文字分析

具體文字分析例子如下：

本次研究胎兒身高罕扎、頭圍聚唐、體重對于胎兒受精周齡數(shù)據(jù)的影響；使用線性回歸分析時發(fā)現(xiàn)VIF值出現(xiàn)大于200腔召，即存在著嚴重的共線性問題杆查。因而使用性能更好的Lasso回歸模型進行研究。Lasso回歸模型研究共分為兩步臀蛛，第一步是通過軌跡圖識別最佳K值亲桦；第二步是利用確定好的最佳K值進行建立模型，得到最終模型浊仆。使用SPSSAU進行研究時客峭，SPSSAU建議使用最佳K值為0.3，而且對比軌跡圖判斷可知抡柿，K值從0.3逐步增大時舔琅，自變量的標準化回歸系數(shù)趨于穩(wěn)定，因而最終K值取為0.3沙绝，最終得到Lasso回歸模型搏明。

將身長(cm), 頭圍(cm), 體重(g)作為自變量鼠锈，而將胎兒受精周齡作為因變量進行Ridge回歸分析闪檬，K值取為0.3星著，模型R平方值為0.859，意味著身長(cm), 頭圍(cm), 體重(g)可以解釋胎兒受精周齡的85.9%變化原因粗悯。對模型進行F檢驗時發(fā)現(xiàn)模型通過F檢驗(F?(3,7)=14.263,?p?=0.002<0.05)虚循，也即說明身長(cm), 頭圍(cm), 體重(g)中至少一項會對胎兒受精周齡產(chǎn)生影響關系。

模型公式為：胎兒受精周齡=13.481 + 0.091*身長(cm) + 0.000*頭圍(cm) + 0.006*體重(g)样傍。身長(cm)的回歸系數(shù)值為0.091(t=3.148横缔，p=0.016<0.05)，意味著身長(cm)會對胎兒受精周齡產(chǎn)生顯著的正向影響關系衫哥。頭圍(cm)的回歸系數(shù)值為0.000(t=0.000茎刚，p=1.000>0.05)，意味著頭圍(cm)并不會對胎兒受精周齡產(chǎn)生影響關系撤逢。體重(g)的回歸系數(shù)值為0.006(t=5.035膛锭，p=0.002<0.01)，意味著體重(g)會對胎兒受精周齡產(chǎn)生顯著的正向影響關系蚊荣〕跽總結分析可知：身長(cm), 體重(g)會對胎兒受精周齡產(chǎn)生顯著的正向影響關系。但是頭圍(cm)并不會對胎兒受精周齡產(chǎn)生影響關系互例。

總結分析可知：身長(cm), 體重(g)會對胎兒受精周齡產(chǎn)生顯著的正向影響關系奢入。但是頭圍(cm)并不會對胎兒受精周齡產(chǎn)生影響關系。

6?剖析

Lasso回歸分析需要特別注意兩點媳叨，分別是共線性判斷和分析步驟腥光。

① 是否呈現(xiàn)出共線性，一定需要有理有據(jù)糊秆，比如VIF值過高柴我，也或者自變量之間的相關關系過高（比如大于0.6）；如果數(shù)據(jù)并沒有共線性扩然，依舊建議使用普通線性最小二乘法回歸艘儒。

② Lasso回歸建模共分為兩步，分別是尋找最佳K值和建模夫偶。軌跡圖中界睁，如果過了某點時趨于穩(wěn)定，則該點對應的K值為最佳K值兵拢，以及K值是越小越好翻斟。

7 疑難解惑

① F?值括號里面的兩個值分別是什么?

如果是F?值想計算得到p?值，需要提供兩個自由度值df?1和df?2说铃。一般情況下访惜，df?1等于自變量數(shù)量嘹履；df?2等于樣本量 - （自變量數(shù)量+1）。此兩個值僅為中間過程值债热，規(guī)范格式上需要寫成這樣而已砾嫉，無其它實際意義。

② 智能分析每次都提示k值為0.99窒篱？

SPSSAU提供的智能分析是一種建議性質焕刮，它會結合交叉對比算法自動提供一個建議；實際研究中墙杯，lasso回歸K值的判斷帶有較強的主觀性質配并，因而研究者可結合嶺跡圖選擇合適的K值。同時可將SPSSAU提供的建議K值高镐，與主觀判斷得到的K值分別進行分析溉旋，然后對比各項指標（比如R方值）進行使用即可。

③ lasso回歸分析前是否需要對數(shù)據(jù)進行標準化處理嫉髓？

lasso回歸時观腊，可先對數(shù)據(jù)進行標準化處理（數(shù)據(jù)處理->生成變量功能），然后再進行l(wèi)asso回歸分析岩喷，當然也可以直接針對標準化回歸系數(shù)進行分析即可恕沫，SPSSAU默認有輸出標準化回歸系數(shù)。

④ Lasso回歸與嶺回歸如何選擇纱意？

Lasso回歸和嶺回歸時婶溯，它們均可以解決共線性問題，但一般使用嶺回歸相對較多偷霉，正常情況下二者去解決共線性回歸時結論應該保持一致迄委。與此同時，lasso回歸可用于‘特征篩選’类少，但嶺回歸并無此功能叙身。Lasso回歸和嶺回歸在數(shù)學原理上的區(qū)別為損失函數(shù)的不同，lasso回歸使用L1正則化硫狞，嶺回歸使用L2正則化信轿。

本案例數(shù)據(jù)參考資料：

張文彤,董偉.SPSS統(tǒng)計分析高級教程[M]. 第2版. 北京:高等教育出版社, 2015.04: 130-132．

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市残吩，隨后出現(xiàn)的幾起案子财忽，更是在濱河造成了極大的恐慌，老刑警劉巖泣侮，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件即彪，死亡現(xiàn)場離奇詭異，居然都是意外死亡活尊，警方通過查閱死者的電腦和手機隶校，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門漏益，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人深胳，你說我怎么就攤上這事绰疤。” “怎么了稠屠？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵峦睡，是天一觀的道長翎苫。經(jīng)常有香客問我权埠，道長，這世上最難降的妖魔是什么煎谍？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任攘蔽，我火速辦了婚禮，結果婚禮上呐粘，老公的妹妹穿的比我還像新娘满俗。我一直安慰自己，他們只是感情好作岖，可當我...
茶點故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布唆垃。她就那樣靜靜地躺著，像睡著了一般痘儡。火紅的嫁衣襯著肌膚如雪辕万。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天沉删，我揣著相機與錄音渐尿，去河邊找鬼。笑死矾瑰，一個胖子當著我的面吹牛砖茸，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播殴穴，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼凉夯，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了采幌？” 一聲冷哼從身側響起劲够，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎植榕，沒想到半個月后再沧，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,400評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡尊残，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年炒瘸，在試婚紗的時候發(fā)現(xiàn)自己被綠了淤堵。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡顷扩，死狀恐怖拐邪，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情隘截，我是刑警寧澤扎阶，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站婶芭，受9級特大地震影響东臀，放射性物質發(fā)生泄漏。R本人自食惡果不足惜犀农，卻給世界環(huán)境...
茶點故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一惰赋、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧呵哨，春花似錦赁濒、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案拒炎，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至挨务，卻和暖如春击你，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背耘子。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工果漾，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人谷誓。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓绒障，卻偏偏與公主長得像，于是被迫代替她去往敵國和親捍歪。傳聞我的和親對象是個殘疾皇子户辱，可洞房花燭夜當晚...
茶點故事閱讀 42,722評論 2贊 345

Lasso回歸分析如何處理共線性問題亡脑？

Lasso回歸分析如何處理共線性問題堕澄？

推薦閱讀更多精彩內(nèi)容