常見的七種回歸技術

介紹


? ? ? 根據受歡迎程度,線性回歸和邏輯回歸經常是我們做預測模型時伙单,且第一個學習的算法。但是如果認為回歸就兩個算法哈肖,就大錯特錯了吻育。事實上我們有許多類型的回歸方法可以去建模。每一個算法都有其重要性和特殊性牡彻。

內容


1.什么是回歸分析扫沼?

2.我們?yōu)槭裁匆褂没貧w分析?

3.回歸有哪些類型 庄吼?

4.線性回歸

5.邏輯回歸

6.多項式回歸

7.逐步回歸

8.嶺回歸

9.Lasso回歸

10.ElasticNet回歸

什么是回歸分析缎除?


? ? ? ?回歸分析是研究自變量和因變量之間關系的一種預測模型技術。這些技術應用于預測总寻,時間序列模型和找到變量之間關系器罐。例如可以通過回歸去研究超速與交通事故發(fā)生次數的關系。

我們?yōu)槭裁匆没貧w分析渐行?


? ? ?這里有一些使用回歸分析的好處:它指示出自變量與因變量之間的顯著關系轰坊;它指示出多個自變量對因變量的影響铸董。回歸分析允許我們比較不同尺度的變量肴沫,例如:價格改變的影響和宣傳活動的次數粟害。這些好處可以幫助市場研究者/數據分析師去除和評價用于建立預測模型里面的變量。

回歸有哪些類型颤芬?


? ? ? 我們有很多種回歸方法用預測悲幅。這些技術可通過三種方法分類:自變量的個數、因變量的類型和回歸線的形狀站蝠。

1.線性回歸

? ? ? ?線性回歸可謂是世界上最知名的建模方法之一汰具,也是應該是我們第一個接觸的模型。在模型中菱魔,因變量是連續(xù)型的留荔,自變量可以使連續(xù)型或離散型的,回歸線是線性的澜倦。

線性回歸用最適直線(回歸線)去建立因變量Y和一個或多個自變量X之間的關系聚蝶。可以用公式來表示:

Y=a+b*X+e

a為截距肥隆,b為回歸線的斜率既荚,e是誤差項。

? ? ? 簡單線性回歸與多元線性回歸的差別在于:多元線性回歸有多個(>1)自變量栋艳,而簡單線性回歸只有一個自變量恰聘。到現在我們的問題就是:如何找到那條回歸線?

? ? ? 我們可以通過最小二乘法把這個問題解決吸占。其實最小二乘法就是線性回歸模型的損失函數晴叨,只要把損失函數做到最小時得出的參數,才是我們最需要的參數矾屯。

我們一般用決定系數(R方)去評價模型的表現兼蕊。

重點

1.自變量與因變量之間必須要有線性關系

2.多重共線性件蚕、自相關和異方差對多元線性回歸的影響很大孙技。

3.線性回歸對異常值非常敏感,其能嚴重影響回歸線排作,最終影響預測值牵啦。

4.在多元的自變量中,我們可以通過前進法妄痪,后退法和逐步法去選擇最顯著的自變量哈雏。

2.邏輯回歸

邏輯回歸是用來找到事件成功或事件失敗的概率。當我們的因變量是二分類(0/1,True/False裳瘪,Yes/No)時我們應該使用邏輯回歸土浸。

重點

1.在分類問題中使用的非常多。

2.邏輯回歸因其應用非線性log轉換方法彭羹,使得其不需要自變量與因變量之間有線性關系黄伊。

3.為防止過擬合和低擬合,我們應該確保每個變量是顯著的皆怕。應該使用逐步回歸方法去估計邏輯回歸毅舆。

4.邏輯回歸需要大樣本量,因為最大似然估計在低樣本量的情況下表現不好愈腾。

5.要求沒有共線性。

6.如果因變量是序數型的岂津,則稱為序數型邏輯回歸虱黄。

7.如果因變量有多個,則稱為多項邏輯回歸吮成。

3.多項式回歸

如果一個回歸橱乱,它的自變量指數超過1,則稱為多項式回歸粱甫∮镜可以用公式表示:

y = a + b * x^2

在這個回歸技術中,最適的線不是一條直線茶宵,而是一條曲線危纫。

重點

1.很多情況下,我們?yōu)榱私档驼`差乌庶,經常會抵制不了使用多項式回歸的誘惑种蝶,但事實是,我們經常會造成過擬合瞒大。所以要經常的把數據可視化螃征,觀察數據與模型的擬合程度。

2.特別是要看曲線的結尾部分透敌,看它的形狀和趨勢是否有意義盯滚。高的多項式往往會產生特別古怪的預測值。

4.逐步回歸

? ? ? 當我們要處理多個自變量時酗电,我們就需要這個回歸方法魄藕。在這個方法中選擇變量都是通過自動過程實現的,不需要人的干預顾瞻。

? ? ? 這個工程是通過觀察統(tǒng)計值泼疑,比如判定系數,t值和最小信息準則等去篩選變量。逐步回歸變量一般是基于特定的標準加入或移除變量來擬合回歸模型退渗。一些常用的逐步回歸方法如下:

1.標準逐步回歸做兩件事情移稳。只要是需要每一步它都會添加或移除一些變量。

2.前進法是開始于最顯著的變量然后在模型中逐漸增加次顯著變量会油。

3.后退法是開始于所有變量个粱,然后逐漸移除一些不顯著變量。

4.這個模型技術的目的是為了用最少的變量去最大化模型的預測能力翻翩。它也是一種降維技術都许。

5.嶺回歸

? ? ? 當碰到數據有多重共線性時,我們就會用到嶺回歸嫂冻。所謂多重共線性胶征,簡單的說就是自變量之間有高度相關關系。在多重共線性中桨仿,即使是最小二乘法是無偏的睛低,它們的方差也會很大。通過在回歸中加入一些偏差服傍,嶺回歸酒會減少標準誤差钱雷。

? ? ?‘嶺回歸是一種專用于共線性數據分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法吹零,通過放棄最小二乘法的無偏性罩抗,以損失部分信息、降低精度為代價獲得回歸系數更為符合實際灿椅、更可靠的回歸方法套蒂,對病態(tài)數據的擬合要強于最小二乘法≮逖铮’ ---百度百科

? ? ? 嶺回歸是通過嶺參數λ去解決多重共線性的問題泣懊。看下面的公式:

? ? ?其中l(wèi)oss為損失函數麻惶,penalty為懲罰項馍刮。

重點

1.嶺回歸的假設與最小二乘法回歸的假設相同除了假設正態(tài)性。

2.它把系數的值收縮了窃蹋,但是不會為0.

3.正則化方法是使用了l2正則.

6.LASSO回歸

? ? ? ?和嶺回歸類似卡啰,Lasso(least Absolute Shrinkage and Selection Operator)也是通過懲罰其回歸系數的絕對值【唬看下面的公式:

? ? ? ?Lasso回歸和嶺回歸不同的是匈辱,Lasso回歸在懲罰方程中用的是絕對值,而不是平方杀迹。這就使得懲罰后的值可能會變成0.

重點

1.其假設與最小二乘回歸相同除了正態(tài)性亡脸。

2.其能把系數收縮到0,使得其能幫助特征選擇。

3.這個正則化方法為l1正則化浅碾。

4.如果一組變量是高度相關的大州,lasso會選擇其中的一個,然后把其他的都變?yōu)?.

7.ElasticNet回歸

? ? ? ElasticNet回歸是Lasso回歸和嶺回歸的組合垂谢。它會事先訓練L1和L2作為懲罰項厦画。當許多變量是相關的時候,Elastic-net是有用的滥朱。Lasso一般會隨機選擇其中一個根暑,而Elastic-net則會選在兩個。

? ? ? 與Lasso和嶺回歸的利弊比較徙邻,一個實用的優(yōu)點就是Elastic-Net會繼承一些嶺回歸的穩(wěn)定性排嫌。

重點

1.在選擇變量的數量上沒有限制

2.雙重收縮對其有影響

3.除了這7個常用的回歸技術,你也可以看看貝葉斯回歸鹃栽、生態(tài)學回歸和魯棒回歸躏率。

如何去選擇回歸模型


? ? ? 面對如此多的回歸模型,最重要的是根據自變量因變量的類型民鼓、數據的維數和其他數據的重要特征去選擇最合適的方法。以下是我們選擇正確回歸模型時要主要考慮的因素:

1.數據探索是建立預測模型不可或缺的部分蓬抄。它應該是在選擇正確模型之前要做的丰嘉。

2.為了比較不同模型的擬合程度,我們可以分析不同的度量嚷缭,比如統(tǒng)計顯著性參數饮亏、R方、調整R方阅爽、最小信息標準路幸、BIC和誤差準則。另一個是Mallow‘s Cp準則付翁。

3.交叉驗證是驗證預測模型最好的方法简肴。你把你的數據集分成兩組:一組用于訓練,一組用于驗證百侧。

4.如果你的數據集有許多讓你困惑的變量砰识,你就不應該用自動模型選擇方法,因為你不想把這些變量放在模型當中佣渴。

5.不強大的模型往往容易建立辫狼,而強大的模型很難建立。

6.回歸正則方法在高維度和多重共線性的情況下表現的很好辛润。

參考


http://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末膨处,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌真椿,老刑警劉巖鹃答,帶你破解...
    沈念sama閱讀 211,948評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異瀑粥,居然都是意外死亡挣跋,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 90,371評論 3 385
  • 文/潘曉璐 我一進店門狞换,熙熙樓的掌柜王于貴愁眉苦臉地迎上來避咆,“玉大人,你說我怎么就攤上這事修噪〔榭猓” “怎么了?”我有些...
    開封第一講書人閱讀 157,490評論 0 348
  • 文/不壞的土叔 我叫張陵黄琼,是天一觀的道長樊销。 經常有香客問我,道長脏款,這世上最難降的妖魔是什么围苫? 我笑而不...
    開封第一講書人閱讀 56,521評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮撤师,結果婚禮上剂府,老公的妹妹穿的比我還像新娘。我一直安慰自己剃盾,他們只是感情好腺占,可當我...
    茶點故事閱讀 65,627評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著痒谴,像睡著了一般衰伯。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上积蔚,一...
    開封第一講書人閱讀 49,842評論 1 290
  • 那天意鲸,我揣著相機與錄音,去河邊找鬼库倘。 笑死临扮,一個胖子當著我的面吹牛,可吹牛的內容都是我干的教翩。 我是一名探鬼主播杆勇,決...
    沈念sama閱讀 38,997評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼饱亿!你這毒婦竟也來了蚜退?” 一聲冷哼從身側響起闰靴,我...
    開封第一講書人閱讀 37,741評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎钻注,沒想到半個月后蚂且,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 44,203評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡幅恋,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,534評論 2 327
  • 正文 我和宋清朗相戀三年杏死,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片捆交。...
    茶點故事閱讀 38,673評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡淑翼,死狀恐怖,靈堂內的尸體忽然破棺而出品追,到底是詐尸還是另有隱情玄括,我是刑警寧澤,帶...
    沈念sama閱讀 34,339評論 4 330
  • 正文 年R本政府宣布肉瓦,位于F島的核電站遭京,受9級特大地震影響,放射性物質發(fā)生泄漏泞莉。R本人自食惡果不足惜哪雕,卻給世界環(huán)境...
    茶點故事閱讀 39,955評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望鲫趁。 院中可真熱鬧热监,春花似錦、人聲如沸饮寞。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,770評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽幽崩。三九已至,卻和暖如春寞钥,著一層夾襖步出監(jiān)牢的瞬間慌申,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,000評論 1 266
  • 我被黑心中介騙來泰國打工理郑, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留蹄溉,地道東北人。 一個月前我還...
    沈念sama閱讀 46,394評論 2 360
  • 正文 我出身青樓您炉,卻偏偏與公主長得像柒爵,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子赚爵,可洞房花燭夜當晚...
    茶點故事閱讀 43,562評論 2 349

推薦閱讀更多精彩內容