介紹
線性和邏輯回歸通常是人們在預(yù)測建模中學習的第一種算法。由于受歡迎程度析孽,很多分析師甚至認為他們是唯一的回歸形式只怎。稍微涉及的人認為他們是所有形式的回歸分析中最重要的。
事實是有無數(shù)形式的回歸邓尤,可以執(zhí)行汞扎。每種形式都有其自身的重要性和最適合使用的具體條件擅这。在這篇文章中,我以簡單的方式解釋了最常用的7種形式的回歸痹扇。通過這篇文章溯香,我也希望人們發(fā)現(xiàn)一個回歸廣度的想法玫坛,而不是對他們遇到的每個問題應(yīng)用線性/邏輯回歸,并希望他們能適應(yīng)禀梳!
目錄
什么是回歸分析算途?
為什么我們使用回歸分析?
回歸的類型是什么扫外?
線性回歸
邏輯回歸
多項式回歸
逐步回歸
嶺回歸
拉索回歸
彈性網(wǎng)回歸
如何選擇正確的回歸模型廓脆?
什么是回歸分析停忿?
回歸分析是一種預(yù)測建模技術(shù),它調(diào)查依賴(目標)和自變量(預(yù)測因子)之間的關(guān)系吮铭。該技術(shù)用于預(yù)測颅停,時間序列建模和發(fā)現(xiàn)變量之間的因果關(guān)系。例如纸肉,駕駛員的皮疹駕駛與道路交通事故之間的關(guān)系最好通過回歸研究柏肪。
回歸分析是數(shù)據(jù)建模和分析的重要工具逊移。在這里,我們將數(shù)據(jù)點的曲線/線擬合到數(shù)據(jù)點之間拐叉,使得數(shù)據(jù)點與曲線或線之間的距離之間的差異最小化扇商。我將在下面的部分詳細解釋這一點案铺。
為什么我們使用回歸分析?
如上所述笔诵,回歸分析估計兩個或多個變量之間的關(guān)系乎婿。讓我們通過一個簡單的例子了解這一點:
假設(shè)你想根據(jù)當前的經(jīng)濟狀況來估算一家公司的銷售增長。您有最近的公司數(shù)據(jù)捍靠,表明銷售額的增長是經(jīng)濟增長的兩倍多森逮。利用這種洞察力,我們可以根據(jù)當前和過去的信息來預(yù)測公司未來的銷售情況良风。
使用回歸分析有多個好處拖吼。它們?nèi)缦拢?/p>
它表示因變量與自變量之間的重要關(guān)系这吻。
它表明多個獨立變量對因變量的影響的強度唾糯。
回歸分析還使我們能夠比較不同尺度下測量的變量的影響鬼贱,如價格變化的影響和促銷活動的數(shù)量。這些優(yōu)勢有助于市場研究人員/數(shù)據(jù)分析師/數(shù)據(jù)科學家消除和評估用于構(gòu)建預(yù)測模型的最佳變量集舟误。
我們有多少種回歸技術(shù)嵌溢?
有各種各樣的回歸技術(shù)可以做出預(yù)測蹋岩。這些技術(shù)主要由三個指標(獨立變量的數(shù)量,因變量的類型和回歸線的形狀)驅(qū)動秧骑。我們將在以下部分詳細討論它們。
對于創(chuàng)造性的绒疗,您甚至可以做出新的回歸忌堂,如果您覺得需要使用上述參數(shù)的組合酗洒,哪些人以前沒有使用過。但在您開始之前棋嘲,讓我們了解最常用的回歸:
線性回歸
它是最廣為人知的建模技術(shù)之一沸移。線性回歸通常是人們在學習預(yù)測模型時選擇的頭幾個主題侄榴。在這種技術(shù)中,因變量是連續(xù)的蕊爵,獨立變量可以是連續(xù)的或離散的桦山,回歸線的性質(zhì)是線性的。
線性回歸使用最佳擬合直線(也稱為回歸線)確定因變量(Y)與一個或多個獨立變量(X)之間的關(guān)系会放。
它由等式Y = a + b * X + e表示咧最,其中a是截距御雕,b是線的斜率,e是誤差項咨察。該方程可以用于基于給定的預(yù)測變量來預(yù)測目標變量的值福青。
簡單線性回歸與多元線性回歸之間的差異在于,多元線性回歸具有(> 1)自變量媒役,而簡單線性回歸只有1個獨立變量。現(xiàn)在的問題是“我們?nèi)绾潍@得最佳配合線交惯?”穿仪。
如何獲得最佳擬合線(a和b的值)啊片?
這個任務(wù)可以通過最小二乘法輕松完成。它是用于擬合回歸線的最常用方法齐饮。它通過最小化從每個數(shù)據(jù)點到線的垂直偏差的平方和來計算觀測數(shù)據(jù)的最佳擬合線笤昨。因為偏差是第一平方的,所以加上正值和負值之間不會取消捺僻。
我們可以使用公制R平方來評估模型性能陵像。要了解有關(guān)這些指標的更多詳細信息,您可以閱讀:模型性能指標第1部分妻怎,第2部分。
重點:
獨立變量與因變量之間必須存在線性關(guān)系
多重回歸存在多重共線性逼侦,自相關(guān)榛丢,異方差。
線性回歸對異常值非常敏感稼病。它可以極大地影響回歸線,最終影響預(yù)測值然走。
多重共線性可以增加系數(shù)估計的方差,并使估計對模型的微小變化非常敏感晨仑。結(jié)果是系數(shù)估計不穩(wěn)定
在多個獨立變量的情況下拆檬,我們可以選擇最有意義的自變量進行前向選擇,反向消除和逐步的方法竟贯。
邏輯回歸
Logistic回歸用于查找event = Success和event = Failure的概率澄耍。當因變量為二進制(0/1,True / False痢站,Yes / No)時选酗,我們應(yīng)該使用邏輯回歸。這里芒填,Y的值在0?1之間殿衰,可以由下式表示。
odds = p /(1-p)=事件發(fā)生概率/事件發(fā)生概率ln(odds)= ln(p /(1-p))logit(p)= ln(p /(1-p))= b0 + b1X1 + b2X2 + b3X3 ... + bkXk
以上娱颊,p是存在感興趣特征的概率凯砍。你在這里應(yīng)該問的一個問題是“為什么我們使用登錄方程?”剧罩。
由于我們在這里使用二項分布(因變量)座泳,我們需要選擇最適合這種分布的鏈接函數(shù)幕与。而且纽门,它是logit函數(shù)营罢。在上面的等式中,選擇參數(shù)以最大化觀察樣本值的可能性蝙搔,而不是最小化平方誤差的總和(如在普通回歸中)考传。
重點:
廣泛應(yīng)用于分類問題
邏輯回歸不需要依賴變量和自變量之間的線性關(guān)系。它可以處理各種類型的關(guān)系勤晚,因為它將非線性對數(shù)變換應(yīng)用于預(yù)測的優(yōu)勢比
為了避免過度擬合和擬合赐写,我們應(yīng)該包括所有重要的變量膜赃。確保這種做法的一個好辦法是使用逐步的方法來估計邏輯回歸
它需要較大的樣本量,因為最小似然估計在低樣本量方面比普通最小二乘法不太強大
自變量不應(yīng)相互關(guān)聯(lián)端铛,即無共線性疲眷。然而,我們有選擇在分析和模型中包括分類變量的交互效應(yīng)夕膀。
如果因變量的值是序數(shù)美侦,則稱為有序邏輯回歸
如果因變量是多類菠剩,則稱為多項Logistic回歸耻煤。
多項式回歸
如果自變量的冪大于1准颓,則回歸方程為多項式回歸方程攘已。下面的公式表示多項式方程:
Y = A + B * X ^ 2
在這種回歸技術(shù)中,最佳擬合線不是直線样勃。這是一個適合數(shù)據(jù)點的曲線峡眶。
重點:
雖然可能會有一種誘惑來適應(yīng)更高等級的多項式來獲得較低的誤差植锉,但這可能會導致過度擬合。始終繪制關(guān)系狮暑,以確定合適性并集中精力確保曲線符合問題的本質(zhì)搬男。這是一個例子,說明繪圖如何幫助:
特別注意曲線向前止后,看看這些形狀和趨勢是否有意義译株。較高的多項式最終可能會產(chǎn)生外推的結(jié)果歉糜。
逐步回歸
當我們處理多個獨立變量時,使用這種回歸形式匪补。在這種技術(shù)中夯缺,自主變量的選擇是在自動過程的幫助下進行的甘耿,而不需要人為干預(yù)。
通過觀察諸如R平方捏境,t統(tǒng)計和AIC度量之類的統(tǒng)計值來識別重要變量,可以實現(xiàn)這一特征垫言。逐步回歸基本上適合回歸模型筷频,通過根據(jù)指定的標準一次添加/刪除共變量。一些最常用的逐步回歸方法如下:
標準逐步回歸有兩件事情笑陈。它根據(jù)每個步驟的需要添加和刪除預(yù)測變量葵袭。
前向選擇從模型中最重要的預(yù)測變量開始,并為每個步驟添加變量蓬网。
反向消除從模型中的所有預(yù)測變量開始鹉勒,并刪除每個步驟的最不重要的變量。
這種建模技術(shù)的目的是以最小數(shù)量的預(yù)測變量最大化預(yù)測能力锯厢。它是處理數(shù)據(jù)集較高維數(shù)的方法之一实辑。
嶺回歸
Ridge回歸是當數(shù)據(jù)遭受多重共線性(獨立變量高度相關(guān))時使用的技術(shù)。在多重共線性方面剪撬,盡管最小二乘估計(OLS)是無偏的残黑,但它們的方差大斋否,將觀測值偏離真實值。通過向回歸估計增加一定程度的偏差茵臭,脊回歸減少了標準誤差。
以上踊沸,我們看到了線性回歸方程逼龟。記得腺律?它可以表示為:
y = a + b * x
該方程也有一個錯誤項宜肉。完整的方程式成為:
y = a + b * x + e(誤差項)谬返,[誤差項是校正觀測值和預(yù)測值之間的預(yù)測誤差所需的值]
=> y = a + y = a + b1x1 + b2x2 + .... + e,用于多個獨立變量佑刷。
在線性方程中酿炸,預(yù)測誤差可以分解為兩個子分量填硕。首先是由于偏差,第二是由于差異扁眯。由于這兩個或兩個組件中的任一個可能會發(fā)生預(yù)測錯誤次兆。在這里,我們將討論由于方差導致的錯誤刹悴。
嶺回歸通過收縮參數(shù)λ(λ)解決了多重共線性問題提针。看下面的等式施敢。
在這個方程式中周荐,我們有兩個組件。第一個是最小平方僵娃,另一個是β2(β平方)的和的λ概作,其中β是系數(shù)默怨。這被添加到最小二乘法愚屁,以縮小參數(shù)以具有非常低的方差霎槐。
重點:
該回歸的假設(shè)與最小二乘回歸相同丘跌,但不包括正態(tài)性
它縮小了系數(shù)的值闭树,但沒有達到零与殃,這表明沒有特征選擇特征
這是一個正則化方法奈籽,并使用l2正則化衣屏。
拉索回歸
與Ridge回歸類似狼忱,Lasso(最小絕對收縮率和選擇算子)也懲罰了回歸系數(shù)的絕對大小钻弄。此外窘俺,它能夠減少線性回歸模型的變異性和提高準確性∮耍看下面的等式:
拉索回歸與脊回歸的不同之處在于它使用懲罰函數(shù)中的絕對值而不是正方形实檀。這導致懲罰(或等價地約束估計的絕對值的總和)膳犹,這導致一些參數(shù)估計結(jié)果恰好為零币呵。更大的罰款適用,進一步估計收縮到絕對零哈垢。這導致給定的n個變量的變量選擇耘分。
重點:
該回歸的假設(shè)與最小二乘回歸相同求泰,但不包括正態(tài)性
它將系數(shù)縮小到零(完全為零)渴频,這肯定有助于特征選擇
這是一個正則化方法卜朗,并使用l1正則化
如果一組預(yù)測因子高度相關(guān)场钉,套索只選擇其中一個,并將其他人縮小到零
彈性網(wǎng)回歸
ElasticNet是Lasso和Ridge回歸技術(shù)的混合體批钠。它被訓練用L1和L2作為前調(diào)整裝置当纱。當有多個相關(guān)的特征時坡氯,彈性網(wǎng)是有用的手形。拉索有可能隨機選擇其中之一库糠,而彈性網(wǎng)則很可能選擇兩者瞬欧。
拉索和里奇之間的一個切實的優(yōu)勢是,它允許Elastic-Net繼承Ridge在旋轉(zhuǎn)下的一些穩(wěn)定性野建。
重點:
在高度相關(guān)的變量的情況下候生,它鼓勵群體效應(yīng)
所選變量的數(shù)量沒有限制
它可能遭受雙收縮
除了這七種最常用的回歸技術(shù)之外,您還可以查看其他模型肿孵,如貝葉斯停做,生態(tài)和魯棒回歸蛉腌。
如何選擇正確的回歸模型烙丛?
生活通常很簡單,當你只知道一兩種技巧忘蟹。我知道的一個培訓機構(gòu)告訴他們的學生 - 如果結(jié)果是連續(xù)的 - 應(yīng)用線性回歸。如果是二進制 - 使用邏輯回歸狠毯!然而嚼松,我們處理的可用選項數(shù)量越多,選擇合適的選項就越困難凌摄。回歸模型也發(fā)生了類似的情況忙干。
在多種類型的回歸模型中捐迫,重要的是選擇基于獨立和依賴變量的類型施戴,數(shù)據(jù)中的維度和數(shù)據(jù)的其他基本特征的最適合的技術(shù)。以下是您應(yīng)該選擇正確回歸模型的關(guān)鍵因素:
數(shù)據(jù)探索是構(gòu)建預(yù)測模型的必然部分肪笋。在選擇正確的模型之前,您應(yīng)該首先確定變量的關(guān)系和影響
為了比較不同模型的擬合優(yōu)度坛梁,我們可以分析不同的指標划咐,如參數(shù)的統(tǒng)計學顯著性丈莺,R平方缔俄,調(diào)整r平方,AIC遏佣,BIC和誤差項状婶。另一個是Mallow的Cp標準。這通過將模型與所有可能的子模型(或仔細選擇它們)進行比較來基本檢查模型中的可能偏差稍刀。
交叉驗證是評估用于預(yù)測的模型的最佳方式。在這里局齿,您將數(shù)據(jù)集分為兩組(訓練和驗證)项炼。觀察值和預(yù)測值之間的簡單均方差可以給出預(yù)測精度的度量。
如果您的數(shù)據(jù)集具有多個混淆變量拌禾,則不應(yīng)選擇自動模型選擇方法闻蛀,因為您不想將它們放在模型中觉痛。
這也將取決于你的目標。與高度統(tǒng)計學顯著的模型相比俐芯,可以發(fā)現(xiàn)較不強大的模型易于實現(xiàn)吧史。
回歸正則化方法(Lasso,Ridge和ElasticNet)在數(shù)據(jù)集中變量之間的高維數(shù)和多重共線性的情況下工作良好莽使。
結(jié)束注
到現(xiàn)在為止灵再,我希望你能有一個回歸的概述栋猖。這些回歸技術(shù)應(yīng)該考慮到數(shù)據(jù)的條件。找出使用哪種技術(shù)的最好方法之一是檢查變量族雌团,即離散或連續(xù)锦援。
在這篇文章中曼库,我討論了7種類型的回歸和一些與每種技術(shù)相關(guān)的關(guān)鍵事實。作為這個行業(yè)的新人种玛,我建議你學習這些技術(shù)蒂誉,然后在你的模型中實現(xiàn)它們。