大家早安稼病、午安选侨、晚安,一起來學(xué)習(xí)機器學(xué)習(xí)算法中回歸部分的方法啦然走,每次都是滿滿的干貨侵俗,大家看的時候多喝水哈,正文開始丰刊!
回歸分析(Regression Analysis)-定義與分類
回歸分析(Regression Analysis)是一種統(tǒng)計學(xué)上分析數(shù)據(jù)的方法隘谣,目的在于了解兩個或多個變數(shù)間是否相關(guān)、相關(guān)方向與強度,并建立數(shù)學(xué)模型以便觀察特定變數(shù)來預(yù)測研究者感興趣的變數(shù)寻歧。更具體的來說掌栅,回歸分析可以幫助人們了解在只有一個自變量變化時因變量的變化量。一般來說码泛,通過回歸分析我們可以由給出的自變量估計因變量的條件期望猾封。回歸分析是建立因變數(shù) ?Y(或稱依變數(shù)噪珊,反應(yīng)變數(shù))與自變數(shù) X(或稱獨變數(shù)晌缘,解釋變數(shù))之間關(guān)系的模型。
回歸分析的主要算法包括:線性回歸(Linear Regression)痢站、邏輯回歸(Logistic Regression)磷箕、多項式回歸(Polynomial Regression)、逐步回歸(Step Regression)阵难、嶺回歸(Ridge Regression)岳枷、套索回歸(Lasso Regression)、彈性網(wǎng)回歸(ElasticNet)等呜叫。
接下來就分別學(xué)習(xí)下以上的回歸方法
1空繁、基于最小均方誤差求解回歸參數(shù)(最小二乘法,ordinary least squares)
線性回歸通常是人們在學(xué)習(xí)預(yù)測模型時首選的技術(shù)之一朱庆。在這種技術(shù)中盛泡,因變量是連續(xù)的,自變量可以是連續(xù)的也可以是離散的娱颊,回歸線的性質(zhì)是線性的饭于。線性回歸使用最佳的擬合直線(也就是回歸線)在因變量(Y)和一個或多個自變量(X)之間建立一種關(guān)系。用一個方程式來表示它维蒙,即Y=a+b*X + e掰吕,其中a表示截距,b表示直線的斜率颅痊,e是誤差項殖熟。這個方程可以根據(jù)給定的預(yù)測變量(s)來預(yù)測目標(biāo)變量的值。通常使用最小二乘法來獲取擬合曲線中的回歸參數(shù)斑响。最小二乘法對于觀測數(shù)據(jù)菱属,它通過最小化每個數(shù)據(jù)點到線的垂直偏差平方和來計算最佳擬合線。
線性回歸實例編程實現(xiàn)
1)準(zhǔn)備數(shù)據(jù):
備注:圖3中的代碼中舰罚,info是從文件中讀入的數(shù)據(jù)纽门,類型是字符串,所以营罢,需要用dtype=float將其轉(zhuǎn)換為數(shù)字形式
2)準(zhǔn)備線性回歸算法赏陵,并將原始數(shù)據(jù)點和擬合后的曲線繪制出來
計算到這里饼齿,我感覺很多朋友要提問了,1)基于圖2中的最小二乘法來求解平方誤差時蝙搔,若xTx不存在逆矩陣怎么辦缕溉?2)當(dāng)數(shù)據(jù)量很大時,求解矩陣乘法及其逆矩陣吃型,是不是很困難呢证鸥?3)如何判斷模型擬合的效果,是否出現(xiàn)欠擬合和過擬合勤晚?...接下來的內(nèi)容會逐步解決哈(備注:先給出欠擬合和過擬合的直觀展示)
2枉层、局部加權(quán)線性回歸(Locally weighted linear regression, LWLR)
觀察上圖6中不同的擬合程度可以發(fā)現(xiàn),對特征的不同把握程度赐写,將影響曲線的擬合程度鸟蜡。圖6中的欠擬合現(xiàn)象,表明沒有明確的把握數(shù)據(jù)結(jié)構(gòu)關(guān)系血淌;而過擬合現(xiàn)象矩欠,則是太過于沉溺于符合訓(xùn)練數(shù)據(jù)财剖,太沉溺與每個細節(jié)悠夯,導(dǎo)致沒有把握全局數(shù)據(jù)走向,不能很好的預(yù)測待測試的數(shù)據(jù)躺坟。針對欠擬合現(xiàn)象沦补,局部加權(quán)線性回歸算法應(yīng)運而生。
其實咪橙,在預(yù)測某一個數(shù)據(jù)點時夕膀,它周圍的點對預(yù)測他的取值的參考性要更加大,因此美侦,可以考慮加重這個帶預(yù)測值周圍點的權(quán)重产舞。這就是局部加權(quán)線性回歸算法的基本思想,用式子可以表示為:
接下來菠剩,再看一個局部加權(quán)線性回歸的栗子
因為易猫,不同的k會影響最終的預(yù)測值y,所以具壮,可以對比不同的k的擬合效果准颓,觀察是否欠擬合或者過擬合。
備注:在這個畫圖中棺妓,需要先對數(shù)據(jù)進行排序攘已,否則畫面太美,不忍直視怜跑,經(jīng)驗之談样勃,捂臉
不難發(fā)現(xiàn),k=0.25之前,處于欠擬合的狀態(tài)彤灶;k=0.01及更小的數(shù)值時看幼,效果難以直視,過擬合太嚴重幌陕;k=0.15左右時效果還行诵姜。因此,k的選擇很重要搏熄。
以上棚唆,局部加權(quán)線性回歸算法較好的解決了欠擬合的現(xiàn)象,但是它增加了一定的計算量心例,同時宵凌,如何確定k也需要在實際應(yīng)用中好好測試。
最小二乘法止后、局部加權(quán)線性回歸方法都基于X_T*X存在逆矩陣瞎惫,也就是他是滿秩矩陣,實際表示這些特征值之間不相關(guān)译株。辣么瓜喇,如果特征內(nèi),有一些特征是相關(guān)的歉糜,那么勢必造成特征矩陣的非滿秩乘寒,此時|X_T*X|趨于0,無法進行后面的回歸參數(shù)的計算匪补。腫么辦伞辛,接下往下看~
3、嶺回歸(Ridge Regression)
如果數(shù)據(jù)的特征的數(shù)目比樣本的數(shù)目還多夯缺,那么輸入數(shù)據(jù)的矩陣X將不是滿秩矩陣(可以認為是列向量也就是特征值之間具有相關(guān)性)蚤氏。非滿秩矩陣不存在逆矩陣,也就是出現(xiàn)了我們上面一直強調(diào)的問題踊兜。上面提到的兩種方法都用不上了竿滨。嶺回歸趕來幫忙啦。
在圖11中润文,w叫做嶺回歸估計姐呐,λ為嶺參數(shù),以w的函數(shù)為因變量典蝌,以k為自變量曙砂,構(gòu)成了嶺跡圖。嶺回歸是一種專用于共線性數(shù)據(jù)分析的有偏估計回歸方法骏掀,實質(zhì)上是一種改良的最小二乘法鸠澈,通過放棄最小二乘法的無偏性柱告,損失部分信息、降低精度為代價獲得回歸系數(shù)更為符合實際笑陈、更為可靠的回歸方法际度,對共線性數(shù)據(jù)的擬合要強于最小二乘法。嶺回歸中回歸系數(shù)的來源是通過最優(yōu)化下列模型來得到的(β就是圖11中的w):
先看一下嶺回歸的編程實現(xiàn)涵妥。
1)準(zhǔn)備數(shù)據(jù)
2)嶺回歸系數(shù)的計算
備注:在計算嶺回歸參數(shù)之前乖菱,需要將數(shù)據(jù)進行標(biāo)準(zhǔn)化。在此過程中蓬网,將λ進行指數(shù)級的變化窒所,從e^-10~e^20。下面的圖表示嶺回歸估計與λ對數(shù)的關(guān)系帆锋。
當(dāng)λ為0時吵取,結(jié)果跟普通意義的多元線性回歸的最小二乘解完全一樣;在λ較小時锯厢,各個回歸系數(shù)比較大皮官;當(dāng)λ增大時,各個回歸系數(shù)取值迅速減小实辑,即從不穩(wěn)定趨于穩(wěn)定捺氢。上圖中類似喇叭形狀的嶺跡圖,一般存在多重共線性徙菠。(因為有8個特征值讯沈,所以回歸系數(shù)之也有8個郁岩,對應(yīng)8條曲線)
λ選擇:一般通過觀察婿奔,選擇喇叭口附近的值,此時各個回歸系數(shù)趨于穩(wěn)定问慎,而且預(yù)測值與實際值的平方誤差不太大萍摊。但是也不能選太大的λ,因為如叼,上圖中冰木,貌似隨著λ的增大,回歸系數(shù)的取值大小趨于穩(wěn)定笼恰,但是實際對應(yīng)的平方誤差已經(jīng)非常大了踊沸。為了定量地找到最佳參數(shù)值,還需要進行交叉驗證社证。另外逼龟,要判斷哪些變量對結(jié)果預(yù)測最有影響力,可以觀察上圖中對應(yīng)系數(shù)的大小追葡。
關(guān)于上述λ的變化腺律,我覺得知乎上一個大牛解釋的值得參考奕短,我截個圖:
我覺得圖15中知乎大牛的解釋,可能較好的說明了圖14中粉色和黃綠色曲線代表的回歸參數(shù)的取值變化匀钧。當(dāng)然翎碑,如果理解的不對,請大牛告知一下之斯,非常感謝日杈。
既然上述提到嶺回歸中的嶺參數(shù)比較難確定,辣么佑刷,是不是有改進的方法呢达椰?
4、套索方法(Lasso项乒,The Least Absolute Shrinkage and Selection Operator)
機器學(xué)習(xí)實戰(zhàn)中書表示:在增加如下圖16約束時啰劲,普通的最小二乘法回歸會得到與嶺回歸的一樣的公式:
上式限定了所有回歸系數(shù)的平方和不能大于λ。使用普通的最小二乘法回歸在當(dāng)兩個或更多的特征相關(guān)時檀何,可能會得出一個很大的正系數(shù)和一個很大的負系數(shù)蝇裤。正是因為上述限制條件的存在,使用嶺回歸可以避免這個問題频鉴。與嶺回歸類似栓辜,另一個縮減方法Lasso也對回歸系數(shù)做了限定,對應(yīng)的約束條件如下:
Lasso中對回歸參數(shù)的限制垛孔,在λ較小時藕甩,一些系數(shù)會因此被迫縮減到0,這個特性可以幫助我們更好地理解數(shù)據(jù)周荐。但在這個新的約束條件下求解回歸系數(shù)狭莱,需要使用二次規(guī)劃算法,極大的增加了計算復(fù)雜度概作,不太適用腋妙。
5、前向逐步回歸算法
前向逐步回歸算法屬于一種貪心算法讯榕,即每一步都盡可能減少誤差骤素。一開始,所有的權(quán)重都設(shè)置為1愚屁,然后每一步所做的決策是對某個權(quán)重增加或減少一個很小的值济竹。
回歸算法先寫到這里吧,其他回歸算法以后接著學(xué)霎槐,希望對大家有所幫助送浊,也請大牛不吝賜教,謝謝