線性回歸/局部加權(quán)線性回歸/嶺回歸/前向逐步回歸算法學(xué)習(xí)筆記-Python

大家早安稼病、午安选侨、晚安,一起來學(xué)習(xí)機器學(xué)習(xí)算法中回歸部分的方法啦然走,每次都是滿滿的干貨侵俗,大家看的時候多喝水哈,正文開始丰刊!


回歸分析(Regression Analysis)-定義與分類

回歸分析(Regression Analysis)是一種統(tǒng)計學(xué)上分析數(shù)據(jù)的方法隘谣,目的在于了解兩個或多個變數(shù)間是否相關(guān)、相關(guān)方向與強度,并建立數(shù)學(xué)模型以便觀察特定變數(shù)來預(yù)測研究者感興趣的變數(shù)寻歧。更具體的來說掌栅,回歸分析可以幫助人們了解在只有一個自變量變化時因變量的變化量。一般來說码泛,通過回歸分析我們可以由給出的自變量估計因變量的條件期望猾封。回歸分析是建立因變數(shù) ?Y(或稱依變數(shù)噪珊,反應(yīng)變數(shù))與自變數(shù) X(或稱獨變數(shù)晌缘,解釋變數(shù))之間關(guān)系的模型。

回歸分析的主要算法包括:線性回歸(Linear Regression)痢站、邏輯回歸(Logistic Regression)磷箕、多項式回歸(Polynomial Regression)、逐步回歸(Step Regression)阵难、嶺回歸(Ridge Regression)岳枷、套索回歸(Lasso Regression)、彈性網(wǎng)回歸(ElasticNet)等呜叫。

接下來就分別學(xué)習(xí)下以上的回歸方法


1空繁、基于最小均方誤差求解回歸參數(shù)(最小二乘法,ordinary least squares)

線性回歸通常是人們在學(xué)習(xí)預(yù)測模型時首選的技術(shù)之一朱庆。在這種技術(shù)中盛泡,因變量是連續(xù)的,自變量可以是連續(xù)的也可以是離散的娱颊,回歸線的性質(zhì)是線性的饭于。線性回歸使用最佳的擬合直線(也就是回歸線)在因變量(Y)和一個或多個自變量(X)之間建立一種關(guān)系。用一個方程式來表示它维蒙,即Y=a+b*X + e掰吕,其中a表示截距,b表示直線的斜率颅痊,e是誤差項殖熟。這個方程可以根據(jù)給定的預(yù)測變量(s)來預(yù)測目標(biāo)變量的值。通常使用最小二乘法來獲取擬合曲線中的回歸參數(shù)斑响。最小二乘法對于觀測數(shù)據(jù)菱属,它通過最小化每個數(shù)據(jù)點到線的垂直偏差平方和來計算最佳擬合線。

圖1
圖2

線性回歸實例編程實現(xiàn)

1)準(zhǔn)備數(shù)據(jù):

圖3

備注:圖3中的代碼中舰罚,info是從文件中讀入的數(shù)據(jù)纽门,類型是字符串,所以营罢,需要用dtype=float將其轉(zhuǎn)換為數(shù)字形式

2)準(zhǔn)備線性回歸算法赏陵,并將原始數(shù)據(jù)點和擬合后的曲線繪制出來

圖4
圖5

計算到這里饼齿,我感覺很多朋友要提問了,1)基于圖2中的最小二乘法來求解平方誤差時蝙搔,若xTx不存在逆矩陣怎么辦缕溉?2)當(dāng)數(shù)據(jù)量很大時,求解矩陣乘法及其逆矩陣吃型,是不是很困難呢证鸥?3)如何判斷模型擬合的效果,是否出現(xiàn)欠擬合和過擬合勤晚?...接下來的內(nèi)容會逐步解決哈(備注:先給出欠擬合和過擬合的直觀展示)

圖6 不同程度的擬合對比

2枉层、局部加權(quán)線性回歸(Locally weighted linear regression, LWLR)

觀察上圖6中不同的擬合程度可以發(fā)現(xiàn),對特征的不同把握程度赐写,將影響曲線的擬合程度鸟蜡。圖6中的欠擬合現(xiàn)象,表明沒有明確的把握數(shù)據(jù)結(jié)構(gòu)關(guān)系血淌;而過擬合現(xiàn)象矩欠,則是太過于沉溺于符合訓(xùn)練數(shù)據(jù)财剖,太沉溺與每個細節(jié)悠夯,導(dǎo)致沒有把握全局數(shù)據(jù)走向,不能很好的預(yù)測待測試的數(shù)據(jù)躺坟。針對欠擬合現(xiàn)象沦补,局部加權(quán)線性回歸算法應(yīng)運而生。

其實咪橙,在預(yù)測某一個數(shù)據(jù)點時夕膀,它周圍的點對預(yù)測他的取值的參考性要更加大,因此美侦,可以考慮加重這個帶預(yù)測值周圍點的權(quán)重产舞。這就是局部加權(quán)線性回歸算法的基本思想,用式子可以表示為:

圖7 局部加權(quán)線性回歸

接下來菠剩,再看一個局部加權(quán)線性回歸的栗子

圖8 局部加權(quán)線性回歸算法實現(xiàn)

因為易猫,不同的k會影響最終的預(yù)測值y,所以具壮,可以對比不同的k的擬合效果准颓,觀察是否欠擬合或者過擬合。

圖9 對比不同k值對局部加權(quán)線性回歸擬合效果的影響-代碼

備注:在這個畫圖中棺妓,需要先對數(shù)據(jù)進行排序攘已,否則畫面太美,不忍直視怜跑,經(jīng)驗之談样勃,捂臉

圖10 對比不同k值對局部加權(quán)線性回歸擬合效果的影響-效果圖

不難發(fā)現(xiàn),k=0.25之前,處于欠擬合的狀態(tài)彤灶;k=0.01及更小的數(shù)值時看幼,效果難以直視,過擬合太嚴重幌陕;k=0.15左右時效果還行诵姜。因此,k的選擇很重要搏熄。

以上棚唆,局部加權(quán)線性回歸算法較好的解決了欠擬合的現(xiàn)象,但是它增加了一定的計算量心例,同時宵凌,如何確定k也需要在實際應(yīng)用中好好測試。

最小二乘法止后、局部加權(quán)線性回歸方法都基于X_T*X存在逆矩陣瞎惫,也就是他是滿秩矩陣,實際表示這些特征值之間不相關(guān)译株。辣么瓜喇,如果特征內(nèi),有一些特征是相關(guān)的歉糜,那么勢必造成特征矩陣的非滿秩乘寒,此時|X_T*X|趨于0,無法進行后面的回歸參數(shù)的計算匪补。腫么辦伞辛,接下往下看~

3、嶺回歸(Ridge Regression)

如果數(shù)據(jù)的特征的數(shù)目比樣本的數(shù)目還多夯缺,那么輸入數(shù)據(jù)的矩陣X將不是滿秩矩陣(可以認為是列向量也就是特征值之間具有相關(guān)性)蚤氏。非滿秩矩陣不存在逆矩陣,也就是出現(xiàn)了我們上面一直強調(diào)的問題踊兜。上面提到的兩種方法都用不上了竿滨。嶺回歸趕來幫忙啦。

圖11 嶺回歸的定義

在圖11中润文,w叫做嶺回歸估計姐呐,λ為嶺參數(shù),以w的函數(shù)為因變量典蝌,以k為自變量曙砂,構(gòu)成了嶺跡圖。嶺回歸是一種專用于共線性數(shù)據(jù)分析的有偏估計回歸方法骏掀,實質(zhì)上是一種改良的最小二乘法鸠澈,通過放棄最小二乘法的無偏性柱告,損失部分信息、降低精度為代價獲得回歸系數(shù)更為符合實際笑陈、更為可靠的回歸方法际度,對共線性數(shù)據(jù)的擬合要強于最小二乘法。嶺回歸中回歸系數(shù)的來源是通過最優(yōu)化下列模型來得到的(β就是圖11中的w):

圖 嶺回歸模型

先看一下嶺回歸的編程實現(xiàn)涵妥。

1)準(zhǔn)備數(shù)據(jù)

圖12

2)嶺回歸系數(shù)的計算

圖13

備注:在計算嶺回歸參數(shù)之前乖菱,需要將數(shù)據(jù)進行標(biāo)準(zhǔn)化。在此過程中蓬网,將λ進行指數(shù)級的變化窒所,從e^-10~e^20。下面的圖表示嶺回歸估計與λ對數(shù)的關(guān)系帆锋。

圖14 嶺回歸估計與嶺參數(shù)的相互關(guān)系

當(dāng)λ為0時吵取,結(jié)果跟普通意義的多元線性回歸的最小二乘解完全一樣;在λ較小時锯厢,各個回歸系數(shù)比較大皮官;當(dāng)λ增大時,各個回歸系數(shù)取值迅速減小实辑,即從不穩(wěn)定趨于穩(wěn)定捺氢。上圖中類似喇叭形狀的嶺跡圖,一般存在多重共線性徙菠。(因為有8個特征值讯沈,所以回歸系數(shù)之也有8個郁岩,對應(yīng)8條曲線)

λ選擇:一般通過觀察婿奔,選擇喇叭口附近的值,此時各個回歸系數(shù)趨于穩(wěn)定问慎,而且預(yù)測值與實際值的平方誤差不太大萍摊。但是也不能選太大的λ,因為如叼,上圖中冰木,貌似隨著λ的增大,回歸系數(shù)的取值大小趨于穩(wěn)定笼恰,但是實際對應(yīng)的平方誤差已經(jīng)非常大了踊沸。為了定量地找到最佳參數(shù)值,還需要進行交叉驗證社证。另外逼龟,要判斷哪些變量對結(jié)果預(yù)測最有影響力,可以觀察上圖中對應(yīng)系數(shù)的大小追葡。

關(guān)于上述λ的變化腺律,我覺得知乎上一個大牛解釋的值得參考奕短,我截個圖:

圖15

我覺得圖15中知乎大牛的解釋,可能較好的說明了圖14中粉色和黃綠色曲線代表的回歸參數(shù)的取值變化匀钧。當(dāng)然翎碑,如果理解的不對,請大牛告知一下之斯,非常感謝日杈。

既然上述提到嶺回歸中的嶺參數(shù)比較難確定,辣么佑刷,是不是有改進的方法呢达椰?

4、套索方法(Lasso项乒,The Least Absolute Shrinkage and Selection Operator)

機器學(xué)習(xí)實戰(zhàn)中書表示:在增加如下圖16約束時啰劲,普通的最小二乘法回歸會得到與嶺回歸的一樣的公式:

圖16

上式限定了所有回歸系數(shù)的平方和不能大于λ。使用普通的最小二乘法回歸在當(dāng)兩個或更多的特征相關(guān)時檀何,可能會得出一個很大的正系數(shù)和一個很大的負系數(shù)蝇裤。正是因為上述限制條件的存在,使用嶺回歸可以避免這個問題频鉴。與嶺回歸類似栓辜,另一個縮減方法Lasso也對回歸系數(shù)做了限定,對應(yīng)的約束條件如下:

圖17

Lasso中對回歸參數(shù)的限制垛孔,在λ較小時藕甩,一些系數(shù)會因此被迫縮減到0,這個特性可以幫助我們更好地理解數(shù)據(jù)周荐。但在這個新的約束條件下求解回歸系數(shù)狭莱,需要使用二次規(guī)劃算法,極大的增加了計算復(fù)雜度概作,不太適用腋妙。

5、前向逐步回歸算法

前向逐步回歸算法屬于一種貪心算法讯榕,即每一步都盡可能減少誤差骤素。一開始,所有的權(quán)重都設(shè)置為1愚屁,然后每一步所做的決策是對某個權(quán)重增加或減少一個很小的值济竹。

圖18 前向逐步回歸算法偽代碼
圖18 前向逐步回歸算法代碼實現(xiàn)

回歸算法先寫到這里吧,其他回歸算法以后接著學(xué)霎槐,希望對大家有所幫助送浊,也請大牛不吝賜教,謝謝

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末栽燕,一起剝皮案震驚了整個濱河市罕袋,隨后出現(xiàn)的幾起案子改淑,更是在濱河造成了極大的恐慌,老刑警劉巖浴讯,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件朵夏,死亡現(xiàn)場離奇詭異,居然都是意外死亡榆纽,警方通過查閱死者的電腦和手機仰猖,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來奈籽,“玉大人饥侵,你說我怎么就攤上這事∫缕粒” “怎么了躏升?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長狼忱。 經(jīng)常有香客問我膨疏,道長,這世上最難降的妖魔是什么钻弄? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任佃却,我火速辦了婚禮,結(jié)果婚禮上窘俺,老公的妹妹穿的比我還像新娘饲帅。我一直安慰自己,他們只是感情好瘤泪,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布灶泵。 她就那樣靜靜地躺著,像睡著了一般均芽。 火紅的嫁衣襯著肌膚如雪丘逸。 梳的紋絲不亂的頭發(fā)上单鹿,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天掀宋,我揣著相機與錄音,去河邊找鬼仲锄。 笑死劲妙,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的儒喊。 我是一名探鬼主播镣奋,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼怀愧!你這毒婦竟也來了侨颈?” 一聲冷哼從身側(cè)響起余赢,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎哈垢,沒想到半個月后妻柒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡耘分,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年举塔,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片求泰。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡央渣,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出渴频,到底是詐尸還是另有隱情芽丹,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布卜朗,位于F島的核電站志衍,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏聊替。R本人自食惡果不足惜楼肪,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望惹悄。 院中可真熱鬧春叫,春花似錦、人聲如沸泣港。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽当纱。三九已至呛每,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間坡氯,已是汗流浹背晨横。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留箫柳,地道東北人手形。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像悯恍,于是被迫代替她去往敵國和親库糠。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容