機(jī)器學(xué)習(xí)入門(三)——簡單線性回歸

1.0 模型之母

? ? ? ? 線性回歸模型雖然看起來非常簡單箱吕,但實(shí)際上,線性回歸模型可以說是最重要的數(shù)學(xué)模型之一申屹,很多模型都是建立在它的基礎(chǔ)之上焙贷,可以被稱為是“模型之母”。

? ? ? ? 之前介紹的kNN算法屬于分類(Classification)歹叮,即label為離散的類別型(categorical variable)跑杭,如:顏色類別、手機(jī)品牌咆耿、是否患病等德谅。而簡單線性回歸是屬于回歸(regression),即label為連續(xù)數(shù)值型(continuous numerical variable)萨螺,如:房價(jià)窄做、股票價(jià)格、降雨量等慰技。

? ? ? ? 所謂簡單線性回歸椭盏,是指以線性方程的形式來描述一個(gè)特征(自變量)和label(因變量)之間的關(guān)聯(lián)關(guān)系。線性方程吻商,簡單理解就是自變量的冪指數(shù)為1且只進(jìn)行相加運(yùn)算掏颊。簡單線性回歸的一般形式如下:y = ax+b

? ? ? ? 對(duì)于每個(gè)樣本點(diǎn)x^i 艾帐,根據(jù)線性方程有\hat{y} ^i=ax^i + b 
乌叶。

? ? ? ? 那么若回歸方程預(yù)測(cè)效果越好,則預(yù)測(cè)值\hat{y} ^i
與真實(shí)值y^i
之間的差距應(yīng)當(dāng)越小柒爸⊥骰瑁考慮到正負(fù)抵消與可導(dǎo)性,可以使用距離的概念來度量二者的差距揍鸟⌒至眩考慮所有的m個(gè)樣本點(diǎn),則有\sum_{i=1}^m ( y^i-\hat{y} ^i)^2 
阳藻,而模型預(yù)測(cè)的目標(biāo)就是求上式的最小值晰奖。

2.0 損失函數(shù)

? ? ? ? 損失函數(shù)(loss function),就是衡量模型的擬合結(jié)果與實(shí)際結(jié)果之間的差距部分腥泥,有時(shí)也被稱為效用函數(shù)(utility function)匾南。在確定完損失函數(shù)之后,通過最優(yōu)化損失函數(shù)蛔外,得到相應(yīng)的參數(shù)取值蛆楞,最終獲得機(jī)器學(xué)習(xí)模型溯乒。

? ? ? ? 簡單線性回歸的損失函數(shù)形式即為\sum_{i=1}^m (y^i-\hat{y} ^i)^2 = \sum_{i=1}^m (y^i - ax^i - b)^2 

,而此時(shí)的目標(biāo)就是求min \sum_{i=1}^m (\hat{y} ^i - ax^i - b)^2 

時(shí)的ab豹爹。

? ? ? ? 近乎所有參數(shù)學(xué)習(xí)算法都是這樣的套路裆悄,區(qū)別是模型不同,建立的目標(biāo)函數(shù)不同臂聋,優(yōu)化的方式也不同光稼。

3.0 最小二乘法

? ? ? ? 簡單線性回歸模型就是求損失函數(shù)的\sum_{i=1}^m(y^i-\hat{y} ^i)^2,這里求最小值就是最小二乘法的“最小”孩等,“二乘”的意思就是平方艾君。

? ? ? ? 使用最小二乘法的簡單線性回歸推導(dǎo)過程,設(shè)L(a,b) = \sum_{i=1}^m (y^i - ax^i - b)^2 

肄方,分別對(duì)a和b進(jìn)行求導(dǎo)冰垄,如下:

\frac{d L(a,b)}{da}  = \sum_{i=1}^m(y^i - ax^i - b)x^i =0

......(1)

\frac{d L(a,b)}{ d b}  = \sum_{i=1}^m(y^i - ax^i - b) =0


......(2)

? ? ? ? 由(2)可推,\sum_{i=1}^my^i - a\sum_{i=1}^mx^i - mb =0

权她,進(jìn)一步化簡有

b = \frac{\sum_{i=1}^my^i}{m}  - \frac{a\sum_{i=1}^m x^i}{m} 
= \bar{y} -a\bar{x} 

......(3)

? ? ? ? 把(3)代入(1)虹茶,則可得:

a=
\frac{\sum_{i=1}^mx^i y^i  - \sum_{i=1}^mx^i
\bar{y}}{\sum_{i=1}^m(x^i)^2 -  \sum_{i=1}^mx^i
\bar{x} } 
......(4)

? ? ? 由于\sum_{i=1}^mx^i\bar{y}=\bar{y}\sum_{i=1}^mx^i=
 \frac{m\bar{y}\sum_{i=1}^mx^i}{m} 
=m\bar{x}\bar{y}=\sum_{i=1}^m\bar{x}y^i

=\sum_{i=1}^m\bar{x}\bar{y}

,代入(4)中并適當(dāng) 增添輔助項(xiàng)伴奥,得:

a=
\frac{\sum_{i=1}^mx^i y^i  - \sum_{i=1}^mx^i
\bar{y}}{\sum_{i=1}^m(x^i)^2 -  \sum_{i=1}^mx^i
\bar{x} } =
\frac{\sum_{i=1}^mx^i y^i  - \sum_{i=1}^mx^i
\bar{y} - \sum_{i=1}^m\bar{x}y^i + \sum_{i=1}^m\bar{x}\bar{y}
} 
{\sum_{i=1}^m(x^i)^2 -  \sum_{i=1}^mx^i
\bar{x}-\sum_{i=1}^mx^i
\bar{x}+\sum_{i=1}^m
(\bar{x})^2 }

? ? ? ? 最終得簡單線性回歸的各項(xiàng)系數(shù)為:

a=
\frac{\sum_{i=1}^m(x^i -\bar{x})(y^i -\bar{y})}
{\sum_{i=1}^m(x^i -\bar{x})^2}

b = \bar{y} -a\bar{x}

4.0 (簡單)線性回歸的評(píng)價(jià)指標(biāo)

? ? ? ? 由前面可知線性回歸的損失函數(shù)形式為\sum_{i=1}^m (y^i -\hat{y}^i )^2写烤,那么當(dāng)數(shù)據(jù)集的長度增加是翼闽,損失勢(shì)必然也是隨之增加的拾徙。為了消除數(shù)據(jù)量大小帶來的影響,就需要了解均方差等指標(biāo)的概念感局。

4.1 均方誤差MSE

? ? ? ? 均方差MSE(mean squared error)尼啡,通過對(duì)損失求均值來消除數(shù)據(jù)量的影響,MSE =\frac{\sum_{i=1}^m (y^i -\hat{y}^i )^2}{m} 询微。

? ? ? ? sklearn中的MSE:


from sklearn.metrics import mean_squared_error

mean_squared_error(y_test, y_predict)


4.2 均方根誤差RMSE

? ? ? ? 由于預(yù)測(cè)損失或誤差有時(shí)需要進(jìn)行解讀崖瞭,此時(shí)平方計(jì)算后的數(shù)值在單位上不具備可解釋性(如萬元變成萬元平方),因此需要急性開方撑毛,此時(shí)得到的值為均方根誤差(root mean square error)书聚,RMSE =\sqrt{\frac{\sum_{i=1}^m (y^i -\hat{y}^i )^2}{m} } 
=\sqrt{MSE}

? ? ? ? sklearn中沒有RMSE的直接計(jì)算方法藻雌,可手動(dòng)對(duì)MSE開方雌续。

4.3 平均絕對(duì)誤差MAE

? ? ? ? 從距離的角度看,均方誤差計(jì)算的是預(yù)測(cè)值與真實(shí)值之間的歐式距離胯杭,當(dāng)然還可以使用曼哈頓距離來描述這一誤差驯杜,這就是平均絕對(duì)誤差(mean absolute error),MAE =\frac{\sum_{i=1}^m \vert y^i -\hat{y}^i \vert }{m} 
做个。

? ? ? ? sklearn中的MAE:


from sklearn import mean_absolute_error

mean_absolute_error(y_test, y_predict)


4.4 R squared

? ? ? ? 對(duì)于分類模型鸽心,模型的各評(píng)價(jià)指標(biāo)是在0-1之間取值滚局,但RMSE和MAE沒有這樣的性質(zhì),因此RMSE和MAE就有這樣的局限性顽频。此外藤肢,當(dāng)預(yù)測(cè)標(biāo)簽的量綱不同時(shí),如身高和體重冲九,一個(gè)模型的RMSE值是4.9(公斤) 谤草,一個(gè)模型的RMSE是10(厘米)。此時(shí)無法判斷哪個(gè)模型預(yù)測(cè)得更準(zhǔn)確莺奸,因?yàn)槎叩牧烤V根本就不是一類東西丑孩。

? ? ? ? 以上的局限性,可以使用指標(biāo)R Squared解決灭贷,即R^2 =1-

\frac{\sum_{i=1}^m (y^i -\hat{y}^i )^2}
{\sum_{i=1}^m (\bar{y} -y^i )^2} =1-\frac{\frac{1}{m} \sum_{i=1}^m (y^i -\hat{y}^i )^2}
{\frac{1}{m} \sum_{i=1}^m (\bar{y} -y^i )^2}
=1-\frac{MSE}{var} 
温学。

? ? ? ? 分子其實(shí)就是模型預(yù)測(cè)的所有誤差或損失。分布是標(biāo)簽真實(shí)值的方差甚疟,也可以理解為用均值去估計(jì)所有預(yù)測(cè)值所產(chǎn)生的誤差仗岖,是一個(gè)基準(zhǔn)模型(baseline model)。使用baseline模型產(chǎn)生的錯(cuò)誤較多览妖,使用回歸模型的錯(cuò)誤較少轧拄。因此用1減去較少的錯(cuò)誤除以較多的錯(cuò)誤,實(shí)際上是衡量了回歸模型擬合住數(shù)據(jù)的地方讽膏,即沒有產(chǎn)生錯(cuò)誤的相應(yīng)指標(biāo)檩电。

? ? ? ? 因此R^2 <=1R^2越大越好府树;當(dāng)R^2=0時(shí)俐末,說明回歸模型等效于基準(zhǔn)模型;當(dāng)

R^2<0時(shí)奄侠,說明回歸模型不如基準(zhǔn)模型卓箫,還有可能數(shù)據(jù)間沒有任何線性關(guān)系。

? ? ? ? sklearn中的R Squared:


from sklearn.metrics import r2_score

r2_score(y_test, y_predict)


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末垄潮,一起剝皮案震驚了整個(gè)濱河市烹卒,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌弯洗,老刑警劉巖旅急,帶你破解...
    沈念sama閱讀 211,123評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異涂召,居然都是意外死亡坠非,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門果正,熙熙樓的掌柜王于貴愁眉苦臉地迎上來炎码,“玉大人盟迟,你說我怎么就攤上這事×氏校” “怎么了攒菠?”我有些...
    開封第一講書人閱讀 156,723評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長歉闰。 經(jīng)常有香客問我辖众,道長,這世上最難降的妖魔是什么和敬? 我笑而不...
    開封第一講書人閱讀 56,357評(píng)論 1 283
  • 正文 為了忘掉前任凹炸,我火速辦了婚禮,結(jié)果婚禮上昼弟,老公的妹妹穿的比我還像新娘啤它。我一直安慰自己,他們只是感情好舱痘,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評(píng)論 5 384
  • 文/花漫 我一把揭開白布变骡。 她就那樣靜靜地躺著,像睡著了一般芭逝。 火紅的嫁衣襯著肌膚如雪塌碌。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,760評(píng)論 1 289
  • 那天旬盯,我揣著相機(jī)與錄音台妆,去河邊找鬼。 笑死瓢捉,一個(gè)胖子當(dāng)著我的面吹牛频丘,可吹牛的內(nèi)容都是我干的办成。 我是一名探鬼主播泡态,決...
    沈念sama閱讀 38,904評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼迂卢!你這毒婦竟也來了某弦?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,672評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤而克,失蹤者是張志新(化名)和其女友劉穎靶壮,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體员萍,經(jīng)...
    沈念sama閱讀 44,118評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡腾降,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了碎绎。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片螃壤。...
    茶點(diǎn)故事閱讀 38,599評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡抗果,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出奸晴,到底是詐尸還是另有隱情冤馏,我是刑警寧澤,帶...
    沈念sama閱讀 34,264評(píng)論 4 328
  • 正文 年R本政府宣布寄啼,位于F島的核電站逮光,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏墩划。R本人自食惡果不足惜涕刚,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望乙帮。 院中可真熱鬧副女,春花似錦、人聲如沸蚣旱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽塞绿。三九已至沟涨,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間异吻,已是汗流浹背裹赴。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評(píng)論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留诀浪,地道東北人棋返。 一個(gè)月前我還...
    沈念sama閱讀 46,286評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像雷猪,于是被迫代替她去往敵國和親睛竣。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 對(duì)于想深入了解線性回歸的童鞋求摇,這里給出一個(gè)完整的例子射沟,詳細(xì)學(xué)完這個(gè)例子,對(duì)用scikit-learn來運(yùn)行線性回歸...
    派派森森閱讀 532評(píng)論 0 0
  • 機(jī)器學(xué)習(xí)的目的是使學(xué)到的模型不僅對(duì)已知數(shù)據(jù)与境,而且對(duì)未知數(shù)據(jù)都能有很好的預(yù)測(cè)能力验夯。當(dāng)損失函數(shù)給定時(shí),基于損失函數(shù)的模...
    隱士飛豬閱讀 2,681評(píng)論 0 3
  • 這個(gè)世界上沒有無雜念的人摔刁,世人皆有煩惱挥转,有不可能完成的夢(mèng)想,和追求! 然而有這么多我們得不到的東西绑谣,但我們都努力的...
    陽光生命閱讀 655評(píng)論 0 0
  • 【R】控制情緒_“收情緒” 選自《你為什么總焦慮》1.轉(zhuǎn)移自己的注意力准潭,把情緒的焦點(diǎn)吸引到那些愉快和積極的...
    彤彤媽_子葉閱讀 92評(píng)論 1 0
  • 初冬的上午刑然,因?yàn)楣ぷ魅チ肃l(xiāng)下一趟,在毛毛細(xì)雨中穿梭暇务。 天氣說不上冷泼掠,但是這個(gè)季節(jié),樹已經(jīng)開始掉葉子了垦细。天幕是灰色的...
    手執(zhí)陽光閱讀 106評(píng)論 0 1