前言
上次只是籠統(tǒng)的概述了機(jī)器學(xué)習(xí)是什么以及能解決什么問(wèn)題挑围,這一篇就開(kāi)始正式探討機(jī)器學(xué)習(xí)使用的算法了贸街。
背景
假如我們有一組數(shù)據(jù)继准,它是關(guān)于房子的大小和最終成交價(jià)格的數(shù)據(jù)搜立。我們最后要做到的就是通過(guò)讓機(jī)器對(duì)這些數(shù)據(jù)的‘學(xué)習(xí)’俯逾,最后能對(duì)新的房子也能正確預(yù)測(cè)出它大概的成交價(jià)格贸桶。
如何進(jìn)行預(yù)測(cè)
現(xiàn)在假設(shè)x,y變量桌肴,x表示房子的面積皇筛,y表示房子的成交價(jià)格。那么每個(gè)房子的(x,y)就對(duì)應(yīng)坐標(biāo)軸上的一個(gè)點(diǎn)坠七。例如房子面積是100水醋,價(jià)格1000000旗笔。那么這個(gè)點(diǎn)就是(100,1000000)。把這些點(diǎn)都畫(huà)在坐標(biāo)軸上就會(huì)得到如下的樣子
對(duì)于這么大堆密密麻麻的點(diǎn)蝇恶,下一步該做什么呢,既然有x又有y惶桐,能不能找出x和y之間的關(guān)聯(lián)撮弧,換句話說(shuō)就是找到個(gè)函數(shù)能盡可能多的擬合這些點(diǎn),讓這些點(diǎn)盡可能多的落在我們的線上姚糊。這就是線性回歸(概率論大佬正在趕來(lái)QAQ)贿衍。
所以擬合后的樣子應(yīng)該是這樣的
可以看到這條線已經(jīng)讓盡可能多的點(diǎn)落在了它身上。說(shuō)到這里救恨,如何進(jìn)行預(yù)測(cè)是不是就變得顯而易見(jiàn)了贸辈。只要找到這樣一條直線,盡可能多的擬合了自己的數(shù)據(jù)肠槽,那么對(duì)于新來(lái)的x值擎淤,它在圖上的坐標(biāo)就確定了,也就是y(房?jī)r(jià))確定了(換句話說(shuō)也就是找到y(tǒng)關(guān)于x的函數(shù)啦秸仙,就像y=10+x這樣)嘴拢。那么我們的這個(gè)模型就可以比較正確預(yù)測(cè)房?jī)r(jià)了。想想還有點(diǎn)小激動(dòng)呢~
對(duì)于這個(gè)模型需要注意什么
由上面的圖其實(shí)不難看出來(lái)寂纪,還是有部分的點(diǎn)偏離在我們的線外面的炊汤。但是我們畢竟不可能找到符合所有點(diǎn)的函數(shù),只能少數(shù)服從多數(shù)弊攘,對(duì)于偏離的點(diǎn),我們不需要在意他們(還可以用一些曲線來(lái)擬合姑曙,不過(guò)這里只用線性的)襟交。基于這個(gè)原因伤靠,模型成熟后捣域,對(duì)于新房?jī)r(jià)的預(yù)測(cè)只是大概的,可以理解為它只是代表了一個(gè)趨勢(shì)宴合,房子面積越大焕梅,它的價(jià)格就越高。只不過(guò)我們基于這個(gè)趨勢(shì)卦洽,可以給出大約的預(yù)測(cè)值贞言。
結(jié)尾
對(duì)于這些枯燥的東西,并不想一口氣寫(xiě)一堆阀蒂,看到就讓人難受该窗。所以這篇文章還并不算真正開(kāi)始學(xué)習(xí)了它的算法弟蚀。下面就會(huì)開(kāi)始真正進(jìn)入算法的細(xì)節(jié),當(dāng)模型處于初始狀態(tài)怎樣判斷它與我們的最終模型有多大差距呢酗失,以及如何縮小這些差距义钉,這都是需要解決的問(wèn)題。當(dāng)這兩個(gè)問(wèn)題解決了规肴,那么我們的模型就會(huì)逐漸變得成熟捶闸,預(yù)測(cè)房?jī)r(jià),登上人生巔峰指日可待~
這些都是基于我最近自己學(xué)習(xí)整理的拖刃,希望加強(qiáng)自己的理解删壮,也方便以后查看。希望大佬目睹過(guò)后給予指正序调。