一. 局部加權(quán)線性回歸
局部加權(quán)線性回歸是普通線性回歸的一個(gè)改進(jìn)慕嚷,普通的線性回歸努力尋找一個(gè)使得全局代價(jià)函數(shù)最小的模型。這個(gè)模型對(duì)于整體來(lái)說(shuō)是最好的毕泌,但對(duì)于局部點(diǎn)來(lái)說(shuō)喝检,可能不是最好的。比如圖一是線性回歸得到的模型撼泛,相對(duì)于圖二來(lái)說(shuō)挠说,明顯不夠完美,圖三雖然最完美但是存在過(guò)擬合風(fēng)險(xiǎn)愿题。那么损俭,如何用線性回歸得到一個(gè)局部更準(zhǔn)確(可能非線性模型擬合更好)的結(jié)果呢?這時(shí)潘酗,局部加權(quán)線性回歸出現(xiàn)了杆兵。
局部加權(quán)線性回歸的基本思想:設(shè)計(jì)代價(jià)函數(shù)時(shí),待預(yù)測(cè)點(diǎn)附近的點(diǎn)擁有更高的權(quán)重仔夺,權(quán)重隨著距離的增大而縮減——這也就是名字中“局部”和“加權(quán)”的由來(lái)琐脏。
二. 具體方法
1. 權(quán)重如何選取
與普通線性回歸類(lèi)似,我們首先要得到代價(jià)函數(shù)缸兔,然后求解代價(jià)函數(shù)的最優(yōu)參數(shù):
注意看上圖日裙,區(qū)別在于此時(shí)的代價(jià)函數(shù)中多了一個(gè)權(quán)重函數(shù)W,這個(gè)W要保證惰蜜,越靠近待測(cè)點(diǎn)附近權(quán)值越大昂拂,越遠(yuǎn)離待測(cè)點(diǎn)權(quán)值越小。
這個(gè)函數(shù)W一般取用:x是待測(cè)點(diǎn)抛猖,r控制了權(quán)值變化的速率格侯,r越大鼻听,圖像越瘦,離x越遠(yuǎn)權(quán)值下降越快
它的圖像是:
我們發(fā)現(xiàn)這個(gè)圖像很像高斯分布联四,越靠近x撑碴,權(quán)值越大
好了,至此碎连,我們完成了權(quán)重函數(shù)的選取,也就完成了代價(jià)函數(shù)的設(shè)計(jì)驮履,接下來(lái)按照普通線性回歸的方法求解參數(shù)就可以了鱼辙,此處不再贅述。
2. 特點(diǎn)
局部加權(quán)線性回歸不會(huì)得到一條適合于全局的函數(shù)模型玫镐,在每一次預(yù)測(cè)新樣本時(shí)都會(huì)重新的確定參數(shù)倒戏,從而達(dá)到更好的預(yù)測(cè)效果。當(dāng)數(shù)據(jù)規(guī)模比較大的時(shí)候計(jì)算量很大恐似,學(xué)習(xí)效率很低杜跷。
- 對(duì)于線性回歸算法,一旦擬合出適合訓(xùn)練數(shù)據(jù)的參數(shù)θ矫夷,保存這些參數(shù)θi葛闷,對(duì)于之后的預(yù)測(cè),不需要再使用原始訓(xùn)練數(shù)據(jù)集双藕,所以是參數(shù)學(xué)習(xí)算法淑趾。
- 對(duì)于局部加權(quán)線性回歸算法,每次進(jìn)行預(yù)測(cè)都需要全部的訓(xùn)練數(shù)據(jù)(每次進(jìn)行的預(yù)測(cè)得到不同的參數(shù)θ)忧陪,沒(méi)有固定的參數(shù)θ扣泊,所以是非參數(shù)算法。