回歸一詞最早由法蘭西斯·高爾頓(Francis Galton)所使用。他曾對親子間的身高做研究,發(fā)現(xiàn)父母的身高雖然會遺傳給子女塌衰,但子女的身高卻有逐漸“回歸到中等(即人的平均值)”的現(xiàn)象幢妄。不過當(dāng)時(shí)的回歸和現(xiàn)在的回歸在意義上已不盡相同。
在開始理解回歸分析之前领猾,先有個(gè)二手房房價(jià)的例子,假設(shè)這里的房價(jià)只和面積骇扇,居室情況兩個(gè)因素有關(guān)摔竿,那么我們就有下列的數(shù)據(jù)形式
面積 居室 房價(jià)[萬]
80 2 103
100 2 120
90 3 125
60 2 85
75 3 100
100 3 150
實(shí)際情況是有更多的因素,在這里為了方便演示少孝,使用二維數(shù)據(jù)继低,其他的情況,繼續(xù)增加就可以了【律剑現(xiàn)在需要根據(jù)上面這些數(shù)據(jù)郁季,構(gòu)建一個(gè)模型,能夠預(yù)測給定一個(gè)面積和居室情況钱磅,能夠估算出房價(jià)情況梦裂。。
假設(shè)面積因素為 x1盖淡,居室因素為 x2年柠,房價(jià)為 h,那么
上面公式中褪迟,想是已知冗恨,\theta 是未知,需要求解味赃。上面的公式進(jìn)一步處理
根據(jù)矩陣點(diǎn)乘:
如果我們已經(jīng)推斷出θ,那么掀抹,我們的真實(shí)值和推斷值之間的誤差?也就得出了,用真實(shí)值減去推斷值即可心俗,換句話就是
假定我們的樣本是獨(dú)立的傲武,也就是每家賣房子都是根據(jù)自己的情況來決定價(jià)格的蓉驹,那么我們的誤差就服從一個(gè)正態(tài)分布,并且μ=0(這是因?yàn)棣?的存在揪利,總可以達(dá)到均值為0)态兴,方差為σ2.
(1)號公式就是似然函數(shù),接下來我們就圍繞著這個(gè)似然函數(shù)進(jìn)行進(jìn)一步分解疟位。
因?yàn)?(i)滿足正態(tài)分布瞻润,那么
從(1)式得到
將3式帶入2式進(jìn)行推導(dǎo)
公式4不在包含?(i),該公式的含義就是給定θ,根據(jù) xi可以推算出y(i)的概率密度。
又因?yàn)槭仟?dú)立的樣本甜刻,聯(lián)合概率=各自概率的和绍撞,那么得出
(5)式兩邊取對數(shù)
需要θ取最大值,那么就需要
(7)就是最小二乘公式的由來昭齐,接下來如何求解這個(gè)目標(biāo)函數(shù)呢尿招?使用梯度下降法,具體推導(dǎo)如下