給定一系列散點(xi,yi)分布符合線性回歸,求回歸方程式h(x) = wx+b
已知條件:
X=[x1,x2,x3, ......xn]T;
Y=[y1,y2,y3,......yn]T;
預(yù)期的回歸方程為: h(x) = wx+b
設(shè)εi為散點到預(yù)測值h(xi)到實際觀測值yi的距離
εi=h(xi)-yi
那么ε=[ε1,ε2,ε3,...εn ]T應(yīng)該符合正態(tài)分布
即概率P(εi) = 1/δ√2π e-(εi-μ)2/2δ2
設(shè)θ = [w,b]T;
X = [X,1]=
[[x1,x2,x3, ......xn],
[1,1,1,......1]]T;
Xi = [xi,1];
那么有Y=Xθ
Y: nx1階, X: nx2階, Xi1x2階, θ: 2x1階
1.使用似然函數(shù)推導(dǎo)
似然函數(shù)L(θ)=∏P(εi)
什么叫似然?
參考http://blog.sina.com.cn/s/blog_e8ef033d0101oa4k.html
因此 我們希望求得的線性回歸方程能夠使得似然函數(shù)L(θ)取到最大值
由于P(εi)始終是大于0的
對兩邊L(θ)=∏P(εi)同時取㏑
l(θ) = ∑㏑P(εi)
l(θ) = ∑㏑1/δ√2π e-(εi-μ)2/2δ2
這里μ=mean(ε),μ為ε的平均值,取0(高斯正態(tài)分布)
l(θ)=∑㏑1/δ√2π e-(εi)2/2δ2
由于εi=h(xi)-yi,那么εi=Xiθ - yi
l(θ)=∑㏑1/δ√2π e-(Xiθ - yi)2/2δ2
l(θ)=∑㏑1/δ√2π - ∑(Xiθ - yi)2/2δ2
...
l(θ)為凹函數(shù)(證明后續(xù)補上)
似然函數(shù)取最大,即l(θ)導(dǎo)數(shù)為0即可
...
對l(θ)=∑㏑1/δ√2π - ∑(Xiθ - yi)2/2δ2左右兩邊求導(dǎo)
l'(θ) = (- ∑(Xiθ - yi)2/2δ2)'
0 = (-1/2(Xθ-Y)T(Xθ-Y))'
0 = (-1/2(θTXT-YT)(Xθ-Y))'
0 = (-1/2(θTXTXθ-YTXθ - YTXθ+YTY))'
0=-1/2(2XTXθ-(YTX)T-XTY)
0=XTXθ-XTY
所以
θ=(XTX)-1XTY
2.使用最小二乘法推導(dǎo)
什么叫做最小二乘法?
最小二乘法也叫作最小平方法,主要是通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配.
均方誤差MSE最小即可.
MSE=∑1/nε2=∑1/n(Xiθ - yi)2
MSE=∑1/n(wxi + b - yi)2
參考https://blog.csdn.net/zfjBIT/article/details/90635103
對其求二階導(dǎo)數(shù)
(MSE)''=1/n∑[ ?MSE / ?w ?w, ?MSE / ?w ?b;
?MSE / ?b ?w,?MSE / ?b ?b]
=2/n∑[xi2, xi;xi,1]
這里[xi2, xi;xi,1]是正定矩陣
因此MSE是凸函數(shù),有最小值
推導(dǎo)如下:
設(shè)z=[i,j]T為非零向量讲逛,則
zT[xi2, xi;xi,1]z=i2xi2 + 2ijxi + j2=(ixi+j)2>0
由此可知(MSE)''為正定函數(shù).
n為數(shù)據(jù)個數(shù),常數(shù),不影響,劃去
mse=∑ε2=∑(Xiθ - yi)2
求導(dǎo):(這里是標(biāo)量對矩陣求導(dǎo))
?mse / ?θ = (∑(Xiθ - yi)2) / ?θ
?mse / ?θ = ((Xθ - Y)T(Xθ - Y)) / ?θ
?mse / ?θ = ((θTXT - YT)(Xθ - Y)) / ?θ
?mse / ?θ = ((θTXTXθ - θTXTY - YTXθ + YTY)) / ?θ
?mse / ?θ = ((2XTXθ - XTY - (YTX)T))
?mse / ?θ = 2XTXθ - 2XTY
由于MSE是凸函數(shù),當(dāng) ?mse / ?θ = 0時,MSE取最小值
2XTXθ - 2XTY=0
θ=(XTX)-1XTY