回顧線性回歸的公式:θ是系數(shù)举娩,X是特征智玻,h(x) 是預(yù)測(cè)值。
h(x) = θ0 + θ1x1 + θ2x2 + … + θnxn
h(x) = Σ θixi( i=0~n )
h(x) = θTX = [θ1,θ2,θ3,…,θn] * [x1,x2,x3,…,xn]T
最終要求是計(jì)算出θ的值页滚,并選擇最優(yōu)的θ值構(gòu)成算法公式,使預(yù)測(cè)值能夠盡可能接近真實(shí)值幻林。
求解線性回歸的思路
線性回歸主要用到兩種方法:最大似然估計(jì)沪饺、最小二乘法父丰。兩種思路截然不同肝谭,但最終得到的結(jié)果是一致的。
1蛾扇、最大似然估計(jì)求解
y(i):某個(gè)樣本的實(shí)際值攘烛。
θTX (i):使用公式求出的某個(gè)樣本的預(yù)測(cè)值。
ε(i) :誤差镀首。
由于每個(gè)樣本的預(yù)測(cè)值和實(shí)際值都存在一定的誤差坟漱,我們獲得如下公式:
y(i)= θTX (i) + ε(i)
所有樣本的誤差ε(i) (1 ≤ i ≤ n) 是獨(dú)立同分布的,服從均值為 0更哄,方差為某個(gè)定值的 б2 的高斯分布芋齿。
解釋一下上面這個(gè)概念成翩。
a、獨(dú)立同分布( i.i.d )
實(shí)際問(wèn)題中,很多隨機(jī)現(xiàn)象都可以看做 獨(dú)立影響的綜合反映,往往服從正態(tài)分布锋边。
特征X:x1~xn 是獨(dú)立同分布的往扔。
每一個(gè)樣本根據(jù)特征計(jì)算出的預(yù)測(cè)值和真實(shí)值之間的誤差:ε1~εn 也是獨(dú)立同分布的艇棕。
概率論中的一個(gè)概念打瘪,即一組數(shù)據(jù)彼此時(shí)間互不干擾,在現(xiàn)實(shí)環(huán)境里隨機(jī)出現(xiàn)蔗衡。
獨(dú)立:比如拋硬幣济蝉,每次硬幣落地這一事件都是獨(dú)立的雁乡,不會(huì)因?yàn)橹皰佊矌诺慕Y(jié)果而改變珠月。而如果是從一堆白球中每次取一個(gè)黑球這種事件,由于隨著白球的減少下次取出黑球的概率會(huì)不斷變大,則不能稱每次的取球行為相互獨(dú)立。
同分布:如果一組數(shù)據(jù)都是從擲6面色子的結(jié)果中獲取的,則稱樣本同分布。如果數(shù)據(jù)中夾雜著幾個(gè)擲12面色子的結(jié)果,則樣本不是同分布的厕吉。
b、高斯分布
也稱為正態(tài)分布,正態(tài)曲線呈鐘型崖媚,兩頭低砂客,中間高钞钙,左右對(duì)稱因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線窿祥。
若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、方差為σ2的正態(tài)分布响谓,記為N(μ,σ2)。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置上岗,其標(biāo)準(zhǔn)差σ決定了分布的幅度敬锐。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。
所有樣本的誤差ε(i) 服從均值為0始绍,方差為σ2: 因?yàn)槲覀冏罱K得到的公式是一個(gè)相對(duì)完美的公式,所以實(shí)際值會(huì)均勻得落到公式的兩側(cè)童擎,如下所示假丧。所有實(shí)際值和預(yù)測(cè)值的誤差均值是0章蚣,均值為0意味著誤差形成的高斯分布是一個(gè)
c站欺、中心極限定理
中心極限定理:只要x1~xn 是獨(dú)立同分布的,那么y = x1+x2+…+xn纤垂;
則y服從:均值 = n * (x1~xn 的均值) = nμ矾策;方差 = n*(x1~xn的方差)=nσ2;
∵ 每個(gè)樣本的預(yù)測(cè)值和實(shí)際值之間的誤差ε(i)也是獨(dú)立同分布的峭沦,所以所有誤差的和 ε(i) 滿足上述的定義贾虽。
又∵ 誤差的均值為0,這點(diǎn)在b高斯分布中已證明吼鱼。(模型是最優(yōu)的蓬豁,所以所有的實(shí)際值必然均勻得落在預(yù)測(cè)值的上下兩側(cè),最后誤差的均值是0)
∴ 所有樣本的誤差ε(i) (1 ≤ i ≤ n) 是獨(dú)立同分布的菇肃,服從均值為 0地粪,方差為某個(gè)定值的 б2 的高斯分布。得證琐谤。
設(shè): f (x | θ) 為樣本 X=x1,x2,x3,…xn)的聯(lián)合概率密度函數(shù),如果觀測(cè)到的X=x付魔,則稱θ的函數(shù):L ( θ | x) = f (x | θ) 為似然函數(shù)聊品。
即給定樣本x情況下飞蹂,產(chǎn)生參數(shù)θ的可能性 = 在給定參數(shù)θ的情況下几苍,觀測(cè)到樣本x的概率。
因此: 聯(lián)合概率密度的值等于似然函數(shù)的值妻坝。
如果X是離散的隨機(jī)變量,似然函數(shù) L (θ | x) = p θ (X=x)
比較似然函數(shù)在某個(gè)參數(shù)點(diǎn)處的取值惊窖,
如果:p θ1 (X=x) = L (θ1 | x)刽宪,p θ2 (X=x) = L (θ2 | x);
其中:p θ1 (X=x) > p θ2 (X=x) 即 L (θ1 | x) > L (θ2 | x)界酒;
則:當(dāng)θ = θ1時(shí)觀測(cè)到X=x的可能性大于θ = θ2時(shí)圣拄,說(shuō)明θ1比θ2更像是θ的真實(shí)值。
上面解釋得比較偏于理論毁欣,用一個(gè)例子來(lái)進(jìn)一步解釋
1號(hào)背包:白球1個(gè) 黑球99個(gè) 庇谆,顯然取得黑球的概率是99%;
2號(hào)背包:白球99個(gè) 黑球1個(gè)凭疮,顯然取得黑球的概率是1%饭耳;
現(xiàn)在我被蒙上眼睛,在某個(gè)背包中取出了一個(gè)黑球执解。那么問(wèn)題來(lái)了寞肖,我最有可能是從哪個(gè)背包中取出黑球的?顯然剛才我從1號(hào)背包中取球的概率較大衰腌。
題干中新蟆,黑白兩種球取出來(lái)的概率就是參數(shù)值 θ 。觀測(cè)值是黑球右蕊,對(duì)應(yīng)的公式為:
p θ1 (X=x) = L (θ1 | x) > L (θ2 | x) = p θ2 (X=x) 琼稻;
p θ1 (X=黑球) ; 背包1從中取得黑球的概率為99%尤泽;
p θ2 (X=黑球) 欣簇; 背包2中取得黑球的概率為1%;
上述例子中的θ只有背包1和背包2兩種參數(shù)坯约,但在實(shí)際中可能會(huì)出現(xiàn)很多組θ:( θ1熊咽,θ2,θ3闹丐,…横殴,θn)
最大似然函數(shù)求解θ過(guò)程
理論知識(shí)補(bǔ)充完了梨与,接下來(lái)先回到最初的式子:
y(i)= θTX (i) + ε(i);實(shí)際值=預(yù)測(cè)值+誤差文狱;
即 ε(i) = y(i) - θTX (i) ①
由于誤差是服從高斯分布的粥鞋,高斯分布的概率密度函數(shù):
由于 ε(i) 均值為0,將 ε(i) 代入公式得②:
將公式 ε(i) = y(i) - θTX (i) ① 代入概率密度函數(shù)②得③:
如何從②轉(zhuǎn)化到③是最難理解的一步瞄崇。
首先需要理解的是呻粹, ε(i) = y(i) - θTX (i),只有在給定了x的情況下苏研,y才有取值的可能等浊。
p(x;θ)摹蘑,在給定了θ情況下x的取值筹燕;
p(y|x;θ)衅鹿,在給定了x的情況下撒踪,還給定了某種參數(shù)θ的情況下,y的概率密度函數(shù)是多少塘安;
由于x和θ是一個(gè)定值糠涛,所以θTX (i)可以理解成才一個(gè)定值C。
接著思考隨機(jī)變量 ε(i)兼犯,誤差期望值(均值)是0忍捡, E(ε(i)) = 0 => E(ε(i)+C) = C
ε(i)是服從正態(tài)分布的(高斯分布),ε(i)+C是一個(gè)服從均值為C切黔,方差不變的正態(tài)分布砸脊。
所以:既然y(i)= θTX (i) + ε(i);y也是服從一個(gè)均值為(均值=θTX (i),方差= ε(i)的方差)的正態(tài)分布的纬霞。但是有一個(gè)前提條件:X和θ是被給定的凌埂。
所以公式③左側(cè)的含義:在給定了x和某種參數(shù)θ的情況下y的概率密度函數(shù)。
∵ 聯(lián)合概率密度函數(shù)等于似然函數(shù)诗芜,L ( θ | x) = f (x | θ);
∴ 得出公式④
聯(lián)合概率密度函數(shù)是怎么得到的瞳抓?
∵ ε(i)是獨(dú)立同分布的;
又∵ y(i)也是獨(dú)立同分布的伏恐;
又∵ 根據(jù)概率公式: P(AB)表示A和B同時(shí)發(fā)生的概率孩哑;如果A、B相互獨(dú)立 則P(AB)=P(A)*P(B);
∴ 將公式③左側(cè)進(jìn)行連乘翠桦,得到了公式④上行的右半部分横蜒;進(jìn)一步展開(kāi)即可得到公式④下行的結(jié)果。
到目前為止④聯(lián)合概率密度函數(shù)等于似然函數(shù)是我們得出的結(jié)果,以上的敘述可以幫你很好的理解似然函數(shù)的概念丛晌。
總結(jié)幾個(gè)容易混淆的概念
1仅炊、f(x|θ) 是什么?
f(x|θ) 是聯(lián)合概率密度函數(shù)澎蛛,是我所有樣本基礎(chǔ)上的某個(gè)事件是否發(fā)生的聯(lián)合概率密度函數(shù)抚垄。
2、換個(gè)角度再解釋下面這個(gè)公式:
以上的式子瓶竭,是發(fā)生在單個(gè)樣本情況下服從的一個(gè)正態(tài)分布督勺。
即p(y(1)|x(1);θ)…p(y(m)|x(m);θ) 都服從以上式子的正態(tài)分布。
所以他們的聯(lián)合概率密度函數(shù)就是1~m個(gè)正太分布公式的連乘斤贰。
理論依據(jù):y(i)是獨(dú)立同分布的。
3次询、L(θ|x) = f(x|θ)
即給定樣本x情況下荧恍,產(chǎn)生參數(shù)θ的可能性 = 在給定參數(shù)θ的情況下,觀測(cè)到樣本x的概率屯吊。
L(θ|x) 后面統(tǒng)一簡(jiǎn)寫(xiě)為L(zhǎng)(θ)送巡,即最大似然函數(shù) ,看它取得最大值時(shí)對(duì)應(yīng)的參數(shù)θ是多少盒卸。
現(xiàn)在似然函數(shù)已經(jīng)求完了骗爆,接下來(lái)我們要求L(θ) 是最大值情況下的 θ 的值。
首先考慮公式④的求導(dǎo)蔽介,顯然不太好求摘投。
但我們知道對(duì)于任意一個(gè)變量,對(duì)它取對(duì)數(shù)虹蓄,log(x)犀呼、ln(x),它們的單調(diào)性和x的單調(diào)性是一樣的薇组。隨著x的增大外臂,對(duì)數(shù)函數(shù)也增大,x減小律胀,對(duì)數(shù)函數(shù)也減小宋光。所以如果考慮求最大值,log(L( θ)) 炭菌、L(θ)它們極值點(diǎn)對(duì)應(yīng)的自變量θ所在的位置是一樣的罪佳。
根據(jù)結(jié)論推導(dǎo)出如下公式:
看公式的最后一行,減號(hào)左邊的式子是一個(gè)常數(shù)娃兽,要取整個(gè)式子的最大值菇民,就是求后面這部分式子的最小值。
所以現(xiàn)在問(wèn)題轉(zhuǎn)化為求如下式子最小值時(shí)θ的值:
該函數(shù)就是我們線性回歸中最后需要求解的目標(biāo)函數(shù)。
講到這里又需要引入一個(gè)新的概念:損失函數(shù)(代價(jià)函數(shù))
在機(jī)器學(xué)習(xí)中第练,我們希望找到一個(gè)面向整個(gè)模型的度量函數(shù)阔馋,使得這個(gè)度量函數(shù)越小越好。
本來(lái)我們求的是似然函數(shù)的最大值娇掏,現(xiàn)在把問(wèn)題轉(zhuǎn)換成了求目標(biāo)函數(shù)的最小值呕寝。
損失函數(shù):衡量的是單個(gè)觀測(cè)值在當(dāng)前系統(tǒng)下的一個(gè)損失情況。
代價(jià)函數(shù):衡量所有樣本在當(dāng)前系統(tǒng)下的損失情況婴梧。
總結(jié)一下求解最大似然估計(jì)的步驟:
1下梢、寫(xiě)出似然函數(shù)L(θ)
2、對(duì)似然函數(shù)取對(duì)數(shù)塞蹭,并整理 ln L(θ)
3孽江、求導(dǎo)數(shù)
4、解方程-導(dǎo)數(shù)為0的點(diǎn)(極值) ? ln L(θ) / ? θ = 0