02 回歸算法 - 線性回歸求解 θ(最大似然估計(jì)求解)

回顧線性回歸的公式:θ是系數(shù)举娩,X是特征智玻,h(x) 是預(yù)測(cè)值。
h(x) = θ0 + θ1x1 + θ2x2 + … + θnxn
h(x) = Σ θixi( i=0~n )
h(x) = θTX = [θ123,…,θn] * [x1,x2,x3,…,xn]T
最終要求是計(jì)算出θ的值页滚,并選擇最優(yōu)的θ值構(gòu)成算法公式,使預(yù)測(cè)值能夠盡可能接近真實(shí)值幻林。

求解線性回歸的思路

線性回歸主要用到兩種方法:最大似然估計(jì)沪饺、最小二乘法父丰。兩種思路截然不同肝谭,但最終得到的結(jié)果是一致的。

1蛾扇、最大似然估計(jì)求解

y(i):某個(gè)樣本的實(shí)際值攘烛。
θTX (i):使用公式求出的某個(gè)樣本的預(yù)測(cè)值。
ε(i) :誤差镀首。
由于每個(gè)樣本的預(yù)測(cè)值和實(shí)際值都存在一定的誤差坟漱,我們獲得如下公式:
y(i)= θTX (i) + ε(i)

所有樣本的誤差ε(i) (1 ≤ i ≤ n) 是獨(dú)立同分布的,服從均值為 0更哄,方差為某個(gè)定值的 б2 的高斯分布芋齿。

解釋一下上面這個(gè)概念成翩。

a、獨(dú)立同分布( i.i.d )

實(shí)際問(wèn)題中,很多隨機(jī)現(xiàn)象都可以看做\color{red}{眾多因素} 獨(dú)立影響的綜合反映,往往服從正態(tài)分布锋边。

特征X:x1~xn 是獨(dú)立同分布的往扔。
每一個(gè)樣本根據(jù)特征計(jì)算出的預(yù)測(cè)值和真實(shí)值之間的誤差:ε1n 也是獨(dú)立同分布的艇棕。

概率論中的一個(gè)概念打瘪,即一組數(shù)據(jù)彼此時(shí)間互不干擾,在現(xiàn)實(shí)環(huán)境里隨機(jī)出現(xiàn)蔗衡。

獨(dú)立:比如拋硬幣济蝉,每次硬幣落地這一事件都是獨(dú)立的雁乡,不會(huì)因?yàn)橹皰佊矌诺慕Y(jié)果而改變珠月。而如果是從一堆白球中每次取一個(gè)黑球這種事件,由于隨著白球的減少下次取出黑球的概率會(huì)不斷變大,則不能稱每次的取球行為相互獨(dú)立。

同分布:如果一組數(shù)據(jù)都是從擲6面色子的結(jié)果中獲取的,則稱樣本同分布。如果數(shù)據(jù)中夾雜著幾個(gè)擲12面色子的結(jié)果,則樣本不是同分布的厕吉。

b、高斯分布

也稱為正態(tài)分布,正態(tài)曲線呈鐘型崖媚,兩頭低砂客,中間高钞钙,左右對(duì)稱因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線窿祥。

隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、方差為σ2的正態(tài)分布响谓,記為N(μ,σ2)。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置上岗,其標(biāo)準(zhǔn)差σ決定了分布的幅度敬锐。當(dāng)μ = 0,σ = 1時(shí)的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布

所有樣本的誤差ε(i) 服從均值為0始绍,方差為σ2: 因?yàn)槲覀冏罱K得到的公式是一個(gè)相對(duì)完美的公式,所以實(shí)際值會(huì)均勻得落到公式的兩側(cè)童擎,如下所示假丧。所有實(shí)際值和預(yù)測(cè)值的誤差均值是0章蚣,均值為0意味著誤差形成的高斯分布是一個(gè)

c站欺、中心極限定理

中心極限定理:只要x1~xn 是獨(dú)立同分布的,那么y = x1+x2+…+xn纤垂;
則y服從:均值 = n * (x1~xn 的均值) = nμ矾策;方差 = n*(x1~xn的方差)=nσ2

∵ 每個(gè)樣本的預(yù)測(cè)值和實(shí)際值之間的誤差ε(i)也是獨(dú)立同分布的峭沦,所以所有誤差的和 ε(i) 滿足上述的定義贾虽。

又∵ 誤差的均值為0,這點(diǎn)在b高斯分布中已證明吼鱼。(模型是最優(yōu)的蓬豁,所以所有的實(shí)際值必然均勻得落在預(yù)測(cè)值的上下兩側(cè),最后誤差的均值是0)

∴ 所有樣本的誤差ε(i) (1 ≤ i ≤ n) 是獨(dú)立同分布的菇肃,服從均值為 0地粪,方差為某個(gè)定值的 б2 的高斯分布。得證琐谤。

\color{red}{某種樣本取得一個(gè)參數(shù)的可能性蟆技,稱之為似然函數(shù)。}
設(shè): f (x | θ) 為樣本 X=x1,x2,x3,…xn)的聯(lián)合概率密度函數(shù),如果觀測(cè)到的X=x付魔,則稱θ的函數(shù):L ( θ | x) = f (x | θ) 為似然函數(shù)聊品。
即給定樣本x情況下飞蹂,產(chǎn)生參數(shù)θ的可能性 = 在給定參數(shù)θ的情況下几苍,觀測(cè)到樣本x的概率。
因此:\color{red}{似然函數(shù)就用聯(lián)合概率密度函數(shù)來(lái)表示陈哑。} 聯(lián)合概率密度的值等于似然函數(shù)的值妻坝。

如果X是離散的隨機(jī)變量,似然函數(shù) L (θ | x) = p θ (X=x)
比較似然函數(shù)在某個(gè)參數(shù)點(diǎn)處的取值惊窖,
如果:p θ1 (X=x) = L (θ1 | x)刽宪,p θ2 (X=x) = L (θ2 | x);
其中:p θ1 (X=x) > p θ2 (X=x) 即 L (θ1 | x) > L (θ2 | x)界酒;
則:當(dāng)θ = θ1時(shí)觀測(cè)到X=x的可能性大于θ = θ2時(shí)圣拄,說(shuō)明θ1比θ2更像是θ的真實(shí)值。

上面解釋得比較偏于理論毁欣,用一個(gè)例子來(lái)進(jìn)一步解釋

1號(hào)背包:白球1個(gè) 黑球99個(gè) 庇谆,顯然取得黑球的概率是99%;
2號(hào)背包:白球99個(gè) 黑球1個(gè)凭疮,顯然取得黑球的概率是1%饭耳;
現(xiàn)在我被蒙上眼睛,在某個(gè)背包中取出了一個(gè)黑球执解。那么問(wèn)題來(lái)了寞肖,我最有可能是從哪個(gè)背包中取出黑球的?顯然剛才我從1號(hào)背包中取球的概率較大衰腌。

題干中新蟆,黑白兩種球取出來(lái)的概率就是參數(shù)值 θ 。觀測(cè)值是黑球右蕊,對(duì)應(yīng)的公式為:
p θ1 (X=x) = L (θ1 | x) > L (θ2 | x) = p θ2 (X=x) 琼稻;
p θ1 (X=黑球) ; 背包1從中取得黑球的概率為99%尤泽;
p θ2 (X=黑球) 欣簇; 背包2中取得黑球的概率為1%;

上述例子中的θ只有背包1和背包2兩種參數(shù)坯约,但在實(shí)際中可能會(huì)出現(xiàn)很多組θ:( θ1熊咽,θ2,θ3闹丐,…横殴,θn)
\color{red}{我們要觀測(cè)這些參數(shù)值中可能性最大的一個(gè)似然函數(shù): }
\color{red}{max L(θ|x) }
\color{red}{即最大似然函數(shù) ,看它取得最大值時(shí)對(duì)應(yīng)的參數(shù)θ是多少。}
\color{red}{這個(gè)θ就是我們最終想要的東西衫仑。}

最大似然函數(shù)求解θ過(guò)程

理論知識(shí)補(bǔ)充完了梨与,接下來(lái)先回到最初的式子:
y(i)= θTX (i) + ε(i);實(shí)際值=預(yù)測(cè)值+誤差文狱;
即 ε(i) = y(i) - θTX (i)
由于誤差是服從高斯分布的粥鞋,高斯分布的概率密度函數(shù):

正態(tài)分布的概率密度函數(shù)

由于 ε(i) 均值為0,將 ε(i) 代入公式得②:

② 第i個(gè)觀測(cè)值對(duì)應(yīng)的誤差的概率密度函數(shù)

將公式 ε(i) = y(i) - θTX (i) ① 代入概率密度函數(shù)②得③:

如何從②轉(zhuǎn)化到③是最難理解的一步瞄崇。

首先需要理解的是呻粹, ε(i) = y(i) - θTX (i),只有在給定了x的情況下苏研,y才有取值的可能等浊。

p(x;θ)摹蘑,在給定了θ情況下x的取值筹燕;
p(y|x;θ)衅鹿,在給定了x的情況下撒踪,還給定了某種參數(shù)θ的情況下,y的概率密度函數(shù)是多少塘安;
由于x和θ是一個(gè)定值糠涛,所以θTX (i)可以理解成才一個(gè)定值C。

接著思考隨機(jī)變量 ε(i)兼犯,誤差期望值(均值)是0忍捡, E(ε(i)) = 0 => E(ε(i)+C) = C

ε(i)是服從正態(tài)分布的(高斯分布),ε(i)+C是一個(gè)服從均值為C切黔,方差不變的正態(tài)分布砸脊。

所以:既然y(i)= θTX (i) + ε(i);y也是服從一個(gè)均值為(均值=θTX (i),方差= ε(i)的方差)的正態(tài)分布的纬霞。但是有一個(gè)前提條件:X和θ是被給定的凌埂。

所以公式③左側(cè)的含義:在給定了x和某種參數(shù)θ的情況下y的概率密度函數(shù)。

∵ 聯(lián)合概率密度函數(shù)等于似然函數(shù)诗芜,L ( θ | x) = f (x | θ);
∴ 得出公式④


④聯(lián)合概率密度函數(shù)等于似然函數(shù)

聯(lián)合概率密度函數(shù)是怎么得到的瞳抓?
∵ ε(i)是獨(dú)立同分布的;
又∵ y(i)也是獨(dú)立同分布的伏恐;
又∵ 根據(jù)概率公式: P(AB)表示A和B同時(shí)發(fā)生的概率孩哑;如果A、B相互獨(dú)立 則P(AB)=P(A)*P(B);
∴ 將公式③左側(cè)進(jìn)行連乘翠桦,得到了公式④上行的右半部分横蜒;進(jìn)一步展開(kāi)即可得到公式④下行的結(jié)果。

到目前為止④聯(lián)合概率密度函數(shù)等于似然函數(shù)是我們得出的結(jié)果,以上的敘述可以幫你很好的理解似然函數(shù)的概念丛晌。

總結(jié)幾個(gè)容易混淆的概念

1仅炊、f(x|θ) 是什么?
f(x|θ) 是聯(lián)合概率密度函數(shù)澎蛛,是我所有樣本基礎(chǔ)上的某個(gè)事件是否發(fā)生的聯(lián)合概率密度函數(shù)抚垄。

2、換個(gè)角度再解釋下面這個(gè)公式:


以上的式子瓶竭,是發(fā)生在單個(gè)樣本情況下服從的一個(gè)正態(tài)分布督勺。
即p(y(1)|x(1);θ)…p(y(m)|x(m);θ) 都服從以上式子的正態(tài)分布。
所以他們的聯(lián)合概率密度函數(shù)就是1~m個(gè)正太分布公式的連乘斤贰。
理論依據(jù):y(i)是獨(dú)立同分布的。

3次询、L(θ|x) = f(x|θ)
即給定樣本x情況下荧恍,產(chǎn)生參數(shù)θ的可能性 = 在給定參數(shù)θ的情況下,觀測(cè)到樣本x的概率屯吊。
L(θ|x) 后面統(tǒng)一簡(jiǎn)寫(xiě)為L(zhǎng)(θ)送巡,即最大似然函數(shù) ,看它取得最大值時(shí)對(duì)應(yīng)的參數(shù)θ是多少盒卸。

現(xiàn)在似然函數(shù)已經(jīng)求完了骗爆,接下來(lái)我們要求L(θ) 是最大值情況下的 θ 的值。

首先考慮公式④的求導(dǎo)蔽介,顯然不太好求摘投。


但我們知道對(duì)于任意一個(gè)變量,對(duì)它取對(duì)數(shù)虹蓄,log(x)犀呼、ln(x),它們的單調(diào)性和x的單調(diào)性是一樣的薇组。隨著x的增大外臂,對(duì)數(shù)函數(shù)也增大,x減小律胀,對(duì)數(shù)函數(shù)也減小宋光。所以如果考慮求最大值,log(L( θ)) 炭菌、L(θ)它們極值點(diǎn)對(duì)應(yīng)的自變量θ所在的位置是一樣的罪佳。

根據(jù)結(jié)論推導(dǎo)出如下公式:



看公式的最后一行,減號(hào)左邊的式子是一個(gè)常數(shù)娃兽,要取整個(gè)式子的最大值菇民,就是求后面這部分式子的最小值。

所以現(xiàn)在問(wèn)題轉(zhuǎn)化為求如下式子最小值時(shí)θ的值:



該函數(shù)就是我們線性回歸中最后需要求解的目標(biāo)函數(shù)。

講到這里又需要引入一個(gè)新的概念:損失函數(shù)(代價(jià)函數(shù))

在機(jī)器學(xué)習(xí)中第练,我們希望找到一個(gè)面向整個(gè)模型的度量函數(shù)阔馋,使得這個(gè)度量函數(shù)越小越好。

本來(lái)我們求的是似然函數(shù)的最大值娇掏,現(xiàn)在把問(wèn)題轉(zhuǎn)換成了求目標(biāo)函數(shù)的最小值呕寝。

損失函數(shù):衡量的是單個(gè)觀測(cè)值在當(dāng)前系統(tǒng)下的一個(gè)損失情況。
代價(jià)函數(shù):衡量所有樣本在當(dāng)前系統(tǒng)下的損失情況婴梧。

總結(jié)一下求解最大似然估計(jì)的步驟:

1下梢、寫(xiě)出似然函數(shù)L(θ)
2、對(duì)似然函數(shù)取對(duì)數(shù)塞蹭,并整理 ln L(θ)
3孽江、求導(dǎo)數(shù)
4、解方程-導(dǎo)數(shù)為0的點(diǎn)(極值) ? ln L(θ) / ? θ = 0

好了番电,實(shí)在聽(tīng)不懂就算了岗屏,后文講解一個(gè)更簡(jiǎn)單的求解θ的辦法:最小二乘求解。

03 回歸算法 - 線性回歸求解 θ(最小二乘求解)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末漱办,一起剝皮案震驚了整個(gè)濱河市这刷,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌娩井,老刑警劉巖暇屋,帶你破解...
    沈念sama閱讀 221,273評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異洞辣,居然都是意外死亡咐刨,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門(mén)屋彪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)所宰,“玉大人,你說(shuō)我怎么就攤上這事畜挥∽兄啵” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 167,709評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵蟹但,是天一觀的道長(zhǎng)躯泰。 經(jīng)常有香客問(wèn)我,道長(zhǎng)华糖,這世上最難降的妖魔是什么麦向? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,520評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮客叉,結(jié)果婚禮上诵竭,老公的妹妹穿的比我還像新娘话告。我一直安慰自己,他們只是感情好卵慰,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,515評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布沙郭。 她就那樣靜靜地躺著,像睡著了一般裳朋。 火紅的嫁衣襯著肌膚如雪病线。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,158評(píng)論 1 308
  • 那天鲤嫡,我揣著相機(jī)與錄音送挑,去河邊找鬼。 笑死暖眼,一個(gè)胖子當(dāng)著我的面吹牛惕耕,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播罢荡,決...
    沈念sama閱讀 40,755評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼赡突,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了区赵?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,660評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤浪南,失蹤者是張志新(化名)和其女友劉穎笼才,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體络凿,經(jīng)...
    沈念sama閱讀 46,203評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡骡送,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,287評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了絮记。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片摔踱。...
    茶點(diǎn)故事閱讀 40,427評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖怨愤,靈堂內(nèi)的尸體忽然破棺而出派敷,到底是詐尸還是另有隱情,我是刑警寧澤撰洗,帶...
    沈念sama閱讀 36,122評(píng)論 5 349
  • 正文 年R本政府宣布篮愉,位于F島的核電站,受9級(jí)特大地震影響差导,放射性物質(zhì)發(fā)生泄漏试躏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,801評(píng)論 3 333
  • 文/蒙蒙 一设褐、第九天 我趴在偏房一處隱蔽的房頂上張望颠蕴。 院中可真熱鬧泣刹,春花似錦、人聲如沸犀被。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,272評(píng)論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)弱判。三九已至襟沮,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間昌腰,已是汗流浹背开伏。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,393評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留遭商,地道東北人固灵。 一個(gè)月前我還...
    沈念sama閱讀 48,808評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像劫流,于是被迫代替她去往敵國(guó)和親巫玻。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,440評(píng)論 2 359