線性回歸
函數(shù)模型
??線性回歸函數(shù)想必大家在高中的學(xué)習(xí)中就已經(jīng)學(xué)習(xí)過了蛀骇,這一篇文章中我們并不會(huì)很詳細(xì)的介紹。首先,如同下面這張散點(diǎn)圖:
??我們會(huì)怎么去用函數(shù)擬合夺颤?
??我們一眼就會(huì)發(fā)現(xiàn),用一條直線穿過數(shù)據(jù)會(huì)很好的擬合這些數(shù)據(jù)胁勺,這些數(shù)據(jù)很均勻的分布在直線的兩側(cè)世澜。看到這里我們就可以直接寫出我們線性函數(shù)的表達(dá)式了:
??不過通常我們認(rèn)為,所以這個(gè)式子展開之后就是:
??在機(jī)器學(xué)習(xí)中姻几,我們常常使用線性代數(shù)去描繪數(shù)據(jù)宜狐,因此我們寫成下面這種形式
??也就是說,將表達(dá)式寫成矩陣的形式,就成了:
??這只是最簡(jiǎn)單的一種線性函數(shù)蛇捌,還有一些廣泛應(yīng)用于神經(jīng)網(wǎng)絡(luò)的線性函數(shù)是一層一層的嵌套函數(shù)抚恒,例如:
??
??目前我們并不去討論非線性的函數(shù)模型,對(duì)于非線性的函數(shù)模型,我們往往需要進(jìn)行正則化進(jìn)行調(diào)整络拌,這里我會(huì)在后面進(jìn)行詳細(xì)的介紹俭驮。
代價(jià)函數(shù)
??代價(jià)函數(shù)又稱為損失函數(shù),在這里我們可以試著來推導(dǎo)一下春贸。我們的代價(jià)函數(shù)主要就是用于衡量預(yù)測(cè)數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的誤差混萝。很容易的我們會(huì)想到直接用他們之間的差值作為衡量。
??不過這個(gè)函數(shù)存在一個(gè)問題萍恕,就是的符號(hào)是不確定的逸嘀,因此即使誤差很大,甚至可以為0允粤,因此我們需要改進(jìn)這個(gè)函數(shù)崭倘。
??那么,加一個(gè)絕對(duì)值怎么樣呢类垫?
??這樣顯然我們的代價(jià)函數(shù)有了更好的性能司光,不過還是存在一些問題,就是絕對(duì)值是無法求導(dǎo)的悉患。那么我們會(huì)想残家,有什么方法既可以不影響函數(shù)的代數(shù)性質(zhì)又不會(huì)造成誤差的失誤呢?很明顯售躁,二次函數(shù)是一個(gè)不錯(cuò)的想法坞淮。
??這個(gè)時(shí)候我們已經(jīng)完成了我們的函數(shù)設(shè)計(jì),不過還有一點(diǎn)點(diǎn)小問題陪捷,就是有可能出現(xiàn)過大的情況碾盐,我們需要對(duì)它進(jìn)行求平均值,同時(shí)揩局,為了方便我們后續(xù)的求導(dǎo)計(jì)算,我們通常還會(huì)乘以一個(gè)參數(shù)掀虎,當(dāng)然你不做處理也不會(huì)有問題凌盯。最終的函數(shù)解析式就成了:
??相信很多數(shù)學(xué)底子好一些的朋友付枫,肯定發(fā)現(xiàn)了一件事,這不就是我們常常使用的方差的變形嗎驰怎?是的阐滩,這個(gè)函數(shù)我們稱為均方誤差函數(shù),你可以理解為廣義上的方差县忌,我們記得方差是減去數(shù)據(jù)的平均值掂榔,這里也是類似的,因?yàn)槲覀兯玫臄M合函數(shù)就已經(jīng)充當(dāng)了平均值的作用症杏。
極大似然估計(jì)
??這個(gè)玩意名字取得總是讓人覺得怪怪的装获,一眼看不出這是干嘛的。極大似然估計(jì)有點(diǎn)類似文言文的一種說法厉颤,似然穴豫,也就是可能性的意思。極大似然估計(jì)也就是最大可能性的估計(jì)逼友。
??構(gòu)造極大似然估計(jì)的條件很容易精肃,也就是i.i.d條件,數(shù)據(jù)獨(dú)立同分布條件帜乞。我們給出一個(gè)概率函數(shù)司抱。如何評(píng)判函數(shù)的好壞呢?我們知道黎烈,對(duì)于給定的數(shù)據(jù)习柠,概率達(dá)到最大值就是最好的,那么針對(duì)整個(gè)數(shù)據(jù)集來說怨喘,我們應(yīng)當(dāng)對(duì)概率函數(shù)進(jìn)行求積:
??就是我們的似然函數(shù)了津畸,而求出函數(shù)最大值所對(duì)應(yīng)的也就是我們所討論的極大似然估計(jì)了。
??大部分情況下必怜,我們不喜歡求連積肉拓,我們要想辦法將變成一個(gè)求和的函數(shù),這樣我們的計(jì)算會(huì)方便許多梳庆。很容易想到對(duì)數(shù)的性質(zhì)暖途。我們對(duì)進(jìn)行求對(duì)數(shù),得到:
??同樣的我們防止數(shù)據(jù)過大膏执,對(duì)它求一個(gè)平均值驻售,不過這里的平均值應(yīng)該是負(fù)平均值比較好,為什么更米?看一看對(duì)數(shù)函數(shù)的圖像欺栗,概率是衡在[0,1]之間,對(duì)應(yīng)的對(duì)數(shù)始終為負(fù)值,所以我們應(yīng)該用負(fù)數(shù)好迟几。
??對(duì)數(shù)函數(shù)也有缺點(diǎn)消请,就是遇上0的時(shí)候,對(duì)數(shù)函數(shù)就顯得無能為力了类腮,在一些分類問題中臊泰,假設(shè)真實(shí)標(biāo)記是0,那么極大似然估計(jì)出的概率函數(shù)也應(yīng)該是0蚜枢,或者是接近0缸逃,這樣就會(huì)導(dǎo)致對(duì)它求對(duì)數(shù)的時(shí)候數(shù)值會(huì)變得巨大。這里我們引入一個(gè)概念——熵厂抽。我們將在下一節(jié)信息論中進(jìn)行詳細(xì)的介紹需频。
我的掘金:WarrenRyan
我的簡(jiǎn)書:WarrenRyan
歡迎關(guān)注我的博客獲得第一時(shí)間更新 https://blog.tity.xyz
我的Github:StevenEco