引自:周志華老師的《機器學(xué)習》
線性模型
線性模型試圖學(xué)習一個通過屬性的線性組合來進行預(yù)測的函數(shù)钻哩。
設(shè)x有d個屬性:
1.線性回歸
線性回歸試圖學(xué)習一個線性模型以盡可能的預(yù)測實值輸出標記瓢宦。
1.0 誤差
如上所述:
預(yù)測值:
一元線性回歸表達式:树碱,此處c為誤差鞋真,b為截距項萨脑,Y是真實值淮韭,即預(yù)測值加上誤差裁僧。
為什么誤差服從高斯分布财搁?
因為實際情況下蘸炸,誤差都是隨機圍繞著0來的,大多數(shù)誤差經(jīng)過測量被證實是服從高斯分布的尖奔。說明高斯分布對誤差假設(shè)來說是一種很好的模型搭儒。
1.1均方誤差
如何確定w和b? 關(guān)鍵在于如何衡量f(x)和y之間的差別提茁。
均方誤差是回歸任務(wù)中常用的性能度量淹禾,我們試圖讓均方誤差最小化。即:
均方誤差對應(yīng)了歐氏距離茴扁,基于均方誤差最小化來進行模型求解的方法稱為“最小二乘法”
在線性回歸中铃岔,最小二乘法就是試圖尋找一條直線,是所有的樣本到直線上的歐氏距離最小峭火。
1.2參數(shù)估計
求解w和b使得均方誤差最小化的過程毁习,稱為線性回歸模型的最小二乘“參數(shù)估計”智嚷。
我們將E(w,b)對w和b求導(dǎo),得到:
1.3 多元線性回歸
如果數(shù)據(jù)集D的樣本由d個屬性纺且,此時
稱為“多元線性回歸”
數(shù)據(jù)集D表示為 的矩陣盏道。
標記y也寫成向量形式:
注意:在現(xiàn)實中 往往不是滿秩矩陣,這樣的話可以解出多個载碌,他們都可以是均方誤差最小化猜嘱,選擇哪一個解作為最終結(jié)果,就需要有學(xué)習算法的歸納偏好決定恐仑,常見的做法是引入正則化項泉坐。
1.4 對數(shù)線性回歸
假設(shè)示例的輸出標記是在指數(shù)尺度上變化,那就可以將輸出標記的對數(shù)作為線性模型逼近目標裳仆,即:
這就是對數(shù)線性回歸腕让,實際上是求逼近
1.5 廣義線性函數(shù)
更一般地,考慮到單調(diào)可微函數(shù) 歧斟,令纯丸,這樣得到的模型是廣義線性模型,為“聯(lián)系函數(shù)”静袖。對數(shù)線性回歸是廣義線性回歸模型的特例觉鼻。