基本思路
大體的思路是試圖訓練一個線性的模型,通過樣本的屬性值來預測一個目標值汁汗。根據(jù)單一樣本屬性值的數(shù)目抹恳,分為單變量和多變量的線性回歸問題。
假設函數(shù):
優(yōu)化目標
線性模型最關鍵的就是確定線性系數(shù)w以及截距b响鹃,這些參數(shù)確定了驾霜,模型也就定下來了。單變量線性回歸較簡單茴迁,這里主要以多變量線性回歸為主寄悯。大多數(shù)情況下萤衰,線性回歸的優(yōu)化目標都是最小化均方誤差函數(shù)堕义,即:
其中,w*是將參數(shù)b吸收到w中脆栋,size為(d+1)*1倦卖,X size是(m*(d+1))。[m為樣本數(shù)椿争,d是單樣本屬性數(shù)]
為了使得代價函數(shù)最小化怕膛,對參數(shù)w*求導得到:
令上式等于0,就可以求出w*秦踪。
1.當X'X為滿秩矩陣或正定矩陣時:
2.不是滿秩褐捻。存在許多解,由學習算法的歸納偏好決定椅邓,常見做法引入正則化柠逞。
線性回歸是用線性模型擬合數(shù)據(jù),用生成的模型去預測真實值y景馁。我們也可以用線性模型去預測逼近y的衍生值板壮,令g(.)為單調(diào)可微函數(shù):
這樣得到的稱為廣義線性模型,函數(shù)g稱為聯(lián)系函數(shù)合住,實際上實現(xiàn)了輸入空間到輸出空間的非線性映射绰精。
對數(shù)線性回歸
令g(.)=log(.)即可獲得對數(shù)線性回歸模型。
對數(shù)幾率回歸
前面說的都是針對回歸問題透葛,如果面對一個分類問題笨使,該如何構(gòu)造假設函數(shù)?這兒利用廣義線性回歸模型僚害,令g(.)的反函數(shù)為對數(shù)幾率函數(shù)(Sigmoid函數(shù))硫椰。
將線性模型帶入上面Sigmoid函數(shù),可得:
變換上式可得:
如果將y看作二分類問題的正例可能性贡珊,1-y即是反例可能性最爬,兩者比值稱為“幾率”,反應了樣本作為正例的相對可能性门岔,對“幾率”取對數(shù)即得到”對數(shù)幾率“爱致。因此其對應的模型稱為對數(shù)幾率回歸模型,這兒雖然說是回歸寒随,實際上是分類問題糠悯。
在這兒如何確定參數(shù)w/b帮坚,即優(yōu)化目標什么?利用最大似然法互艾,即利用最大化樣本出現(xiàn)的概率來確定參數(shù)试和。