一. 線性回歸
? ? ? ?舉例:以年齡和工資為參數(shù)堵泽,預(yù)測可以從銀行貸款的金額修己。假設(shè)θ1是年齡的參數(shù)暇矫,θ2是工資的參數(shù)悍赢。通過提供的年齡和工資參數(shù)构资,對貸款額度進(jìn)行預(yù)測泵殴。x是輸入的年齡和工資值巷折,通過線性回歸來擬合平面炭庙。
? ? ? ?可以看到先嬉,上式中存在著偏置項,它與另外兩項的格式不太相符光督,為了便于之后的矩陣運(yùn)算阳距,我們可以將偏置項對應(yīng)的x值全都設(shè)為1,這樣结借,三項的格式就統(tǒng)一了筐摘,也方便于后面矩陣的計算。
二. 誤差
? ? ? ?真實(shí)值和預(yù)測值之間肯定是存在著差異的船老。誤差如下:
? ? ? ?誤差是獨(dú)立并且具有相同的分布咖熟,并且服從高斯分布。
? ? ? ?以下式子是誤差的高斯分布概率:
? ? ? ?思考:我們的需求是提供年齡和工資的值柳畔,系統(tǒng)將我們可以貸款的金額預(yù)測出來馍管。而要實(shí)現(xiàn)這一過程,需要地就是年齡和工資的參數(shù)值θ薪韩,這是我們要求的參數(shù)确沸。而如何將上式與θ聯(lián)系起來呢?將預(yù)測值與誤差的式子(下式)左右相減代入誤差的高斯分布式子中躬存,便可以得到θ相關(guān)的式子:
? ? ? ?將上式代入高斯分布概率式子可以得到以下式子:
三. 似然函數(shù)
? ? ? ?得到上式后张惹,我們就要思考我們想要獲得的結(jié)果是對y值的準(zhǔn)測估計,即預(yù)測值與真實(shí)值越接近越好岭洲,而這需要的是對參數(shù)的求解宛逗。即什么樣的參數(shù)和數(shù)據(jù)組合才能更加接近真實(shí)的輸出?這時盾剩,我們就想到了似然函數(shù)雷激。似然函數(shù),做的就是這樣一類事情告私,通過數(shù)據(jù)樣本來推導(dǎo)出什么樣的參數(shù)能夠預(yù)測出真實(shí)值屎暇。
? ? ? ?上式即是θ參數(shù)的似然函數(shù),由于誤差是服從高斯分布的驻粟,分布在真實(shí)值的兩邊根悼,那么誤差的p值越大,誤差就越趨近于0蜀撑,即預(yù)測值與真實(shí)值的差距越小挤巡。這是我們所希望得到的結(jié)果,因此似然函數(shù)中p值的連乘當(dāng)然是越大越好酷麦,即極大似然估計矿卑。
(一). 如何求解極大似然估計呢?
1. 先求對數(shù)
? ? ? ?由于似然函數(shù)中都是連乘沃饶,很難計算母廷,想到求對數(shù)后式子變?yōu)榧臃ㄟ\(yùn)算更加簡單轻黑。
? ? ? ?展開化簡后的式子如下:
2. 我們的目標(biāo)時讓似然函數(shù)的值越大越好
? ? ? ?從上式可以看出,前面一段是常數(shù)琴昆,因此只要后面一段的值越小越好氓鄙。可以從后一段式子看出椎咧,除去常數(shù)值玖详,可以簡化為下式:
? ? ? ?這個式子可以用最小二乘法來求解。
首先勤讽,將平方項的求和轉(zhuǎn)換為矩陣的乘積,即矩陣的轉(zhuǎn)置乘以矩陣自身拗踢,平方項即誤差值脚牍。
? ? ? ?然后將矩陣的轉(zhuǎn)置展開
? ? ? ?將兩個乘式展開,
? ? ? ?要想求式子的最小值巢墅,一般是求式子的極值點(diǎn)诸狭,參數(shù)為θ,因此對θ求偏導(dǎo)君纫。
? ? ? ?偏導(dǎo)等于0驯遇,可求出θ的值為
? ? ? ?至此,θ這個參數(shù)的值已被求出蓄髓,線性回歸的式子也因此求出叉庐。這就是去求解線性回歸參數(shù)的全過程。
不過会喝,求得參數(shù)后我們需要對線性回歸的效果進(jìn)行評估陡叠,最常用的評估方法如下:
? ? ? ?上式右邊的分子為預(yù)測值與真實(shí)值的差距的平方和,分母為真實(shí)值與平均值的差距的平方和肢执,所以上式評估的取值越接近于1枉阵,可以認(rèn)為模型擬合效果越好。
? ? ? ?關(guān)注公號【開發(fā)小鴿】预茄,獲取海量計算機(jī)視覺與深度學(xué)習(xí)資源兴溜,實(shí)戰(zhàn)項目源碼,最新論文下載耻陕,大廠面試經(jīng)驗(yàn)W净铡!淮蜈!?