??這一節(jié)我們介紹線性模型押桃,介紹思路如下:我們先介紹概念,什么叫做線性模型羡忘?在了解了基本的線性模型之后磕昼,我們將其應(yīng)用于一元線性回歸,之后擴(kuò)展到多元線性回歸票从。之后我們再將其擴(kuò)展到廣義線性模型。最后通過廣義線性模型遷移到logit回歸(分類問題)中峰鄙。
線性模型基本概念
??線性模型(Linear Model)是在假設(shè)特征滿足線性關(guān)系吟榴,給定一些數(shù)據(jù),需要用這些數(shù)據(jù)訓(xùn)練一個(gè)模型吩翻,并用此模型進(jìn)行預(yù)測。但這個(gè)模型是屬性的線性組合仿野,其函數(shù)形式為:
??用向量表示的話脚作,如下所示:
??其中的和是我們需要學(xué)習(xí)的參數(shù)缔刹。一旦和確定下來劣针,那么這個(gè)模型也就確定下來了。
一元線性回歸
??假定我們現(xiàn)在手頭上有一些訓(xùn)練樣本捺典,,引谜,擎浴。那么我們?nèi)绾蝸碚业揭唤M參數(shù)和使得構(gòu)建的線性模型能夠很好地表示這組樣本輸入與輸出之間的關(guān)系呢?
??在開始建模之前贮预,我們需要思考一個(gè)問題,什么叫做很好地表示滑频?我們需要將這個(gè)好壞量化一下唤冈。通常我們以范數(shù)作為量化的標(biāo)準(zhǔn)。在這里表示的就是务傲,對于真實(shí)的輸入,我的預(yù)測輸出與真實(shí)輸出之間的誤差看杭。在這里我們以均方差作為度量標(biāo)準(zhǔn)挟伙。
??因此這個(gè)問題就轉(zhuǎn)變?yōu)榱耍覀冃枰乙唤M參數(shù)和尖阔,能夠使得這些樣本在當(dāng)前模型下的均方誤差最小,用數(shù)學(xué)形式表達(dá)如下所示:
??表示和的解谴供。
??基于均方差最小化來進(jìn)行模型求解的方法稱為最小二乘法(least square method)齿坷。在線性回歸問題中数焊,最小二乘法試圖尋找到一條直線崎场,使所有樣本到直線的歐式距離之和最小。
??求解和使最小化的過程干厚,稱為線性回歸模型的最小二乘“參數(shù)估計(jì)”(parameter estimation)螃宙。
??由于是關(guān)于和的凸函數(shù),所以對其求偏導(dǎo)數(shù)谆扎,令其偏導(dǎo)數(shù)等于0,所求出來的解即為最優(yōu)解。其偏導(dǎo)數(shù)求解如下所示:
??再令其偏導(dǎo)數(shù)為0周瞎,可得到和最優(yōu)解的閉式(closed-from)解:
??其中為的均值声诸。
??至此,求解完畢彼乌。
多元線性回歸
??在一元回歸問題中,樣本只有一個(gè)屬性灶挟。假設(shè)樣本具有個(gè)屬性毒租,此時(shí)期望找到一組模型參數(shù)和,使得墅垮,使得函數(shù)輸出與真實(shí)標(biāo)簽越接近越好算色。我們將這類問題稱為多元線性回歸問題(multivariate linear regression),或者叫做多變量線性回歸問題灾梦。
??為了便于討論妓笙,我們把和組合稱為一個(gè)向量的形式椒楣。與之對應(yīng),樣本集可表示為一個(gè)大小的矩陣淆九。那么每一行都對應(yīng)一個(gè)樣本毛俏。每一行的前個(gè)元素都表示為當(dāng)前這個(gè)樣本的個(gè)屬性值。最后這個(gè)元素恒為1煌寇,是方便與參數(shù)中的相乘,形成偏置項(xiàng)腻脏。樣本輸入的數(shù)學(xué)表達(dá)形式可表示為如下形式:
??將標(biāo)簽以同樣的方式寫成向量的形式有永品,令均方誤差最小化,求其最優(yōu)解:
??令鼎姐,對求偏導(dǎo)得到如下方程:
可逆
??與一元回歸類似更振,令上式等于0即可求解上述方程。通過觀察不難發(fā)現(xiàn)献宫,上式存在矩陣求逆的情況乎芳,對于為滿秩矩陣(full-rank matrix)或正定矩陣(positive definite matrix)時(shí),可求出:
??令奈惑,則最終的線性回歸模型可表示為:
不可逆情況
??如果不可逆,那么此時(shí)可解出多個(gè)寂殉,他們都能使得均方誤差最小化原在。選擇哪一個(gè)解作為輸出彤叉,將由算法的歸納偏好決定村怪,常見的做法是引入正則化(regularization)項(xiàng)。
廣義線性模型
??通常我們把線性回歸模型簡寫為:
??那我們能否將模型預(yù)測值逼近真實(shí)標(biāo)簽的衍生物甚负?例如將樣本標(biāo)簽的對數(shù)模型作為線性模型逼近的目標(biāo),即:
??這就是對數(shù)線性回歸(log-linear regression)斑举,它實(shí)際上是在試圖讓逼近病涨。上式形式上是線性回歸,但實(shí)際上已是在求輸入空間到輸出空間的非線性函數(shù)映射既穆。
??更一般的,考慮單調(diào)可微函數(shù)铲敛,令:
??這樣得到的模型稱為廣義線性模型(generalized linear model)会钝。我們把函數(shù)稱為聯(lián)系函數(shù)工三。廣義線性模型的參數(shù)估計(jì)通常通過加權(quán)最小二乘法或極大似然法進(jìn)行。
線性模型之logit回歸
??如何用線性模型做分類俭正?其實(shí)我們自需要找一個(gè)單調(diào)可微函數(shù),將分類任務(wù)的真實(shí)標(biāo)記與線性回歸模型的預(yù)測值聯(lián)系起來串远。就可以達(dá)到這一點(diǎn)儿惫。你也許會(huì)想到單位階躍函數(shù),將連續(xù)值變換為離散量肾请。但是單位階躍函數(shù)不連續(xù),因此希望找到一個(gè)函數(shù)來替代它铛铁。對數(shù)幾率函數(shù)(logistic function)隔显,是一種Sigmoid函數(shù)能做到這一點(diǎn)。其函數(shù)表達(dá)形式如下所示:
??對其兩邊取倒數(shù)彪标,再取對數(shù)化簡掷豺,得如下變換形式:
??如果將看作樣本是正例的可能性,則表示的就是負(fù)例的可能性萌业。兩者的比值表示的就是為正例的相對可能性,再將其取對數(shù)得到對數(shù)幾率(logit)婴程。
??上式用線性回歸模型的預(yù)測結(jié)果去逼近真實(shí)標(biāo)記的對數(shù)幾率抱婉,因此,對應(yīng)的模型稱為對數(shù)幾率回歸蒸绩。但實(shí)際上它是一種分類學(xué)習(xí)方法。在其他地方你可能會(huì)聽到邏輯回歸传蹈,但周志華教授覺得中文“邏輯”與“l(fā)ogistic”和logit的含義想去甚遠(yuǎn)步藕,稱其為“對數(shù)幾率回歸”簡稱“對率回歸”。具有如下優(yōu)點(diǎn):
- 無需像貝葉斯那樣假設(shè)數(shù)據(jù)分布咙冗,直接對分類可能性進(jìn)行建模,避免假設(shè)不準(zhǔn)帶來的偏差雾消。
- 得到的是一個(gè)概率,比單純的正例或者反例所含的信息量要大狂窑。
- 對率回歸求解的目標(biāo)函數(shù)是任意階可導(dǎo)的凸函數(shù)桑腮,具有很好的性質(zhì),現(xiàn)有的許多數(shù)值優(yōu)化算法都可以直接用于求解。
??利用Logistic 回歸進(jìn)行分類的主要思想是:根據(jù)現(xiàn)有數(shù)據(jù)對分類邊界線建立回歸公式巨缘,以此進(jìn)行分類采呐。這里的 “回歸”一詞源于佳擬合,表示要找到佳擬合參數(shù)集斧吐。
極大似然求解logit回歸參數(shù)
??在這一小節(jié),用最大似然法求解logit回歸參數(shù)和仰冠。極大似然法可在公眾號歷史文章貝葉斯這節(jié)找到蝶糯。
??將樣本是正例的可能性看作類后驗(yàn)概率估計(jì),則對數(shù)幾率回歸可表示為:
??有:
??給定數(shù)據(jù)集昼捍,對率回歸模型最大化“對數(shù)似然”(log-likehood):
??令妒茬,,則可得到的簡寫乍钻。
??令,則似然項(xiàng)可寫為:
??最大化等價(jià)于最小化:
??上式是關(guān)于的高階可導(dǎo)連續(xù)凸函數(shù)育拨,可使用牛頓法(凸優(yōu)化中的內(nèi)容)對其求解欢摄。更加詳細(xì)的推導(dǎo)可參考周志華的西瓜書對數(shù)幾率回歸笋粟。
我的微信公眾號名稱:深度學(xué)習(xí)與先進(jìn)智能決策
微信公眾號ID:MultiAgent1024
公眾號介紹:主要研究強(qiáng)化學(xué)習(xí)、計(jì)算機(jī)視覺害捕、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等相關(guān)內(nèi)容吞滞,分享學(xué)習(xí)過程中的學(xué)習(xí)筆記和心得!期待您的關(guān)注裁赠,歡迎一起學(xué)習(xí)交流進(jìn)步!