經(jīng)典機(jī)器學(xué)習(xí)系列之【線性模型與廣義線性模型】

??這一節(jié)我們介紹線性模型押桃,介紹思路如下:我們先介紹概念,什么叫做線性模型羡忘?在了解了基本的線性模型之后磕昼,我們將其應(yīng)用于一元線性回歸,之后擴(kuò)展到多元線性回歸票从。之后我們再將其擴(kuò)展到廣義線性模型。最后通過廣義線性模型遷移到logit回歸(分類問題)中峰鄙。

線性模型基本概念

??線性模型(Linear Model)是在假設(shè)特征滿足線性關(guān)系吟榴,給定一些數(shù)據(jù),需要用這些數(shù)據(jù)訓(xùn)練一個(gè)模型吩翻,并用此模型進(jìn)行預(yù)測。但這個(gè)模型是屬性的線性組合仿野,其函數(shù)形式為:

f(x) = w_{1}x_{2}+w_{2}x_{2} + \cdots w_{n}x_{n}+b

??用向量表示的話脚作,如下所示:

f(x) = w^{T}x+b

??其中的wb是我們需要學(xué)習(xí)的參數(shù)缔刹。一旦wb確定下來劣针,那么這個(gè)模型也就確定下來了。

一元線性回歸

??假定我們現(xiàn)在手頭上有一些訓(xùn)練樣本(x_{1},y_{1})捺典,(x_{2},y_{2})\cdots引谜,(x_{m},y_{m})擎浴。那么我們?nèi)绾蝸碚业揭唤M參數(shù)wb使得構(gòu)建的線性模型能夠很好地表示這組樣本輸入與輸出之間的關(guān)系呢?

??在開始建模之前贮预,我們需要思考一個(gè)問題,什么叫做很好地表示滑频?我們需要將這個(gè)好壞量化一下唤冈。通常我們以范數(shù)作為量化的標(biāo)準(zhǔn)。在這里表示的就是务傲,對于真實(shí)的輸入x_{1},我的預(yù)測輸出y_{pre}與真實(shí)輸出y_{1}之間的誤差看杭。在這里我們以均方差作為度量標(biāo)準(zhǔn)挟伙。

??因此這個(gè)問題就轉(zhuǎn)變?yōu)榱耍覀冃枰乙唤M參數(shù)wb尖阔,能夠使得這些樣本在當(dāng)前模型下的均方誤差最小,用數(shù)學(xué)形式表達(dá)如下所示:

(w^{*},b^{*})=argmin_{w,b} \sum_{i=1}^{m}(y_{i}-wx_{i}-b)

??w^{*},b^{*}表示wb的解谴供。

??基于均方差最小化來進(jìn)行模型求解的方法稱為最小二乘法(least square method)齿坷。在線性回歸問題中数焊,最小二乘法試圖尋找到一條直線崎场,使所有樣本到直線的歐式距離之和最小。

??求解wb使E_{(w,b)}=$$\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}最小化的過程干厚,稱為線性回歸模型的最小二乘“參數(shù)估計(jì)”(parameter estimation)螃宙。

??由于E_{(w,b)}是關(guān)于wb的凸函數(shù),所以對其求偏導(dǎo)數(shù)谆扎,令其偏導(dǎo)數(shù)等于0,所求出來的解即為最優(yōu)解。其偏導(dǎo)數(shù)求解如下所示:

\frac{\partial E_{(w,b)}}{\partial w} = 2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i}-b)x_{i})

\frac{\partial E_{(w,b)}}{\partial b} = 2(mb - \sum_{i=1}^{m}(y_{i}-wx_{i}))

??再令其偏導(dǎo)數(shù)為0周瞎,可得到wb最優(yōu)解的閉式(closed-from)解

w=\frac{\sum_{i=1}^{m}y_{i}(x_{i}-\overline{x})}{\sum_{i=1}^{m}x_{i}^{2}-\frac{1}{m}(\sum_{i=1}^{m}x_{i})^{2}}

??其中\overline{x}=\frac{1}{m}\sum_{i=1}^{m}x_{i}x的均值声诸。

b = \frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i})

??至此,求解完畢彼乌。

多元線性回歸

??在一元回歸問題中,樣本只有一個(gè)屬性灶挟。假設(shè)樣本具有n個(gè)屬性毒租,此時(shí)期望找到一組模型參數(shù)wb,使得f(x_{i})=w^{T}x_{i}+b墅垮,使得函數(shù)輸出f(x_{i})與真實(shí)標(biāo)簽y_{i}越接近越好算色。我們將這類問題稱為多元線性回歸問題(multivariate linear regression),或者叫做多變量線性回歸問題灾梦。

??為了便于討論妓笙,我們把wb組合稱為一個(gè)向量的形式\hat{w}=(w;b)椒楣。與之對應(yīng),樣本集可表示為一個(gè)m \times (d+1)大小的矩陣X淆九。那么每一行都對應(yīng)一個(gè)樣本毛俏。每一行的前d個(gè)元素都表示為當(dāng)前這個(gè)樣本的d個(gè)屬性值。最后這個(gè)元素恒為1煌寇,是方便與參數(shù)\hat{w}中的b相乘,形成偏置項(xiàng)腻脏。樣本輸入的數(shù)學(xué)表達(dá)形式可表示為如下形式:

X=\left(\begin{array}{cccc} {x_{11}} & {x_{12}} & {\cdots} & {x_{1d}} & {1}\\ {x_{21}} & {x_{22}} & {\cdots} & {x_{2d}} & {1}\\ {\vdots} & {\vdots} & {\ddots} & {\vdots} & {\vdots} \\ {x_{m1}} & {x_{m2}} & {\cdots} & {x_{md}}& {1} \end{array}\right)= \left(\begin{array}{cccc} {x_{1}^{T}} & {1} \\ {x_{2}^{T}} & {1} \\ {\vdots} & {\vdots} \\ {x_{m}^{T}} & {1} \end{array}\right)

??將標(biāo)簽以同樣的方式寫成向量的形式有y=(y_{1};y_{2};\cdots;y_{m})永品,令均方誤差最小化,求其最優(yōu)解:

\hat{w}^{*}=argmin_{\hat{w}}(y-X\hat{w})^{T}(y-X\hat{w})

??令E_{\hat{w}}=(y-X\hat{w})^{T}(y-X\hat{w})鼎姐,對\hat{w}求偏導(dǎo)得到如下方程:

\frac{\partial E_{\hat{w}}}{\partial \hat{w}}=2X^{T}(X\hat{w}-y)

X^{T}X可逆

??與一元回歸類似更振,令上式等于0即可求解上述方程。通過觀察不難發(fā)現(xiàn)献宫,上式存在矩陣求逆的情況乎芳,對于X^{T}X滿秩矩陣(full-rank matrix)或正定矩陣(positive definite matrix)時(shí),可求出:

\hat{w}^{*}=(X^{T}X)^{-1}X^{T}y

??令\hat{x_{i}}=(x_{i};1)奈惑,則最終的線性回歸模型可表示為:

f(\hat{x_{i}})=\hat{x}_{i}(X^{T}X)^{-1}X^{T}y

X^{T}X不可逆情況

??如果X^{T}X不可逆,那么此時(shí)可解出多個(gè)\hat{w}寂殉,他們都能使得均方誤差最小化原在。選擇哪一個(gè)解作為輸出彤叉,將由算法的歸納偏好決定村怪,常見的做法是引入正則化(regularization)項(xiàng)。

廣義線性模型

??通常我們把線性回歸模型簡寫為:

f(x)=w^{T}x+b

??那我們能否將模型預(yù)測值逼近真實(shí)標(biāo)簽y的衍生物甚负?例如將樣本標(biāo)簽y的對數(shù)模型作為線性模型逼近的目標(biāo),即:

lny=w^{T}x+b

??這就是對數(shù)線性回歸(log-linear regression)斑举,它實(shí)際上是在試圖讓e^{w^{T}x+b}逼近y病涨。上式形式上是線性回歸,但實(shí)際上已是在求輸入空間到輸出空間的非線性函數(shù)映射既穆。

??更一般的,考慮單調(diào)可微函數(shù)g(·)铲敛,令:

y=g^{-1}(w^{T}x+b)

??這樣得到的模型稱為廣義線性模型(generalized linear model)会钝。我們把函數(shù)g(·)稱為聯(lián)系函數(shù)工三。廣義線性模型的參數(shù)估計(jì)通常通過加權(quán)最小二乘法或極大似然法進(jìn)行。

線性模型之logit回歸

??如何用線性模型做分類俭正?其實(shí)我們自需要找一個(gè)單調(diào)可微函數(shù),將分類任務(wù)的真實(shí)標(biāo)記y與線性回歸模型的預(yù)測值聯(lián)系起來串远。就可以達(dá)到這一點(diǎn)儿惫。你也許會(huì)想到單位階躍函數(shù),將連續(xù)值變換為離散量肾请。但是單位階躍函數(shù)不連續(xù),因此希望找到一個(gè)函數(shù)來替代它铛铁。對數(shù)幾率函數(shù)(logistic function)隔显,是一種Sigmoid函數(shù)能做到這一點(diǎn)。其函數(shù)表達(dá)形式如下所示:

y=\frac{1}{1-e^{-z}}

??對其兩邊取倒數(shù)彪标,再取對數(shù)化簡掷豺,得如下變換形式:

ln\frac{y}{1-y}=w^{T}x+b

??如果將y看作樣本x是正例的可能性,則1-y表示的就是負(fù)例的可能性萌业。兩者的比值表示的就是為正例的相對可能性,再將其取對數(shù)得到對數(shù)幾率(logit)婴程。

??上式用線性回歸模型的預(yù)測結(jié)果去逼近真實(shí)標(biāo)記的對數(shù)幾率抱婉,因此,對應(yīng)的模型稱為對數(shù)幾率回歸蒸绩。但實(shí)際上它是一種分類學(xué)習(xí)方法。在其他地方你可能會(huì)聽到邏輯回歸传蹈,但周志華教授覺得中文“邏輯”與“l(fā)ogistic”和logit的含義想去甚遠(yuǎn)步藕,稱其為“對數(shù)幾率回歸”簡稱“對率回歸”。具有如下優(yōu)點(diǎn):

  1. 無需像貝葉斯那樣假設(shè)數(shù)據(jù)分布咙冗,直接對分類可能性進(jìn)行建模,避免假設(shè)不準(zhǔn)帶來的偏差雾消。
  2. 得到的是一個(gè)概率,比單純的正例或者反例所含的信息量要大狂窑。
  3. 對率回歸求解的目標(biāo)函數(shù)是任意階可導(dǎo)的凸函數(shù)桑腮,具有很好的性質(zhì),現(xiàn)有的許多數(shù)值優(yōu)化算法都可以直接用于求解。

??利用Logistic 回歸進(jìn)行分類的主要思想是:根據(jù)現(xiàn)有數(shù)據(jù)對分類邊界線建立回歸公式巨缘,以此進(jìn)行分類采呐。這里的 “回歸”一詞源于佳擬合,表示要找到佳擬合參數(shù)集斧吐。

極大似然求解logit回歸參數(shù)

??在這一小節(jié),用最大似然法求解logit回歸參數(shù)wb仰冠。極大似然法可在公眾號歷史文章貝葉斯這節(jié)找到蝶糯。

??將樣本x是正例的可能性y看作類后驗(yàn)概率估計(jì)p(y=1|x),則對數(shù)幾率回歸可表示為:

ln\frac{p(y=1|x)}{p(y=0|x)}=w^{T}x+b

??有:

p(y=1|x)=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}}

p(y=0|x)=\frac{1}{1+e^{w^{T}x+b}}

??給定數(shù)據(jù)集\{(x_{i},y_{i})\}_{i=1}^{m}昼捍,對率回歸模型最大化“對數(shù)似然”(log-likehood):

L(w,b)=\sum_{i=1}^{m}lnp(y_{i}|x_{i};w,b)

??令\beta=(w;b)妒茬,\hat{x}=(x;1),則可得到w^{T}x+b的簡寫\beta^{T}\hat{x}乍钻。

??令p_{1}(\hat{x};\beta)$$=p(y=1|\hat{x};\beta)p_{0}(\hat{x};\beta)=p(y=0|\hat{x};\beta)則似然項(xiàng)可寫為:

p(y_{i}|x_{i};w,b)=y_{i}p_{1}(\hat{x};\beta)+(1-y_{i})p_{0}(\hat{x};\beta)

??最大化L(w,b)等價(jià)于最小化:

L(\beta)=\sum_{i=1}^{m}(-y_{i}\beta^{T}\hat{x}_{i}+ln(1+e^{\beta^{T} \hat{x}_{i}}))

??上式是關(guān)于\beta的高階可導(dǎo)連續(xù)凸函數(shù)育拨,可使用牛頓法(凸優(yōu)化中的內(nèi)容)對其求解欢摄。更加詳細(xì)的推導(dǎo)可參考周志華的西瓜書對數(shù)幾率回歸笋粟。

我的微信公眾號名稱:深度學(xué)習(xí)與先進(jìn)智能決策
微信公眾號ID:MultiAgent1024
公眾號介紹:主要研究強(qiáng)化學(xué)習(xí)、計(jì)算機(jī)視覺害捕、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等相關(guān)內(nèi)容吞滞,分享學(xué)習(xí)過程中的學(xué)習(xí)筆記和心得!期待您的關(guān)注裁赠,歡迎一起學(xué)習(xí)交流進(jìn)步!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末绞幌,一起剝皮案震驚了整個(gè)濱河市一忱,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌帘营,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,470評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件问顷,死亡現(xiàn)場離奇詭異薯鼠,居然都是意外死亡择诈,警方通過查閱死者的電腦和手機(jī)出皇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評論 3 392
  • 文/潘曉璐 我一進(jìn)店門郊艘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來荷科,“玉大人纱注,你說我怎么就攤上這事∧” “怎么了?”我有些...
    開封第一講書人閱讀 162,577評論 0 353
  • 文/不壞的土叔 我叫張陵蝎毡,是天一觀的道長氧枣。 經(jīng)常有香客問我,道長便监,這世上最難降的妖魔是什么碳想? 我笑而不...
    開封第一講書人閱讀 58,176評論 1 292
  • 正文 為了忘掉前任胧奔,我火速辦了婚禮,結(jié)果婚禮上葡盗,老公的妹妹穿的比我還像新娘啡浊。我一直安慰自己,他們只是感情好巷嚣,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,189評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著窘拯,像睡著了一般坝茎。 火紅的嫁衣襯著肌膚如雪涤姊。 梳的紋絲不亂的頭發(fā)上嗤放,一...
    開封第一講書人閱讀 51,155評論 1 299
  • 那天次酌,我揣著相機(jī)與錄音恨课,去河邊找鬼岳服。 笑死,一個(gè)胖子當(dāng)著我的面吹牛吊宋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播拖吼,決...
    沈念sama閱讀 40,041評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼腺劣,長吁一口氣:“原來是場噩夢啊……” “哼因块!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,903評論 0 274
  • 序言:老撾萬榮一對情侶失蹤拒名,失蹤者是張志新(化名)和其女友劉穎芋酌,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體脐帝,經(jīng)...
    沈念sama閱讀 45,319評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,539評論 2 332
  • 正文 我和宋清朗相戀三年炸站,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了疚顷。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,703評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡阀坏,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出忌堂,到底是詐尸還是另有隱情误债,我是刑警寧澤浸船,帶...
    沈念sama閱讀 35,417評論 5 343
  • 正文 年R本政府宣布李命,位于F島的核電站,受9級特大地震影響封字,放射性物質(zhì)發(fā)生泄漏耍鬓。R本人自食惡果不足惜阔籽,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,013評論 3 325
  • 文/蒙蒙 一笆制、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧在辆,春花似錦、人聲如沸匆篓。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,664評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至先慷,卻和暖如春谨设,著一層夾襖步出監(jiān)牢的瞬間熟掂,已是汗流浹背扎拣。 一陣腳步聲響...
    開封第一講書人閱讀 32,818評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留誉券,地道東北人刊愚。 一個(gè)月前我還...
    沈念sama閱讀 47,711評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像鸥诽,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子牡借,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,601評論 2 353

推薦閱讀更多精彩內(nèi)容