線性模型

一 線性模型特點(diǎn)

? 形式簡(jiǎn)單胳施、易于建模、具有特別好的可解釋性——權(quán)重大小就直接表示該屬性的重要程度昏名。

二 線性回歸

1. 定義:給定數(shù)據(jù)集D=\left\{ (x_1,y_1),(x_2,y_2),...,(x_m,y_m) \right\} 渠抹,其中x_i=(x_{i1};x_{i2};...;x_{id}),y_i\in R.?“線性回歸”試圖學(xué)習(xí)得一個(gè)線性模型以盡可能準(zhǔn)確地預(yù)測(cè)實(shí)際輸出標(biāo)記。

2. 一元線性回歸:輸入屬性的數(shù)目只有一個(gè)葬项,權(quán)重w是一個(gè)數(shù)泞当。即D=\left\{(x_i,y_i)\right\}_{i=1}^m,x_i\in R.線性回歸試圖學(xué)得f(x_i)=wx_i+b,使得f(x_i)\cong y_i民珍。

3. 線性回歸的主要任務(wù)在于如何確定w和b襟士,這又決定于如何衡量f(x)與y之間的差別——均方誤差是回歸任務(wù)中最常用的性能度量(均方誤差有非常好的幾何意義,對(duì)應(yīng)了常用的歐幾里得距離嚷量,基于均方誤差最小化來(lái)進(jìn)行模型求解的方法稱為“最小二乘法”)陋桂,因此我們可試圖讓均方誤差最小化(找到一條直線,使所有樣本到直線上的歐氏距離之和最械堋)嗜历,即:

(w^*,b^*)=argmin\sum_{i=1}^m(f(x_i)-y_i)^2=argmin\sum_{i=1}^m(y_i-wx_i-b)^2

4. 求解w和b使E_{w,b}=\sum\nolimits_{i=1}^m(y_i-wx_i-b)^2最小化的過(guò)程,稱為線性回歸模型的最小二乘“參數(shù)估計(jì)”抖所。

5. 求解方法:將E_{(w,b)}分別對(duì)w和b求導(dǎo)梨州,并令倒數(shù)為零便可得到w和b最優(yōu)解的閉式解。

\frac{\partial E_{(w,b)}}{\partial w}=\sum_{i=1}^m2*(y_i-wx_i-b)*-x_i=\sum_{i=1}^m2*(wx_i^2+bx_i-y_ix_i)

=2(w\sum_{i=1}^m x_i^2-\sum_{i=1}^m(y_i-b)x_i )

\frac{\partial E_{(w,b)}}{\partial b}=\sum_{i=1}^m2*(y_i-wx_i-b)*-1=\sum_{i=1}^m2*(b-(y_i-wx_i))=2*(\sum_{i=1}^mb-\sum_{i=1}^m(y_i-wx_i) )

=2(mb-\sum_{i=1}^m(y_i-wx_i) )

由于\frac{\partial ^{2} E_{(w,b)}}{\partial w^{2}}=2\sum_{i=1}^mx_i^2>0田轧;\frac{\partial ^{2} E_{(w,b)}}{\partial b^{2}}=2m>0暴匠,在一階倒數(shù)最小處必然取得極小值。令:

\left\{               \begin{array}{**lr**}               w\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i=0, &  \\               mb-\sum_{i=1}^m(y_i-wx_i) =0, &                 \end{array}  \right.  -->\left\{               \begin{array}{**lr**}               w=\frac{\sum_{i=1}^my_i(x_i-\frac{1}{m}\sum_{i=1}^mx_i  ) }{\sum_{i=1}^mx_i^2-\frac{1}{m}(\sum_{i=1}^mx_i )^2  } , &  \\               b =\frac{1}{m}\sum_{i=1}^m(y_i-wx_i)  , &                 \end{array}  \right.

6. 多元線性回歸:樣本由d個(gè)屬性描述涯鲁,多元回歸試圖學(xué)得巷查,使得f(x_i)=w^Tx_i+b,使得f(x_i)\cong y_i抹腿。

7.廣義線性回歸:令線性模型預(yù)測(cè)值逼近y的衍生物岛请,例如對(duì)數(shù)線性回歸lny=w^Tx+b,它試圖讓e^{w^Tx+b}逼近y警绩,形式上仍是線性回歸崇败,但實(shí)質(zhì)上在求取輸入空間到輸出空間的非線性函數(shù)映射。

三 對(duì)數(shù)幾率回歸(邏輯斯蒂回歸)

1. 若要進(jìn)行分類(lèi)肩祥,需要將分類(lèi)任務(wù)的真實(shí)標(biāo)記與線性回歸模型的預(yù)測(cè)值聯(lián)系起來(lái)——通過(guò)一個(gè)單調(diào)可微函數(shù)后室。

2. 考慮二分類(lèi)任務(wù),其輸出標(biāo)記y\in \left\{ 0,1 \right\} 混狠,將線性回歸產(chǎn)生的實(shí)值轉(zhuǎn)換為0/1值岸霹,最理想的是“單位階躍函數(shù)”,即若預(yù)測(cè)值z(mì)大于零就判為正例将饺,小于零則判為反例贡避,預(yù)測(cè)值為臨界值零則可任意判別痛黎。但是該函數(shù)不連續(xù)--->選擇一定程度上近似單位階躍函數(shù)的對(duì)數(shù)幾率函數(shù)——一種“Sigmoid函數(shù)”(形似S的函數(shù))。定義如下:

y=\frac{1}{1+e^{-z}} =\frac{1}{1+e^{w^Tx+b}} ? ? ?--->? ??ln\frac{y}{1-y} =w^Tx+b(對(duì)數(shù)幾率刮吧,用線性模型去逼近真實(shí)標(biāo)記的對(duì)數(shù)幾率)--->對(duì)數(shù)幾率回歸(logit regression/邏輯斯蒂回歸)湖饱,雖然名字是“回歸”,但實(shí)際是一種分類(lèi)學(xué)習(xí)方法杀捻。

3. 對(duì)數(shù)幾率回歸的優(yōu)勢(shì):(1)直接對(duì)分類(lèi)可能性進(jìn)行建模井厌,無(wú)需事先假設(shè)數(shù)據(jù)分布,可避免假設(shè)分布不準(zhǔn)確所帶來(lái)的問(wèn)題致讥;(2)它不是僅預(yù)測(cè)出“類(lèi)別”仅仆,而是可得到近似概率預(yù)測(cè),這對(duì)許多需利用概率輔助決策的任務(wù)很有用垢袱;(3)對(duì)數(shù)幾率函數(shù)是任意階可導(dǎo)的凸函數(shù)蝇恶,有很好的數(shù)學(xué)性質(zhì),現(xiàn)有的許多數(shù)值優(yōu)化算法都可直接用于求取最優(yōu)解惶桐。

4. 模型參數(shù)估計(jì):若將y視為類(lèi)后驗(yàn)概率估計(jì)p(y=1 | x),則2中的式子可重寫(xiě)為:

ln\frac{p(y=1|x)}{p(y=0|x)} =w^Tx+b?--->??\left\{               \begin{array}{**lr**}               p(y=1|x)=\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}} , &  \\               p(y=0|x) =\frac{1}{1+e^{w^Tx+b}} .&                 \end{array}  \right.

(二項(xiàng)邏輯斯蒂回歸模型潘懊,對(duì)于輸入x姚糊,比較兩個(gè)條件概率值的大小,將實(shí)例x分到概率值較大的那一類(lèi))

于是可以通過(guò)“極大似然法”來(lái)估計(jì)w和b授舟。給定數(shù)據(jù)集\left\{ (x_i,y_i) \right\}^m_{i=1} 救恨,對(duì)數(shù)幾率回歸模型最大化“對(duì)數(shù)似然”:l(w,b) = \sum_{i=1}^mlnp(y_i|x_i;w,b),即令每個(gè)樣本屬于真實(shí)標(biāo)記的概率越大越好。

5. 對(duì)數(shù)似然函數(shù)詳細(xì)推導(dǎo):對(duì)于給定的訓(xùn)練數(shù)據(jù)集T=\left\{ (x_1,y_1),(x_2,y_2),...,(x_m,y_m) \right\} 释树,其中x_i\in R^n,y_i\in \left\{ 0,1 \right\} ,對(duì)于單個(gè)樣本x_i肠槽,y_i=1的概率是P(y_i=1|x_i)y_i=0的概率是P(y_i=0|x_i)奢啥,所以對(duì)于單個(gè)樣本應(yīng)該最大化[P(yi=1|x_i)]^{y_i}[P(yi=0|x_i)]^{1-y_i}秸仙,對(duì)于所有m個(gè)樣本其似然函數(shù)為:\prod_{i=1}^m [P(yi=1|x_i)]^{y_i}[P(yi=0|x_i)]^{1-y_i},對(duì)數(shù)似然函數(shù)為

ln\prod_{i=1}^m [P(yi=1|x_i)]^{y_i}[P(yi=0|x_i)]^{1-y_i}
=\sum_{i=1}^mln[ [P(yi=1|x_i)]^{y_i}[P(yi=0|x_i)]^{1-y_i}]

=\sum_{i=1}^m[y_iln [P(y_i=1|x_i)]+ln[P(y_i=0|x_i)]-y_iln[P(y_i=0|x_i)]]

=\sum_{i=1}^m[y_iln\frac{P(y_i=1|x_i)}{P(y_i=0|x_i)}+ln[P(y_i=0|x_i)] ]桩盲,根據(jù)邏輯斯蒂回歸函數(shù)可得以下式子:

=\sum_{i=1}^m[y_i(w^Tx+b)+ln\frac{1}{1+e^{w^Tx+b}} ]

=\sum_{i=1}^m[y_i(w^Tx+b)-ln(1+e^{w^Tx+b})]

則對(duì)上式求極大值便能得到w和b得估計(jì)值寂纪,求極大值通常采用的方法是梯度下降法和擬牛頓法。

6. 多項(xiàng)邏輯斯蒂回歸:多分類(lèi)問(wèn)題中赌结,變量y_i\in \left\{ 1,2,...,K \right\} 捞蛋,那么多項(xiàng)邏輯斯蒂回歸模型是:

\left\{               \begin{array}{**lr**}               p(y=k|x)=\frac{e^{w^Tx+b}}{1+\sum_{k=1}^{K-1} e^{w_k^Tx+b}} ,k=1,2,...,K-1 &  \\               p(y=K|x) =\frac{1}{1+\sum_{k=1}^{K-1}e^{w_k^Tx+b}} .&                 \end{array}  \right.

二項(xiàng)邏輯斯蒂回歸的參數(shù)估計(jì)方法也可以推廣到多項(xiàng)邏輯斯蒂回歸。

備注:《機(jī)器學(xué)習(xí)》第3章筆記柬姚,《統(tǒng)計(jì)學(xué)習(xí)方法》第6章拟杉。

四 感知機(jī)

1. 定義:假設(shè)輸入空間(特征向量)是\chi \in R^n,輸出空間是y=\left\{ +1,-1\right\}量承。輸入x\in \chi 表示實(shí)例的特征向量搬设,對(duì)應(yīng)于輸入空間(特征空間)的點(diǎn)穴店;輸出y\in y表示實(shí)例的類(lèi)別。由輸入空間到輸出空間的如下函數(shù)稱為感知機(jī):

f(x)=sign(wx+b)焕梅,w為權(quán)值迹鹅,b為偏置。

2. 感知機(jī)學(xué)習(xí)目標(biāo):求得一個(gè)能夠?qū)⒂?xùn)練集正實(shí)例點(diǎn)和負(fù)實(shí)例點(diǎn)完全分開(kāi)的分離超平面贞言。

3. 感知機(jī)學(xué)習(xí)策略(損失函數(shù)):誤分類(lèi)點(diǎn)到超平面S的總距離最小斜棚。

1)輸入空間中任一點(diǎn)x_0到超平面S到距離:\frac{1}{\left\|w\right\|_2} \vert wx_0+b \vert

2)誤分類(lèi)點(diǎn)x_i到超平面S的距離:-\frac{1}{\left\|w\right\|_2} y_i(wx_i+b)该窗;

3)所有M個(gè)誤分類(lèi)點(diǎn)到超平面S的總距離:-\frac{1}{\left\|w\right\|_2}\sum_{x_i\in M} y_i(wx_i+b)弟蚀;

4)不考慮常數(shù)項(xiàng),感知機(jī)學(xué)習(xí)的損失函數(shù)(經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)):L(w,b)=-\sum_{x_i\in M} y_i(wx_i+b)酗失。

5)感知機(jī)的學(xué)習(xí)策略:在假設(shè)空間中選取使該損失函數(shù)最小的模型參數(shù)义钉。

4. 感知機(jī)學(xué)習(xí)算法:求解損失函數(shù)最優(yōu)化問(wèn)題-->隨機(jī)梯度下降。首先规肴,任意選取一個(gè)超平面w_0,b_0捶闸,然后采用梯度下降法不斷地極小化目標(biāo)函數(shù),極小化過(guò)程中不是一次使M中所有誤分類(lèi)點(diǎn)的梯度下降拖刃,而是一次隨機(jī)選取一個(gè)誤分類(lèi)點(diǎn)使其梯度下降删壮。感知機(jī)算法存在許多解,這些解既依賴于初值的選擇兑牡,也依賴于迭代過(guò)程中誤分類(lèi)點(diǎn)的選擇順序央碟。為了得到唯一的超平面,需要對(duì)分離超平面增加約束條件-->線性支持向量機(jī)均函。

備注:《統(tǒng)計(jì)學(xué)習(xí)方法》第2章筆記亿虽。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市苞也,隨后出現(xiàn)的幾起案子洛勉,更是在濱河造成了極大的恐慌,老刑警劉巖如迟,帶你破解...
    沈念sama閱讀 216,544評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件坯认,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡氓涣,警方通過(guò)查閱死者的電腦和手機(jī)牛哺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)劳吠,“玉大人引润,你說(shuō)我怎么就攤上這事⊙魍妫” “怎么了淳附?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,764評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵议慰,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我奴曙,道長(zhǎng)别凹,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,193評(píng)論 1 292
  • 正文 為了忘掉前任洽糟,我火速辦了婚禮炉菲,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘坤溃。我一直安慰自己拍霜,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布薪介。 她就那樣靜靜地躺著祠饺,像睡著了一般。 火紅的嫁衣襯著肌膚如雪汁政。 梳的紋絲不亂的頭發(fā)上道偷,一...
    開(kāi)封第一講書(shū)人閱讀 51,182評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音记劈,去河邊找鬼试疙。 笑死,一個(gè)胖子當(dāng)著我的面吹牛抠蚣,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播履澳,決...
    沈念sama閱讀 40,063評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼嘶窄,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了距贷?” 一聲冷哼從身側(cè)響起柄冲,我...
    開(kāi)封第一講書(shū)人閱讀 38,917評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎忠蝗,沒(méi)想到半個(gè)月后现横,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,329評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡阁最,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評(píng)論 2 332
  • 正文 我和宋清朗相戀三年戒祠,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片速种。...
    茶點(diǎn)故事閱讀 39,722評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡姜盈,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出配阵,到底是詐尸還是另有隱情馏颂,我是刑警寧澤示血,帶...
    沈念sama閱讀 35,425評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站救拉,受9級(jí)特大地震影響难审,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜亿絮,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評(píng)論 3 326
  • 文/蒙蒙 一告喊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧壹无,春花似錦葱绒、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,671評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至岖是,卻和暖如春帮毁,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背豺撑。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,825評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工烈疚, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人聪轿。 一個(gè)月前我還...
    沈念sama閱讀 47,729評(píng)論 2 368
  • 正文 我出身青樓爷肝,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親陆错。 傳聞我的和親對(duì)象是個(gè)殘疾皇子灯抛,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容