[機器學(xué)習(xí)算法]線性回歸模型

基本形式

給定包含m條記錄的數(shù)據(jù)集D

D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}
線性回歸模型試圖學(xué)習(xí)一個線性模型以盡可能地預(yù)測因變量y

f(x)=w_1x_1+w_2x_2+...+w_px_p+b

多元線性回歸的假設(shè)

同大多數(shù)算法一樣绍撞,多元線性回歸的準(zhǔn)確性也基于它的假設(shè)正勒,在符合假設(shè)的情況下構(gòu)建模型才能得到擬合效果較好的表達(dá)式和統(tǒng)計性質(zhì)較優(yōu)的估計參數(shù)。

  • 誤差項\epsilon是一個期望值為零的隨機變量傻铣,即E(\epsilon)=0
  • \epsilon的方差是相同的章贞,即\sigma^2=VAR(\epsilon)
  • \epsilon的值是相互獨立的
  • \epsilon是一個服從正態(tài)分布的隨機變量

參數(shù)估計

將線性表達(dá)式寫為向量形式:

f(x)=w^Tx+b
利用最小二乘法令均方誤差最小化:

\hat{w}^*=\min_{\hat{w}}(y-X\hat{w})^T(y-X\hat{w})

\hat{w}^*=(X^TX)^{-1}X^Ty

注:當(dāng)線性回歸模型存在多重共線性問題時,可能會有多組解使得均方誤差最小化非洲,常見的解決方法是引入正則化鸭限。

線性回歸模型的變形

1.對數(shù)線性回歸

對數(shù)線性回歸本質(zhì)上仍然是線性回歸模型,只是我們將因變量的對數(shù)作為模型新的因變量:

ln y=w^Tx+b

2.廣義線性模型

當(dāng)數(shù)據(jù)集不適合用傳統(tǒng)的多元線性回歸方法擬合時两踏,我們可以考慮對因變量做一些合理的變換败京。最常用的就是對數(shù)線性回歸,還有很多其他的變換統(tǒng)稱為“廣義線性模型”generalized linear model

y=g^{-1}(w^Tx+b)
其中g(·)是單調(diào)可微函數(shù)梦染。

顯著性檢驗

在一元線性回歸中赡麦,我們可以根據(jù)因變量和因變量的圖像來檢驗是否符合線性關(guān)系。在多元線性回歸中無法用圖形幫助判斷E(Y)是否隨X_1,X_2,...,X_p作線性變化帕识,因此顯著性檢驗就顯得尤為重要泛粹。檢驗包括單個/多個回歸系數(shù)的顯著性檢驗和回歸方程的整體顯著性檢驗。

1.回歸系數(shù)的顯著性檢驗

對于任意一個參數(shù)\beta_i渡冻,構(gòu)造原假設(shè)與備擇假設(shè):
H_0:\beta_i=0;H_1:\beta_i\neq 0
當(dāng)H_0成立時戚扳,我們構(gòu)造t統(tǒng)計量:
T_j=\frac{\hat\beta_j}{\hat\sigma \sqrt{c_{jj}}} \sim t(n-p-1)
其中c_{jj}C(X^TX)^{-1}的對角線上第j個元素。給定顯著性水平\alpha族吻,檢驗的拒絕域為:
|T_j|\geq t_{\alpha/2}(n-p-1)

2.回歸方程的顯著性檢驗

構(gòu)造原假設(shè):
H_0:\beta_0=\beta_1=...=\beta_p=0
備擇假設(shè)即\beta_i不全為零帽借,當(dāng)原假設(shè)成立時,構(gòu)造F統(tǒng)計量:
F=\frac{MSR}{MSE}=\frac{SSR/p}{SSE/(n-p-1)}\sim F(p,n-p-1)
其中SSR=\sum_{i=1}^{n}(\hat y_i - \bar y)^2,SSE=\sum_{i=1}^{n}(y_i-\hat y_i)^2超歌,通常我們將前者稱為回歸平方和砍艾,后者稱為殘差平方和。給定顯著性水平\alpha巍举,檢驗的拒絕域為:
F > F_{\alpha}(p,n-p-1)

我們常使用R^2=\frac{SSR}{SST}來衡量回歸直線對觀測值的擬合程度脆荷,SST=\sum_{i=1}^{n}(y_i-\bar y)^2表示總體利差平方和,這個思想和回歸方程的整體顯著性檢驗殊途同歸懊悯。

參數(shù)區(qū)間估計

\beta的統(tǒng)計性質(zhì)可知:
T_i=\frac{\beta_i - \beta}{sd(\hat \beta_i)} \sim t(n-p-1)
因此\beta_i的區(qū)間估計可寫為:
\Big[ \hat \beta_i - sd(\hat \beta_i)t_{\alpha /2(n-p-1)}, \hat \beta_i + sd(\hat \beta_i)t_{\alpha /2(n-p-1)} \Big]

Reference

[1] 統(tǒng)計建模與R軟件
[2] 商務(wù)與經(jīng)濟統(tǒng)計

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蜓谋,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子炭分,更是在濱河造成了極大的恐慌桃焕,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,402評論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件捧毛,死亡現(xiàn)場離奇詭異观堂,居然都是意外死亡让网,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評論 3 392
  • 文/潘曉璐 我一進店門师痕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來溃睹,“玉大人,你說我怎么就攤上這事胰坟∫蚱” “怎么了?”我有些...
    開封第一講書人閱讀 162,483評論 0 353
  • 文/不壞的土叔 我叫張陵腕铸,是天一觀的道長惜犀。 經(jīng)常有香客問我,道長狠裹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,165評論 1 292
  • 正文 為了忘掉前任汽烦,我火速辦了婚禮涛菠,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘撇吞。我一直安慰自己俗冻,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,176評論 6 388
  • 文/花漫 我一把揭開白布牍颈。 她就那樣靜靜地躺著迄薄,像睡著了一般。 火紅的嫁衣襯著肌膚如雪煮岁。 梳的紋絲不亂的頭發(fā)上讥蔽,一...
    開封第一講書人閱讀 51,146評論 1 297
  • 那天,我揣著相機與錄音画机,去河邊找鬼冶伞。 笑死,一個胖子當(dāng)著我的面吹牛步氏,可吹牛的內(nèi)容都是我干的响禽。 我是一名探鬼主播,決...
    沈念sama閱讀 40,032評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼荚醒,長吁一口氣:“原來是場噩夢啊……” “哼芋类!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起界阁,我...
    開封第一講書人閱讀 38,896評論 0 274
  • 序言:老撾萬榮一對情侶失蹤侯繁,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后铺董,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體巫击,經(jīng)...
    沈念sama閱讀 45,311評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡禀晓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,536評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了坝锰。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片粹懒。...
    茶點故事閱讀 39,696評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖顷级,靈堂內(nèi)的尸體忽然破棺而出凫乖,到底是詐尸還是另有隱情,我是刑警寧澤弓颈,帶...
    沈念sama閱讀 35,413評論 5 343
  • 正文 年R本政府宣布帽芽,位于F島的核電站,受9級特大地震影響翔冀,放射性物質(zhì)發(fā)生泄漏导街。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,008評論 3 325
  • 文/蒙蒙 一纤子、第九天 我趴在偏房一處隱蔽的房頂上張望搬瑰。 院中可真熱鬧,春花似錦控硼、人聲如沸泽论。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽翼悴。三九已至,卻和暖如春幔妨,著一層夾襖步出監(jiān)牢的瞬間鹦赎,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評論 1 269
  • 我被黑心中介騙來泰國打工陶冷, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留钙姊,地道東北人。 一個月前我還...
    沈念sama閱讀 47,698評論 2 368
  • 正文 我出身青樓埂伦,卻偏偏與公主長得像煞额,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子沾谜,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,592評論 2 353

推薦閱讀更多精彩內(nèi)容