商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)——回歸

0. 主要概念及其定義

  • 最小二乘法準(zhǔn)則
    min \sum (y_i - \hat{y}_i)^2
  • 誤差平方和
    SSE = \sum (y_i - \hat{y}_i)^2
  • 總平方和
    SST = \sum (y_i - \bar{y}) ^2
  • 回歸平方和
    SSR = \sum (\hat{y}_i - \bar{y})^2
  • SST,SSR,SSE 之間的關(guān)系
    SST = SSE+SSR
  • 判定系數(shù)
    R^2 = \frac{SSR}{SST} = 1- \frac{SSE}{SST} = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{ \sum (y_i - \bar{y}) ^2}
    如果我們用一個(gè)百分比來(lái)表示判定系數(shù)耍贾,則 r^2 可以理解為總平方和中能被估計(jì)的回歸方程解釋的百分比。也即應(yīng)變量的變異性有多少百分比能被回歸方程所解釋。
  • 修正多元判定系數(shù)
    R_{\alpha } = 1 - (1- R^2)\frac{n-1}{n-p-1}
    其中责嚷,n代表觀測(cè)值的數(shù)目莱睁,p表示自變量的數(shù)目。
  • 樣本相關(guān)系數(shù)
    r_{xy} = (b_1的符號(hào))\sqrt{判定系數(shù)} = (b_1的符號(hào))\sqrt{R^2}
    其中 b_1 為估計(jì)的回歸方程 \hat{y} = b_0 + b_1x 的斜率颁虐。
    在兩變量之間存在一個(gè)線性關(guān)系的情況下蛮原,判定系數(shù)和樣本相關(guān)系數(shù)都給出了它們之間線性關(guān)系強(qiáng)度的度量。但是樣本相關(guān)系數(shù)被限制在兩變量之間存在線性關(guān)系的情況另绩,而判定系數(shù)對(duì)非線性關(guān)系以及有兩個(gè)或兩個(gè)以上自變量的相關(guān)關(guān)系都適用儒陨。

1. 簡(jiǎn)單線性回歸

含有一個(gè)自變量和一個(gè)應(yīng)變量花嘶,并且兩個(gè)變量之間的關(guān)系用一條直線近似的回歸分析。

1.2 模型的假定

關(guān)于回歸模型 y = \beta_0 + \beta_1x + \epsilon 的誤差項(xiàng) \epsilon 的假定

  1. 誤差項(xiàng) \epsilon 是一個(gè)平均值或者期望值為零的隨機(jī)變量蹦漠,即 E(\epsilon) = 0椭员。
    這就意味著,因?yàn)?\beta_0\beta_1 都是常數(shù)笛园,所以有 E(\beta_0) = \beta_0E(\beta_1) = \beta_1隘击;于是,對(duì)于一個(gè)給定的 x 值研铆,y 的期望是 E(y) = \beta_0 + \beta_1x
  2. 對(duì)所有的 x 值埋同,\epsilon 的方差都是相同的,用 \sigma^2 表示方差棵红。
    這就意味著凶赁,y 關(guān)于回歸直線的方差等于 \sigma^2,也就是說(shuō)逆甜,對(duì)于所有的 x虱肄,y 的方差都是相等的。
  3. \epsilon 的值是相互獨(dú)立的忆绰。
    這就意味著浩峡,對(duì)于一個(gè)特定的 x 值,它所對(duì)應(yīng)的 \epsilon 值與任何其他的 x 值所對(duì)應(yīng)的 \epsilon 值不相關(guān)错敢。
  4. 對(duì)所有的 x 值翰灾,誤差項(xiàng) \epsilon 是一個(gè)正態(tài)分布的隨機(jī)變量。
    這就意味著稚茅,因?yàn)?y\epsilon 的一個(gè)線性函數(shù)纸淮,所以對(duì)所有的 x 值,y 也是一個(gè)正態(tài)分布的隨機(jī)變量亚享。

1.3 顯著性檢驗(yàn)

對(duì)于簡(jiǎn)單線性回歸模型 y = \beta_0 + \beta_1x + \epsilon咽块,如果 xy 之間存在一個(gè)線性關(guān)系,則必須有 \beta_1 \neq 0欺税。顯著性檢驗(yàn)的目的就是我們能否斷定 \beta_1 \neq 0侈沪。

1.3.1 \sigma^2 的估計(jì)

殘差平方和 SSE 是實(shí)際觀測(cè)值關(guān)于估計(jì)的回歸直線變異性的度量,SSE 除以它的自由度晚凿,得到的均方誤差 MSE\sigma^2的一個(gè)估計(jì)量亭罪。為了計(jì)算 SSE,必須估計(jì)兩個(gè)參數(shù) \beta_0\beta_1歼秽,所以 SSE 的自由度為 n-2应役。
s^2 = MSE = \frac{SSE}{n-2}

1.3.2 t 檢驗(yàn)

建立原假設(shè)和備擇假設(shè)
H_0: \beta_1 = 0 \\ H_\alpha: \beta_1 \neq 0
檢驗(yàn)統(tǒng)計(jì)量
t = \frac{b_1}{s_{b_1}}
拒絕法則
p值法:如果 p\leqslant \alpha,則拒絕 H_0
臨界值法:如果 t\leqslant -t_{\alpha / 2}或者t\geqslant t_{\alpha / 2},則拒絕 H_0
其中箩祥,t_{\alpha/2} 為自由度 n-2t 分布上側(cè)的面積為 \alpha /2 時(shí)對(duì)應(yīng)的 t 值院崇。

b_1 的抽樣分布

  • 期望值
    E(b_1) = \beta_1
  • 標(biāo)準(zhǔn)差
    \sigma_{b_{1}} = \frac{\sigma }{\sqrt{\sum (x_i - \bar{x})^2}}
  • 分布形式:正態(tài)分布
  • 估計(jì)的標(biāo)準(zhǔn)差
    s_{b_{1}} = \frac{s }{\sqrt{\sum (x_i - \bar{x})^2}}
1.3.3 \beta_1 的置信區(qū)間

b_1 \pm t_{\alpha/2}s_{b_{1}}
其中,b_1\beta_1 的點(diǎn)估計(jì)量袍祖;t_{\alpha/2}s_{b_{1}} 為邊際誤差底瓣。t_{\alpha/2} 為自由度 n-2t 分布上側(cè)的面積為 \alpha /2 時(shí)對(duì)應(yīng)的 t 值。我們可以利用置信區(qū)間對(duì) \beta_1 進(jìn)行任何雙側(cè)假設(shè)檢驗(yàn)盲泛,如果 \beta_1 的假設(shè)值包括在置信區(qū)間里濒持,則不拒絕 H_0键耕,否則寺滚,拒絕 H_0

1.3.4 F 檢驗(yàn)

建立原假設(shè)和備擇假設(shè)
H_0: \beta_1 = 0 \\ H_\alpha: \beta_1 \neq 0
檢驗(yàn)統(tǒng)計(jì)量
F = \frac{MSR}{MSE}
拒絕法則
p值法:如果 p\leqslant \alpha屈雄,則拒絕 H_0
臨界值法:如果 F\geqslant F_{\alpha }村视,則拒絕 H_0
其中,F_{\alpha} 為分子自由度 1酒奶,分母自由為 n-2 時(shí)蚁孔,使 F 分布上側(cè)的面積為 \alpha 時(shí)對(duì)應(yīng)的 F 值,MSR 的計(jì)算公式如下:
MSR = \frac{SSR}{回歸自由度} = \frac{SSR}{自變量的個(gè)數(shù)}

如果 H_0 不成立惋嚎,MSE 仍然是 \sigma^2 的一個(gè)無(wú)偏估計(jì)量杠氢,而 MSR 會(huì)高估 \sigma^2;如果 H_0 成立另伍,MSEMSR 都是 \sigma^2 的無(wú)偏估計(jì)量鼻百,在這種情況下,{MSR}/{MSE} 應(yīng)接近于 1摆尝。

簡(jiǎn)單線性回歸 ANOVA 的一般形式:

方差來(lái)源 平方和 自由度 均方 F p-值
回歸 SSR 1 MSR = \frac{SSR}{1} \frac{MSR}{MSE}
誤差 SSE n-2 MSE = \frac{SSE}{n-2}
總計(jì) SST n-1

1.4 應(yīng)用估計(jì)的回歸方程進(jìn)行估計(jì)和預(yù)測(cè)

1.4.1 y 的平均值的置信區(qū)間

置信區(qū)間:對(duì)于一個(gè)給定的 x 值温艇,y 的平均值的區(qū)間估計(jì)。
\hat{y}^* \pm t_{\alpha /2}s_{\hat{y}^*}
其中堕汞,1- \alpha 為置信系數(shù)勺爱,t_{\alpha/2} 為自由度 n-2t 分布上側(cè)的面積為 \alpha /2 時(shí)對(duì)應(yīng)的 t 值。估計(jì)值 \hat{y}^* 的標(biāo)準(zhǔn)差的計(jì)算公式:
s_{\hat{y}^*} = s\sqrt{\frac{1}{n}+\frac{(x^* - \bar{x})^2}{\sum (x_i - \bar{x})^2}}
當(dāng) x^*=\bar{x} 時(shí)讯检,就能得到 y 的平均值最佳或是最精確的估計(jì)量琐鲁;當(dāng) x^* 偏離 \bar{x} 愈遠(yuǎn),差 x^* - \bar{x} 就變得愈大人灼,y 的平均值的置信區(qū)間就變得愈寬围段。

1.4.2 y 的一個(gè)個(gè)別值的預(yù)測(cè)區(qū)間

預(yù)測(cè)區(qū)間:對(duì)于一個(gè)給定的 x 值,y 的一個(gè)個(gè)別值的區(qū)間估計(jì)挡毅。
\hat{y}^* \pm t_{\alpha /2}s_{spred}
其中蒜撮,1- \alpha 為置信系數(shù),t_{\alpha/2} 為自由度 n-2t 分布上側(cè)的面積為 \alpha /2 時(shí)對(duì)應(yīng)的 t 值。估計(jì)值 \hat{y}^* 的標(biāo)準(zhǔn)差的計(jì)算公式:
s_{spred} = s\sqrt{1 +\frac{1}{n}+\frac{(x^* - \bar{x})^2}{\sum (x_i - \bar{x})^2}}

1.5 殘差分析

1.2 中段磨,我們對(duì)誤差項(xiàng) \epsilon 做了 4 項(xiàng)假定取逾,殘差分析是確定誤差項(xiàng) \epsilon 是否成立的重要步驟。
殘差圖主要有以下 4 種:

  1. 關(guān)于自變量 x 的值的殘差圖苹支。
  2. 關(guān)于應(yīng)變量的預(yù)測(cè)值 \hat{y} 的殘差圖砾隅。
  3. 標(biāo)準(zhǔn)化殘差圖。
  4. 正態(tài)概率圖债蜜。
1.5.1 關(guān)于自變量 x 的值的殘差圖

第一個(gè)坐標(biāo)為 x_i晴埂,第二個(gè)坐標(biāo)為對(duì)應(yīng)的第 i 個(gè)殘差 y_i - \hat{y}_i 的值。
如果模型滿(mǎn)足殘差的假定寻定,則所有散點(diǎn)都應(yīng)落在一條水平帶中間儒洛。

1.5.2 關(guān)于\hat{y} 的殘差圖

第一個(gè)坐標(biāo)為 \hat{y}_i,第二個(gè)坐標(biāo)為對(duì)應(yīng)的第 i 個(gè)殘差 y_i - \hat{y}_i 的值狼速。
如果模型滿(mǎn)足殘差的假定琅锻,則所有散點(diǎn)都應(yīng)落在一條水平帶中間。

關(guān)于$\hat{y}$ 的殘差圖

1.5.3 標(biāo)準(zhǔn)化殘差圖
  • i 個(gè)殘差的標(biāo)準(zhǔn)差
    s_{y_i - \hat{y}_i} = s\sqrt{1-h_i} \tag{1.53-1}
    其中向胡,s_{y_i - \hat{y}_i} 代表第 i 個(gè)殘差的標(biāo)準(zhǔn)差恼蓬,s 代表估計(jì)的標(biāo)準(zhǔn)誤差。h_i 被稱(chēng)為第 i 次觀測(cè)的杠桿率:
    h_i = \frac{1}{n}+\frac{(x_i - \bar{x})^2}{\sum (x_i-\bar{x})^2} \tag{1.53-2}
    表示的是某一個(gè)自變量的觀測(cè)值和所有觀測(cè)值的平均值之間距離遠(yuǎn)近的度量僵芹。

  • i 次觀測(cè)的標(biāo)準(zhǔn)化誤差
    \frac{y_i - \hat{y}_i}{s_{y_i - \hat{y}_i}} \tag{1.53-3}

如果模型滿(mǎn)足殘差的假定处硬,標(biāo)準(zhǔn)化殘差分布也應(yīng)該服從一個(gè)標(biāo)準(zhǔn)正態(tài)概率分布。大約 95\% 的標(biāo)準(zhǔn)化殘差應(yīng)介于 -2\sim +2拇派。

1.5.4 正態(tài)概率圖

正態(tài)概率圖 (Normal Probability Plot) 用于檢查一組數(shù)據(jù)是否服從正態(tài)分布荷辕,如果該組數(shù)據(jù)服從正態(tài)分布,則正態(tài)概率圖會(huì)是一條直線攀痊。
QQ-Plot (Quantile-Quantile Plot)用來(lái)判斷樣本是否近似服從某種分布桐腌,或驗(yàn)證兩組數(shù)據(jù)是否來(lái)至同一分布。

  • 正態(tài)分?jǐn)?shù)
    假設(shè)從一個(gè)平均值為 0苟径,標(biāo)準(zhǔn)差為 1 的標(biāo)準(zhǔn)正態(tài)概率分布中隨機(jī)地抽取 n 個(gè)數(shù)值案站,并將這一抽樣過(guò)程反復(fù)進(jìn)行,然后把每個(gè)樣本中的 n 個(gè)數(shù)值進(jìn)行排序棘街,則每個(gè)順序上的一組值對(duì)應(yīng)的期望值被稱(chēng)為正態(tài)分?jǐn)?shù)蟆盐,排序上的第 i 個(gè)正態(tài)分?jǐn)?shù)被稱(chēng)為 i 階順序統(tǒng)計(jì)量。

用水平軸表示正態(tài)分?jǐn)?shù)遭殉,用縱軸表示對(duì)應(yīng)的標(biāo)準(zhǔn)化殘差(即也按照從小到大進(jìn)行排序石挂,然后一一對(duì)應(yīng)的值)所做的散點(diǎn)圖。如果模型滿(mǎn)足殘差的假定险污,則這些散點(diǎn)應(yīng)密集圍繞在通過(guò)坐標(biāo)軸原點(diǎn)的 45° 直線附近痹愚。

正態(tài)概率圖

1.5.5 異常值和有影響的觀測(cè)值
  • 異常值
    可通過(guò)標(biāo)準(zhǔn)化殘差圖來(lái)看富岳,如果標(biāo)準(zhǔn)化殘差小于 -2 或者大于 +2,則 Minitab 會(huì)將該值標(biāo)注為異常值(數(shù)據(jù)被單獨(dú)打印拯腮,最后帶 R)窖式。
  • 有影響的觀測(cè)值
    自變量是極端值的觀測(cè)值被稱(chēng)為高杠桿率點(diǎn),如果杠桿率 h_i > min\{6/n, 0.99\}动壤,則 Minitab 會(huì)將該值標(biāo)注為具有高杠桿率的觀測(cè)值(數(shù)據(jù)被單獨(dú)打印萝喘,最后帶 X
    有影響的觀測(cè)值是由于大的殘差和高杠桿率的交互作用而產(chǎn)生的。

2. 多元回歸

包含兩個(gè)或兩個(gè)以上自變量的回歸分析琼懊。

2.1 模型的假定

關(guān)于多元回歸模型 y = \beta_0 + \beta_1x_1 + \cdots + \beta_px_p + \epsilon 的誤差項(xiàng) \epsilon 的假定

  1. 誤差項(xiàng) \epsilon 是一個(gè)平均值或者期望值為零的隨機(jī)變量阁簸,即 E(\epsilon) = 0
    這就意味著哼丈,對(duì)于一個(gè)給定的 x_1, x_2, \cdots, x_p 的值启妹,y 的期望是 E(y) = \beta_0 + \beta_1x_1 + \cdots + \beta_px_p
  2. 對(duì)所有的 x_1, x_2, \cdots, x_p 值,\epsilon 的方差都是相同的削祈,用 \sigma^2 表示方差翅溺。
    這就意味著,y 關(guān)于回歸線的方差等于 \sigma^2髓抑。
  3. \epsilon 的值是相互獨(dú)立的。
    這就意味著优幸,對(duì)于自變量 x_1, x_2, \cdots, x_p 的一組特定的值吨拍,它所對(duì)應(yīng)的 \epsilon 值與任何其他組 x_1, x_2, \cdots, x_p 值所對(duì)應(yīng)的 \epsilon 值不相關(guān)。
  4. 誤差項(xiàng) \epsilon 是一個(gè)服從正態(tài)分布的隨機(jī)變量网杆。
    這就意味著生棍,對(duì)所有的 x_1, x_2, \cdots, x_p 值宋梧,y 也是一個(gè)正態(tài)分布的隨機(jī)變量。

2.2 顯著性檢驗(yàn)

  1. F 檢驗(yàn)用于確定在應(yīng)變量和所有自變量之間是否存在一個(gè)顯著性的關(guān)系,F 檢驗(yàn)也稱(chēng)為總體的顯著性檢驗(yàn)框杜。
  2. 如果 F 檢驗(yàn)已經(jīng)表明了模型總體的顯著性,那么 t 檢驗(yàn)用來(lái)確定每一個(gè)單個(gè)的自變量是否為一個(gè)顯著性的自變量搬设。對(duì)模型中每一個(gè)單獨(dú)的自變量竭沫,都要單獨(dú)的進(jìn)行 t 檢驗(yàn)。
2.2.1 總體顯著性的 F 檢驗(yàn)

建立原假設(shè)和備擇假設(shè)
H_0: \beta_1 = \beta_2 = \cdots = \beta_p = 0 \\ H_\alpha: 至少有一個(gè)參數(shù)不等于零
檢驗(yàn)統(tǒng)計(jì)量
F = \frac{MSR}{MSE}
拒絕法則
p值法:如果 p\leqslant \alpha关噪,則拒絕 H_0
臨界值法:如果 F\geqslant F_{\alpha }鸟蟹,則拒絕 H_0
其中,F_{\alpha} 為分子自由度 pp 為自變量的個(gè)數(shù))使兔,分母自由為 n-p-1 時(shí)建钥,使 F 分布上側(cè)的面積為 \alpha 時(shí)對(duì)應(yīng)的 F 值,MSR,MSE 的計(jì)算公式如下:
MSR = \frac{SSR}{回歸自由度} = \frac{SSR}{自變量的個(gè)數(shù)} = \frac{SSR}{p}
MSE = \frac{SSE}{誤差自由度} = \frac{SSE}{n - p - 1}

如果 H_0 不成立虐沥,MSE 仍然是 \sigma^2 的一個(gè)無(wú)偏估計(jì)量熊经,而 MSR 會(huì)高估 \sigma^2;如果 H_0 成立,MSEMSR 都是 \sigma^2 的無(wú)偏估計(jì)量镐依,在這種情況下悉盆,{MSR}/{MSE} 應(yīng)接近于 1

具有 p 個(gè)自變量的多元回歸模型的 ANOVA 表:

方差來(lái)源 平方和 自由度 均方 F p-值
回歸 SSR p MSR = \frac{SSR}{p} \frac{MSR}{MSE}
誤差 SSE n-p -1 MSE = \frac{SSE}{n-p-1}
總計(jì) SST n-1
2.2.2 單個(gè)參數(shù)顯著性的 t 檢驗(yàn)

建立原假設(shè)和備擇假設(shè):對(duì)于任一個(gè)參數(shù) \beta_i
H_0: \beta_i = 0 \\ H_\alpha: \beta_i \neq 0
檢驗(yàn)統(tǒng)計(jì)量
t = \frac{b_i}{s_{b_i}}
拒絕法則
p值法:如果 p\leqslant \alpha馋吗,則拒絕 H_0
臨界值法:如果 t\leqslant -t_{\alpha / 2}或者t\geqslant t_{\alpha / 2}焕盟,則拒絕 H_0
其中,t_{\alpha/2} 為自由度 n-p - 1t 分布上側(cè)的面積為 \alpha /2 時(shí)對(duì)應(yīng)的 t 值宏粤;s_{b_i}b_i 標(biāo)準(zhǔn)差的估計(jì)脚翘。

2.3 多重共線性

在多元回歸分析中,我們把自變量之間的相關(guān)性稱(chēng)為多重共線性绍哎。
在對(duì)單個(gè)參數(shù)的顯著性進(jìn)行 t 檢驗(yàn)時(shí)来农,由于多重共線性帶來(lái)的困難是:當(dāng)多元回歸方程總體顯著性的 F 檢驗(yàn)表明有一個(gè)顯著的關(guān)系時(shí),我們可能得出單個(gè)參數(shù)沒(méi)有一個(gè)是顯著的不同于零的結(jié)論崇堰。只有當(dāng)變量之間的相關(guān)性非常小時(shí)沃于,才有可能回避這個(gè)問(wèn)題。如果兩個(gè)變量之間的樣本相關(guān)系數(shù)的絕對(duì)值大于 0.7海诲,多重共線性有可能成為一個(gè)潛在的問(wèn)題繁莹。

2.4 分類(lèi)變量的處理

如果一個(gè)分類(lèi)變量有 k 個(gè)水平,那么需要定義 k-1 個(gè)虛擬變量特幔,每一個(gè)虛擬變量或者取值為 0咨演, 或者取值為 1

2.5 殘差分析

殘差圖與簡(jiǎn)單線性回歸一致蚯斯。

2.5.1 學(xué)生化刪除殘差

假設(shè)從數(shù)據(jù)集中刪除第 i 次觀測(cè)值薄风,利用其余的 n-1 次觀測(cè)值建立一個(gè)新的估計(jì)的回歸方程,設(shè) s_{(i)} 表示從數(shù)據(jù)集中刪除了第 i 次觀測(cè)值后得到的估計(jì)的標(biāo)準(zhǔn)誤差拍嵌,如果我們計(jì)算第 i 次觀測(cè)的殘差的標(biāo)準(zhǔn)差遭赂,用 s_{(i)} 代替 1.53-1 中的 s,那我們?cè)谟?jì)算第 i 次觀測(cè)的標(biāo)準(zhǔn)化殘差時(shí)横辆,1.53-3 利用了 s_{y_i - \hat{y}_i} 的修正值撇他,這樣得到的標(biāo)準(zhǔn)化殘差稱(chēng)為學(xué)生化刪除殘差。如果第 i 次觀測(cè)值是一個(gè)異常值龄糊,那么 s_{(i)} 將小于 s逆粹。所以,第 i 次觀測(cè)的學(xué)生化刪除殘差的絕對(duì)值將大于標(biāo)準(zhǔn)化殘差的絕對(duì)值炫惩。所以僻弹,學(xué)生化刪除殘差可以檢測(cè)出標(biāo)準(zhǔn)化殘差不能檢測(cè)出的異常值。

2.5.2 有影響的觀測(cè)值

Minitab 中判定準(zhǔn)則是 h_i > 3(p+1)/n
有時(shí)候僅根據(jù)杠桿率來(lái)識(shí)別有影響的觀測(cè)值他嚷,可能導(dǎo)致錯(cuò)誤的結(jié)論蹋绽,因此芭毙,引出 庫(kù)克距離測(cè)度(Cook's distance measure)
D_i = \frac{(y_i - \hat{y}_i)^2}{(p+1)s^2}\left [ \frac{h_i}{(1-h_i)^2} \right ]
其中,D_i 代表第 i 次觀測(cè)的庫(kù)克距離測(cè)度卸耘,y_i - \hat{y}_i 代表第 i 次觀測(cè)的殘差退敦,h_i 代表第 i 次觀測(cè)的杠桿率,p 代表自變量的個(gè)數(shù)蚣抗,s 代表估計(jì)的標(biāo)準(zhǔn)誤差侈百。
作為經(jīng)驗(yàn)準(zhǔn)則,如果 D_i > 1翰铡,則表明第 i 次觀測(cè)值是一個(gè)有影響的觀測(cè)值钝域。

3. Logistic 回歸

3.1 回歸方程

E(y) = \frac{e^{\beta_0 + \beta_1x_1 + \cdots + \beta_px_p }}{1 + e^{\beta_0 + \beta_1x_1 + \cdots + \beta_px_p }} \tag{3.01-1}
如果應(yīng)變量 y 的值被賦值為 0 或者 1,那么在自變量 x_1, x_2, \cdots, x_p 的一組特定值已知的條件下锭魔,式 (3.01-1)E(y) 的值給出了 y=1 的概率例证。所以式 (3.01-1) 又可以寫(xiě)成
E(y) = P(y=1|x_1, x_2, \cdots, x_p) \tag{3.01-2}

3.2 估計(jì)的 logistic 回歸方程

\hat{y} = P(y=1|x_1, x_2, \cdots, x_p) 的估計(jì) = \frac{e^{b_0 + b_1x_1 + \cdots + b_px_p }}{1 + e^{b_0 + b_1x_1 + \cdots + b_px_p }}\tag{3.01-3}
式中,\hat{y} 是在自變量 x_1, x_2, \cdots, x_p 的一組特定值已知時(shí)迷捧,給出了 y=1 的概率织咧。

3.3 顯著性檢驗(yàn)

3.3.1 總體的顯著性的 G 檢驗(yàn)

建立原假設(shè)和備擇假設(shè)
H_0: \beta_1 = \beta_2 = \cdots = \beta_p = 0 \\ H_\alpha: 至少有一個(gè)參數(shù)不等于零
檢驗(yàn)統(tǒng)計(jì)量為 G 統(tǒng)計(jì)量。如果原假設(shè)成立漠秋,則 G 統(tǒng)計(jì)量的抽樣分布為服從自由度等于模型中自變量的個(gè)數(shù)的 \chi^2分布笙蒙。

3.3.2 單個(gè)參數(shù)顯著性的 z 檢驗(yàn)

如果 G 檢驗(yàn)表明模型的總體是顯著的,則可以利用 z 檢驗(yàn)來(lái)確定每一個(gè)單個(gè)自變量對(duì)模型總體是否有顯著的作用膛堤。
建立原假設(shè)和備擇假設(shè):對(duì)于任一個(gè)參數(shù) \beta_i
H_0: \beta_i = 0 \\ H_\alpha: \beta_i \neq 0
如果原假設(shè)成立手趣,則估計(jì)的系數(shù) b_i 除以它的標(biāo)準(zhǔn)差 s_{b_i} 后,得到的結(jié)果 z_i = b_i / s_{b_i} 為一服從標(biāo)準(zhǔn)正態(tài)分布的統(tǒng)計(jì)量肥荔。

3.4 解釋 logistic 回歸方程

  • 有利于一個(gè)事件發(fā)生的機(jī)會(huì)比 (odds in favor of an event occurring)
    事件將要發(fā)生的概率與該事件將不會(huì)發(fā)生的概率的比。在自變量的一組特定值已知時(shí)朝群,有利于事件 y=1 發(fā)生的機(jī)會(huì)比可以按照下式計(jì)算:
    機(jī)會(huì)比 = \frac{P(y=1|x_1, x_2, \cdots, x_p) }{P(y=0|x_1, x_2, \cdots, x_p) } = \frac{P(y=1|x_1, x_2, \cdots, x_p) }{1- P(y=1|x_1, x_2, \cdots, x_p) }
  • 機(jī)會(huì)比率 (odds ratio)
    度量一組自變量中只有一個(gè)自變量增加了一個(gè)單位時(shí)燕耿,對(duì)機(jī)會(huì)比的影響。即當(dāng)給定的一組自變量中的一個(gè)自變量增加了一個(gè)單位時(shí)姜胖,y=1 的機(jī)會(huì)比 (odds_1) 除以該組自變量的值都沒(méi)有變化時(shí)誉帅,y=1 的機(jī)會(huì)比 (odds_0)
    機(jī)會(huì)比率 = \frac{odds_1}{odds_0}
  • 機(jī)會(huì)比率和回歸系數(shù)之間的關(guān)系
    一個(gè)變量的機(jī)會(huì)比率和它所對(duì)應(yīng)的回歸系數(shù)之間存在一個(gè)唯一的關(guān)系:
    機(jī)會(huì)比率 = e^{\beta_i}

當(dāng)自變量變化一個(gè)單位,而所有其他的自變量都保持不變時(shí)右莱,一個(gè)自變量的機(jī)會(huì)比率描述了該自變量機(jī)會(huì)比的變化蚜锨。當(dāng)一個(gè)自變量的變化大于 1 個(gè)單位時(shí)(比如 c 個(gè)單位),對(duì)應(yīng)的估計(jì)的機(jī)會(huì)比率是
機(jī)會(huì)比率 = e^{c \beta_i}

一般來(lái)說(shuō)慢蜓,機(jī)會(huì)比率使我們能夠比較兩個(gè)不同事件的機(jī)會(huì)比亚再,如果機(jī)會(huì)比率的值是 1,那么兩個(gè)事件的機(jī)會(huì)比是相同的晨抡。如果自變量對(duì)事件發(fā)生的概率有一個(gè)正的影響氛悬,那么對(duì)應(yīng)的機(jī)會(huì)比率將大于 1则剃。

3.5 對(duì)數(shù)機(jī)會(huì)比(logit)變換

有利于 y=1 的機(jī)會(huì)比的自然對(duì)數(shù)是自變量的線性函數(shù)
ln(odds) = \beta_0 + \beta_1x_1 + \cdots + \beta_px_p
這個(gè)線性函數(shù)稱(chēng)為對(duì)數(shù)機(jī)會(huì)比(logit),用符號(hào) g(x_1, x_2, \cdots, x_p) 表示對(duì)數(shù)機(jī)會(huì)比:
g(x_1, x_2, \cdots, x_p) = \beta_0 + \beta_1x_1 + \cdots + \beta_px_p

4. 建立模型

4.1 確定什么時(shí)候增加或者刪除變量

考慮以下含有 q(q<p) 個(gè)自變量的多元回歸模型:
y = \beta_0 + \beta_1x_1 + \cdots + \beta_qx_q + \epsilon
如果增加自變量 x_{q+1}, x_{q+2}, \cdots, x_p 到這個(gè)模型上如捅,得到含有 p 個(gè)自變量的多元回歸模型
y = \beta_0 + \beta_1x_1 + \cdots + \beta_qx_q + \beta_{q+1}x_{q+1} + \beta_{q+2}x_{q+2} + \cdots + \beta_px_p + \epsilon
為了檢驗(yàn)增加的自變量 x_{q+1}, x_{q+2}, \cdots, x_p 是否在統(tǒng)計(jì)上是顯著的棍现,提出如下原假設(shè)和備擇假設(shè):
H_0: \beta_{q+1} = \beta_{q+2} = \cdots = \beta_p = 0 \\ H_\alpha: 參數(shù) \beta_{q+1}, \beta_{q+2} , \cdots , \beta_p 中至少有一個(gè)參數(shù)不等于零
計(jì)算檢驗(yàn)統(tǒng)計(jì)量
F = \frac{\frac{SSE(x_1, x_2,\cdots, x_q) - SSE(x_1, x_2,\cdots, x_q, x_{q+1},\cdots x_p)}{p-q}}{\frac{SSE(x_1, x_2,\cdots, x_q, x_{q+1},\cdots x_p)}{n-p-1}}
簡(jiǎn)化形式
F = \frac{\frac{SSE(簡(jiǎn)化) - SSE(完全)}{增加的項(xiàng)數(shù)}}{MSE(完全)} = \frac{\frac{SSR(簡(jiǎn)化) - SSR(完全)}{增加的項(xiàng)數(shù)}}{MSE(完全)}
拒絕法則
p值法:如果 p\leqslant \alpha,則拒絕 H_0
臨界值法:如果 F\geqslant F_{\alpha }镜遣,則拒絕 H_0
其中己肮,F_{\alpha} 為分子自由度 p-q,分母自由為 n-p-1 時(shí)悲关,使 F 分布上側(cè)的面積為 \alpha 時(shí)對(duì)應(yīng)的 F 值谎僻。

4.2 變量選擇方法

4.2.1 逐步回歸法

逐步回歸方法的每一步,首先要考慮的是查看一下是否有哪個(gè)自變量能從當(dāng)前的模型中被刪除坚洽,如果沒(méi)有一個(gè)變量能從模型中被刪除戈稿,則查看是否有哪個(gè)不在當(dāng)前模型中的自變量能增加到模型里來(lái)。判斷的標(biāo)準(zhǔn)即是 F 檢驗(yàn)讶舰。停止條件為沒(méi)有自變量能從模型中被刪除且沒(méi)有自變量能進(jìn)入到模型里來(lái)鞍盗。

4.2.2 前向選擇法

前向選擇方法從模型中沒(méi)有自變量開(kāi)始,使用與逐步回歸方法為了確定一個(gè)變量是否應(yīng)該進(jìn)入模型同樣的程序來(lái)增加變量跳昼,并且每次只能增加一個(gè)變量般甲。需要注意的是,一個(gè)變量一旦加入到模型中鹅颊,前向選擇方法就不允許這個(gè)變量從模型中刪除敷存。停止條件為當(dāng)不在模型中每一個(gè)自變量的 p-值全都大于 "Alpha\, to\, enter" (即顯著性水平閾值)。

4.2.3 后向消元法

后向消元法從包含所有自變量的模型開(kāi)始堪伍,使用與逐步回歸方法為了確定一個(gè)變量是否應(yīng)該從模型中刪除同樣的程序來(lái)刪除變量锚烦,并且每次只能刪除一個(gè)變量。需要注意的是帝雇,一個(gè)變量一旦從模型中刪除涮俄,后向消元法就不允許這個(gè)變量重新再進(jìn)入模型。停止條件為當(dāng)模型中自變量的 p-值沒(méi)有一個(gè)大于 "Alpha\, to\, remove" (即顯著性水平閾值)尸闸。
:前向選擇法和后向消元法可能得出不同的模型彻亲。

4.2.4 最佳子集回歸法

暫略

4.3 試驗(yàn)設(shè)計(jì)的多元回歸方法

4.3.1 完全隨機(jī)化實(shí)驗(yàn)

包含 A,B,C,D 四種處理的一個(gè)完全隨機(jī)化設(shè)計(jì),可以考慮如下的多元回歸方程:

x_1 x_2 x_3 處理
0 0 0 處理 A
1 0 0 處理 B
0 1 0 處理 C
0 0 1 處理 D

E(y) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_3

4.3.2 析因?qū)嶒?yàn)

因素 A2 水平吮廉,因素 B3 水平的兩因素設(shè)計(jì)苞尝,可以考慮如下的多元回歸方程:
因素 A:如果水平 1,則 x_1 = 0宦芦;如果水平 2宙址,則 x_1 = 1,因素 B

x_2 x_3 水平
0 0 1
1 0 2
0 1 3

E(y) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2 + \beta_4x_1x_3

4.4 自相關(guān)性和杜賓-瓦特森檢驗(yàn)

  • 自相關(guān)性
    當(dāng)模型誤差項(xiàng)在連續(xù)時(shí)間點(diǎn)上相關(guān)時(shí)踪旷,在誤差項(xiàng)中出現(xiàn)的相關(guān)性曼氛。
    如果 yt 時(shí)期的值依賴(lài)于 yt-1 時(shí)期的值豁辉,則稱(chēng)數(shù)據(jù)中存在一階自相關(guān)性;如果 yt 時(shí)期的值依賴(lài)于 yt-2 時(shí)期的值舀患,則稱(chēng)數(shù)據(jù)中存在二階自相關(guān)性徽级,等等。

回歸模型的假定之一是模型的誤差項(xiàng)是獨(dú)立的聊浅,當(dāng)數(shù)據(jù)存在自相關(guān)性時(shí)餐抢,違背了這一假定。因此低匙,檢測(cè)出自相關(guān)性的存在并作出適當(dāng)?shù)男拚种匾?/p>

杜賓-瓦特森檢驗(yàn) (Durbin-Watson test) 的檢驗(yàn)統(tǒng)計(jì)量
d = \frac{\sum_{i=2}^{n}(e_i-e_{i-1})^2}{\sum_{i=1}^{n}e_i^2}
其中旷痕,e_i = y_i - \hat{y},表示第 i 個(gè)殘差顽冶。

  • 修正措施
    如果顯著的自相關(guān)性被識(shí)別出來(lái)欺抗,應(yīng)考慮假設(shè)的回歸模型是否遺漏了一個(gè)或幾個(gè)重要的自變量,而這些自變量對(duì)應(yīng)變量有顯著的時(shí)序影響强重。如果沒(méi)有這樣的自變量被識(shí)別出來(lái)绞呈,則可以在模型中引入一個(gè)度量觀測(cè)次數(shù)的自變量(例如,對(duì)于第一次觀測(cè)间景,這個(gè)變量的值可以為 1佃声,對(duì)于第二次觀測(cè),這個(gè)變量的值可以為 2倘要,等等)圾亏。當(dāng)這些嘗試不起作用時(shí),再考慮對(duì)應(yīng)變量或者自變量進(jìn)行適當(dāng)?shù)淖儞Q可能是有幫助的封拧。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末志鹃,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子泽西,更是在濱河造成了極大的恐慌弄跌,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件尝苇,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡埠胖,警方通過(guò)查閱死者的電腦和手機(jī)糠溜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)直撤,“玉大人非竿,你說(shuō)我怎么就攤上這事∧笔” “怎么了红柱?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵承匣,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我锤悄,道長(zhǎng)韧骗,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任零聚,我火速辦了婚禮袍暴,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘隶症。我一直安慰自己政模,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布蚂会。 她就那樣靜靜地躺著淋样,像睡著了一般。 火紅的嫁衣襯著肌膚如雪胁住。 梳的紋絲不亂的頭發(fā)上趁猴,一...
    開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音措嵌,去河邊找鬼躲叼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛企巢,可吹牛的內(nèi)容都是我干的枫慷。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼浪规,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼或听!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起笋婿,我...
    開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤誉裆,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后缸濒,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體足丢,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年庇配,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了斩跌。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡捞慌,死狀恐怖耀鸦,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情啸澡,我是刑警寧澤袖订,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布氮帐,位于F島的核電站,受9級(jí)特大地震影響洛姑,放射性物質(zhì)發(fā)生泄漏上沐。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一吏口、第九天 我趴在偏房一處隱蔽的房頂上張望奄容。 院中可真熱鬧,春花似錦产徊、人聲如沸昂勒。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)戈盈。三九已至,卻和暖如春谆刨,著一層夾襖步出監(jiān)牢的瞬間塘娶,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工痊夭, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留刁岸,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓她我,卻偏偏與公主長(zhǎng)得像虹曙,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子番舆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 計(jì)量經(jīng)濟(jì)學(xué)筆記 1.計(jì)量經(jīng)濟(jì)學(xué)的性質(zhì) 1.橫截面數(shù)據(jù): 在給定時(shí)間點(diǎn)對(duì)一系列單位采集樣本構(gòu)成的數(shù)據(jù)集, 如: 某天...
    地平線上的背影閱讀 18,954評(píng)論 2 17
  • 本節(jié)主要包括: 在這里先給大家普及一個(gè)單詞 aftermath 創(chuàng)傷酝碳!真的是,恨狈,疏哗,學(xué)完實(shí)變函數(shù)心靈受到了極大的創(chuàng)傷...
    Vector_Wan閱讀 4,473評(píng)論 1 4
  • 六月的晨,清新如每個(gè)季節(jié)有陽(yáng)光的日子禾怠,純凈而寧?kù)o返奉,似我此時(shí)淡雅的心思。 雖然因?yàn)槟_扭傷的原因吗氏,而我又極似父親的性格...
    余夢(mèng)人生閱讀 173評(píng)論 1 6
  • 時(shí)間是一襲華美的袍衡瓶,上面爬滿(mǎn)了虱子。 猶記得牲证,當(dāng)年的步行街及周邊商業(yè),像是這個(gè)城市的標(biāo)桿和時(shí)髦的代名詞关面。合肥坦袍,20...
    藍(lán)心蕙質(zhì)閱讀 162評(píng)論 0 0
  • 一十厢、概念 Virtual DOM 是一個(gè)映射真實(shí)DOM的Javascript對(duì)象,如果需要改變?nèi)魏卧氐臓?..
    secondWorld閱讀 198評(píng)論 0 0