線(xiàn)性回歸

總結(jié)

線(xiàn)性回歸是有監(jiān)督學(xué)習(xí)里最常見(jiàn)也是最簡(jiǎn)單的一種形式线罕，可以分為一元線(xiàn)性回歸和多元線(xiàn)性回歸者铜，適用情況為 $Y$ 是連續(xù)型數(shù)據(jù)宛蚓， $X$ 為任意數(shù)據(jù)寄摆。內(nèi)容主要分為：基本思想逝她，參數(shù)估計(jì)及解讀，假設(shè)檢驗(yàn)（模型整體顯著性窿凤、單個(gè)變量顯著性仅偎、擬合優(yōu)度檢驗(yàn)），模型診斷與改進(jìn)雳殊，模型選擇（確定邊界橘沥，確定信仰，選擇計(jì)算方法）夯秃。

基本思想

真實(shí)模型： $Y=f(X)+\varepsilon$
- $Y$ 和 $f(X)$ 有誤差座咆，即 $\varepsilon$ ，是除了自變量 $X$ 之外對(duì) $Y$ 有影響的因素仓洼，絕對(duì)不可少介陶，有隨機(jī)性。 $\varepsilon$ 是不可觀(guān)測(cè)的色建，被稱(chēng)為random error哺呜。
- 不能忽略隨機(jī)誤差，如果沒(méi)有它箕戳，就變成了一個(gè)確定的函數(shù)某残，沒(méi)有不確定性，而統(tǒng)計(jì)學(xué)就是研究不確定性陵吸。
- 的形式是多種多樣的玻墅，是確定性的或系統(tǒng)性的。
  - $f(X)=E(Y|X)$ 被稱(chēng)為回歸函數(shù)壮虫，沒(méi)有不確定性澳厢。
  - 一個(gè) $X$ 有可能對(duì)應(yīng)多個(gè) $Y$ ，所以不可能算出一個(gè)確切的 $Y$ 囚似， $f(X)$ 是 $E(Y|X)$ 剩拢。
真實(shí)模型未知，參數(shù)方法中需要假設(shè)形式并進(jìn)行估計(jì)谆构。線(xiàn)性回歸在估計(jì)之前對(duì)模型做了一個(gè)基本假定裸扶，即 $f(X)=\beta_0+\beta_1X_1+...+\beta_pX_p$ 框都，故線(xiàn)性回歸模型為：
$Y=f(X)+\varepsilon=\beta_0+\beta_1X_1+...+\beta_pX_p+\varepsilon$
- 真實(shí)的模型大概率不是這樣子的搬素，但并不妨礙我們使用它呵晨。
- $\beta_0,\beta_1,...,\beta_p$ ：未知的回歸系數(shù)，需要根據(jù)樣本數(shù)據(jù)估計(jì)并解讀熬尺。
- $\varepsilon$ ：誤差摸屠，不可觀(guān)測(cè)。
估計(jì)未知參數(shù)：
- 目標(biāo)找到離所有點(diǎn)都近的一條直線(xiàn)
- 即殘差平方和最辛缓摺： $\sum_{i=1}^n(Y_i-\hat{\beta}_0-\hat{\beta}_1X_1-...-\hat{\beta}_pX_p)^2=\sum_{i=1}^ne_i^2$ 最小季二，得到參數(shù)的估計(jì)量，其中 $e_i$ 即為 $\varepsilon_i$ 的估計(jì)量揭措，即殘差胯舷。
- 即最小二乘估計(jì)OLS
之后再進(jìn)行假設(shè)檢驗(yàn)，模型診斷與改進(jìn)绊含，模型選擇等等步驟桑嘶。

參數(shù)估計(jì)

一元線(xiàn)性回歸

一元線(xiàn)性回歸： $Y=\beta_0+\beta_1X_1+\varepsilon$
基本假設(shè)（保證參數(shù)估計(jì)量具有良好性質(zhì)）：
- 自變量 $X$ 是確定的，不是隨機(jī)變量
- 隨機(jī)誤差 $\varepsilon$ 零均值躬充，同方差逃顶，無(wú)序列相關(guān)性，即
  $E(\varepsilon_i)=0\ \ \ \ i=1,2,...,n$
  $Var(\varepsilon_i)=\sigma^2\ \ \ \ i=1,2,...,n\\$
  $Cov(\varepsilon_i\varepsilon_j)=0\ \ \ \ i\ne j,i,j=1,2,...n$
- 隨機(jī)誤差項(xiàng) $\varepsilon$ 與 $X$ 不相關(guān)充甚，即
  $Cov(X_i,\varepsilon_i)=0$
- $\varepsilon$ 服從正態(tài)分布以政，即
  $\varepsilon\sim N(0,\sigma^2)\ \ \ i=1,2,...,n$

以上四個(gè)假設(shè)被稱(chēng)為線(xiàn)性回歸模型的經(jīng)典假設(shè)或高斯假設(shè)，滿(mǎn)足該假設(shè)的線(xiàn)性回歸模型稱(chēng)為經(jīng)典線(xiàn)性回歸模型
參數(shù)估計(jì)核心思想：找到一條直線(xiàn)讓所有的點(diǎn)都靠近這條直線(xiàn)伴找，大家好才是真的好盈蛮，即找到所有的點(diǎn)都直線(xiàn)在 $Y$ 軸的距離的平方和最小。

參數(shù)估計(jì)的核心思想

參數(shù)估計(jì)方法：即最小二乘法Ordinary least squares
$\min\sum_{i=1}^n(Y_i-\hat{Y}_i)^2=\min\sum_{i=1}^n(Y_i-\hat{\beta}_0-\hat{\beta}_1X_1)^2=\min e_i^2$
$\begin{cases} \sum(\hat{\beta}_0+\hat{\beta}_1X_i-Y_i)=0\\ \sum(\hat{\beta}_0+\hat{\beta}_1X_i-Y_i)X_i=0 \end{cases}$
$\begin{cases} \hat{\beta}_1=\frac{\sum(X_i-\bar{X})(Y_i-\bar{Y})}{\sum(X_i-\bar{X})^2}\\ \hat{\beta}_0=\bar{Y}-\hat{\beta}_1\bar{X} \end{cases}$

其中：殘差 $e_i=Y_i-\hat{Y}_i=\hat{\varepsilon}_i$ 技矮，是隨機(jī)誤差 $\varepsilon$ 的估計(jì)量眉反，代表這條直線(xiàn)擬合程度的好壞，如果其平方都比較大穆役，說(shuō)明擬合的不好寸五，點(diǎn)離直線(xiàn)比較遠(yuǎn)，所以最小化的量其實(shí)就是最小化殘差平方和耿币。
參數(shù)估計(jì)量的統(tǒng)計(jì)性質(zhì)：BLUE
- 線(xiàn)性性：即是另一隨機(jī)變量的線(xiàn)性函數(shù)
- 無(wú)偏性：即 $E(\hat{\beta}_j)=\beta_j$
- 有效性：即在所有線(xiàn)性無(wú)偏估計(jì)量中方差最小
- 上述三個(gè)準(zhǔn)則也被稱(chēng)為估計(jì)量的小樣本性質(zhì)梳杏，具備以上性質(zhì)的估計(jì)量是最佳線(xiàn)性無(wú)偏估計(jì)量，即Best Linear Unbiased Estimator,BLUE淹接。
- 若滿(mǎn)足經(jīng)典線(xiàn)性回歸假設(shè)十性，最小二乘估計(jì)是BLUE的，即具有最小方差的線(xiàn)性無(wú)偏估計(jì)量塑悼。
- 也具有一致性/相合性劲适，即隨著樣本量增大，參數(shù)估計(jì)值逐漸趨近于真實(shí)值厢蒜。
參數(shù)估計(jì)量的精度評(píng)估：標(biāo)準(zhǔn)誤
- standard error of an estimator reflects how it varies under repeated sampling
- 首先霞势，需要明確一點(diǎn)： $\hat{\beta}_0,\hat{\beta}_1$ 本質(zhì)也是隨機(jī)變量烹植，因?yàn)椴煌瑪?shù)據(jù)求出來(lái)的 $\hat{\beta}_0,\hat{\beta}_1$ 是不一樣的，所以求隨機(jī)變量標(biāo)準(zhǔn)誤愕贡，也可以理解為標(biāo)準(zhǔn)差草雕。關(guān)于標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)差的關(guān)系可以看這里：標(biāo)準(zhǔn)誤VS標(biāo)準(zhǔn)差
- 一元情況：
  $SE(\hat{\beta}_1)=\frac{\sigma^2}{\sum_{i=1}^n(X_i-\bar{X}^2)}$
  $SE(\hat{\beta}_0)=\sigma^2[\frac{1}{n}+\frac{\bar{X}^2}{\sum_{i=1}^n(X_i-\bar{X})^2}]$
  $置信區(qū)間：[\hat{\beta}_1-1.96SE(\hat{\beta}_1),\hat{\beta}_1+1.96SE(\hat{\beta}_1)]$
- 系數(shù)估計(jì)精度：標(biāo)準(zhǔn)誤 $\longrightarrow$ 置信區(qū)間，區(qū)間反映精度固以，區(qū)間大墩虹，精度不高。注意 $Var(\varepsilon)=\sigma^2$ 也是不知道的憨琳，需要進(jìn)行估計(jì)才能計(jì)算出上述兩個(gè)標(biāo)準(zhǔn)誤和置信區(qū)間诫钓。

多元線(xiàn)性回歸

多元線(xiàn)性回歸：
$Y=\beta_0+\beta_1X_1+...+\beta_pX_p+\varepsilon=X\beta+\varepsilon$

基本假設(shè)：
- 零均值，即 $E(\varepsilon)=0$ 篙螟，其中 $\varepsilon=(\varepsilon_1,...,\varepsilon_n)^T$
- 同方差和無(wú)序列相關(guān)尖坤，即 $Var(\varepsilon)=E\{[\varepsilon-E(\varepsilon)][\varepsilon-E(\varepsilon)]^T\}=E(\varepsilon\varepsilon^T)=\sigma^2I$
- 正態(tài)性： $\varepsilon\sim N(0,\sigma^2I_n)$
- 隨機(jī)誤差項(xiàng) $\varepsilon$ 與自變量相互獨(dú)立，即 $E(X^T\varepsilon)=0$
- 無(wú)多重共線(xiàn)性闲擦，即 $X$ 列滿(mǎn)秩慢味， $rank(X)=p$
參數(shù)估計(jì)：
- 基本思想和方法都類(lèi)似：最小二乘法
- 計(jì)算：
  $\min \sum_{i=1}^n(Y_i-\hat{Y}_i)^2=\min\sum_{i=1}^ne_i^2$
  $\min e^Te=\min(Y-X\hat{\beta})^T(Y-X\hat{\beta})$
  $\min (Y^TY-\hat{\beta}^TX^TY-Y^TX\hat{\beta}+\hat{\beta}^TX^TX\hat{\beta})$
  $\frac{\partial Q(\hat{\beta})}{\partial\hat{\beta}}=-2X^TY+2X^TX\hat{\beta}=0$
  $X^TXY\hat{\beta}=X^TY\ \ \ 正則方程\\ \hat{\beta}=(X^TX)^{-1}X^TY$
參數(shù)估計(jì)統(tǒng)計(jì)量的性質(zhì)：在線(xiàn)性模型經(jīng)典假設(shè)下，參數(shù)的最小二乘估計(jì)量是線(xiàn)性無(wú)偏估計(jì)中方差最小的估計(jì)量BLUE估計(jì)量墅冷。
注意此時(shí)系數(shù) $\beta_j$ 的解釋：控制其他變量不變纯路，即average effect on Y of a one unit increase in $X_j$ holding all other predictors fixed, but predictors usually change together寞忿。即雖然解釋上說(shuō)是控制其他變量不變驰唬，但是一般做不到，變量之間一般多多少少都有一點(diǎn)相關(guān)腔彰，此時(shí)系數(shù)的方差會(huì)增加叫编。比如體重和身高影響對(duì)足球運(yùn)動(dòng)員的影響，體重和身高一般是有關(guān)系的霹抛。

假設(shè)檢驗(yàn)

為什么做假設(shè)檢驗(yàn)搓逾？
- 因?yàn)樵诰€(xiàn)性回歸中非常關(guān)心真實(shí)的參數(shù) $\beta$ 是否為0或者是某個(gè)具體的數(shù)字。0告訴我們?cè)诳刂破渌蛩氐那疤嵯拢?img class="math-inline" src="https://math.jianshu.com/math?formula=X_j" alt="X_j" mathimg="1">和 $Y$ 是相關(guān)還是不相關(guān)杯拐。雖然最小二乘估計(jì)的結(jié)果不會(huì)為0霞篡，但是這個(gè)非0的 $\hat{\beta}$ 的非0特征是如何產(chǎn)生的，是真的 $X$ 和 $Y$ 不相關(guān)還是測(cè)量誤差產(chǎn)生的端逼，不知道朗兵，所以要做假設(shè)檢驗(yàn)。
假設(shè)檢驗(yàn)主要有：方程整體顯著性檢驗(yàn)顶滩，擬合優(yōu)度檢驗(yàn)余掖，單個(gè)變量的顯著性檢驗(yàn)。
看檢驗(yàn)結(jié)果的順序
- 先看F檢驗(yàn)的P值是不是小于0.05礁鲁，如果是盐欺，說(shuō)明至少一個(gè)自變量對(duì)因變量有顯著影響
- 然后再看 $R^2$ 赁豆，即整體的擬合優(yōu)度
- 最后再看每個(gè)系數(shù)的顯著性，及其如何解讀找田，解讀的含義
舉例：測(cè)量身高（此時(shí)假設(shè)身高可正可負(fù)）
- 真實(shí)身高：參數(shù) $\beta$
- 尺子的測(cè)量結(jié)果：統(tǒng)計(jì)量 $\hat{\beta}=1.7$ （尺子：最小二乘估計(jì)）
- 尺子的精度：標(biāo)準(zhǔn)誤standard error歌憨，即 $\hat{\beta}$ 的標(biāo)準(zhǔn)差着憨， $SE$ 越大墩衙，說(shuō)明誤差越大，尺子的精度就越差甲抖。
- 問(wèn)題核心： $\beta$ 和 $\hat{\beta}$ 的差異與尺子的精度進(jìn)行比較漆改。SE之前說(shuō)過(guò)也是一個(gè)位置的參數(shù)，需要估計(jì)准谚，所以實(shí)際用的是 $\hat{SE}$ 挫剑。
- 假設(shè)檢驗(yàn)原假設(shè)和備擇假設(shè)： $H_0:\beta=\beta_0\ v.s.\ H_1:\beta\ne \beta_0$
- 構(gòu)造統(tǒng)計(jì)量
  - t統(tǒng)計(jì)量值很大，說(shuō)明 $\hat{\beta}-\beta_0$ 的差異很大柱衔，大到?jīng)]有辦法用尺子的測(cè)量誤差來(lái)解釋?zhuān)f(shuō)明兩者之間的差異就是很大樊破，所以拒絕原假設(shè)，否則接受原假設(shè)唆铐。接受原假設(shè)是基于現(xiàn)有的證據(jù)無(wú)法推翻原假設(shè)哲戚，但沒(méi)有說(shuō)原假設(shè)就是對(duì)的，只是沒(méi)有辦法拒絕艾岂。
  - 假設(shè)檢驗(yàn)的過(guò)程從來(lái)不支持原假設(shè)顺少，只是沒(méi)有辦法拒絕。但是此時(shí)要做一個(gè)決策王浴，保守的脆炎，就是接受原假設(shè)。

平方和分解

$SST=\sum_{i=1}^{n}(Y_i-\bar{Y}_i)^2$ 氓辣，sum of squares total秒裕，總平方和。有點(diǎn)像 $Y_i$ 的方差钞啸，是樣本觀(guān)測(cè)值與樣本均值的離差簇爆，與最小二乘估計(jì)無(wú)關(guān)，反映因變量 $Y$ 整個(gè)變異性有多大爽撒，即variability入蛆。變異性越大，包含的信息越多硕勿。
$ESS=SSR=\sum_{i=1}^n(\hat{Y}_i-\bar{Y})^2$ 哨毁，回歸平方和。即樣本回歸擬合值域觀(guān)測(cè)值的平均值之差的平方和源武，可以由回歸直線(xiàn)解釋的部分扼褪。
- ESS：explained sum of squares想幻，回歸平方和。
- SSR：sum of squares regression话浇，回歸平方和
$RSS=SSE=\sum_{i=1}^n(Y_i-\hat{Y}_i)^2$ 脏毯，sum of squared residuals，殘差平方和幔崖。即實(shí)際觀(guān)測(cè)值與回歸擬合值之差的平方和食店，是回歸直線(xiàn)不能解釋的部分。
- RSS：residual sum of squares赏寇，殘差平方和吉嫩。
- SSE：sum of squared residuals，殘差平方和嗅定。
- 殘差 $e_i=\hat{\varepsilon}_i$ 的方差 $\hat{\sigma}^2$ 的無(wú)偏估計(jì)： $\hat{\sigma}^2=\frac{1}{n-p-1}(Y_i-\hat{Y_i})^2=\frac{SSE}{n-p-1}$ 自娩，其中 $n-p-1$ 為調(diào)整系數(shù)， $p$ 是自變量的個(gè)數(shù)渠退。
這里統(tǒng)一用ESS代表回歸平方和忙迁，RSS代表殘差平方和。

平方和分解

單個(gè)自變量顯著性檢驗(yàn)：t檢驗(yàn)

原假設(shè)和備擇假設(shè)： $H_0:\beta_j=0\ v.s.\ H_1:\beta_j\ne0$
統(tǒng)計(jì)量： $t=\frac{\hat{\beta}_j-\beta_j}{\hat{SE}(\beta_j)}\sim t(n-p-1)$
臨界值：給定顯著性水平 $\alpha$ 碎乃，則臨界值 $t_{1-\alpha/2}(n-p-1)$
接受or拒絕：若 $|t|小于t_{1-\alpha/2}(n-p-1)$ 姊扔，則落在了接受域，則接受原假設(shè)荠锭，說(shuō)明自變量 $X_j$ 對(duì)因變量沒(méi)有顯著影響旱眯，反之拒絕原假設(shè)，自變量 $X_j$ 對(duì)因變量有顯著影響证九。
P值： $P-value<\alpha$ 删豺，拒絕原假設(shè)，反之接受愧怜。

假設(shè)檢驗(yàn)的兩類(lèi)錯(cuò)誤：

		實(shí)際	實(shí)際
		$H_0$ 為真	$H_0$ 為假
決策	拒絕 $H_0$	Type I Error	√
決策	接受 $H_0$	√	Type II Error

多重檢驗(yàn)的問(wèn)題
- 其實(shí)就是一個(gè)夜路走多了總會(huì)遇到鬼或者常在河邊走哪有不濕鞋的問(wèn)題
- 假設(shè)檢驗(yàn)時(shí)呀页，每次5%可能性犯錯(cuò)誤，好像并不大拥坛，但是當(dāng)你要做10,100甚至1000次假設(shè)檢驗(yàn)時(shí)犯錯(cuò)誤的可能性就非常大蓬蝶。所以，只要假設(shè)檢驗(yàn)做得多猜惋，就一定會(huì)看到顯著性的結(jié)果——多重檢驗(yàn)的副作用丸氛。
- 如何控制：先看F檢驗(yàn)，也不是很好著摔，但是也沒(méi)有特別好的方法缓窜。

方程整體顯著性檢驗(yàn)：F檢驗(yàn)

原假設(shè)和備擇假設(shè)：，其中，不包含截距項(xiàng)禾锤。
- 原假設(shè)：所有解釋變量都沒(méi)用
- 對(duì)立假設(shè)：只要有一個(gè)解釋變量的系數(shù)不是0私股，對(duì)立假設(shè)就成立
- F檢驗(yàn)首先執(zhí)行，如果不能拒絕原假設(shè)那么t檢驗(yàn)就不用做了恩掷。如果能拒絕倡鲸，則至少有一個(gè)解釋性變量是顯著的，再分別對(duì)每一個(gè)解釋性變量做t檢驗(yàn)
- 做法不完美黄娘，比如有50個(gè)解釋性變量峭状，F(xiàn)檢驗(yàn)通過(guò)了，比如其中 $X_1$ 是顯著的寸宏。那么在做t檢驗(yàn)時(shí)宁炫，第一個(gè)顯著偿曙，剩下的解釋變量仍然承受著嚴(yán)重的多重檢驗(yàn)的問(wèn)題氮凝。
統(tǒng)計(jì)量：
- $RSS_0$ ：空模型的殘差平方和， $RSS_1$ ：當(dāng)前模型的殘差平方和望忆，此處是全模型罩阵，即 $p$ 個(gè)自變量。
- 核心思想在于分子：即空模型和全模型的殘差平方和的對(duì)比启摄，當(dāng)原假設(shè)成立時(shí)稿壁，所有解釋變量都沒(méi)用，則空模型和全模型的殘差平方和相差應(yīng)該不大歉备，即 $RSS_0-RSS_1$ 很小傅是，所以F值就會(huì)很小，就傾向于接受原假設(shè)蕾羊。
- 分母： $\hat{\sigma}^2=RSS_1/(n-p-1)$
- 分子/分母：標(biāo)準(zhǔn)化喧笔，沒(méi)有技術(shù)原因，主要思想來(lái)自于 $RSS_0$ 和 $RSS_1$ 的對(duì)比龟再，一個(gè)空模型书闸，一個(gè)全模型，如果差別不大利凑，說(shuō)明模型不顯著浆劲。
臨界值：給定顯著性水平 $\alpha$ ，臨界值 $F_{\alpha}(k,n-k-1)$ 哀澈。如果 $F小于F_{\alpha}(k,n-k-1)$ 牌借，則接受原假設(shè)，即該模型的所有回歸系數(shù)都等于0割按，該模型沒(méi)有意義膨报，反之拒絕原假設(shè)，并做進(jìn)一步的t檢驗(yàn)。

擬合優(yōu)度檢驗(yàn)： $R^2$

整個(gè)模型的accuracy的評(píng)估：即對(duì)所有data fit出來(lái)的效果丙躏，兩種方法：
- 絕對(duì)衡量：residual standard error： $RSE=\hat{\sigma}=\sqrt{\frac{1}{n-p-1}RSS}$
- 相對(duì)衡量： $R^2=(1-\frac{RSS_1}{RSS_0})=\frac{TSS-RSS}{TSS}$
- $RSS_0$ ：空模型的殘差平方和择示，即SST，它刻畫(huà)的是因變量 $Y$ 中包含多少信息晒旅。
- $RSS_1$ ：當(dāng)前模型/全模型的殘差平方和栅盲，說(shuō)明使用當(dāng)前模型時(shí)殘差中還有多少信息，一定小于 $RSS_0$
- $\frac{RSS_1}{RSS_0}$ ：即 $Y$ 中有多少信息是殘差造成的废恋，即有多少是 $X$ 解釋不了的谈秫。
- $R^2$ ： $Y$ 中有多少信息是可以被 $X$ 解釋的，即0-1之間鱼鼓。
- $R^2$ 缺點(diǎn)：分不清好壞拟烫，只要解釋變量增加， $R^2$ 就會(huì)增大迄本，不管解釋變量是否有用硕淑，永遠(yuǎn)偏好全模型，但全模型不一定是最好的嘉赎。
- 一元線(xiàn)性回歸中：
  - $r=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\sum_{i=1}^n(X_i-\bar{X})^2}\sqrt{\sum_{i=1}^n(Y_i-\bar{Y})^2}}$
- 調(diào)整后 $R^2$ ：即在 $RSS\ ratio$ 前面加一個(gè)調(diào)整系數(shù)
- 調(diào)整系數(shù) $\frac{n-1}{n-p-1}$ 作用：隨著模型越來(lái)越復(fù)雜置媳， $p$ 在增加， $n-p-1$ 在減小公条，同時(shí) $RSS_1$ 在減小拇囊，而 $RSS_0$ 不變。所以當(dāng)增加變量是很重要的變量的時(shí)候靶橱， $RSS_1$ 的下降程度要大于 $n-p-1$ 的下降程度寥袭，所以調(diào)整后 $R^2$ 會(huì)變大。但是當(dāng)增加的變量是不重要的變量的時(shí)候关霸， $RSS_1$ 的下降程度小于 $n-p-1$ 传黄，則調(diào)整后 $R^2$ 會(huì)變小。
- 有可能出現(xiàn)負(fù)數(shù)谒拴，負(fù)數(shù)表示連空模型都不如尝江。當(dāng)n較小，p很大時(shí)英上。
外樣本判決系數(shù)
- 用外樣本來(lái)評(píng)價(jià)炭序，即將數(shù)據(jù)隨機(jī)切分為訓(xùn)練集和測(cè)試集
- 公式完全一樣，只是 $\hat{\beta}$ 的估計(jì)是根據(jù)訓(xùn)練集苍日，外樣本 $R^2$ 的計(jì)算是根據(jù)測(cè)試集

模型診斷與改進(jìn)

建模時(shí)的假設(shè)：
- 零均值惭聂，即 $E(\varepsilon)=0$ ，其中 $\varepsilon=(\varepsilon_1,...,\varepsilon_n)^T$
- 同方差和無(wú)序列相關(guān)相恃，即 $Var(\varepsilon)=E\{[\varepsilon-E(\varepsilon)][\varepsilon-E(\varepsilon)]^T\}=E(\varepsilon\varepsilon^T)=\sigma^2I$
- 正態(tài)性： $\varepsilon\sim N(0,\sigma^2I_n)$
- 隨機(jī)誤差項(xiàng) $\varepsilon$ 與自變量X相互獨(dú)立辜纲，即 $E(X^T\varepsilon)=0$
- 無(wú)多重共線(xiàn)性，即 $X$ 列滿(mǎn)秩， $rank(X)=p$
有些假設(shè)不成立耕腾，只會(huì)影響估計(jì)的效率见剩，但是有些假設(shè)不成立模型就沒(méi)辦法用
- 異方差：殘差圖（ $\hat{Y}和\hat{\varepsilon}$ ），對(duì)數(shù)變換
- 正態(tài)分布：QQ圖直線(xiàn)扫俺，對(duì)數(shù)變換
- 強(qiáng)影響點(diǎn)：cook距離
- 多重共線(xiàn)性：方差膨脹因子VIF苍苞，很?chē)?yán)重
- 內(nèi)生性：模型中的一個(gè)或多個(gè)解釋變量與隨機(jī)擾動(dòng)項(xiàng)相關(guān)

異方差和殘差圖

殘差： $\hat{\varepsilon}=Y_i-\hat{Y}_i$ ，誤差 $\varepsilon$ 不可觀(guān)測(cè)狼纬，所以用殘差來(lái)估計(jì)它羹呵。
異方差：相對(duì)同方差而言，同方差即 $Var(\varepsilon_i)=\sigma^2$ 疗琉。異方差即隨機(jī)誤差項(xiàng)具有不同的方差冈欢， $Var(\varepsilon_i)=\sigma_i^2$ 。
產(chǎn)生原因：
- 遺漏重要解釋變量
- 存在測(cè)量誤差
- 截面數(shù)據(jù)中總體各單位存在差異
- 模型函數(shù)形式設(shè)定錯(cuò)誤
- 存在異常觀(guān)測(cè)
診斷方法：
- 殘差圖：橫軸 $\hat{Y}$ 預(yù)測(cè)值盈简，縱軸 $\varepsilon$
  
  殘差圖
  - 圖一：零均值同方差假設(shè)成立凑耻，觀(guān)測(cè)到殘差是以0為平均水平，無(wú)規(guī)律的散亂分布
  - 圖二：殘差并不以0為平均水平波動(dòng)送火，且呈現(xiàn)出拋物線(xiàn)形狀拳话，2次曲線(xiàn)先匪。原因：可能是遺漏了重要變量种吸，比如某變量的平方項(xiàng)，不太常見(jiàn)呀非。解決方法：加入新的自變量坚俗，或者考慮非線(xiàn)性模型
  - 圖三：喇叭狀，常見(jiàn)岸裙，殘差的波動(dòng)隨著預(yù)測(cè)值的增加越來(lái)越大猖败，異方差，即 $Var(\varepsilon_i)=\sigma_i^2$ 降允。異方差特別常見(jiàn)恩闻，特別是因變量和錢(qián)有關(guān)的時(shí)候。比如假定收入的波動(dòng)相同剧董，但是收入水平不同的人的波動(dòng)不太相同幢尚，收入高的人波動(dòng)要更大。解決方法：對(duì)數(shù)變換翅楼。
  - 在R語(yǔ)言中模型診斷時(shí)尉剩，第一個(gè)和第三個(gè)圖表示的意思差不多，只要看第一個(gè)就可以了毅臊。
- 統(tǒng)計(jì)方法：Goldfeld-Quandt檢驗(yàn)法理茎，White檢驗(yàn)法，Park檢驗(yàn)法，Glesier檢驗(yàn)法等
后果
- 最小二乘估計(jì)任然是線(xiàn)性無(wú)偏一致的皂林，但不再有效朗鸠，即方差不是最小的
- 隨機(jī)誤差項(xiàng)的條件方差的估計(jì)是有偏的，即 $\hat{\sigma^2}=\frac{RSS}{n-p-1}$ 是有偏的
- 參數(shù)的估計(jì)標(biāo)準(zhǔn)誤差也是有偏且不一致的础倍，參數(shù)的估計(jì)標(biāo)準(zhǔn)誤中含有 $\hat{\sigma}^2$
- 預(yù)測(cè)的精準(zhǔn)度降低
解決方法
- 理論上會(huì)用加權(quán)的最小二乘估計(jì)童社，但實(shí)際中不常用
- 實(shí)際：對(duì)數(shù)變換，改善異方差情況著隆。常假定正態(tài)分布铐料，對(duì)數(shù)變換也可以改善不對(duì)稱(chēng)的情況浸卦。
- 對(duì)數(shù)變換只適用于正數(shù)，如果條件不允許，此時(shí)應(yīng)該知道最小二乘法產(chǎn)生的解不是最優(yōu)的耙替，要加權(quán)的最小二乘估計(jì)產(chǎn)生的結(jié)果可能更好
  - 加權(quán)的最小二乘：如果一個(gè)觀(guān)測(cè)值的方差更大，即準(zhǔn)確度差滔悉，權(quán)重應(yīng)該低一點(diǎn)型凳，反之權(quán)重更高一點(diǎn)
  - 或者如果有很小一部分比如1%的0，則可以在0上加一個(gè)單位流酬，比如變成0.001

非正態(tài)性和QQ圖

正態(tài)性： $\varepsilon\sim N(0,\sigma^2I_n)$
診斷方法：QQ圖币厕。橫軸：標(biāo)準(zhǔn)正態(tài)分布理論分位數(shù)，縱軸樣本分位數(shù)芽腾。
- 如果QQ圖的散點(diǎn)近似成一條直線(xiàn)旦装，那么就近似服從標(biāo)準(zhǔn)正態(tài)分布。
- 如果兩側(cè)尾巴偏離了就是厚尾分布摊滔，哪邊尾巴偏離多就是什么偏阴绢，比如右尾偏離多，就是極大值比較多艰躺，是右偏分布呻袭。
后果：影響估計(jì)量的一致性
解決方法：取對(duì)數(shù)

強(qiáng)影響點(diǎn)和Cook距離

強(qiáng)影響點(diǎn)：如果在計(jì)算某種指標(biāo)時(shí)，包含和不包含某個(gè)樣本點(diǎn)腺兴，對(duì)于結(jié)果影響很大左电，那么這個(gè)樣本點(diǎn)就是強(qiáng)影響點(diǎn)
- 比如土豪在計(jì)算平均收入時(shí)就是強(qiáng)影響點(diǎn)
回歸分析中的強(qiáng)影響點(diǎn)：是否包含該樣本點(diǎn)對(duì)于參數(shù)的估計(jì)結(jié)果造成很大的影響
- 離群值和強(qiáng)影響點(diǎn)
  - outlier：outlier is X given y is unusual，即針對(duì) $Y$ ,通常是相同的 $X$ 页响，但離群值的 $Y$ 會(huì)和大家差別很大
  - High leverage：has unusual value for X篓足，即 $X$ 的取值已經(jīng)很奇怪了。一般因變量取值比較特殊會(huì)成為強(qiáng)影響點(diǎn)拘泞。
診斷方法：Cook距離
- 針對(duì)樣本點(diǎn)計(jì)算纷纫，n個(gè)樣本點(diǎn)可以計(jì)算出n個(gè)cook距離
- 計(jì)算思想：用所有全樣本的估計(jì)量 $\hat{\beta}$ 作為基本的標(biāo)桿，然后把第 $i$ 個(gè)樣本刪除剩下 $n-1$ 個(gè)樣本重新進(jìn)行最小二乘估計(jì)得到 $\hat{\beta}_{-i}$ 陪腌，進(jìn)而得到該樣本點(diǎn)的cook距離辱魁。兩者進(jìn)行對(duì)比烟瞧，如果目前正在研究的觀(guān)測(cè)值是一個(gè)滅有太大影響力的觀(guān)測(cè)值，存在與否不太會(huì)影響最終計(jì)算結(jié)果染簇，所以預(yù)期兩個(gè)估計(jì)量之間的差距是比較小的参滴，cook距離就比較小。
- 計(jì)算公式： $D_i=\frac{(\hat{\beta}-\hat{\beta} _{-i})(X^TX)(\hat{\beta}-\hat{\beta}_{-i})}{(p+1)\hat{\sigma}^2}$
后果：會(huì)帶偏回歸系數(shù)锻弓，向強(qiáng)影響點(diǎn)的方向偏離
解決方法：刪掉強(qiáng)影響點(diǎn)
問(wèn)題：什么樣的cook距離算異常砾赔？
- 沒(méi)有一個(gè)給定的比較標(biāo)準(zhǔn)，看大家的平均水平青灼，如果大家基本都在0.0幾暴心，而你在0.5，那么就需要注意了杂拨。即強(qiáng)影響點(diǎn)產(chǎn)生的cook距離真的要比其他觀(guān)測(cè)點(diǎn)壓倒性地大专普。
- 看是在因變量/自變量上異常，一般因變量取值比較特殊會(huì)成為強(qiáng)影響點(diǎn)弹沽。
注意：R語(yǔ)言中總會(huì)輸出3個(gè)最高的cook距離檀夹，不要一看見(jiàn)就刪除，要和其他水平比較策橘，否則再刪也總會(huì)出現(xiàn)3個(gè)最高的炸渡。

多重共線(xiàn)性、可識(shí)別性與方差膨脹因子VIF

前面：異方差丽已，強(qiáng)影響點(diǎn)等影響不大蚌堵。
- 異方差：OLS估計(jì)不再是最有效的，估計(jì)效率低
- 強(qiáng)影響點(diǎn)：結(jié)果解讀不好促脉，被那個(gè)點(diǎn)帶偏了
多重共線(xiàn)性：OLS會(huì)產(chǎn)生錯(cuò)誤辰斋，估計(jì)結(jié)果不可信
多重共線(xiàn)性：（兩個(gè)變量相關(guān)就是多重共線(xiàn)性×）線(xiàn)性回歸模型中的解釋變量之間存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系
- 由于所有的解釋性變量都來(lái)自于同一個(gè)個(gè)體，天生就相關(guān)瘸味，如果不相關(guān)才奇怪。多重共線(xiàn)性是這種相關(guān)性太高了够挂，高到已經(jīng)成為一個(gè)災(zāi)難性的后果：影響到可識(shí)別性旁仿，要非常小心處理。
可識(shí)別性
- 模型1： $Y=X_1+X_2+X_3+\varepsilon$ 孽糖，其實(shí) $X_1=X_2=X_3$ 枯冈，即模型是完全共線(xiàn)性的，所以模型1還有其他兩種寫(xiě)法办悟。
- 模型2： $Y=2X_1+X_3+\varepsilon$
- 模型3： $Y=X_2+2X_3+\varepsilon$
- 模型1,2,3都是同一個(gè)模型尘奏，但是對(duì)應(yīng)的回歸系數(shù)卻各不相同。這時(shí)就產(chǎn)生了可識(shí)別性問(wèn)題病蛉，即identifiability的問(wèn)題炫加。
- 可識(shí)別性問(wèn)題：同樣一組數(shù)據(jù)在不同的參數(shù)設(shè)定下可以產(chǎn)生相同的Y瑰煎，分不清哪個(gè)是唯一正確的 $\beta$ 。
- 實(shí)際中俗孝，一般不會(huì)出現(xiàn)完全共線(xiàn)性酒甸，但是常常會(huì)出現(xiàn)強(qiáng)烈共線(xiàn)性。這里只舉例了兩兩相關(guān)性赋铝，只要畫(huà)散點(diǎn)圖就可以看到插勤，但是還會(huì)有其他復(fù)雜的相關(guān)關(guān)系，需要VIF方法革骨。
產(chǎn)生原因
- 經(jīng)濟(jì)變量之間具有共同變化的趨勢(shì)
- 變量之間存在經(jīng)濟(jì)聯(lián)系
- 模型中包含滯后變量
- 樣本數(shù)據(jù)自身的原因
診斷方法：方差膨脹因子VIF
- 散點(diǎn)圖法：對(duì)含有兩個(gè)解釋變量的模型农尖，利用解釋變量樣本觀(guān)測(cè)值的散點(diǎn)圖來(lái)觀(guān)察兩者是否有顯著的線(xiàn)性關(guān)系
- 相關(guān)系數(shù)法
- 經(jīng)典判斷法：擬合優(yōu)度很高，F(xiàn)檢驗(yàn)高度顯著良哲，但t檢驗(yàn)顯著的不多卤橄，懷疑存在多重共線(xiàn)性
- VIF：variance inflation factor 方差膨脹因子
- 思想：類(lèi)似于一個(gè)打分系統(tǒng)，給每個(gè)解釋性變量 $X_j$ 打分臂外，評(píng)價(jià)第 $j$ 個(gè)解釋性變量 $X_j$ 受多重共線(xiàn)性影響有多大窟扑。用 $X_j$ 做因變量，其他的解釋性變量做解釋性變量跑一個(gè)回歸分析模型漏健。如果回歸分析 $R^2$ 非常非常大嚎货，說(shuō)明 $X_j$ 幾乎可以被其他的解釋性變量線(xiàn)性表出，說(shuō)明這個(gè)變量正在承受著巨大的多重共線(xiàn)性影響蔫浆。
- 計(jì)算公式：殖属，則
  - 如果VIF>5，則 $R_j^2>80\%$ 瓦盛，需要引起注意洗显。實(shí)際工作中，粗糙以10為界限原环，簡(jiǎn)單評(píng)價(jià)一個(gè)變量承受多重共線(xiàn)性的影響強(qiáng)度挠唆，超過(guò)10就比較警惕，小于10還可以接受嘱吗。
后果
- 符號(hào)和常識(shí)理論相悖玄组，估計(jì)結(jié)果無(wú)法解釋。
- 參數(shù)估計(jì)量的方差增大
- 參數(shù)估計(jì)的置信區(qū)間變大
- 假設(shè)檢驗(yàn)容易做出錯(cuò)誤的判斷：比如F檢驗(yàn)全部通過(guò)谒麦，而t檢驗(yàn)都不通過(guò)
- 多元線(xiàn)性回歸中： $\hat{Y}=X\hat{\beta}=X(X^TX)^{-1}Y$ 俄讹。要求 $r(X)=p$ ，即滿(mǎn)秩绕德，否則 $\beta$ 就沒(méi)辦法估計(jì)或者不唯一患膛。
  - 舉例：自變量age和limit之間沒(méi)有太大相關(guān)性，但自變量limit和自變量rating之間的相關(guān)性比較大耻蛇，但不是完全相關(guān)踪蹬。
  - 估計(jì)時(shí)：當(dāng) $Y$ 對(duì)limit和age估計(jì)讓殘差平方和最小時(shí)胞此， $RSS$ 殘差平方和等高線(xiàn)如圖1所示，中間的點(diǎn)即RSS最小的時(shí)候即得到了兩個(gè)系數(shù)延曙。
  - 當(dāng) $Y$ 對(duì)limit和rating估計(jì)讓殘差平方和最小豌鹤，殘差平方和的等高線(xiàn)變得非常扁平，（等高線(xiàn)意味著在這條線(xiàn)上殘差平方和是一樣的）枝缔，但是估計(jì)的系數(shù)會(huì)有很大的差異布疙。即扁平的等高線(xiàn)會(huì)使得在一條等高線(xiàn)上的參數(shù)差異非常大。所以參數(shù)的方差變得很大愿卸。
  - $X$ 中如果有兩列是高度相關(guān)時(shí)灵临， $X$ 不是一個(gè)完全退化矩陣，但是 $(X^TX)^{-1}$ 會(huì)變得很大趴荸。因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cbeta" alt="\beta" mathimg="1">的方差是 $\sigma^2(X^TX)^{-1}$ ,所以參數(shù)估計(jì)量的方差會(huì)增大儒溉，所以置信區(qū)間也會(huì)增大。
  - 還會(huì)導(dǎo)致：因?yàn)閠統(tǒng)計(jì)量是除以 $\hat{SE}(\beta)$ 會(huì)變大发钝，所以t統(tǒng)計(jì)量就會(huì)變小顿涣，會(huì)導(dǎo)致它系數(shù)的不顯著，但是 $R^2$ 又很好酝豪。即standard error for $\hat{\beta}_j$ increase, decline t statistic, reduce the power of the hypothesis test涛碑。
  自變量相關(guān)情況
  
  不同情況RSS等高線(xiàn)
  
  不同情況模型結(jié)果

解決方法：
- 排除引起共線(xiàn)性的變量：逐步回歸（向前回歸，向后回歸孵淘，向前向后回歸）
- 差分法：把原模型變?yōu)椴罘帜Ｐ?/li>
- 減小參數(shù)估計(jì)量的方差：嶺回歸法

內(nèi)生性endogeneity

內(nèi)生性：即 $E(X\varepsilon)\ne 0$ 蒲障，解釋變量的內(nèi)生性即模型中的一個(gè)或多個(gè)解釋變量與隨機(jī)擾動(dòng)項(xiàng)相關(guān)
產(chǎn)生原因：
- 遺漏重要解釋變量
- 存在測(cè)量誤差
- 存在錯(cuò)誤的函數(shù)形式設(shè)定
- 存在聯(lián)立性
- X和Y互為因果關(guān)系，X影響Y瘫证，Y影響X
診斷：
- 基于常識(shí)去分析模型的系數(shù)揉阎，判斷是否存在內(nèi)生性
- 使用Hausman檢驗(yàn)
后果
- 會(huì)影響估計(jì)的無(wú)偏性
- 會(huì)影響估計(jì)的一致性，即隨著樣本量增加背捌，估計(jì)量不趨近于真實(shí)的 $\beta$ 毙籽，問(wèn)題很?chē)?yán)重
解決方法
- 工具變量IV，構(gòu)建基于IV下的回歸模型载萌，估計(jì)采用兩階段最小二乘估計(jì)
- 改用代理變量惧财。某變量無(wú)法直接觀(guān)測(cè)，使用其他變量代替

總結(jié)

	診斷	解決	原理
異方差	殘差圖	取對(duì)數(shù)	$\hat{Y}$ 和 $\hat{\varepsilon}_i$ 的圖扭仁，喇叭狀異方差
正態(tài)分布	QQ圖	取對(duì)數(shù)	標(biāo)準(zhǔn)正態(tài)分布理論分位數(shù)和樣本分位數(shù)，直線(xiàn)則正態(tài)分布厅翔，否則非正態(tài)
強(qiáng)影響點(diǎn)	cook距離	刪除	針對(duì)每個(gè)樣本點(diǎn)都可以計(jì)算cook距離乖坠，比大多數(shù)水平高則強(qiáng)影響點(diǎn)
多重共線(xiàn)性	VIF方差膨脹因子	向前回歸，向后回歸刀闷，向前向后回歸嶺回歸	用一個(gè)自變量作為Y熊泵，其他變量作為解釋變量回歸得到 $R_j^2$ 仰迁，是對(duì)自變量求。 $VIF_j=\frac{1}{1-R_j^2}$ 顽分，大于10說(shuō)明要注意多重共線(xiàn)性
內(nèi)生性	Hausman檢驗(yàn)	工具變量IV,使用兩階段最小二乘估計(jì)	略

模型選擇

模型選擇：在一系列待選模型中選擇最優(yōu)的徐许。最優(yōu)：模型盡可能簡(jiǎn)單且預(yù)測(cè)準(zhǔn)確。
- $R^2$ ：永遠(yuǎn)覺(jué)得全模型最好卒蘸，但是全模型在預(yù)測(cè)時(shí)常常不是最好的雌隅，因?yàn)橛行?img class="math-inline" src="https://math.jianshu.com/math?formula=X" alt="X" mathimg="1">對(duì) $Y$ 的預(yù)測(cè)精度沒(méi)有改善還消耗了自由度
- 模型選擇的任務(wù)：留下真正重要的 $X$
步驟：
- 確定邊界：即待選模型
- 確定信仰，選擇標(biāo)準(zhǔn)：AIC準(zhǔn)則或BIC準(zhǔn)則缸沃。不同標(biāo)準(zhǔn)選擇結(jié)果不同恰起，兩者的信仰是不同的。
- 選擇計(jì)算方法：模型選擇往往涉及到比較大的計(jì)算量趾牧，要找到又快又準(zhǔn)確的計(jì)算方法
- 小心解讀检盼，謹(jǐn)慎使用：因?yàn)槟Ｐ瓦x擇本身也是一個(gè)計(jì)算統(tǒng)計(jì)量的過(guò)程，也受到樣本不確定性的影響翘单，也有估計(jì)誤差吨枉，怎樣做才能把這些控制在最小范圍內(nèi)，是需要小心處理的哄芜。

確定邊界：待選模型

不考慮交叉項(xiàng)：共有 $2^p$ 種選擇貌亭，每個(gè)自變量都有進(jìn)入/不進(jìn)入模型兩種選擇
交互作用interation/synergy effect協(xié)同作用：如果10個(gè)解釋變量，則兩兩交叉多45中忠烛，相當(dāng)于多45個(gè)自變量属提，所以變成個(gè)模型，數(shù)量巨大美尸。
- 交互作用假定：強(qiáng)加規(guī)律冤议，要求只要交互作用存在，主效應(yīng)也一定存在师坎，不論其檢驗(yàn)結(jié)果是否顯著恕酸。有一定的現(xiàn)實(shí)意義，但更多時(shí)候只是在降低計(jì)算復(fù)雜度胯陋。
$X$ 的非線(xiàn)性變換：范圍更大
此處只從不考慮交叉項(xiàng)和非線(xiàn)性變換入手蕊温，即 $2^p$ 個(gè)待選模型

確定信仰，選擇標(biāo)準(zhǔn)——AIC,BIC

模型邊界確定以后遏乔，如何知道哪個(gè)模型更好义矛，可以用調(diào)整后 $R^2$ ,或外樣本 $R^2$ 。無(wú)論哪種方法盟萨，都需要先解決一個(gè)問(wèn)題：什么叫好模型凉翻，這依賴(lài)于我們的信仰是AIC還是BIC

AIC準(zhǔn)則

信仰：真模型不一定在待選模型里，要做的事情是在待選模型里選一個(gè)盡可能靠近真模型的模型捻激。很難制轰，真模型都不知道前计，如何找一個(gè)最近的。
用KL distance來(lái)刻畫(huà)兩個(gè)模型的距離垃杖，這個(gè)距離經(jīng)過(guò)一些列簡(jiǎn)化成了AIC準(zhǔn)則
AIC準(zhǔn)則：
$AIC=n\{log(\frac{RSS}{n})+1+log(2\pi)\}+2\times (p+1)$

不同地方略有差異男杈，有的扔掉 $1+log(2\pi)$ ，這里是為了和R語(yǔ)言保持一致调俘。
AIC喜歡殘差平方和即RSS較小的模型伶棒，模型擬合越好殘差平方和越小，但是后面又有一個(gè)懲罰項(xiàng)：即模型復(fù)雜度脉漏，復(fù)雜度越高苞冯，p越大，后面一項(xiàng)就越大侧巨，有一個(gè)trade-off舅锄。
最優(yōu)模型：AIC得分最小的模型，赤池信息準(zhǔn)則司忱。A: akaike, I: information, C:criterion皇忿。

BIC準(zhǔn)則

信仰：真模型一定在待選模型里，只是不知道是哪個(gè)而已坦仍，所以目標(biāo)就是在樣本量越來(lái)越大時(shí)把真模型以概率1挑選出來(lái)鳍烁。
學(xué)者施瓦茲：貝葉斯。既然我不知道是哪一個(gè)繁扎，我就亂猜一把幔荒，給每個(gè)模型一個(gè)先驗(yàn)概率，即假設(shè)每個(gè)模型都是以一定概率是真模型梳玫，然后看數(shù)據(jù)爹梁，給定數(shù)據(jù)計(jì)算后驗(yàn)概率，后驗(yàn)概率大的就是真模型提澎。一系列處理后發(fā)現(xiàn)姚垃，后驗(yàn)概率的大小由BIC得分獲得，即貝葉斯Information criterion或SIC施瓦茲盼忌。
BIC準(zhǔn)則：
$BIC=n\{ log(\frac{RSS}{n})+1+log(2\pi) \}+log(n)\times(p+1)$
- 和AIC很像积糯，都喜歡RSS小的，但前提都是模型復(fù)雜度不能太大谦纱，太大時(shí)進(jìn)行懲罰看成。
- 區(qū)別：增加一個(gè)解釋變量，AIC的懲罰力度是2跨嘉，BIC的懲罰力度是 $\log(n)$ 绍昂。所以，只要n稍微大點(diǎn)偿荷，BIC的懲罰力度就會(huì)大于AIC的懲罰力度窘游。所以BIC挑出來(lái)的模型可能會(huì)更小一點(diǎn)。
AIC和BIC信仰不同跳纳，所以統(tǒng)計(jì)學(xué)性質(zhì)也不同
- 【更一般形式】
  - 性質(zhì)：選擇相合性忍饰，selection consistency。如果真模型真的就在那1024個(gè)待選模型里寺庄，當(dāng)樣本量越來(lái)越大時(shí)艾蓝， $BIC$ 會(huì)以趨近于1的概率把真模型選出來(lái)。AIC不具備該性質(zhì)斗塘。
- - 性質(zhì)：損失有效性赢织，loss efficiency。如果真模型不在待選模型里馍盟，只要離真模型最近于置，預(yù)測(cè)是最優(yōu)秀的。所以 $AIC$ 選出來(lái)的模型的預(yù)測(cè)精度大概是最優(yōu)的贞岭。BIC不具備該性質(zhì)八毯。
- 所以說(shuō)兩個(gè)信仰各有優(yōu)點(diǎn)，但沒(méi)辦法調(diào)和瞄桨。所以：兩個(gè)準(zhǔn)則都試試话速，得到兩個(gè)不同的模型選擇結(jié)果，更加激進(jìn)芯侥，選出的變量比較少泊交，保守選出的變量更多。
  - 經(jīng)驗(yàn)表明柱查，如果優(yōu)先考慮預(yù)測(cè)精度廓俭， $AIC$ 的預(yù)測(cè)精度常常會(huì)好一點(diǎn)點(diǎn)。
  - 但 $BIC$ 只選最有用的物赶，所以穩(wěn)定性比較好白指。如果你的模型在業(yè)務(wù)層面是非常穩(wěn)定的，那 $BIC$ 的模型可能會(huì)好一點(diǎn)點(diǎn)酵紫。

選擇計(jì)算方法

無(wú)論哪個(gè)信仰都需要計(jì)算出來(lái)告嘲，但計(jì)算是比較難的，因?yàn)?0個(gè)變量就已經(jīng)1024個(gè)模型了奖地。20個(gè)就100萬(wàn)了橄唬，30個(gè)就很大很大的數(shù)字了。所以一定是要在計(jì)算上動(dòng)腦筋的参歹。

計(jì)算方法solution path：

best subset仰楚，即把所有的模型都遍歷一遍。模型多時(shí)就做不到了。
forward regression向前回歸僧界，先做所有1模型侨嘀，找最好的1模型（只有一個(gè)解釋性變量，相關(guān)性最好的解釋性變量捂襟，如 $X_1$ ）咬腕；在給定 $X_1$ 情況下，哪個(gè)解釋性變量對(duì) $R^2$ 模型改善最好再添加進(jìn)來(lái)葬荷，做很多2模型比較涨共，找最好的2模型；以此類(lèi)推宠漩。從而產(chǎn)生一系列的模型举反，這些模型是嵌套的，即一個(gè)比一個(gè)大扒吁，這些模型再用AIC或BIC挑選出來(lái)火鼻。把求解的空間從 $2^p$ 降低到一個(gè)比較小的范圍，在這個(gè)范圍里再用AIC或BIC來(lái)選瘦陈。
- 優(yōu)良性質(zhì)： $p$ 很大也可以做凝危。
- 缺點(diǎn)：即使 $BIC$ 的信仰正確時(shí)，都不具備選擇相合性晨逝。原因：它很容易把一個(gè)高度相關(guān)但其實(shí)不重要的變量挑選出來(lái)然后再也不出去蛾默。例如：真實(shí)模型 $Y=X_1+X_2+\varepsilon$ ， $X_3=X_1+X_2+小小噪音$ 捉貌，那么會(huì)發(fā)現(xiàn)在有 $X_1$ 和 $X_2$ 的情況下支鸡， $X_3$ 是多余的，但是讓他們單打獨(dú)斗時(shí)趁窃， $X_3$ 和 $Y$ 的相關(guān)性是最強(qiáng)的牧挣，所以它第一個(gè)就先進(jìn)來(lái)，進(jìn)來(lái)就不出去了醒陆。所以如果 $p$ 的個(gè)數(shù)不是特別多瀑构，更好的做法是后退法backward regression。
backward regression向后回歸：從全模型出發(fā)刨摩，然后剔除一個(gè)對(duì) $R^2$ 影響最小的變量得到一個(gè) $p-1$ 模型寺晌，以此類(lèi)推，產(chǎn)生一個(gè)比一個(gè)小的模型澡刹，然后再利用 $AIC$ 或 $BIC$ 進(jìn)行挑選呻征。
- 優(yōu)點(diǎn)：此時(shí)如果BIC的信仰是對(duì)的， $p$ 也不是很大罢浇，則此時(shí)就可以具備選擇相合性陆赋。
- 缺點(diǎn)：在有限樣本時(shí)沐祷，一旦把一個(gè)人槍斃了，它就再也回不來(lái)了攒岛。給他一個(gè)回來(lái)的機(jī)會(huì)赖临，所以又有了stepwise。
stepwise regression向前向后回歸：按照一定的標(biāo)準(zhǔn)阵子，允許你出去允許你又回來(lái)思杯。
LASSO+SCAD：帶有懲罰項(xiàng)的回歸分析方法。把最小二乘估計(jì)改善成一個(gè)帶有懲罰項(xiàng)的估計(jì)挠进。比如LASSO就是在最小化最小二乘估計(jì)的目標(biāo)函數(shù)時(shí)，加一個(gè)懲罰項(xiàng) $L_1$ 誊册。好處：很多參數(shù)估計(jì)出來(lái)的時(shí)候就是exactly=0领突。既然估計(jì)出來(lái)的時(shí)候就等于0，自然模型選擇的任務(wù)就完成了案怯。
- $\sum_{i=1}^n(y_i-\beta_0-\sum_{j=1}^{p}\beta_jx_{ij})^2+\lambda\sum_{j=1}^{p}\vert\beta_j\vert$
  
  這個(gè)做法的有效性非常非常依賴(lài)于調(diào)節(jié)參數(shù) $\lambda$ 君旦，就是他有非常非常多的要求。
- 也就是不同的 $\lambda$ 會(huì)產(chǎn)生一個(gè)類(lèi)似于stepwise regression的求解集合嘲碱，他比 $2^p$ 要小很多金砍，這個(gè)集合里面仍然要挑選。這個(gè)集合里面的挑選對(duì)應(yīng)的問(wèn)題就是 $\lambda$ 的選擇麦锯，它的選擇仍然需要AIC和BIC來(lái)幫助恕稠。
向前回歸：空模型加自變量，向后回歸：全模型減自變量

小心解讀扶欣，謹(jǐn)慎應(yīng)用

Model selection uncertainty
model averaging模型平均：
- 它要解決的問(wèn)題是：我們無(wú)論用AIC, BIC, LASSO鹅巍，最后選出來(lái)的模型都具有不確定性。因?yàn)樗际腔陔S機(jī)的數(shù)產(chǎn)生的料祠，這個(gè)不確定性可能大也可能小骆捧。無(wú)論你選哪個(gè)模型，都是把雞蛋放到一個(gè)籃子里髓绽，能不能分散開(kāi)來(lái)放敛苇。
- 把每個(gè)模型加權(quán)平均到一起得到一個(gè)綜合的模型會(huì)不會(huì)更加穩(wěn)定？經(jīng)驗(yàn)表明：會(huì)顺呕。模型平均方法是一種非常有競(jìng)爭(zhēng)力的預(yù)測(cè)模型枫攀，最大的特點(diǎn)就是性能穩(wěn)定。對(duì)于一個(gè)具體的數(shù)據(jù)集而言塘匣，有時(shí)候它的預(yù)測(cè)精度是最好的脓豪，有時(shí)候也不見(jiàn)得是最好的，但是它的穩(wěn)定性是最好的忌卤。幾乎在所有的數(shù)據(jù)集中測(cè)試表現(xiàn)都是一個(gè)非常非常有競(jìng)爭(zhēng)力的狀態(tài)扫夜。

系數(shù)的解讀沒(méi)有寫(xiě)，下次再總結(jié)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市笤闯，隨后出現(xiàn)的幾起案子堕阔，更是在濱河造成了極大的恐慌，老刑警劉巖颗味，帶你破解...
沈念sama閱讀 216,402評(píng)論 6贊 499
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件超陆，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡浦马，警方通過(guò)查閱死者的電腦和手機(jī)时呀，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,377評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)晶默，“玉大人谨娜，你說(shuō)我怎么就攤上這事』嵌福” “怎么了趴梢？”我有些...
開(kāi)封第一講書(shū)人閱讀 162,483評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀(guān)的道長(zhǎng)币他。經(jīng)常有香客問(wèn)我坞靶，道長(zhǎng)，這世上最難降的妖魔是什么蝴悉？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,165評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任彰阴，我火速辦了婚禮，結(jié)果婚禮上辫封，老公的妹妹穿的比我還像新娘硝枉。我一直安慰自己，他們只是感情好倦微，可當(dāng)我...
茶點(diǎn)故事閱讀 67,176評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布妻味。她就那樣靜靜地躺著，像睡著了一般欣福。火紅的嫁衣襯著肌膚如雪责球。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,146評(píng)論 1贊 297
城市分裂傳說(shuō)
那天拓劝，我揣著相機(jī)與錄音雏逾，去河邊找鬼。笑死郑临，一個(gè)胖子當(dāng)著我的面吹牛栖博，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播厢洞，決...
沈念sama閱讀 40,032評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼仇让，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼典奉！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起丧叽，我...
開(kāi)封第一講書(shū)人閱讀 38,896評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤卫玖，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后踊淳，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體假瞬，經(jīng)...
沈念sama閱讀 45,311評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,536評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年迂尝，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了脱茉。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,696評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡雹舀，死狀恐怖芦劣，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情说榆，我是刑警寧澤，帶...
沈念sama閱讀 35,413評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布寸认，位于F島的核電站签财，受9級(jí)特大地震影響鼠哥，放射性物質(zhì)發(fā)生泄漏啥繁。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,008評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一础芍、第九天我趴在偏房一處隱蔽的房頂上張望灸叼。院中可真熱鬧神汹，春花似錦、人聲如沸古今。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)捉腥。三九已至氓拼，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間抵碟，已是汗流浹背桃漾。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,815評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拟逮，地道東北人撬统。一個(gè)月前我還...
沈念sama閱讀 47,698評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像敦迄，于是被迫代替她去往敵國(guó)和親恋追。傳聞我的和親對(duì)象是個(gè)殘疾皇子凭迹，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,592評(píng)論 2贊 353

線(xiàn)性回歸

總結(jié)

基本思想

參數(shù)估計(jì)

一元線(xiàn)性回歸

多元線(xiàn)性回歸

假設(shè)檢驗(yàn)

平方和分解

單個(gè)自變量顯著性檢驗(yàn)：t檢驗(yàn)

方程整體顯著性檢驗(yàn)：F檢驗(yàn)

擬合優(yōu)度檢驗(yàn)：

模型診斷與改進(jìn)

異方差和殘差圖

非正態(tài)性和QQ圖

強(qiáng)影響點(diǎn)和Cook距離

多重共線(xiàn)性、可識(shí)別性與方差膨脹因子VIF

內(nèi)生性endogeneity

總結(jié)

模型選擇

確定邊界：待選模型

確定信仰，選擇標(biāo)準(zhǔn)——AIC,BIC

AIC準(zhǔn)則

BIC準(zhǔn)則

選擇計(jì)算方法

小心解讀扶欣，謹(jǐn)慎應(yīng)用

推薦閱讀更多精彩內(nèi)容

擬合優(yōu)度檢驗(yàn)： $R^2$