線(xiàn)性回歸

總結(jié)

線(xiàn)性回歸是有監(jiān)督學(xué)習(xí)里最常見(jiàn)也是最簡(jiǎn)單的一種形式线罕,可以分為一元線(xiàn)性回歸和多元線(xiàn)性回歸者铜,適用情況為Y是連續(xù)型數(shù)據(jù)宛蚓,X為任意數(shù)據(jù)寄摆。內(nèi)容主要分為:基本思想逝她,參數(shù)估計(jì)及解讀,假設(shè)檢驗(yàn)(模型整體顯著性窿凤、單個(gè)變量顯著性仅偎、擬合優(yōu)度檢驗(yàn)),模型診斷與改進(jìn)雳殊,模型選擇(確定邊界橘沥,確定信仰,選擇計(jì)算方法)夯秃。

基本思想

  • 真實(shí)模型:Y=f(X)+\varepsilon

    • Yf(X)有誤差座咆,即\varepsilon,是除了自變量X之外對(duì)Y有影響的因素仓洼,絕對(duì)不可少介陶,有隨機(jī)性。\varepsilon是不可觀(guān)測(cè)的色建,被稱(chēng)為random error哺呜。
    • 不能忽略隨機(jī)誤差,如果沒(méi)有它箕戳,就變成了一個(gè)確定的函數(shù)某残,沒(méi)有不確定性,而統(tǒng)計(jì)學(xué)就是研究不確定性陵吸。
    • f(X)的形式是多種多樣的玻墅,是確定性的或系統(tǒng)性的。
      • f(X)=E(Y|X)被稱(chēng)為回歸函數(shù)壮虫,沒(méi)有不確定性澳厢。
      • 一個(gè)X有可能對(duì)應(yīng)多個(gè)Y,所以不可能算出一個(gè)確切的Y囚似,f(X)E(Y|X)剩拢。
  • 真實(shí)模型未知,參數(shù)方法中需要假設(shè)形式并進(jìn)行估計(jì)谆构。線(xiàn)性回歸在估計(jì)之前對(duì)模型做了一個(gè)基本假定裸扶,即f(X)=\beta_0+\beta_1X_1+...+\beta_pX_p框都,故線(xiàn)性回歸模型為:
    Y=f(X)+\varepsilon=\beta_0+\beta_1X_1+...+\beta_pX_p+\varepsilon

    • 真實(shí)的模型大概率不是這樣子的搬素,但并不妨礙我們使用它呵晨。

    • \beta_0,\beta_1,...,\beta_p:未知的回歸系數(shù),需要根據(jù)樣本數(shù)據(jù)估計(jì)并解讀熬尺。

    • \varepsilon:誤差摸屠,不可觀(guān)測(cè)。

  • 估計(jì)未知參數(shù)

    • 目標(biāo)找到離所有點(diǎn)都近的一條直線(xiàn)
    • 即殘差平方和最辛缓摺:\sum_{i=1}^n(Y_i-\hat{\beta}_0-\hat{\beta}_1X_1-...-\hat{\beta}_pX_p)^2=\sum_{i=1}^ne_i^2最小季二,得到參數(shù)的估計(jì)量,其中e_i即為\varepsilon_i的估計(jì)量揭措,即殘差胯舷。
    • 即最小二乘估計(jì)OLS
  • 之后再進(jìn)行假設(shè)檢驗(yàn),模型診斷與改進(jìn)绊含,模型選擇等等步驟桑嘶。

參數(shù)估計(jì)

一元線(xiàn)性回歸

  • 一元線(xiàn)性回歸:Y=\beta_0+\beta_1X_1+\varepsilon

  • 基本假設(shè)(保證參數(shù)估計(jì)量具有良好性質(zhì)):

    • 自變量X是確定的,不是隨機(jī)變量

    • 隨機(jī)誤差\varepsilon零均值躬充,同方差逃顶,無(wú)序列相關(guān)性,即
      E(\varepsilon_i)=0\ \ \ \ i=1,2,...,n
      Var(\varepsilon_i)=\sigma^2\ \ \ \ i=1,2,...,n\\
      Cov(\varepsilon_i\varepsilon_j)=0\ \ \ \ i\ne j,i,j=1,2,...n

    • 隨機(jī)誤差項(xiàng)\varepsilonX不相關(guān)充甚,即
      Cov(X_i,\varepsilon_i)=0

    • \varepsilon服從正態(tài)分布以政,即
      \varepsilon\sim N(0,\sigma^2)\ \ \ i=1,2,...,n

  • 以上四個(gè)假設(shè)被稱(chēng)為線(xiàn)性回歸模型的經(jīng)典假設(shè)或高斯假設(shè),滿(mǎn)足該假設(shè)的線(xiàn)性回歸模型稱(chēng)為經(jīng)典線(xiàn)性回歸模型

  • 參數(shù)估計(jì)核心思想:找到一條直線(xiàn)讓所有的點(diǎn)都靠近這條直線(xiàn)伴找,大家好才是真的好盈蛮,即找到所有的點(diǎn)都直線(xiàn)在Y軸的距離的平方和最小。

參數(shù)估計(jì)的核心思想
  • 參數(shù)估計(jì)方法:即最小二乘法Ordinary least squares
    \min\sum_{i=1}^n(Y_i-\hat{Y}_i)^2=\min\sum_{i=1}^n(Y_i-\hat{\beta}_0-\hat{\beta}_1X_1)^2=\min e_i^2
    \begin{cases} \sum(\hat{\beta}_0+\hat{\beta}_1X_i-Y_i)=0\\ \sum(\hat{\beta}_0+\hat{\beta}_1X_i-Y_i)X_i=0 \end{cases}
    \begin{cases} \hat{\beta}_1=\frac{\sum(X_i-\bar{X})(Y_i-\bar{Y})}{\sum(X_i-\bar{X})^2}\\ \hat{\beta}_0=\bar{Y}-\hat{\beta}_1\bar{X} \end{cases}
  • 其中:殘差e_i=Y_i-\hat{Y}_i=\hat{\varepsilon}_i技矮,是隨機(jī)誤差\varepsilon的估計(jì)量眉反,代表這條直線(xiàn)擬合程度的好壞,如果其平方都比較大穆役,說(shuō)明擬合的不好寸五,點(diǎn)離直線(xiàn)比較遠(yuǎn),所以最小化的量其實(shí)就是最小化殘差平方和耿币。

  • 參數(shù)估計(jì)量的統(tǒng)計(jì)性質(zhì):BLUE

    • 線(xiàn)性性:即是另一隨機(jī)變量的線(xiàn)性函數(shù)
    • 無(wú)偏性:即E(\hat{\beta}_j)=\beta_j
    • 有效性:即在所有線(xiàn)性無(wú)偏估計(jì)量中方差最小
    • 上述三個(gè)準(zhǔn)則也被稱(chēng)為估計(jì)量的小樣本性質(zhì)梳杏,具備以上性質(zhì)的估計(jì)量是最佳線(xiàn)性無(wú)偏估計(jì)量,即Best Linear Unbiased Estimator,BLUE淹接。
    • 若滿(mǎn)足經(jīng)典線(xiàn)性回歸假設(shè)十性,最小二乘估計(jì)是BLUE的,即具有最小方差的線(xiàn)性無(wú)偏估計(jì)量塑悼。
    • 也具有一致性/相合性劲适,即隨著樣本量增大,參數(shù)估計(jì)值逐漸趨近于真實(shí)值厢蒜。
  • 參數(shù)估計(jì)量的精度評(píng)估:標(biāo)準(zhǔn)誤

    • standard error of an estimator reflects how it varies under repeated sampling

    • 首先霞势,需要明確一點(diǎn):\hat{\beta}_0,\hat{\beta}_1本質(zhì)也是隨機(jī)變量烹植,因?yàn)椴煌瑪?shù)據(jù)求出來(lái)的\hat{\beta}_0,\hat{\beta}_1是不一樣的,所以求隨機(jī)變量標(biāo)準(zhǔn)誤愕贡,也可以理解為標(biāo)準(zhǔn)差草雕。關(guān)于標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)差的關(guān)系可以看這里:標(biāo)準(zhǔn)誤VS標(biāo)準(zhǔn)差

    • 一元情況:
      SE(\hat{\beta}_1)=\frac{\sigma^2}{\sum_{i=1}^n(X_i-\bar{X}^2)}
      SE(\hat{\beta}_0)=\sigma^2[\frac{1}{n}+\frac{\bar{X}^2}{\sum_{i=1}^n(X_i-\bar{X})^2}]
      置信區(qū)間:[\hat{\beta}_1-1.96SE(\hat{\beta}_1),\hat{\beta}_1+1.96SE(\hat{\beta}_1)]

    • 系數(shù)估計(jì)精度:標(biāo)準(zhǔn)誤\longrightarrow置信區(qū)間,區(qū)間反映精度固以,區(qū)間大墩虹,精度不高。注意Var(\varepsilon)=\sigma^2也是不知道的憨琳,需要進(jìn)行估計(jì)才能計(jì)算出上述兩個(gè)標(biāo)準(zhǔn)誤和置信區(qū)間诫钓。

多元線(xiàn)性回歸

  • 多元線(xiàn)性回歸:
    Y=\beta_0+\beta_1X_1+...+\beta_pX_p+\varepsilon=X\beta+\varepsilon
  • 基本假設(shè)

    • 零均值,即E(\varepsilon)=0篙螟,其中\varepsilon=(\varepsilon_1,...,\varepsilon_n)^T
    • 同方差和無(wú)序列相關(guān)尖坤,即Var(\varepsilon)=E\{[\varepsilon-E(\varepsilon)][\varepsilon-E(\varepsilon)]^T\}=E(\varepsilon\varepsilon^T)=\sigma^2I
    • 正態(tài)性:\varepsilon\sim N(0,\sigma^2I_n)
    • 隨機(jī)誤差項(xiàng)\varepsilon與自變量相互獨(dú)立,即E(X^T\varepsilon)=0
    • 無(wú)多重共線(xiàn)性闲擦,即X列滿(mǎn)秩慢味,rank(X)=p
  • 參數(shù)估計(jì)

    • 基本思想和方法都類(lèi)似:最小二乘法

    • 計(jì)算:
      \min \sum_{i=1}^n(Y_i-\hat{Y}_i)^2=\min\sum_{i=1}^ne_i^2
      \min e^Te=\min(Y-X\hat{\beta})^T(Y-X\hat{\beta})
      \min (Y^TY-\hat{\beta}^TX^TY-Y^TX\hat{\beta}+\hat{\beta}^TX^TX\hat{\beta})
      \frac{\partial Q(\hat{\beta})}{\partial\hat{\beta}}=-2X^TY+2X^TX\hat{\beta}=0
      X^TXY\hat{\beta}=X^TY\ \ \ 正則方程\\ \hat{\beta}=(X^TX)^{-1}X^TY

  • 參數(shù)估計(jì)統(tǒng)計(jì)量的性質(zhì):在線(xiàn)性模型經(jīng)典假設(shè)下,參數(shù)的最小二乘估計(jì)量是線(xiàn)性無(wú)偏估計(jì)中方差最小的估計(jì)量BLUE估計(jì)量墅冷。

  • 注意此時(shí)系數(shù)\beta_j的解釋:控制其他變量不變纯路,即average effect on Y of a one unit increase in X_j holding all other predictors fixed, but predictors usually change together寞忿。即雖然解釋上說(shuō)是控制其他變量不變驰唬,但是一般做不到,變量之間一般多多少少都有一點(diǎn)相關(guān)腔彰,此時(shí)系數(shù)的方差會(huì)增加叫编。比如體重和身高影響對(duì)足球運(yùn)動(dòng)員的影響,體重和身高一般是有關(guān)系的霹抛。

假設(shè)檢驗(yàn)

  • 為什么做假設(shè)檢驗(yàn)搓逾?
    • 因?yàn)樵诰€(xiàn)性回歸中非常關(guān)心真實(shí)的參數(shù)\beta是否為0或者是某個(gè)具體的數(shù)字。0告訴我們?cè)诳刂破渌蛩氐那疤嵯拢?img class="math-inline" src="https://math.jianshu.com/math?formula=X_j" alt="X_j" mathimg="1">和Y是相關(guān)還是不相關(guān)杯拐。雖然最小二乘估計(jì)的結(jié)果不會(huì)為0霞篡,但是這個(gè)非0的\hat{\beta}的非0特征是如何產(chǎn)生的,是真的XY不相關(guān)還是測(cè)量誤差產(chǎn)生的端逼,不知道朗兵,所以要做假設(shè)檢驗(yàn)。
  • 假設(shè)檢驗(yàn)主要有:方程整體顯著性檢驗(yàn)顶滩,擬合優(yōu)度檢驗(yàn)余掖,單個(gè)變量的顯著性檢驗(yàn)
  • 看檢驗(yàn)結(jié)果的順序
    • 先看F檢驗(yàn)的P值是不是小于0.05礁鲁,如果是盐欺,說(shuō)明至少一個(gè)自變量對(duì)因變量有顯著影響
    • 然后再看R^2赁豆,即整體的擬合優(yōu)度
    • 最后再看每個(gè)系數(shù)的顯著性,及其如何解讀找田,解讀的含義
  • 舉例:測(cè)量身高(此時(shí)假設(shè)身高可正可負(fù))
    • 真實(shí)身高:參數(shù)\beta
    • 尺子的測(cè)量結(jié)果:統(tǒng)計(jì)量\hat{\beta}=1.7(尺子:最小二乘估計(jì))
    • 尺子的精度:標(biāo)準(zhǔn)誤standard error歌憨,即\hat{\beta}的標(biāo)準(zhǔn)差着憨,SE越大墩衙,說(shuō)明誤差越大,尺子的精度就越差甲抖。
    • 問(wèn)題核心:\beta\hat{\beta}的差異與尺子的精度進(jìn)行比較漆改。SE之前說(shuō)過(guò)也是一個(gè)位置的參數(shù),需要估計(jì)准谚,所以實(shí)際用的是\hat{SE}挫剑。
    • 假設(shè)檢驗(yàn)原假設(shè)和備擇假設(shè):H_0:\beta=\beta_0\ v.s.\ H_1:\beta\ne \beta_0
    • 構(gòu)造統(tǒng)計(jì)量t=\frac{\hat{\beta}-\beta_0}{\hat{SE}}
      • t統(tǒng)計(jì)量值很大,說(shuō)明\hat{\beta}-\beta_0的差異很大柱衔,大到?jīng)]有辦法用尺子的測(cè)量誤差來(lái)解釋?zhuān)f(shuō)明兩者之間的差異就是很大樊破,所以拒絕原假設(shè),否則接受原假設(shè)唆铐。接受原假設(shè)是基于現(xiàn)有的證據(jù)無(wú)法推翻原假設(shè)哲戚,但沒(méi)有說(shuō)原假設(shè)就是對(duì)的,只是沒(méi)有辦法拒絕艾岂。
      • 假設(shè)檢驗(yàn)的過(guò)程從來(lái)不支持原假設(shè)顺少,只是沒(méi)有辦法拒絕。但是此時(shí)要做一個(gè)決策王浴,保守的脆炎,就是接受原假設(shè)。

平方和分解

  • SST=\sum_{i=1}^{n}(Y_i-\bar{Y}_i)^2氓辣,sum of squares total秒裕,總平方和。有點(diǎn)像Y_i的方差钞啸,是樣本觀(guān)測(cè)值與樣本均值的離差簇爆,與最小二乘估計(jì)無(wú)關(guān),反映因變量Y整個(gè)變異性有多大爽撒,即variability入蛆。變異性越大,包含的信息越多硕勿。

  • ESS=SSR=\sum_{i=1}^n(\hat{Y}_i-\bar{Y})^2哨毁,回歸平方和。即樣本回歸擬合值域觀(guān)測(cè)值的平均值之差的平方和源武,可以由回歸直線(xiàn)解釋的部分扼褪。

    • ESS:explained sum of squares想幻,回歸平方和。
    • SSR:sum of squares regression话浇,回歸平方和
  • RSS=SSE=\sum_{i=1}^n(Y_i-\hat{Y}_i)^2脏毯,sum of squared residuals,殘差平方和幔崖。即實(shí)際觀(guān)測(cè)值與回歸擬合值之差的平方和食店,是回歸直線(xiàn)不能解釋的部分。

    • RSS:residual sum of squares赏寇,殘差平方和吉嫩。
    • SSE:sum of squared residuals,殘差平方和嗅定。
    • 殘差e_i=\hat{\varepsilon}_i的方差\hat{\sigma}^2的無(wú)偏估計(jì):\hat{\sigma}^2=\frac{1}{n-p-1}(Y_i-\hat{Y_i})^2=\frac{SSE}{n-p-1}自娩,其中n-p-1為調(diào)整系數(shù),p是自變量的個(gè)數(shù)渠退。
  • 這里統(tǒng)一用ESS代表回歸平方和忙迁,RSS代表殘差平方和。

平方和分解

單個(gè)自變量顯著性檢驗(yàn):t檢驗(yàn)

  • 原假設(shè)和備擇假設(shè):H_0:\beta_j=0\ v.s.\ H_1:\beta_j\ne0
  • 統(tǒng)計(jì)量:t=\frac{\hat{\beta}_j-\beta_j}{\hat{SE}(\beta_j)}\sim t(n-p-1)
  • 臨界值:給定顯著性水平\alpha碎乃,則臨界值t_{1-\alpha/2}(n-p-1)
  • 接受or拒絕:若|t|小于t_{1-\alpha/2}(n-p-1)姊扔,則落在了接受域,則接受原假設(shè)荠锭,說(shuō)明自變量X_j對(duì)因變量沒(méi)有顯著影響旱眯,反之拒絕原假設(shè),自變量X_j對(duì)因變量有顯著影響证九。
  • P值:P-value<\alpha删豺,拒絕原假設(shè),反之接受愧怜。
  • 假設(shè)檢驗(yàn)的兩類(lèi)錯(cuò)誤
實(shí)際 實(shí)際
H_0為真 H_0為假
決策 拒絕H_0 Type I Error
決策 接受H_0 Type II Error
  • 多重檢驗(yàn)的問(wèn)題

    • 其實(shí)就是一個(gè)夜路走多了總會(huì)遇到鬼或者常在河邊走哪有不濕鞋的問(wèn)題
    • 假設(shè)檢驗(yàn)時(shí)呀页,每次5%可能性犯錯(cuò)誤,好像并不大拥坛,但是當(dāng)你要做10,100甚至1000次假設(shè)檢驗(yàn)時(shí)犯錯(cuò)誤的可能性就非常大蓬蝶。所以,只要假設(shè)檢驗(yàn)做得多猜惋,就一定會(huì)看到顯著性的結(jié)果——多重檢驗(yàn)的副作用丸氛。
    • 如何控制:先看F檢驗(yàn),也不是很好著摔,但是也沒(méi)有特別好的方法缓窜。

方程整體顯著性檢驗(yàn):F檢驗(yàn)

  • 原假設(shè)和備擇假設(shè):H_0:\tilde{\beta}=0\ v.s.\ H_1:\tilde{\beta}\ne0,其中\tilde{\beta}=(\beta_1,\beta_2,...,\beta_p),不包含截距項(xiàng)禾锤。
    • 原假設(shè):所有解釋變量都沒(méi)用
    • 對(duì)立假設(shè):只要有一個(gè)解釋變量的系數(shù)不是0私股,對(duì)立假設(shè)就成立
    • F檢驗(yàn)首先執(zhí)行,如果不能拒絕原假設(shè)那么t檢驗(yàn)就不用做了恩掷。如果能拒絕倡鲸,則至少有一個(gè)解釋性變量是顯著的,再分別對(duì)每一個(gè)解釋性變量做t檢驗(yàn)
    • 做法不完美黄娘,比如有50個(gè)解釋性變量峭状,F(xiàn)檢驗(yàn)通過(guò)了,比如其中X_1是顯著的寸宏。那么在做t檢驗(yàn)時(shí)宁炫,第一個(gè)顯著偿曙,剩下的解釋變量仍然承受著嚴(yán)重的多重檢驗(yàn)的問(wèn)題氮凝。
  • 統(tǒng)計(jì)量:F=\frac{(RSS_0-RSS_1)/p}{RSS_1/(n-p-1)}\sim F(p,n-p-1)
    • RSS_0:空模型的殘差平方和,RSS_1:當(dāng)前模型的殘差平方和望忆,此處是全模型罩阵,即p個(gè)自變量。
    • 核心思想在于分子:即空模型和全模型的殘差平方和的對(duì)比启摄,當(dāng)原假設(shè)成立時(shí)稿壁,所有解釋變量都沒(méi)用,則空模型和全模型的殘差平方和相差應(yīng)該不大歉备,即RSS_0-RSS_1很小傅是,所以F值就會(huì)很小,就傾向于接受原假設(shè)蕾羊。
    • 分母:\hat{\sigma}^2=RSS_1/(n-p-1)
    • 分子/分母:標(biāo)準(zhǔn)化喧笔,沒(méi)有技術(shù)原因,主要思想來(lái)自于RSS_0RSS_1的對(duì)比龟再,一個(gè)空模型书闸,一個(gè)全模型,如果差別不大利凑,說(shuō)明模型不顯著浆劲。
  • 臨界值:給定顯著性水平\alpha,臨界值F_{\alpha}(k,n-k-1)哀澈。如果F小于F_{\alpha}(k,n-k-1)牌借,則接受原假設(shè),即該模型的所有回歸系數(shù)都等于0割按,該模型沒(méi)有意義膨报,反之拒絕原假設(shè),并做進(jìn)一步的t檢驗(yàn)。

擬合優(yōu)度檢驗(yàn):R^2

  • 整個(gè)模型的accuracy的評(píng)估:即對(duì)所有data fit出來(lái)的效果丙躏,兩種方法:
    • 絕對(duì)衡量:residual standard error:RSE=\hat{\sigma}=\sqrt{\frac{1}{n-p-1}RSS}
    • 相對(duì)衡量:R^2=(1-\frac{RSS_1}{RSS_0})=\frac{TSS-RSS}{TSS}
  • R^2=(1-\frac{RSS_1}{RSS_0})*100\%=\frac{TSS-RSS}{TSS}
    • RSS_0:空模型的殘差平方和择示,即SST,它刻畫(huà)的是因變量Y中包含多少信息晒旅。
    • RSS_1:當(dāng)前模型/全模型的殘差平方和栅盲,說(shuō)明使用當(dāng)前模型時(shí)殘差中還有多少信息,一定小于RSS_0
    • \frac{RSS_1}{RSS_0}:即Y中有多少信息是殘差造成的废恋,即有多少是X解釋不了的谈秫。
    • R^2Y中有多少信息是可以被X解釋的,即0-1之間鱼鼓。
    • R^2缺點(diǎn):分不清好壞拟烫,只要解釋變量增加,R^2就會(huì)增大迄本,不管解釋變量是否有用硕淑,永遠(yuǎn)偏好全模型,但全模型不一定是最好的嘉赎。
    • 一元線(xiàn)性回歸中:R^2=r^2
      • r=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\sum_{i=1}^n(X_i-\bar{X})^2}\sqrt{\sum_{i=1}^n(Y_i-\bar{Y})^2}}
  • R^2_{adj}=((1-\frac{RSS_1/n-p-1}{RSS_0/n-1})\times100\%)=(1-\frac{n-1}{n-p-1}\frac{RSS_1}{RSS_0}\times100\%)\\=(1-\frac{n-1}{RSS_0}\frac{RSS_1}{n-p-1}\times100\%)
    • 調(diào)整后R^2:即在RSS\ ratio前面加一個(gè)調(diào)整系數(shù)
    • 調(diào)整系數(shù)\frac{n-1}{n-p-1}作用:隨著模型越來(lái)越復(fù)雜置媳,p在增加,n-p-1在減小公条,同時(shí)RSS_1在減小拇囊,而RSS_0不變。所以當(dāng)增加變量是很重要的變量的時(shí)候靶橱,RSS_1的下降程度要大于n-p-1的下降程度寥袭,所以調(diào)整后R^2會(huì)變大。但是當(dāng)增加的變量是不重要的變量的時(shí)候关霸,RSS_1的下降程度小于n-p-1传黄,則調(diào)整后R^2會(huì)變小。
    • 有可能出現(xiàn)負(fù)數(shù)谒拴,負(fù)數(shù)表示連空模型都不如尝江。當(dāng)n較小,p很大時(shí)英上。
  • 外樣本判決系數(shù)
    • 用外樣本來(lái)評(píng)價(jià)炭序,即將數(shù)據(jù)隨機(jī)切分為訓(xùn)練集和測(cè)試集
    • 公式完全一樣,只是\hat{\beta}的估計(jì)是根據(jù)訓(xùn)練集苍日,外樣本R^2的計(jì)算是根據(jù)測(cè)試集

模型診斷與改進(jìn)

  • 建模時(shí)的假設(shè):

    • 零均值惭聂,即E(\varepsilon)=0,其中\varepsilon=(\varepsilon_1,...,\varepsilon_n)^T
    • 同方差和無(wú)序列相關(guān)相恃,即Var(\varepsilon)=E\{[\varepsilon-E(\varepsilon)][\varepsilon-E(\varepsilon)]^T\}=E(\varepsilon\varepsilon^T)=\sigma^2I
    • 正態(tài)性:\varepsilon\sim N(0,\sigma^2I_n)
    • 隨機(jī)誤差項(xiàng)\varepsilon與自變量X相互獨(dú)立辜纲,即E(X^T\varepsilon)=0
    • 無(wú)多重共線(xiàn)性,即X列滿(mǎn)秩,rank(X)=p
  • 有些假設(shè)不成立耕腾,只會(huì)影響估計(jì)的效率见剩,但是有些假設(shè)不成立模型就沒(méi)辦法用

    • 異方差:殘差圖(\hat{Y}和\hat{\varepsilon}),對(duì)數(shù)變換
    • 正態(tài)分布:QQ圖直線(xiàn)扫俺,對(duì)數(shù)變換
    • 強(qiáng)影響點(diǎn):cook距離
    • 多重共線(xiàn)性:方差膨脹因子VIF苍苞,很?chē)?yán)重
    • 內(nèi)生性:模型中的一個(gè)或多個(gè)解釋變量與隨機(jī)擾動(dòng)項(xiàng)相關(guān)

異方差和殘差圖

  • 殘差:\hat{\varepsilon}=Y_i-\hat{Y}_i,誤差\varepsilon不可觀(guān)測(cè)狼纬,所以用殘差來(lái)估計(jì)它羹呵。

  • 異方差:相對(duì)同方差而言,同方差即Var(\varepsilon_i)=\sigma^2疗琉。異方差即隨機(jī)誤差項(xiàng)具有不同的方差冈欢,Var(\varepsilon_i)=\sigma_i^2

  • 產(chǎn)生原因

    • 遺漏重要解釋變量
    • 存在測(cè)量誤差
    • 截面數(shù)據(jù)中總體各單位存在差異
    • 模型函數(shù)形式設(shè)定錯(cuò)誤
    • 存在異常觀(guān)測(cè)
  • 診斷方法

    • 殘差圖:橫軸\hat{Y}預(yù)測(cè)值盈简,縱軸\varepsilon

      殘差圖
      • 圖一:零均值同方差假設(shè)成立凑耻,觀(guān)測(cè)到殘差是以0為平均水平,無(wú)規(guī)律的散亂分布
      • 圖二:殘差并不以0為平均水平波動(dòng)送火,且呈現(xiàn)出拋物線(xiàn)形狀拳话,2次曲線(xiàn)先匪。原因:可能是遺漏了重要變量种吸,比如某變量的平方項(xiàng),不太常見(jiàn)呀非。解決方法:加入新的自變量坚俗,或者考慮非線(xiàn)性模型
      • 圖三:喇叭狀,常見(jiàn)岸裙,殘差的波動(dòng)隨著預(yù)測(cè)值的增加越來(lái)越大猖败,異方差,即Var(\varepsilon_i)=\sigma_i^2降允。異方差特別常見(jiàn)恩闻,特別是因變量和錢(qián)有關(guān)的時(shí)候。比如假定收入的波動(dòng)相同剧董,但是收入水平不同的人的波動(dòng)不太相同幢尚,收入高的人波動(dòng)要更大。解決方法:對(duì)數(shù)變換翅楼。
      • 在R語(yǔ)言中模型診斷時(shí)尉剩,第一個(gè)和第三個(gè)圖表示的意思差不多,只要看第一個(gè)就可以了毅臊。
    • 統(tǒng)計(jì)方法:Goldfeld-Quandt檢驗(yàn)法理茎,White檢驗(yàn)法,Park檢驗(yàn)法,Glesier檢驗(yàn)法等

  • 后果

    • 最小二乘估計(jì)任然是線(xiàn)性無(wú)偏一致的皂林,但不再有效朗鸠,即方差不是最小的
    • 隨機(jī)誤差項(xiàng)的條件方差的估計(jì)是有偏的,即\hat{\sigma^2}=\frac{RSS}{n-p-1}是有偏的
    • 參數(shù)的估計(jì)標(biāo)準(zhǔn)誤差也是有偏且不一致的础倍,參數(shù)的估計(jì)標(biāo)準(zhǔn)誤中含有\hat{\sigma}^2
    • 預(yù)測(cè)的精準(zhǔn)度降低
  • 解決方法

    • 理論上會(huì)用加權(quán)的最小二乘估計(jì)童社,但實(shí)際中不常用
    • 實(shí)際:對(duì)數(shù)變換,改善異方差情況著隆。常假定正態(tài)分布铐料,對(duì)數(shù)變換也可以改善不對(duì)稱(chēng)的情況浸卦。
    • 對(duì)數(shù)變換只適用于正數(shù),如果條件不允許,此時(shí)應(yīng)該知道最小二乘法產(chǎn)生的解不是最優(yōu)的耙替,要加權(quán)的最小二乘估計(jì)產(chǎn)生的結(jié)果可能更好
      • 加權(quán)的最小二乘:如果一個(gè)觀(guān)測(cè)值的方差更大,即準(zhǔn)確度差滔悉,權(quán)重應(yīng)該低一點(diǎn)型凳,反之權(quán)重更高一點(diǎn)
      • 或者如果有很小一部分比如1%的0,則可以在0上加一個(gè)單位流酬,比如變成0.001

非正態(tài)性和QQ圖

  • 正態(tài)性\varepsilon\sim N(0,\sigma^2I_n)
  • 診斷方法:QQ圖币厕。橫軸:標(biāo)準(zhǔn)正態(tài)分布理論分位數(shù),縱軸樣本分位數(shù)芽腾。
    • 如果QQ圖的散點(diǎn)近似成一條直線(xiàn)旦装,那么就近似服從標(biāo)準(zhǔn)正態(tài)分布。
    • 如果兩側(cè)尾巴偏離了就是厚尾分布摊滔,哪邊尾巴偏離多就是什么偏阴绢,比如右尾偏離多,就是極大值比較多艰躺,是右偏分布呻袭。
  • 后果:影響估計(jì)量的一致性
  • 解決方法:取對(duì)數(shù)

強(qiáng)影響點(diǎn)和Cook距離

  • 強(qiáng)影響點(diǎn):如果在計(jì)算某種指標(biāo)時(shí),包含和不包含某個(gè)樣本點(diǎn)腺兴,對(duì)于結(jié)果影響很大左电,那么這個(gè)樣本點(diǎn)就是強(qiáng)影響點(diǎn)
    • 比如土豪在計(jì)算平均收入時(shí)就是強(qiáng)影響點(diǎn)
  • 回歸分析中的強(qiáng)影響點(diǎn):是否包含該樣本點(diǎn)對(duì)于參數(shù)的估計(jì)結(jié)果\hat{\beta}造成很大的影響
    • 離群值和強(qiáng)影響點(diǎn)
      • outlier:outlier is X given y is unusual,即針對(duì)Y,通常是相同的X页响,但離群值的Y會(huì)和大家差別很大
      • High leverage:has unusual value for X篓足,即X的取值已經(jīng)很奇怪了。一般因變量取值比較特殊會(huì)成為強(qiáng)影響點(diǎn)拘泞。
  • 診斷方法:Cook距離
    • 針對(duì)樣本點(diǎn)計(jì)算纷纫,n個(gè)樣本點(diǎn)可以計(jì)算出n個(gè)cook距離
    • 計(jì)算思想:用所有全樣本的估計(jì)量\hat{\beta}作為基本的標(biāo)桿,然后把第i個(gè)樣本刪除剩下n-1個(gè)樣本重新進(jìn)行最小二乘估計(jì)得到\hat{\beta}_{-i}陪腌,進(jìn)而得到該樣本點(diǎn)的cook距離辱魁。兩者進(jìn)行對(duì)比烟瞧,如果目前正在研究的觀(guān)測(cè)值是一個(gè)滅有太大影響力的觀(guān)測(cè)值,存在與否不太會(huì)影響最終計(jì)算結(jié)果染簇,所以預(yù)期兩個(gè)估計(jì)量之間的差距是比較小的参滴,cook距離就比較小。
    • 計(jì)算公式:D_i=\frac{(\hat{\beta}-\hat{\beta} _{-i})(X^TX)(\hat{\beta}-\hat{\beta}_{-i})}{(p+1)\hat{\sigma}^2}
  • 后果:會(huì)帶偏回歸系數(shù)锻弓,向強(qiáng)影響點(diǎn)的方向偏離
  • 解決方法:刪掉強(qiáng)影響點(diǎn)
  • 問(wèn)題:什么樣的cook距離算異常砾赔?
    • 沒(méi)有一個(gè)給定的比較標(biāo)準(zhǔn),看大家的平均水平青灼,如果大家基本都在0.0幾暴心,而你在0.5,那么就需要注意了杂拨。即強(qiáng)影響點(diǎn)產(chǎn)生的cook距離真的要比其他觀(guān)測(cè)點(diǎn)壓倒性地大专普。
    • 看是在因變量/自變量上異常,一般因變量取值比較特殊會(huì)成為強(qiáng)影響點(diǎn)弹沽。
  • 注意:R語(yǔ)言中總會(huì)輸出3個(gè)最高的cook距離檀夹,不要一看見(jiàn)就刪除,要和其他水平比較策橘,否則再刪也總會(huì)出現(xiàn)3個(gè)最高的炸渡。

多重共線(xiàn)性、可識(shí)別性與方差膨脹因子VIF

  • 前面:異方差丽已,強(qiáng)影響點(diǎn)等影響不大蚌堵。

    • 異方差:OLS估計(jì)不再是最有效的,估計(jì)效率低
    • 強(qiáng)影響點(diǎn):結(jié)果解讀不好促脉,被那個(gè)點(diǎn)帶偏了
  • 多重共線(xiàn)性:OLS會(huì)產(chǎn)生錯(cuò)誤辰斋,估計(jì)結(jié)果不可信

  • 多重共線(xiàn)性:(兩個(gè)變量相關(guān)就是多重共線(xiàn)性×)線(xiàn)性回歸模型中的解釋變量之間存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系

    • 由于所有的解釋性變量都來(lái)自于同一個(gè)個(gè)體,天生就相關(guān)瘸味,如果不相關(guān)才奇怪。多重共線(xiàn)性是這種相關(guān)性太高了够挂,高到已經(jīng)成為一個(gè)災(zāi)難性的后果:影響到可識(shí)別性旁仿,要非常小心處理。
  • 可識(shí)別性

    • 模型1:Y=X_1+X_2+X_3+\varepsilon孽糖,其實(shí)X_1=X_2=X_3枯冈,即模型是完全共線(xiàn)性的,所以模型1還有其他兩種寫(xiě)法办悟。
    • 模型2:Y=2X_1+X_3+\varepsilon
    • 模型3:Y=X_2+2X_3+\varepsilon
    • 模型1,2,3都是同一個(gè)模型尘奏,但是對(duì)應(yīng)的回歸系數(shù)卻各不相同。這時(shí)就產(chǎn)生了可識(shí)別性問(wèn)題病蛉,即identifiability的問(wèn)題炫加。
    • 可識(shí)別性問(wèn)題:同樣一組數(shù)據(jù)在不同的參數(shù)設(shè)定下可以產(chǎn)生相同的Y瑰煎,分不清哪個(gè)是唯一正確的\beta
    • 實(shí)際中俗孝,一般不會(huì)出現(xiàn)完全共線(xiàn)性酒甸,但是常常會(huì)出現(xiàn)強(qiáng)烈共線(xiàn)性。這里只舉例了兩兩相關(guān)性赋铝,只要畫(huà)散點(diǎn)圖就可以看到插勤,但是還會(huì)有其他復(fù)雜的相關(guān)關(guān)系,需要VIF方法革骨。
  • 產(chǎn)生原因

    • 經(jīng)濟(jì)變量之間具有共同變化的趨勢(shì)
    • 變量之間存在經(jīng)濟(jì)聯(lián)系
    • 模型中包含滯后變量
    • 樣本數(shù)據(jù)自身的原因
  • 診斷方法:方差膨脹因子VIF

    • 散點(diǎn)圖法:對(duì)含有兩個(gè)解釋變量的模型农尖,利用解釋變量樣本觀(guān)測(cè)值的散點(diǎn)圖來(lái)觀(guān)察兩者是否有顯著的線(xiàn)性關(guān)系
    • 相關(guān)系數(shù)法
    • 經(jīng)典判斷法:擬合優(yōu)度很高,F(xiàn)檢驗(yàn)高度顯著良哲,但t檢驗(yàn)顯著的不多卤橄,懷疑存在多重共線(xiàn)性
    • VIF:variance inflation factor 方差膨脹因子
    • 思想:類(lèi)似于一個(gè)打分系統(tǒng),給每個(gè)解釋性變量X_j打分臂外,評(píng)價(jià)第j個(gè)解釋性變量X_j受多重共線(xiàn)性影響有多大窟扑。X_j做因變量,其他的解釋性變量做解釋性變量跑一個(gè)回歸分析模型漏健。如果回歸分析R^2非常非常大嚎货,說(shuō)明X_j幾乎可以被其他的解釋性變量線(xiàn)性表出,說(shuō)明這個(gè)變量正在承受著巨大的多重共線(xiàn)性影響蔫浆。
    • 計(jì)算公式:X_j=\beta_0+\sum_{k\ne j}\beta_kX_k+\varepsilon殖属,則VIF_j=\frac{1}{1-R_j^2}
      • 如果VIF>5,則R_j^2>80\%瓦盛,需要引起注意洗显。實(shí)際工作中,粗糙以10為界限原环,簡(jiǎn)單評(píng)價(jià)一個(gè)變量承受多重共線(xiàn)性的影響強(qiáng)度挠唆,超過(guò)10就比較警惕,小于10還可以接受嘱吗。
  • 后果

    • 符號(hào)和常識(shí)理論相悖玄组,估計(jì)結(jié)果無(wú)法解釋。

    • 參數(shù)估計(jì)量的方差增大

    • 參數(shù)估計(jì)的置信區(qū)間變大

    • 假設(shè)檢驗(yàn)容易做出錯(cuò)誤的判斷:比如F檢驗(yàn)全部通過(guò)谒麦,而t檢驗(yàn)都不通過(guò)

    • 多元線(xiàn)性回歸中:\hat{Y}=X\hat{\beta}=X(X^TX)^{-1}Y俄讹。要求r(X)=p,即滿(mǎn)秩绕德,否則\beta就沒(méi)辦法估計(jì)或者不唯一患膛。

      • 舉例:自變量age和limit之間沒(méi)有太大相關(guān)性,但自變量limit和自變量rating之間的相關(guān)性比較大耻蛇,但不是完全相關(guān)踪蹬。

      • 估計(jì)時(shí):當(dāng)Y對(duì)limit和age估計(jì)讓殘差平方和最小時(shí)胞此,RSS殘差平方和等高線(xiàn)如圖1所示,中間的點(diǎn)即RSS最小的時(shí)候即得到了兩個(gè)系數(shù)延曙。

      • 當(dāng)Y對(duì)limit和rating估計(jì)讓殘差平方和最小豌鹤,殘差平方和的等高線(xiàn)變得非常扁平,(等高線(xiàn)意味著在這條線(xiàn)上殘差平方和是一樣的)枝缔,但是估計(jì)的系數(shù)會(huì)有很大的差異布疙。即扁平的等高線(xiàn)會(huì)使得在一條等高線(xiàn)上的參數(shù)差異非常大。所以參數(shù)的方差變得很大愿卸。

      • X中如果有兩列是高度相關(guān)時(shí)灵临,X不是一個(gè)完全退化矩陣,但是(X^TX)^{-1}會(huì)變得很大趴荸。因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cbeta" alt="\beta" mathimg="1">的方差是\sigma^2(X^TX)^{-1},所以參數(shù)估計(jì)量的方差會(huì)增大儒溉,所以置信區(qū)間也會(huì)增大。

      • 還會(huì)導(dǎo)致:因?yàn)閠統(tǒng)計(jì)量是除以\hat{SE}(\beta)會(huì)變大发钝,所以t統(tǒng)計(jì)量就會(huì)變小顿涣,會(huì)導(dǎo)致它系數(shù)的不顯著,但是R^2又很好酝豪。即standard error for \hat{\beta}_j increase, decline t statistic, reduce the power of the hypothesis test涛碑。

      自變量相關(guān)情況

      不同情況RSS等高線(xiàn)

      不同情況模型結(jié)果
  • 解決方法
    • 排除引起共線(xiàn)性的變量:逐步回歸(向前回歸,向后回歸孵淘,向前向后回歸)
    • 差分法:把原模型變?yōu)椴罘帜P?/li>
    • 減小參數(shù)估計(jì)量的方差:嶺回歸法

內(nèi)生性endogeneity

  • 內(nèi)生性:即E(X\varepsilon)\ne 0蒲障,解釋變量的內(nèi)生性即模型中的一個(gè)或多個(gè)解釋變量與隨機(jī)擾動(dòng)項(xiàng)相關(guān)
  • 產(chǎn)生原因
    • 遺漏重要解釋變量
    • 存在測(cè)量誤差
    • 存在錯(cuò)誤的函數(shù)形式設(shè)定
    • 存在聯(lián)立性
    • X和Y互為因果關(guān)系,X影響Y瘫证,Y影響X
  • 診斷
    • 基于常識(shí)去分析模型的系數(shù)揉阎,判斷是否存在內(nèi)生性
    • 使用Hausman檢驗(yàn)
  • 后果
    • 會(huì)影響估計(jì)的無(wú)偏性
    • 會(huì)影響估計(jì)的一致性,即隨著樣本量增加背捌,估計(jì)量不趨近于真實(shí)的\beta毙籽,問(wèn)題很?chē)?yán)重
  • 解決方法
    • 工具變量IV,構(gòu)建基于IV下的回歸模型载萌,估計(jì)采用兩階段最小二乘估計(jì)
    • 改用代理變量惧财。某變量無(wú)法直接觀(guān)測(cè),使用其他變量代替

總結(jié)

診斷 解決 原理
異方差 殘差圖 取對(duì)數(shù) \hat{Y}\hat{\varepsilon}_i的圖扭仁,喇叭狀異方差
正態(tài)分布 QQ圖 取對(duì)數(shù) 標(biāo)準(zhǔn)正態(tài)分布理論分位數(shù)和樣本分位數(shù),直線(xiàn)則正態(tài)分布厅翔,否則非正態(tài)
強(qiáng)影響點(diǎn) cook距離 刪除 針對(duì)每個(gè)樣本點(diǎn)都可以計(jì)算cook距離乖坠,比大多數(shù)水平高則強(qiáng)影響點(diǎn)
多重共線(xiàn)性 VIF方差膨脹因子 向前回歸,向后回歸刀闷,向前向后回歸
嶺回歸
用一個(gè)自變量作為Y熊泵,其他變量作為解釋變量回歸得到R_j^2仰迁,是對(duì)自變量求。VIF_j=\frac{1}{1-R_j^2}顽分,大于10說(shuō)明要注意多重共線(xiàn)性
內(nèi)生性 Hausman檢驗(yàn) 工具變量IV,使用兩階段最小二乘估計(jì)

模型選擇

  • 模型選擇:在一系列待選模型中選擇最優(yōu)的徐许。最優(yōu):模型盡可能簡(jiǎn)單且預(yù)測(cè)準(zhǔn)確。

    • R^2:永遠(yuǎn)覺(jué)得全模型最好卒蘸,但是全模型在預(yù)測(cè)時(shí)常常不是最好的雌隅,因?yàn)橛行?img class="math-inline" src="https://math.jianshu.com/math?formula=X" alt="X" mathimg="1">對(duì)Y的預(yù)測(cè)精度沒(méi)有改善還消耗了自由度
    • 模型選擇的任務(wù):留下真正重要的X
  • 步驟:

    • 確定邊界:即待選模型

    • 確定信仰,選擇標(biāo)準(zhǔn):AIC準(zhǔn)則或BIC準(zhǔn)則缸沃。不同標(biāo)準(zhǔn)選擇結(jié)果不同恰起,兩者的信仰是不同的。

    • 選擇計(jì)算方法:模型選擇往往涉及到比較大的計(jì)算量趾牧,要找到又快又準(zhǔn)確的計(jì)算方法

    • 小心解讀检盼,謹(jǐn)慎使用:因?yàn)槟P瓦x擇本身也是一個(gè)計(jì)算統(tǒng)計(jì)量的過(guò)程,也受到樣本不確定性的影響翘单,也有估計(jì)誤差吨枉,怎樣做才能把這些控制在最小范圍內(nèi),是需要小心處理的哄芜。

確定邊界:待選模型

  • 不考慮交叉項(xiàng):共有2^p種選擇貌亭,每個(gè)自變量都有進(jìn)入/不進(jìn)入模型兩種選擇
  • 交互作用interation/synergy effect協(xié)同作用:如果10個(gè)解釋變量,則兩兩交叉多45中忠烛,相當(dāng)于多45個(gè)自變量属提,所以變成2^55個(gè)模型,數(shù)量巨大美尸。
    • 交互作用假定:強(qiáng)加規(guī)律冤议,要求只要交互作用存在,主效應(yīng)也一定存在师坎,不論其檢驗(yàn)結(jié)果是否顯著恕酸。有一定的現(xiàn)實(shí)意義,但更多時(shí)候只是在降低計(jì)算復(fù)雜度胯陋。
  • X的非線(xiàn)性變換:范圍更大
  • 此處只從不考慮交叉項(xiàng)和非線(xiàn)性變換入手蕊温,即2^p個(gè)待選模型

確定信仰,選擇標(biāo)準(zhǔn)——AIC,BIC

  • 模型邊界確定以后遏乔,如何知道哪個(gè)模型更好义矛,可以用調(diào)整后R^2,或外樣本R^2。無(wú)論哪種方法盟萨,都需要先解決一個(gè)問(wèn)題:什么叫好模型凉翻,這依賴(lài)于我們的信仰是AIC還是BIC

AIC準(zhǔn)則

  • 信仰:真模型不一定在待選模型里,要做的事情是在待選模型里選一個(gè)盡可能靠近真模型的模型捻激。很難制轰,真模型都不知道前计,如何找一個(gè)最近的。

  • 用KL distance來(lái)刻畫(huà)兩個(gè)模型的距離垃杖,這個(gè)距離經(jīng)過(guò)一些列簡(jiǎn)化成了AIC準(zhǔn)則

  • AIC準(zhǔn)則:
    AIC=n\{log(\frac{RSS}{n})+1+log(2\pi)\}+2\times (p+1)

  • 不同地方略有差異男杈,有的扔掉1+log(2\pi),這里是為了和R語(yǔ)言保持一致调俘。
  • AIC喜歡殘差平方和即RSS較小的模型伶棒,模型擬合越好殘差平方和越小,但是后面又有一個(gè)懲罰項(xiàng):即模型復(fù)雜度脉漏,復(fù)雜度越高苞冯,p越大,后面一項(xiàng)就越大侧巨,有一個(gè)trade-off舅锄。
  • 最優(yōu)模型:AIC得分最小的模型,赤池信息準(zhǔn)則司忱。A: akaike, I: information, C:criterion皇忿。

BIC準(zhǔn)則

  • 信仰:真模型一定在待選模型里,只是不知道是哪個(gè)而已坦仍,所以目標(biāo)就是在樣本量越來(lái)越大時(shí)把真模型以概率1挑選出來(lái)鳍烁。

  • 學(xué)者施瓦茲:貝葉斯。既然我不知道是哪一個(gè)繁扎,我就亂猜一把幔荒,給每個(gè)模型一個(gè)先驗(yàn)概率,即假設(shè)每個(gè)模型都是以一定概率是真模型梳玫,然后看數(shù)據(jù)爹梁,給定數(shù)據(jù)計(jì)算后驗(yàn)概率,后驗(yàn)概率大的就是真模型提澎。一系列處理后發(fā)現(xiàn)姚垃,后驗(yàn)概率的大小由BIC得分獲得,即貝葉斯Information criterion或SIC施瓦茲盼忌。

  • BIC準(zhǔn)則:
    BIC=n\{ log(\frac{RSS}{n})+1+log(2\pi) \}+log(n)\times(p+1)

    • 和AIC很像积糯,都喜歡RSS小的,但前提都是模型復(fù)雜度不能太大谦纱,太大時(shí)進(jìn)行懲罰看成。
    • 區(qū)別:增加一個(gè)解釋變量,AIC的懲罰力度是2跨嘉,BIC的懲罰力度是\log(n)绍昂。所以,只要n稍微大點(diǎn)偿荷,BIC的懲罰力度就會(huì)大于AIC的懲罰力度窘游。所以BIC挑出來(lái)的模型可能會(huì)更小一點(diǎn)。
  • AIC和BIC信仰不同跳纳,所以統(tǒng)計(jì)學(xué)性質(zhì)也不同

    • BIC=-2log(Likelihood\ Function)+log(n)\times p【更一般形式】
      • 性質(zhì):選擇相合性忍饰,selection consistency。如果真模型真的就在那1024個(gè)待選模型里寺庄,當(dāng)樣本量越來(lái)越大時(shí)艾蓝,BIC會(huì)以趨近于1的概率把真模型選出來(lái)。AIC不具備該性質(zhì)斗塘。
    • AIC=-2log(Likelihood\ Function)+2\times p
      • 性質(zhì):損失有效性赢织,loss efficiency。如果真模型不在待選模型里馍盟,只要離真模型最近于置,預(yù)測(cè)是最優(yōu)秀的。所以AIC選出來(lái)的模型的預(yù)測(cè)精度大概是最優(yōu)的贞岭。BIC不具備該性質(zhì)八毯。
    • 所以說(shuō)兩個(gè)信仰各有優(yōu)點(diǎn),但沒(méi)辦法調(diào)和瞄桨。所以:兩個(gè)準(zhǔn)則都試試话速,得到兩個(gè)不同的模型選擇結(jié)果,BIC更加激進(jìn)芯侥,選出的變量比較少泊交,AIC保守選出的變量更多。
      • 經(jīng)驗(yàn)表明柱查,如果優(yōu)先考慮預(yù)測(cè)精度廓俭,AIC的預(yù)測(cè)精度常常會(huì)好一點(diǎn)點(diǎn)。
      • BIC只選最有用的物赶,所以穩(wěn)定性比較好白指。如果你的模型在業(yè)務(wù)層面是非常穩(wěn)定的,那BIC的模型可能會(huì)好一點(diǎn)點(diǎn)酵紫。

選擇計(jì)算方法

無(wú)論哪個(gè)信仰都需要計(jì)算出來(lái)告嘲,但計(jì)算是比較難的,因?yàn)?0個(gè)變量就已經(jīng)1024個(gè)模型了奖地。20個(gè)就100萬(wàn)了橄唬,30個(gè)就很大很大的數(shù)字了。所以一定是要在計(jì)算上動(dòng)腦筋的参歹。

計(jì)算方法solution path:

  • best subset仰楚,即把所有的模型都遍歷一遍。模型多時(shí)就做不到了。

  • forward regression向前回歸僧界,先做所有1模型侨嘀,找最好的1模型(只有一個(gè)解釋性變量,相關(guān)性最好的解釋性變量捂襟,如X_1)咬腕;在給定X_1情況下,哪個(gè)解釋性變量對(duì)R^2模型改善最好再添加進(jìn)來(lái)葬荷,做很多2模型比較涨共,找最好的2模型;以此類(lèi)推宠漩。從而產(chǎn)生一系列的模型举反,這些模型是嵌套的,即一個(gè)比一個(gè)大扒吁,這些模型再用AIC或BIC挑選出來(lái)火鼻。把求解的空間從2^p降低到一個(gè)比較小的范圍,在這個(gè)范圍里再用AIC或BIC來(lái)選瘦陈。

    • 優(yōu)良性質(zhì):p很大也可以做凝危。
    • 缺點(diǎn):即使BIC的信仰正確時(shí),都不具備選擇相合性晨逝。原因:它很容易把一個(gè)高度相關(guān)但其實(shí)不重要的變量挑選出來(lái)然后再也不出去蛾默。例如:真實(shí)模型Y=X_1+X_2+\varepsilonX_3=X_1+X_2+小小噪音捉貌,那么會(huì)發(fā)現(xiàn)在有X_1X_2的情況下支鸡,X_3是多余的,但是讓他們單打獨(dú)斗時(shí)趁窃,X_3Y的相關(guān)性是最強(qiáng)的牧挣,所以它第一個(gè)就先進(jìn)來(lái),進(jìn)來(lái)就不出去了醒陆。所以如果p 的個(gè)數(shù)不是特別多瀑构,更好的做法是后退法backward regression。
  • backward regression向后回歸:從全模型出發(fā)刨摩,然后剔除一個(gè)對(duì)R^2影響最小的變量得到一個(gè)p-1模型寺晌,以此類(lèi)推,產(chǎn)生一個(gè)比一個(gè)小的模型澡刹,然后再利用AICBIC進(jìn)行挑選呻征。

    • 優(yōu)點(diǎn):此時(shí)如果BIC的信仰是對(duì)的,p也不是很大罢浇,則此時(shí)就可以具備選擇相合性陆赋。
    • 缺點(diǎn):在有限樣本時(shí)沐祷,一旦把一個(gè)人槍斃了,它就再也回不來(lái)了攒岛。給他一個(gè)回來(lái)的機(jī)會(huì)赖临,所以又有了stepwise。
  • stepwise regression向前向后回歸:按照一定的標(biāo)準(zhǔn)阵子,允許你出去允許你又回來(lái)思杯。

  • LASSO+SCAD:帶有懲罰項(xiàng)的回歸分析方法。把最小二乘估計(jì)改善成一個(gè)帶有懲罰項(xiàng)的估計(jì)挠进。比如LASSO就是在最小化最小二乘估計(jì)的目標(biāo)函數(shù)時(shí),加一個(gè)懲罰項(xiàng)L_1誊册。好處:很多參數(shù)估計(jì)出來(lái)的時(shí)候就是exactly=0领突。既然估計(jì)出來(lái)的時(shí)候就等于0,自然模型選擇的任務(wù)就完成了案怯。

    • \sum_{i=1}^n(y_i-\beta_0-\sum_{j=1}^{p}\beta_jx_{ij})^2+\lambda\sum_{j=1}^{p}\vert\beta_j\vert

      這個(gè)做法的有效性非常非常依賴(lài)于調(diào)節(jié)參數(shù)\lambda君旦,就是他有非常非常多的要求。

    • 也就是不同的\lambda會(huì)產(chǎn)生一個(gè)類(lèi)似于stepwise regression的求解集合嘲碱,他比2^p要小很多金砍,這個(gè)集合里面仍然要挑選。這個(gè)集合里面的挑選對(duì)應(yīng)的問(wèn)題就是\lambda的選擇麦锯,它的選擇仍然需要AIC和BIC來(lái)幫助恕稠。

  • 向前回歸:空模型加自變量,向后回歸:全模型減自變量

小心解讀扶欣,謹(jǐn)慎應(yīng)用

  • Model selection uncertainty
  • model averaging模型平均:p(M_k|Y)=\frac{p(Y|M_k)\pi(M_k)}{\sum_{k=0}^{q}p(Y|M_k)\pi(M_k)}
    • 它要解決的問(wèn)題是:我們無(wú)論用AIC, BIC, LASSO鹅巍,最后選出來(lái)的模型都具有不確定性。因?yàn)樗际腔陔S機(jī)的數(shù)產(chǎn)生的料祠,這個(gè)不確定性可能大也可能小骆捧。無(wú)論你選哪個(gè)模型,都是把雞蛋放到一個(gè)籃子里髓绽,能不能分散開(kāi)來(lái)放敛苇。
    • 把每個(gè)模型加權(quán)平均到一起得到一個(gè)綜合的模型會(huì)不會(huì)更加穩(wěn)定?經(jīng)驗(yàn)表明:會(huì)顺呕。模型平均方法是一種非常有競(jìng)爭(zhēng)力的預(yù)測(cè)模型枫攀,最大的特點(diǎn)就是性能穩(wěn)定。對(duì)于一個(gè)具體的數(shù)據(jù)集而言塘匣,有時(shí)候它的預(yù)測(cè)精度是最好的脓豪,有時(shí)候也不見(jiàn)得是最好的,但是它的穩(wěn)定性是最好的忌卤。幾乎在所有的數(shù)據(jù)集中測(cè)試表現(xiàn)都是一個(gè)非常非常有競(jìng)爭(zhēng)力的狀態(tài)扫夜。
  • 系數(shù)的解讀沒(méi)有寫(xiě),下次再總結(jié)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市笤闯,隨后出現(xiàn)的幾起案子堕阔,更是在濱河造成了極大的恐慌,老刑警劉巖颗味,帶你破解...
    沈念sama閱讀 216,402評(píng)論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件超陆,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡浦马,警方通過(guò)查閱死者的電腦和手機(jī)时呀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)晶默,“玉大人谨娜,你說(shuō)我怎么就攤上這事』嵌福” “怎么了趴梢?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,483評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)币他。 經(jīng)常有香客問(wèn)我坞靶,道長(zhǎng),這世上最難降的妖魔是什么蝴悉? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,165評(píng)論 1 292
  • 正文 為了忘掉前任彰阴,我火速辦了婚禮,結(jié)果婚禮上辫封,老公的妹妹穿的比我還像新娘硝枉。我一直安慰自己,他們只是感情好倦微,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布妻味。 她就那樣靜靜地躺著,像睡著了一般欣福。 火紅的嫁衣襯著肌膚如雪责球。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,146評(píng)論 1 297
  • 那天拓劝,我揣著相機(jī)與錄音雏逾,去河邊找鬼。 笑死郑临,一個(gè)胖子當(dāng)著我的面吹牛栖博,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播厢洞,決...
    沈念sama閱讀 40,032評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼仇让,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼典奉!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起丧叽,我...
    開(kāi)封第一講書(shū)人閱讀 38,896評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤卫玖,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后踊淳,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體假瞬,經(jīng)...
    沈念sama閱讀 45,311評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評(píng)論 2 332
  • 正文 我和宋清朗相戀三年迂尝,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了脱茉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,696評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡雹舀,死狀恐怖芦劣,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情说榆,我是刑警寧澤,帶...
    沈念sama閱讀 35,413評(píng)論 5 343
  • 正文 年R本政府宣布寸认,位于F島的核電站签财,受9級(jí)特大地震影響鼠哥,放射性物質(zhì)發(fā)生泄漏啥繁。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評(píng)論 3 325
  • 文/蒙蒙 一础芍、第九天 我趴在偏房一處隱蔽的房頂上張望灸叼。 院中可真熱鬧神汹,春花似錦、人聲如沸古今。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)捉腥。三九已至氓拼,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間抵碟,已是汗流浹背桃漾。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,815評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拟逮,地道東北人撬统。 一個(gè)月前我還...
    沈念sama閱讀 47,698評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像敦迄,于是被迫代替她去往敵國(guó)和親恋追。 傳聞我的和親對(duì)象是個(gè)殘疾皇子凭迹,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 參考書(shū)目為安德森的《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)》,以下為個(gè)人的學(xué)習(xí)總結(jié)几于,如果有錯(cuò)誤歡迎指正蕊苗。有需要本書(shū)pdf的,鏈接在本文末尾...
    愚盆閱讀 3,138評(píng)論 0 1
  • 一沿彭、簡(jiǎn)單線(xiàn)性回歸 1.我們研究回歸分析時(shí)要查看變量間是否存在相關(guān)性朽砰,線(xiàn)性相關(guān)公式為 但是這個(gè)地方要注意,這個(gè)系數(shù)為...
    enhengz閱讀 3,323評(píng)論 0 0
  • 1. 模型簡(jiǎn)介 模型思想 多元線(xiàn)性回歸(multiple linear regression) 模型的目的是構(gòu)建一...
    風(fēng)逝流沙閱讀 20,542評(píng)論 0 5
  • 基本形式 給定包含條記錄的數(shù)據(jù)集: 線(xiàn)性回歸模型試圖學(xué)習(xí)一個(gè)線(xiàn)性模型以盡可能地預(yù)測(cè)因變量: 多元線(xiàn)性回歸的假設(shè) 同...
    TOMOCAT閱讀 330評(píng)論 0 0
  • 彩排完喉刘,天已黑
    劉凱書(shū)法閱讀 4,209評(píng)論 1 3