總結(jié)
線(xiàn)性回歸是有監(jiān)督學(xué)習(xí)里最常見(jiàn)也是最簡(jiǎn)單的一種形式线罕,可以分為一元線(xiàn)性回歸和多元線(xiàn)性回歸者铜,適用情況為是連續(xù)型數(shù)據(jù)宛蚓,為任意數(shù)據(jù)寄摆。內(nèi)容主要分為:基本思想逝她,參數(shù)估計(jì)及解讀,假設(shè)檢驗(yàn)(模型整體顯著性窿凤、單個(gè)變量顯著性仅偎、擬合優(yōu)度檢驗(yàn)),模型診斷與改進(jìn)雳殊,模型選擇(確定邊界橘沥,確定信仰,選擇計(jì)算方法)夯秃。
基本思想
-
真實(shí)模型:
- 和有誤差座咆,即,是除了自變量之外對(duì)有影響的因素仓洼,絕對(duì)不可少介陶,有隨機(jī)性。是不可觀(guān)測(cè)的色建,被稱(chēng)為random error哺呜。
- 不能忽略隨機(jī)誤差,如果沒(méi)有它箕戳,就變成了一個(gè)確定的函數(shù)某残,沒(méi)有不確定性,而統(tǒng)計(jì)學(xué)就是研究不確定性陵吸。
-
的形式是多種多樣的玻墅,是確定性的或系統(tǒng)性的。
- 被稱(chēng)為回歸函數(shù)壮虫,沒(méi)有不確定性澳厢。
- 一個(gè)有可能對(duì)應(yīng)多個(gè),所以不可能算出一個(gè)確切的囚似,是剩拢。
-
真實(shí)模型未知,參數(shù)方法中需要假設(shè)形式并進(jìn)行估計(jì)谆构。線(xiàn)性回歸在估計(jì)之前對(duì)模型做了一個(gè)基本假定裸扶,即框都,故線(xiàn)性回歸模型為:
真實(shí)的模型大概率不是這樣子的搬素,但并不妨礙我們使用它呵晨。
:未知的回歸系數(shù),需要根據(jù)樣本數(shù)據(jù)估計(jì)并解讀熬尺。
:誤差摸屠,不可觀(guān)測(cè)。
-
估計(jì)未知參數(shù):
- 目標(biāo)找到離所有點(diǎn)都近的一條直線(xiàn)
- 即殘差平方和最辛缓摺:最小季二,得到參數(shù)的估計(jì)量,其中即為的估計(jì)量揭措,即殘差胯舷。
- 即最小二乘估計(jì)OLS
之后再進(jìn)行假設(shè)檢驗(yàn),模型診斷與改進(jìn)绊含,模型選擇等等步驟桑嘶。
參數(shù)估計(jì)
一元線(xiàn)性回歸
一元線(xiàn)性回歸:
-
基本假設(shè)(保證參數(shù)估計(jì)量具有良好性質(zhì)):
自變量是確定的,不是隨機(jī)變量
隨機(jī)誤差零均值躬充,同方差逃顶,無(wú)序列相關(guān)性,即
隨機(jī)誤差項(xiàng)與不相關(guān)充甚,即
服從正態(tài)分布以政,即
以上四個(gè)假設(shè)被稱(chēng)為線(xiàn)性回歸模型的經(jīng)典假設(shè)或高斯假設(shè),滿(mǎn)足該假設(shè)的線(xiàn)性回歸模型稱(chēng)為經(jīng)典線(xiàn)性回歸模型
參數(shù)估計(jì)核心思想:找到一條直線(xiàn)讓所有的點(diǎn)都靠近這條直線(xiàn)伴找,大家好才是真的好盈蛮,即找到所有的點(diǎn)都直線(xiàn)在軸的距離的平方和最小。
-
參數(shù)估計(jì)方法:即最小二乘法Ordinary least squares
其中:殘差技矮,是隨機(jī)誤差的估計(jì)量眉反,代表這條直線(xiàn)擬合程度的好壞,如果其平方都比較大穆役,說(shuō)明擬合的不好寸五,點(diǎn)離直線(xiàn)比較遠(yuǎn),所以最小化的量其實(shí)就是最小化殘差平方和耿币。
-
參數(shù)估計(jì)量的統(tǒng)計(jì)性質(zhì):BLUE
- 線(xiàn)性性:即是另一隨機(jī)變量的線(xiàn)性函數(shù)
- 無(wú)偏性:即
- 有效性:即在所有線(xiàn)性無(wú)偏估計(jì)量中方差最小
- 上述三個(gè)準(zhǔn)則也被稱(chēng)為估計(jì)量的小樣本性質(zhì)梳杏,具備以上性質(zhì)的估計(jì)量是最佳線(xiàn)性無(wú)偏估計(jì)量,即Best Linear Unbiased Estimator,BLUE淹接。
- 若滿(mǎn)足經(jīng)典線(xiàn)性回歸假設(shè)十性,最小二乘估計(jì)是BLUE的,即具有最小方差的線(xiàn)性無(wú)偏估計(jì)量塑悼。
- 也具有一致性/相合性劲适,即隨著樣本量增大,參數(shù)估計(jì)值逐漸趨近于真實(shí)值厢蒜。
-
參數(shù)估計(jì)量的精度評(píng)估:標(biāo)準(zhǔn)誤
standard error of an estimator reflects how it varies under repeated sampling
首先霞势,需要明確一點(diǎn):本質(zhì)也是隨機(jī)變量烹植,因?yàn)椴煌瑪?shù)據(jù)求出來(lái)的是不一樣的,所以求隨機(jī)變量標(biāo)準(zhǔn)誤愕贡,也可以理解為標(biāo)準(zhǔn)差草雕。關(guān)于標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)差的關(guān)系可以看這里:標(biāo)準(zhǔn)誤VS標(biāo)準(zhǔn)差
一元情況:
系數(shù)估計(jì)精度:標(biāo)準(zhǔn)誤置信區(qū)間,區(qū)間反映精度固以,區(qū)間大墩虹,精度不高。注意也是不知道的憨琳,需要進(jìn)行估計(jì)才能計(jì)算出上述兩個(gè)標(biāo)準(zhǔn)誤和置信區(qū)間诫钓。
多元線(xiàn)性回歸
- 多元線(xiàn)性回歸:
-
基本假設(shè):
- 零均值,即篙螟,其中
- 同方差和無(wú)序列相關(guān)尖坤,即
- 正態(tài)性:
- 隨機(jī)誤差項(xiàng)與自變量相互獨(dú)立,即
- 無(wú)多重共線(xiàn)性闲擦,即列滿(mǎn)秩慢味,
-
參數(shù)估計(jì):
基本思想和方法都類(lèi)似:最小二乘法
計(jì)算:
參數(shù)估計(jì)統(tǒng)計(jì)量的性質(zhì):在線(xiàn)性模型經(jīng)典假設(shè)下,參數(shù)的最小二乘估計(jì)量是線(xiàn)性無(wú)偏估計(jì)中方差最小的估計(jì)量BLUE估計(jì)量墅冷。
注意此時(shí)系數(shù)的解釋:控制其他變量不變纯路,即average effect on Y of a one unit increase in holding all other predictors fixed, but predictors usually change together寞忿。即雖然解釋上說(shuō)是控制其他變量不變驰唬,但是一般做不到,變量之間一般多多少少都有一點(diǎn)相關(guān)腔彰,此時(shí)系數(shù)的方差會(huì)增加叫编。比如體重和身高影響對(duì)足球運(yùn)動(dòng)員的影響,體重和身高一般是有關(guān)系的霹抛。
假設(shè)檢驗(yàn)
-
為什么做假設(shè)檢驗(yàn)搓逾?
- 因?yàn)樵诰€(xiàn)性回歸中非常關(guān)心真實(shí)的參數(shù)是否為0或者是某個(gè)具體的數(shù)字。0告訴我們?cè)诳刂破渌蛩氐那疤嵯拢?img class="math-inline" src="https://math.jianshu.com/math?formula=X_j" alt="X_j" mathimg="1">和是相關(guān)還是不相關(guān)杯拐。雖然最小二乘估計(jì)的結(jié)果不會(huì)為0霞篡,但是這個(gè)非0的的非0特征是如何產(chǎn)生的,是真的和不相關(guān)還是測(cè)量誤差產(chǎn)生的端逼,不知道朗兵,所以要做假設(shè)檢驗(yàn)。
- 假設(shè)檢驗(yàn)主要有:方程整體顯著性檢驗(yàn)顶滩,擬合優(yōu)度檢驗(yàn)余掖,單個(gè)變量的顯著性檢驗(yàn)。
-
看檢驗(yàn)結(jié)果的順序
- 先看F檢驗(yàn)的P值是不是小于0.05礁鲁,如果是盐欺,說(shuō)明至少一個(gè)自變量對(duì)因變量有顯著影響
- 然后再看赁豆,即整體的擬合優(yōu)度
- 最后再看每個(gè)系數(shù)的顯著性,及其如何解讀找田,解讀的含義
- 舉例:測(cè)量身高(此時(shí)假設(shè)身高可正可負(fù))
- 真實(shí)身高:參數(shù)
- 尺子的測(cè)量結(jié)果:統(tǒng)計(jì)量(尺子:最小二乘估計(jì))
- 尺子的精度:標(biāo)準(zhǔn)誤standard error歌憨,即的標(biāo)準(zhǔn)差着憨,越大墩衙,說(shuō)明誤差越大,尺子的精度就越差甲抖。
- 問(wèn)題核心:和的差異與尺子的精度進(jìn)行比較漆改。SE之前說(shuō)過(guò)也是一個(gè)位置的參數(shù),需要估計(jì)准谚,所以實(shí)際用的是挫剑。
- 假設(shè)檢驗(yàn)原假設(shè)和備擇假設(shè):
- 構(gòu)造統(tǒng)計(jì)量
- t統(tǒng)計(jì)量值很大,說(shuō)明的差異很大柱衔,大到?jīng)]有辦法用尺子的測(cè)量誤差來(lái)解釋?zhuān)f(shuō)明兩者之間的差異就是很大樊破,所以拒絕原假設(shè),否則接受原假設(shè)唆铐。接受原假設(shè)是基于現(xiàn)有的證據(jù)無(wú)法推翻原假設(shè)哲戚,但沒(méi)有說(shuō)原假設(shè)就是對(duì)的,只是沒(méi)有辦法拒絕艾岂。
- 假設(shè)檢驗(yàn)的過(guò)程從來(lái)不支持原假設(shè)顺少,只是沒(méi)有辦法拒絕。但是此時(shí)要做一個(gè)決策王浴,保守的脆炎,就是接受原假設(shè)。
平方和分解
氓辣,sum of squares total秒裕,總平方和。有點(diǎn)像的方差钞啸,是樣本觀(guān)測(cè)值與樣本均值的離差簇爆,與最小二乘估計(jì)無(wú)關(guān),反映因變量整個(gè)變異性有多大爽撒,即variability入蛆。變異性越大,包含的信息越多硕勿。
-
哨毁,回歸平方和。即樣本回歸擬合值域觀(guān)測(cè)值的平均值之差的平方和源武,可以由回歸直線(xiàn)解釋的部分扼褪。
- ESS:explained sum of squares想幻,回歸平方和。
- SSR:sum of squares regression话浇,回歸平方和
-
脏毯,sum of squared residuals,殘差平方和幔崖。即實(shí)際觀(guān)測(cè)值與回歸擬合值之差的平方和食店,是回歸直線(xiàn)不能解釋的部分。
- RSS:residual sum of squares赏寇,殘差平方和吉嫩。
- SSE:sum of squared residuals,殘差平方和嗅定。
- 殘差的方差的無(wú)偏估計(jì):自娩,其中為調(diào)整系數(shù),是自變量的個(gè)數(shù)渠退。
這里統(tǒng)一用ESS代表回歸平方和忙迁,RSS代表殘差平方和。
單個(gè)自變量顯著性檢驗(yàn):t檢驗(yàn)
- 原假設(shè)和備擇假設(shè):
- 統(tǒng)計(jì)量:
- 臨界值:給定顯著性水平碎乃,則臨界值
- 接受or拒絕:若姊扔,則落在了接受域,則接受原假設(shè)荠锭,說(shuō)明自變量對(duì)因變量沒(méi)有顯著影響旱眯,反之拒絕原假設(shè),自變量對(duì)因變量有顯著影響证九。
- P值:删豺,拒絕原假設(shè),反之接受愧怜。
- 假設(shè)檢驗(yàn)的兩類(lèi)錯(cuò)誤:
實(shí)際 | 實(shí)際 | ||
---|---|---|---|
為真 | 為假 | ||
決策 | 拒絕 | Type I Error | √ |
決策 | 接受 | √ | Type II Error |
-
多重檢驗(yàn)的問(wèn)題
- 其實(shí)就是一個(gè)夜路走多了總會(huì)遇到鬼或者常在河邊走哪有不濕鞋的問(wèn)題
- 假設(shè)檢驗(yàn)時(shí)呀页,每次5%可能性犯錯(cuò)誤,好像并不大拥坛,但是當(dāng)你要做10,100甚至1000次假設(shè)檢驗(yàn)時(shí)犯錯(cuò)誤的可能性就非常大蓬蝶。所以,只要假設(shè)檢驗(yàn)做得多猜惋,就一定會(huì)看到顯著性的結(jié)果——多重檢驗(yàn)的副作用丸氛。
- 如何控制:先看F檢驗(yàn),也不是很好著摔,但是也沒(méi)有特別好的方法缓窜。
方程整體顯著性檢驗(yàn):F檢驗(yàn)
- 原假設(shè)和備擇假設(shè):,其中,不包含截距項(xiàng)禾锤。
- 原假設(shè):所有解釋變量都沒(méi)用
- 對(duì)立假設(shè):只要有一個(gè)解釋變量的系數(shù)不是0私股,對(duì)立假設(shè)就成立
- F檢驗(yàn)首先執(zhí)行,如果不能拒絕原假設(shè)那么t檢驗(yàn)就不用做了恩掷。如果能拒絕倡鲸,則至少有一個(gè)解釋性變量是顯著的,再分別對(duì)每一個(gè)解釋性變量做t檢驗(yàn)
- 做法不完美黄娘,比如有50個(gè)解釋性變量峭状,F(xiàn)檢驗(yàn)通過(guò)了,比如其中是顯著的寸宏。那么在做t檢驗(yàn)時(shí)宁炫,第一個(gè)顯著偿曙,剩下的解釋變量仍然承受著嚴(yán)重的多重檢驗(yàn)的問(wèn)題氮凝。
- 統(tǒng)計(jì)量:
- :空模型的殘差平方和,:當(dāng)前模型的殘差平方和望忆,此處是全模型罩阵,即個(gè)自變量。
- 核心思想在于分子:即空模型和全模型的殘差平方和的對(duì)比启摄,當(dāng)原假設(shè)成立時(shí)稿壁,所有解釋變量都沒(méi)用,則空模型和全模型的殘差平方和相差應(yīng)該不大歉备,即很小傅是,所以F值就會(huì)很小,就傾向于接受原假設(shè)蕾羊。
- 分母:
- 分子/分母:標(biāo)準(zhǔn)化喧笔,沒(méi)有技術(shù)原因,主要思想來(lái)自于和的對(duì)比龟再,一個(gè)空模型书闸,一個(gè)全模型,如果差別不大利凑,說(shuō)明模型不顯著浆劲。
- 臨界值:給定顯著性水平,臨界值哀澈。如果牌借,則接受原假設(shè),即該模型的所有回歸系數(shù)都等于0割按,該模型沒(méi)有意義膨报,反之拒絕原假設(shè),并做進(jìn)一步的t檢驗(yàn)。
擬合優(yōu)度檢驗(yàn):
- 整個(gè)模型的accuracy的評(píng)估:即對(duì)所有data fit出來(lái)的效果丙躏,兩種方法:
- 絕對(duì)衡量:residual standard error:
- 相對(duì)衡量:
-
- :空模型的殘差平方和择示,即SST,它刻畫(huà)的是因變量中包含多少信息晒旅。
- :當(dāng)前模型/全模型的殘差平方和栅盲,說(shuō)明使用當(dāng)前模型時(shí)殘差中還有多少信息,一定小于
- :即中有多少信息是殘差造成的废恋,即有多少是解釋不了的谈秫。
- :中有多少信息是可以被解釋的,即0-1之間鱼鼓。
- 缺點(diǎn):分不清好壞拟烫,只要解釋變量增加,就會(huì)增大迄本,不管解釋變量是否有用硕淑,永遠(yuǎn)偏好全模型,但全模型不一定是最好的嘉赎。
- 一元線(xiàn)性回歸中:
-
- 調(diào)整后:即在前面加一個(gè)調(diào)整系數(shù)
- 調(diào)整系數(shù)作用:隨著模型越來(lái)越復(fù)雜置媳,在增加,在減小公条,同時(shí)在減小拇囊,而不變。所以當(dāng)增加變量是很重要的變量的時(shí)候靶橱,的下降程度要大于的下降程度寥袭,所以調(diào)整后會(huì)變大。但是當(dāng)增加的變量是不重要的變量的時(shí)候关霸,的下降程度小于传黄,則調(diào)整后會(huì)變小。
- 有可能出現(xiàn)負(fù)數(shù)谒拴,負(fù)數(shù)表示連空模型都不如尝江。當(dāng)n較小,p很大時(shí)英上。
- 外樣本判決系數(shù)
- 用外樣本來(lái)評(píng)價(jià)炭序,即將數(shù)據(jù)隨機(jī)切分為訓(xùn)練集和測(cè)試集
- 公式完全一樣,只是的估計(jì)是根據(jù)訓(xùn)練集苍日,外樣本的計(jì)算是根據(jù)測(cè)試集
模型診斷與改進(jìn)
-
建模時(shí)的假設(shè):
- 零均值惭聂,即,其中
- 同方差和無(wú)序列相關(guān)相恃,即
- 正態(tài)性:
- 隨機(jī)誤差項(xiàng)與自變量X相互獨(dú)立辜纲,即
- 無(wú)多重共線(xiàn)性,即列滿(mǎn)秩,
-
有些假設(shè)不成立耕腾,只會(huì)影響估計(jì)的效率见剩,但是有些假設(shè)不成立模型就沒(méi)辦法用
- 異方差:殘差圖(),對(duì)數(shù)變換
- 正態(tài)分布:QQ圖直線(xiàn)扫俺,對(duì)數(shù)變換
- 強(qiáng)影響點(diǎn):cook距離
- 多重共線(xiàn)性:方差膨脹因子VIF苍苞,很?chē)?yán)重
- 內(nèi)生性:模型中的一個(gè)或多個(gè)解釋變量與隨機(jī)擾動(dòng)項(xiàng)相關(guān)
異方差和殘差圖
殘差:,誤差不可觀(guān)測(cè)狼纬,所以用殘差來(lái)估計(jì)它羹呵。
異方差:相對(duì)同方差而言,同方差即疗琉。異方差即隨機(jī)誤差項(xiàng)具有不同的方差冈欢,。
-
產(chǎn)生原因:
- 遺漏重要解釋變量
- 存在測(cè)量誤差
- 截面數(shù)據(jù)中總體各單位存在差異
- 模型函數(shù)形式設(shè)定錯(cuò)誤
- 存在異常觀(guān)測(cè)
-
診斷方法:
-
殘差圖:橫軸預(yù)測(cè)值盈简,縱軸
- 圖一:零均值同方差假設(shè)成立凑耻,觀(guān)測(cè)到殘差是以0為平均水平,無(wú)規(guī)律的散亂分布
- 圖二:殘差并不以0為平均水平波動(dòng)送火,且呈現(xiàn)出拋物線(xiàn)形狀拳话,2次曲線(xiàn)先匪。原因:可能是遺漏了重要變量种吸,比如某變量的平方項(xiàng),不太常見(jiàn)呀非。解決方法:加入新的自變量坚俗,或者考慮非線(xiàn)性模型
- 圖三:喇叭狀,常見(jiàn)岸裙,殘差的波動(dòng)隨著預(yù)測(cè)值的增加越來(lái)越大猖败,異方差,即降允。異方差特別常見(jiàn)恩闻,特別是因變量和錢(qián)有關(guān)的時(shí)候。比如假定收入的波動(dòng)相同剧董,但是收入水平不同的人的波動(dòng)不太相同幢尚,收入高的人波動(dòng)要更大。解決方法:對(duì)數(shù)變換翅楼。
- 在R語(yǔ)言中模型診斷時(shí)尉剩,第一個(gè)和第三個(gè)圖表示的意思差不多,只要看第一個(gè)就可以了毅臊。
統(tǒng)計(jì)方法:Goldfeld-Quandt檢驗(yàn)法理茎,White檢驗(yàn)法,Park檢驗(yàn)法,Glesier檢驗(yàn)法等
-
-
后果
- 最小二乘估計(jì)任然是線(xiàn)性無(wú)偏一致的皂林,但不再有效朗鸠,即方差不是最小的
- 隨機(jī)誤差項(xiàng)的條件方差的估計(jì)是有偏的,即是有偏的
- 參數(shù)的估計(jì)標(biāo)準(zhǔn)誤差也是有偏且不一致的础倍,參數(shù)的估計(jì)標(biāo)準(zhǔn)誤中含有
- 預(yù)測(cè)的精準(zhǔn)度降低
-
解決方法
- 理論上會(huì)用加權(quán)的最小二乘估計(jì)童社,但實(shí)際中不常用
- 實(shí)際:對(duì)數(shù)變換,改善異方差情況著隆。常假定正態(tài)分布铐料,對(duì)數(shù)變換也可以改善不對(duì)稱(chēng)的情況浸卦。
- 對(duì)數(shù)變換只適用于正數(shù),如果條件不允許,此時(shí)應(yīng)該知道最小二乘法產(chǎn)生的解不是最優(yōu)的耙替,要加權(quán)的最小二乘估計(jì)產(chǎn)生的結(jié)果可能更好
- 加權(quán)的最小二乘:如果一個(gè)觀(guān)測(cè)值的方差更大,即準(zhǔn)確度差滔悉,權(quán)重應(yīng)該低一點(diǎn)型凳,反之權(quán)重更高一點(diǎn)
- 或者如果有很小一部分比如1%的0,則可以在0上加一個(gè)單位流酬,比如變成0.001
非正態(tài)性和QQ圖
- 正態(tài)性:
-
診斷方法:QQ圖币厕。橫軸:標(biāo)準(zhǔn)正態(tài)分布理論分位數(shù),縱軸樣本分位數(shù)芽腾。
- 如果QQ圖的散點(diǎn)近似成一條直線(xiàn)旦装,那么就近似服從標(biāo)準(zhǔn)正態(tài)分布。
- 如果兩側(cè)尾巴偏離了就是厚尾分布摊滔,哪邊尾巴偏離多就是什么偏阴绢,比如右尾偏離多,就是極大值比較多艰躺,是右偏分布呻袭。
- 后果:影響估計(jì)量的一致性
- 解決方法:取對(duì)數(shù)
強(qiáng)影響點(diǎn)和Cook距離
- 強(qiáng)影響點(diǎn):如果在計(jì)算某種指標(biāo)時(shí),包含和不包含某個(gè)樣本點(diǎn)腺兴,對(duì)于結(jié)果影響很大左电,那么這個(gè)樣本點(diǎn)就是強(qiáng)影響點(diǎn)
- 比如土豪在計(jì)算平均收入時(shí)就是強(qiáng)影響點(diǎn)
-
回歸分析中的強(qiáng)影響點(diǎn):是否包含該樣本點(diǎn)對(duì)于參數(shù)的估計(jì)結(jié)果造成很大的影響
- 離群值和強(qiáng)影響點(diǎn)
- outlier:outlier is X given y is unusual,即針對(duì),通常是相同的页响,但離群值的會(huì)和大家差別很大
- High leverage:has unusual value for X篓足,即的取值已經(jīng)很奇怪了。一般因變量取值比較特殊會(huì)成為強(qiáng)影響點(diǎn)拘泞。
- 離群值和強(qiáng)影響點(diǎn)
-
診斷方法:Cook距離
- 針對(duì)樣本點(diǎn)計(jì)算纷纫,n個(gè)樣本點(diǎn)可以計(jì)算出n個(gè)cook距離
- 計(jì)算思想:用所有全樣本的估計(jì)量作為基本的標(biāo)桿,然后把第個(gè)樣本刪除剩下個(gè)樣本重新進(jìn)行最小二乘估計(jì)得到陪腌,進(jìn)而得到該樣本點(diǎn)的cook距離辱魁。兩者進(jìn)行對(duì)比烟瞧,如果目前正在研究的觀(guān)測(cè)值是一個(gè)滅有太大影響力的觀(guān)測(cè)值,存在與否不太會(huì)影響最終計(jì)算結(jié)果染簇,所以預(yù)期兩個(gè)估計(jì)量之間的差距是比較小的参滴,cook距離就比較小。
- 計(jì)算公式:
- 后果:會(huì)帶偏回歸系數(shù)锻弓,向強(qiáng)影響點(diǎn)的方向偏離
- 解決方法:刪掉強(qiáng)影響點(diǎn)
- 問(wèn)題:什么樣的cook距離算異常砾赔?
- 沒(méi)有一個(gè)給定的比較標(biāo)準(zhǔn),看大家的平均水平青灼,如果大家基本都在0.0幾暴心,而你在0.5,那么就需要注意了杂拨。即強(qiáng)影響點(diǎn)產(chǎn)生的cook距離真的要比其他觀(guān)測(cè)點(diǎn)壓倒性地大专普。
- 看是在因變量/自變量上異常,一般因變量取值比較特殊會(huì)成為強(qiáng)影響點(diǎn)弹沽。
- 注意:R語(yǔ)言中總會(huì)輸出3個(gè)最高的cook距離檀夹,不要一看見(jiàn)就刪除,要和其他水平比較策橘,否則再刪也總會(huì)出現(xiàn)3個(gè)最高的炸渡。
多重共線(xiàn)性、可識(shí)別性與方差膨脹因子VIF
-
前面:異方差丽已,強(qiáng)影響點(diǎn)等影響不大蚌堵。
- 異方差:OLS估計(jì)不再是最有效的,估計(jì)效率低
- 強(qiáng)影響點(diǎn):結(jié)果解讀不好促脉,被那個(gè)點(diǎn)帶偏了
多重共線(xiàn)性:OLS會(huì)產(chǎn)生錯(cuò)誤辰斋,估計(jì)結(jié)果不可信
-
多重共線(xiàn)性:(兩個(gè)變量相關(guān)就是多重共線(xiàn)性×)線(xiàn)性回歸模型中的解釋變量之間存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系
- 由于所有的解釋性變量都來(lái)自于同一個(gè)個(gè)體,天生就相關(guān)瘸味,如果不相關(guān)才奇怪。多重共線(xiàn)性是這種相關(guān)性太高了够挂,高到已經(jīng)成為一個(gè)災(zāi)難性的后果:影響到可識(shí)別性旁仿,要非常小心處理。
-
可識(shí)別性
- 模型1:孽糖,其實(shí)枯冈,即模型是完全共線(xiàn)性的,所以模型1還有其他兩種寫(xiě)法办悟。
- 模型2:
- 模型3:
- 模型1,2,3都是同一個(gè)模型尘奏,但是對(duì)應(yīng)的回歸系數(shù)卻各不相同。這時(shí)就產(chǎn)生了可識(shí)別性問(wèn)題病蛉,即identifiability的問(wèn)題炫加。
- 可識(shí)別性問(wèn)題:同樣一組數(shù)據(jù)在不同的參數(shù)設(shè)定下可以產(chǎn)生相同的Y瑰煎,分不清哪個(gè)是唯一正確的。
- 實(shí)際中俗孝,一般不會(huì)出現(xiàn)完全共線(xiàn)性酒甸,但是常常會(huì)出現(xiàn)強(qiáng)烈共線(xiàn)性。這里只舉例了兩兩相關(guān)性赋铝,只要畫(huà)散點(diǎn)圖就可以看到插勤,但是還會(huì)有其他復(fù)雜的相關(guān)關(guān)系,需要VIF方法革骨。
-
產(chǎn)生原因
- 經(jīng)濟(jì)變量之間具有共同變化的趨勢(shì)
- 變量之間存在經(jīng)濟(jì)聯(lián)系
- 模型中包含滯后變量
- 樣本數(shù)據(jù)自身的原因
-
診斷方法:方差膨脹因子VIF
- 散點(diǎn)圖法:對(duì)含有兩個(gè)解釋變量的模型农尖,利用解釋變量樣本觀(guān)測(cè)值的散點(diǎn)圖來(lái)觀(guān)察兩者是否有顯著的線(xiàn)性關(guān)系
- 相關(guān)系數(shù)法
- 經(jīng)典判斷法:擬合優(yōu)度很高,F(xiàn)檢驗(yàn)高度顯著良哲,但t檢驗(yàn)顯著的不多卤橄,懷疑存在多重共線(xiàn)性
- VIF:variance inflation factor 方差膨脹因子
- 思想:類(lèi)似于一個(gè)打分系統(tǒng),給每個(gè)解釋性變量打分臂外,評(píng)價(jià)第個(gè)解釋性變量受多重共線(xiàn)性影響有多大窟扑。用做因變量,其他的解釋性變量做解釋性變量跑一個(gè)回歸分析模型漏健。如果回歸分析非常非常大嚎货,說(shuō)明幾乎可以被其他的解釋性變量線(xiàn)性表出,說(shuō)明這個(gè)變量正在承受著巨大的多重共線(xiàn)性影響蔫浆。
- 計(jì)算公式:殖属,則
- 如果VIF>5,則瓦盛,需要引起注意洗显。實(shí)際工作中,粗糙以10為界限原环,簡(jiǎn)單評(píng)價(jià)一個(gè)變量承受多重共線(xiàn)性的影響強(qiáng)度挠唆,超過(guò)10就比較警惕,小于10還可以接受嘱吗。
-
后果
符號(hào)和常識(shí)理論相悖玄组,估計(jì)結(jié)果無(wú)法解釋。
參數(shù)估計(jì)量的方差增大
參數(shù)估計(jì)的置信區(qū)間變大
假設(shè)檢驗(yàn)容易做出錯(cuò)誤的判斷:比如F檢驗(yàn)全部通過(guò)谒麦,而t檢驗(yàn)都不通過(guò)
-
多元線(xiàn)性回歸中:俄讹。要求,即滿(mǎn)秩绕德,否則就沒(méi)辦法估計(jì)或者不唯一患膛。
舉例:自變量age和limit之間沒(méi)有太大相關(guān)性,但自變量limit和自變量rating之間的相關(guān)性比較大耻蛇,但不是完全相關(guān)踪蹬。
估計(jì)時(shí):當(dāng)對(duì)limit和age估計(jì)讓殘差平方和最小時(shí)胞此,殘差平方和等高線(xiàn)如圖1所示,中間的點(diǎn)即RSS最小的時(shí)候即得到了兩個(gè)系數(shù)延曙。
當(dāng)對(duì)limit和rating估計(jì)讓殘差平方和最小豌鹤,殘差平方和的等高線(xiàn)變得非常扁平,(等高線(xiàn)意味著在這條線(xiàn)上殘差平方和是一樣的)枝缔,但是估計(jì)的系數(shù)會(huì)有很大的差異布疙。即扁平的等高線(xiàn)會(huì)使得在一條等高線(xiàn)上的參數(shù)差異非常大。所以參數(shù)的方差變得很大愿卸。
中如果有兩列是高度相關(guān)時(shí)灵临,不是一個(gè)完全退化矩陣,但是會(huì)變得很大趴荸。因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cbeta" alt="\beta" mathimg="1">的方差是,所以參數(shù)估計(jì)量的方差會(huì)增大儒溉,所以置信區(qū)間也會(huì)增大。
還會(huì)導(dǎo)致:因?yàn)閠統(tǒng)計(jì)量是除以會(huì)變大发钝,所以t統(tǒng)計(jì)量就會(huì)變小顿涣,會(huì)導(dǎo)致它系數(shù)的不顯著,但是又很好酝豪。即standard error for increase, decline t statistic, reduce the power of the hypothesis test涛碑。
-
解決方法:
- 排除引起共線(xiàn)性的變量:逐步回歸(向前回歸,向后回歸孵淘,向前向后回歸)
- 差分法:把原模型變?yōu)椴罘帜P?/li>
- 減小參數(shù)估計(jì)量的方差:嶺回歸法
內(nèi)生性endogeneity
- 內(nèi)生性:即蒲障,解釋變量的內(nèi)生性即模型中的一個(gè)或多個(gè)解釋變量與隨機(jī)擾動(dòng)項(xiàng)相關(guān)
-
產(chǎn)生原因:
- 遺漏重要解釋變量
- 存在測(cè)量誤差
- 存在錯(cuò)誤的函數(shù)形式設(shè)定
- 存在聯(lián)立性
- X和Y互為因果關(guān)系,X影響Y瘫证,Y影響X
-
診斷:
- 基于常識(shí)去分析模型的系數(shù)揉阎,判斷是否存在內(nèi)生性
- 使用Hausman檢驗(yàn)
-
后果
- 會(huì)影響估計(jì)的無(wú)偏性
- 會(huì)影響估計(jì)的一致性,即隨著樣本量增加背捌,估計(jì)量不趨近于真實(shí)的毙籽,問(wèn)題很?chē)?yán)重
-
解決方法
- 工具變量IV,構(gòu)建基于IV下的回歸模型载萌,估計(jì)采用兩階段最小二乘估計(jì)
- 改用代理變量惧财。某變量無(wú)法直接觀(guān)測(cè),使用其他變量代替
總結(jié)
診斷 | 解決 | 原理 | |
---|---|---|---|
異方差 | 殘差圖 | 取對(duì)數(shù) | 和的圖扭仁,喇叭狀異方差 |
正態(tài)分布 | QQ圖 | 取對(duì)數(shù) | 標(biāo)準(zhǔn)正態(tài)分布理論分位數(shù)和樣本分位數(shù),直線(xiàn)則正態(tài)分布厅翔,否則非正態(tài) |
強(qiáng)影響點(diǎn) | cook距離 | 刪除 | 針對(duì)每個(gè)樣本點(diǎn)都可以計(jì)算cook距離乖坠,比大多數(shù)水平高則強(qiáng)影響點(diǎn) |
多重共線(xiàn)性 | VIF方差膨脹因子 | 向前回歸,向后回歸刀闷,向前向后回歸 嶺回歸 |
用一個(gè)自變量作為Y熊泵,其他變量作為解釋變量回歸得到仰迁,是對(duì)自變量求。顽分,大于10說(shuō)明要注意多重共線(xiàn)性 |
內(nèi)生性 | Hausman檢驗(yàn) | 工具變量IV,使用兩階段最小二乘估計(jì) | 略 |
模型選擇
-
模型選擇:在一系列待選模型中選擇最優(yōu)的徐许。最優(yōu):模型盡可能簡(jiǎn)單且預(yù)測(cè)準(zhǔn)確。
- :永遠(yuǎn)覺(jué)得全模型最好卒蘸,但是全模型在預(yù)測(cè)時(shí)常常不是最好的雌隅,因?yàn)橛行?img class="math-inline" src="https://math.jianshu.com/math?formula=X" alt="X" mathimg="1">對(duì)的預(yù)測(cè)精度沒(méi)有改善還消耗了自由度
- 模型選擇的任務(wù):留下真正重要的
-
步驟:
確定邊界:即待選模型
確定信仰,選擇標(biāo)準(zhǔn):AIC準(zhǔn)則或BIC準(zhǔn)則缸沃。不同標(biāo)準(zhǔn)選擇結(jié)果不同恰起,兩者的信仰是不同的。
選擇計(jì)算方法:模型選擇往往涉及到比較大的計(jì)算量趾牧,要找到又快又準(zhǔn)確的計(jì)算方法
小心解讀检盼,謹(jǐn)慎使用:因?yàn)槟P瓦x擇本身也是一個(gè)計(jì)算統(tǒng)計(jì)量的過(guò)程,也受到樣本不確定性的影響翘单,也有估計(jì)誤差吨枉,怎樣做才能把這些控制在最小范圍內(nèi),是需要小心處理的哄芜。
確定邊界:待選模型
- 不考慮交叉項(xiàng):共有種選擇貌亭,每個(gè)自變量都有進(jìn)入/不進(jìn)入模型兩種選擇
- 交互作用interation/synergy effect協(xié)同作用:如果10個(gè)解釋變量,則兩兩交叉多45中忠烛,相當(dāng)于多45個(gè)自變量属提,所以變成個(gè)模型,數(shù)量巨大美尸。
- 交互作用假定:強(qiáng)加規(guī)律冤议,要求只要交互作用存在,主效應(yīng)也一定存在师坎,不論其檢驗(yàn)結(jié)果是否顯著恕酸。有一定的現(xiàn)實(shí)意義,但更多時(shí)候只是在降低計(jì)算復(fù)雜度胯陋。
- 的非線(xiàn)性變換:范圍更大
- 此處只從不考慮交叉項(xiàng)和非線(xiàn)性變換入手蕊温,即個(gè)待選模型
確定信仰,選擇標(biāo)準(zhǔn)——AIC,BIC
- 模型邊界確定以后遏乔,如何知道哪個(gè)模型更好义矛,可以用調(diào)整后,或外樣本。無(wú)論哪種方法盟萨,都需要先解決一個(gè)問(wèn)題:什么叫好模型凉翻,這依賴(lài)于我們的信仰是AIC還是BIC
AIC準(zhǔn)則
信仰:真模型不一定在待選模型里,要做的事情是在待選模型里選一個(gè)盡可能靠近真模型的模型捻激。很難制轰,真模型都不知道前计,如何找一個(gè)最近的。
用KL distance來(lái)刻畫(huà)兩個(gè)模型的距離垃杖,這個(gè)距離經(jīng)過(guò)一些列簡(jiǎn)化成了AIC準(zhǔn)則
AIC準(zhǔn)則:
- 不同地方略有差異男杈,有的扔掉,這里是為了和R語(yǔ)言保持一致调俘。
- AIC喜歡殘差平方和即RSS較小的模型伶棒,模型擬合越好殘差平方和越小,但是后面又有一個(gè)懲罰項(xiàng):即模型復(fù)雜度脉漏,復(fù)雜度越高苞冯,p越大,后面一項(xiàng)就越大侧巨,有一個(gè)trade-off舅锄。
- 最優(yōu)模型:AIC得分最小的模型,赤池信息準(zhǔn)則司忱。A: akaike, I: information, C:criterion皇忿。
BIC準(zhǔn)則
信仰:真模型一定在待選模型里,只是不知道是哪個(gè)而已坦仍,所以目標(biāo)就是在樣本量越來(lái)越大時(shí)把真模型以概率1挑選出來(lái)鳍烁。
學(xué)者施瓦茲:貝葉斯。既然我不知道是哪一個(gè)繁扎,我就亂猜一把幔荒,給每個(gè)模型一個(gè)先驗(yàn)概率,即假設(shè)每個(gè)模型都是以一定概率是真模型梳玫,然后看數(shù)據(jù)爹梁,給定數(shù)據(jù)計(jì)算后驗(yàn)概率,后驗(yàn)概率大的就是真模型提澎。一系列處理后發(fā)現(xiàn)姚垃,后驗(yàn)概率的大小由BIC得分獲得,即貝葉斯Information criterion或SIC施瓦茲盼忌。
-
BIC準(zhǔn)則:
- 和AIC很像积糯,都喜歡RSS小的,但前提都是模型復(fù)雜度不能太大谦纱,太大時(shí)進(jìn)行懲罰看成。
- 區(qū)別:增加一個(gè)解釋變量,AIC的懲罰力度是2跨嘉,BIC的懲罰力度是绍昂。所以,只要n稍微大點(diǎn)偿荷,BIC的懲罰力度就會(huì)大于AIC的懲罰力度窘游。所以BIC挑出來(lái)的模型可能會(huì)更小一點(diǎn)。
-
AIC和BIC信仰不同跳纳,所以統(tǒng)計(jì)學(xué)性質(zhì)也不同
-
【更一般形式】
- 性質(zhì):選擇相合性忍饰,selection consistency。如果真模型真的就在那1024個(gè)待選模型里寺庄,當(dāng)樣本量越來(lái)越大時(shí)艾蓝,會(huì)以趨近于1的概率把真模型選出來(lái)。AIC不具備該性質(zhì)斗塘。
-
- 性質(zhì):損失有效性赢织,loss efficiency。如果真模型不在待選模型里馍盟,只要離真模型最近于置,預(yù)測(cè)是最優(yōu)秀的。所以選出來(lái)的模型的預(yù)測(cè)精度大概是最優(yōu)的贞岭。BIC不具備該性質(zhì)八毯。
- 所以說(shuō)兩個(gè)信仰各有優(yōu)點(diǎn),但沒(méi)辦法調(diào)和瞄桨。所以:兩個(gè)準(zhǔn)則都試試话速,得到兩個(gè)不同的模型選擇結(jié)果,更加激進(jìn)芯侥,選出的變量比較少泊交,保守選出的變量更多。
- 經(jīng)驗(yàn)表明柱查,如果優(yōu)先考慮預(yù)測(cè)精度廓俭,的預(yù)測(cè)精度常常會(huì)好一點(diǎn)點(diǎn)。
- 但只選最有用的物赶,所以穩(wěn)定性比較好白指。如果你的模型在業(yè)務(wù)層面是非常穩(wěn)定的,那的模型可能會(huì)好一點(diǎn)點(diǎn)酵紫。
-
【更一般形式】
選擇計(jì)算方法
無(wú)論哪個(gè)信仰都需要計(jì)算出來(lái)告嘲,但計(jì)算是比較難的,因?yàn)?0個(gè)變量就已經(jīng)1024個(gè)模型了奖地。20個(gè)就100萬(wàn)了橄唬,30個(gè)就很大很大的數(shù)字了。所以一定是要在計(jì)算上動(dòng)腦筋的参歹。
計(jì)算方法solution path:
best subset仰楚,即把所有的模型都遍歷一遍。模型多時(shí)就做不到了。
-
forward regression向前回歸僧界,先做所有1模型侨嘀,找最好的1模型(只有一個(gè)解釋性變量,相關(guān)性最好的解釋性變量捂襟,如)咬腕;在給定情況下,哪個(gè)解釋性變量對(duì)模型改善最好再添加進(jìn)來(lái)葬荷,做很多2模型比較涨共,找最好的2模型;以此類(lèi)推宠漩。從而產(chǎn)生一系列的模型举反,這些模型是嵌套的,即一個(gè)比一個(gè)大扒吁,這些模型再用AIC或BIC挑選出來(lái)火鼻。把求解的空間從降低到一個(gè)比較小的范圍,在這個(gè)范圍里再用AIC或BIC來(lái)選瘦陈。
- 優(yōu)良性質(zhì):很大也可以做凝危。
- 缺點(diǎn):即使的信仰正確時(shí),都不具備選擇相合性晨逝。原因:它很容易把一個(gè)高度相關(guān)但其實(shí)不重要的變量挑選出來(lái)然后再也不出去蛾默。例如:真實(shí)模型,捉貌,那么會(huì)發(fā)現(xiàn)在有和的情況下支鸡,是多余的,但是讓他們單打獨(dú)斗時(shí)趁窃,和的相關(guān)性是最強(qiáng)的牧挣,所以它第一個(gè)就先進(jìn)來(lái),進(jìn)來(lái)就不出去了醒陆。所以如果 的個(gè)數(shù)不是特別多瀑构,更好的做法是后退法backward regression。
-
backward regression向后回歸:從全模型出發(fā)刨摩,然后剔除一個(gè)對(duì)影響最小的變量得到一個(gè)模型寺晌,以此類(lèi)推,產(chǎn)生一個(gè)比一個(gè)小的模型澡刹,然后再利用或進(jìn)行挑選呻征。
- 優(yōu)點(diǎn):此時(shí)如果BIC的信仰是對(duì)的,也不是很大罢浇,則此時(shí)就可以具備選擇相合性陆赋。
- 缺點(diǎn):在有限樣本時(shí)沐祷,一旦把一個(gè)人槍斃了,它就再也回不來(lái)了攒岛。給他一個(gè)回來(lái)的機(jī)會(huì)赖临,所以又有了stepwise。
stepwise regression向前向后回歸:按照一定的標(biāo)準(zhǔn)阵子,允許你出去允許你又回來(lái)思杯。
-
LASSO+SCAD:帶有懲罰項(xiàng)的回歸分析方法。把最小二乘估計(jì)改善成一個(gè)帶有懲罰項(xiàng)的估計(jì)挠进。比如LASSO就是在最小化最小二乘估計(jì)的目標(biāo)函數(shù)時(shí),加一個(gè)懲罰項(xiàng)誊册。好處:很多參數(shù)估計(jì)出來(lái)的時(shí)候就是exactly=0领突。既然估計(jì)出來(lái)的時(shí)候就等于0,自然模型選擇的任務(wù)就完成了案怯。
-
這個(gè)做法的有效性非常非常依賴(lài)于調(diào)節(jié)參數(shù)君旦,就是他有非常非常多的要求。
也就是不同的會(huì)產(chǎn)生一個(gè)類(lèi)似于stepwise regression的求解集合嘲碱,他比要小很多金砍,這個(gè)集合里面仍然要挑選。這個(gè)集合里面的挑選對(duì)應(yīng)的問(wèn)題就是的選擇麦锯,它的選擇仍然需要AIC和BIC來(lái)幫助恕稠。
-
向前回歸:空模型加自變量,向后回歸:全模型減自變量
小心解讀扶欣,謹(jǐn)慎應(yīng)用
- Model selection uncertainty
- model averaging模型平均:
- 它要解決的問(wèn)題是:我們無(wú)論用AIC, BIC, LASSO鹅巍,最后選出來(lái)的模型都具有不確定性。因?yàn)樗际腔陔S機(jī)的數(shù)產(chǎn)生的料祠,這個(gè)不確定性可能大也可能小骆捧。無(wú)論你選哪個(gè)模型,都是把雞蛋放到一個(gè)籃子里髓绽,能不能分散開(kāi)來(lái)放敛苇。
- 把每個(gè)模型加權(quán)平均到一起得到一個(gè)綜合的模型會(huì)不會(huì)更加穩(wěn)定?經(jīng)驗(yàn)表明:會(huì)顺呕。模型平均方法是一種非常有競(jìng)爭(zhēng)力的預(yù)測(cè)模型枫攀,最大的特點(diǎn)就是性能穩(wěn)定。對(duì)于一個(gè)具體的數(shù)據(jù)集而言塘匣,有時(shí)候它的預(yù)測(cè)精度是最好的脓豪,有時(shí)候也不見(jiàn)得是最好的,但是它的穩(wěn)定性是最好的忌卤。幾乎在所有的數(shù)據(jù)集中測(cè)試表現(xiàn)都是一個(gè)非常非常有競(jìng)爭(zhēng)力的狀態(tài)扫夜。
- 系數(shù)的解讀沒(méi)有寫(xiě),下次再總結(jié)