線性回歸

1. 如何理解協(xié)方差和相關(guān)系數(shù)末荐？

協(xié)方差公式：

公式簡單翻譯一下是：如果有X,Y兩個(gè)變量湃累，每個(gè)時(shí)刻的“X值與其均值之差”乘以“Y值與其均值之差”得到一個(gè)乘積陕靠，再對這每時(shí)刻的乘積求和并求出均值（其實(shí)是求“期望”，但就不引申太多新概念了脱茉，簡單認(rèn)為就是求均值了）剪芥。

相關(guān)系數(shù)的公式：

就是用X、Y的協(xié)方差除以X的標(biāo)準(zhǔn)差和Y的標(biāo)準(zhǔn)差琴许。

細(xì)節(jié)說明可以參考這篇文章：如何通俗易懂地解釋「協(xié)方差」與「相關(guān)系數(shù)」的概念榜田？

相關(guān)系數(shù)的性質(zhì)如下：

相關(guān)系數(shù)的值介于-1與+1之間箭券，即-1≤r≤+1蛔六。
當(dāng)r>0時(shí)，表示兩變量正相關(guān)具钥，當(dāng)r<0時(shí)骂删，表示兩變量為負(fù)相關(guān)。當(dāng)|r|=1時(shí)欧瘪，表示兩變量為完全線性相關(guān)即函數(shù)關(guān)系。當(dāng)r=1時(shí)罚屋，稱為完全正相關(guān)，而當(dāng)r=-1時(shí)猛拴，稱為完全負(fù)相關(guān)愉昆。當(dāng)r=0時(shí)，表示兩變量間無線性相關(guān)關(guān)系芳室。
r具有對稱性堪侯。X與y之間的相關(guān)系數(shù)rxy和y與x之間的相關(guān)系數(shù)ryx相等芽死。
r數(shù)值大小與x和y的數(shù)據(jù)原點(diǎn)及計(jì)量尺度無關(guān)收奔。改變x和y的數(shù)據(jù)原點(diǎn)和計(jì)量尺度，并不改變r(jià)數(shù)值的大小翩肌。
r僅僅是x與y 之間線性關(guān)系的一個(gè)度量念祭，它不能用于描述非線性關(guān)系粱坤。
r雖然是兩個(gè)變量之間線性關(guān)系的一個(gè)度量，卻不一定意味著x與y一定有因果關(guān)系株旷。
當(dāng)︱r︱≥0.8時(shí)晾剖，可視為高度相關(guān)齿尽；當(dāng)0.5≤︱r︱<0.8時(shí)雕什，可視為中度相關(guān)；當(dāng)0.3≤︱r︱<0.5時(shí)偿警，視為低度相關(guān)盒使；當(dāng)︱r︱<0.3時(shí)少办，說明兩個(gè)變量之間的相關(guān)程度極弱

在R中，相關(guān)系數(shù)的計(jì)算使用cor函數(shù)

2. 相關(guān)系數(shù)的顯著性檢驗(yàn)

一般情況下我們都是使用樣本數(shù)據(jù)來計(jì)算相關(guān)系數(shù)，用樣本的相關(guān)系數(shù)來估計(jì)整體的相關(guān)系數(shù)吗蚌，因此存在一定的偏差敷燎，會受到抽樣波動的影響。每次抽樣數(shù)據(jù)不同澄成，得到的樣本相關(guān)系數(shù)也不同卫漫。因此樣本相關(guān)系數(shù)是個(gè)隨機(jī)變量宏悦。如何確定樣本相關(guān)系數(shù)是否能代表總體的相關(guān)水平呢包吝？需要對樣本相關(guān)系數(shù)進(jìn)行可靠性檢驗(yàn)砖瞧，也就是顯著性檢驗(yàn)嚷狞。一般我們用t檢驗(yàn)振坚。

根據(jù)給定的顯著性水平

a

和自由度（n-2）查

t

分布表斋扰，得出

t_{a/2}(n-2)

的臨界值渡八。若

|t|>t_{a/2}

則拒絕原假設(shè)，認(rèn)為總體存在顯著的線性關(guān)系褥实。

在R中呀狼，相關(guān)系數(shù)的檢驗(yàn)可以使用cor.test函數(shù)

3. 一元線性回歸

回歸模型： $y=\beta_0+\beta_1x+\epsilon$
回歸模型中的參數(shù)估計(jì)（ $\beta_0$ , $\beta_1$ ），使用最小二乘法來進(jìn)行估計(jì)計(jì)算损离。

擬合優(yōu)度：通俗點(diǎn)說就是看我們推斷出來的這條直線代表了實(shí)際數(shù)據(jù)分布情況的優(yōu)良程度哥艇。
判定系數(shù)（ $R^2$ )：
實(shí)際的觀測數(shù)據(jù)跟總體平均值之間的差異叫作變差（也即離均差或離差）。變差的平方，也即平方偏差汁咏。所有的平方偏差之和赖瞒，記為： $SST=\sum(y_i-\overline{y})^2$

注意，方差的定義其實(shí)就是對平方偏差之和求平均數(shù)。即笑诅， $\sigma^2=SST/n$

從下圖可以看到，所有的變差（也即離均差）都可分解為： $y-\overline{y}=(y-\hat{y})+(\hat{y}-\overline{y})$

將上式兩邊平方再求和，得到：

$\sum(y_i-\overline{y})^2=\sum(y_i-\hat{y}_i)^2+\sum(\hat{y}_i-\overline{y})^2+2\sum(y_i-\hat{y}_i)(\hat{y}_i-\overline{y})$

可以證明有勾， $\sum(y_i-\hat{y}_i)(\hat{y}_i-\overline{y})=0$ ，因此

$\sum(y_i-\overline{y})^2=\sum(y_i-\hat{y}_i)^2+\sum(\hat{y}_i-\overline{y})^2$

其中呜达，由于 $\hat{y}$ 是根據(jù)回歸方程估計(jì)出來的值，因此大猛， $\hat{y}_i-\overline{y}$ 可以表示根據(jù)回歸方程估計(jì)出來的值與總體平均值之間的變差撬槽，他是由于自變量x的變化而引起的變化究珊。其平方和我們稱為回歸平方和悬槽，記為SSR磅叛。
而 $y_i-\hat{y}_i$ 表示的是實(shí)際觀測值和我們根據(jù)回歸方程估計(jì)出來的估計(jì)值之間的差異屑咳，也即回歸模型中的 $\epsilon$ 部分访雪，它表示的是除了x對y線性影響之外的其他因素引起的y的變化部分脂倦，我們稱之為殘差。其平方和我們稱之為殘差平方和柳击，記為：SSE猿推。三個(gè)平方和之間的關(guān)系為：

$總平方和（SST）= 回歸平方和（SSR）+殘差平方和（SSE）$

根據(jù)上圖我們可以看到，回歸直線擬合的好壞取決于殘差部分。殘差越小蹬叭，擬合得越好藕咏。跟據(jù)上式我們可知，SSE越小秽五，SSR越大孽查。也即，SSR/SST的比值越大坦喘。我們將這個(gè)比例稱為判定系數(shù)：
$R^2=SSR/SST=1-SSE/SST$
若所有觀測點(diǎn)都落在直線上盲再，則 $SSE=0$ ，此時(shí) $SSR=SST$ 瓣铣， $R^2=1$ 答朋。若y的變化與x完全無關(guān)，x完全無助于解釋y的變化棠笑，此時(shí) $SSR=0$ 梦碗， $R^2=0$ ”途龋可見洪规， $R^2$ 的取值范圍為[0,1]。而上面講到的相關(guān)系數(shù)循捺，其實(shí)就是判定系數(shù)的平方根斩例，即 $r=\sqrt{R^2}$

估計(jì)標(biāo)準(zhǔn)誤：
從上面可以看到， $\frac{SSE}{n-2}$ 从橘，其實(shí)就是殘差的均方差(MSE)樱拴。而估計(jì)標(biāo)準(zhǔn)誤，其實(shí)就是對所有殘差求標(biāo)準(zhǔn)差而已洋满。公式： $s_e=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}$

顯著性檢驗(yàn)
注意如下幾點(diǎn)：
1）我們的回歸方程晶乔，是根據(jù)樣本數(shù)據(jù)得出的，不一定代表了整體真實(shí)數(shù)據(jù)牺勾；
2）我們在做擬合時(shí)正罢，先入為主的假定了y和x存在線性關(guān)系；
3）我們在做擬合時(shí)驻民，還假設(shè)了誤差項(xiàng) $\epsilon$ 是一個(gè)服從正態(tài)分布的隨機(jī)變量翻具，且對不同的x，具有相同的方差
以上假設(shè)是否成立回还，還需要通過檢驗(yàn)來加以證實(shí)裆泳。

線性關(guān)系的檢驗(yàn)：
F檢驗(yàn)（也叫方差比率檢驗(yàn)）：對兩組樣本數(shù)據(jù)求方差，計(jì)算兩組樣本數(shù)據(jù)的方差之比F柠硕，如果：
F < F表表明兩組數(shù)據(jù)沒有顯著差異工禾；
F ≥ F表表明兩組數(shù)據(jù)存在顯著差異运提。
如果y和x存在顯著的線性關(guān)系，那么闻葵，根據(jù)線性方程得到的y值（估計(jì)值）民泵，在樣本范圍內(nèi)，其方差與實(shí)際值和估計(jì)值之間的殘差的方差槽畔，應(yīng)該存在顯著差異栈妆。那我們就可以采用F檢驗(yàn)來判定。即：
$F=\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE} \sim F(1,n-2)$
注意厢钧，SST的自由度為n鳞尔，SSR的自由度為k，即自變量的個(gè)數(shù)早直，在一元線性回歸中為1铅檩，SSE的自由度為n-k-1，在一元線性回歸中為n-2莽鸿；
若 $F>F_a$ 昧旨，則拒絕原假設(shè)（兩個(gè)變量間的線性關(guān)系不顯著假設(shè)），認(rèn)為兩個(gè)變量間的線性關(guān)系是顯著的祥得，否則不拒絕原假設(shè)兔沃，沒有證據(jù)表明兩個(gè)變量間的線性關(guān)系是顯著的。
回歸系數(shù)的檢驗(yàn)（檢驗(yàn) $\beta_1$ 是否等于0）
我們之前用的是判定系數(shù)或者估計(jì)標(biāo)準(zhǔn)誤來對回歸方程的擬合性好壞做判段级及。但是判定系數(shù)只能說明回歸方程總體的回歸效果乒疏，整體效果顯著并不能說明每個(gè)自變量對因變量都是有效的。（尤其是在多元回歸中饮焦，如果某個(gè)自變量對因變量不顯著怕吴，就應(yīng)該剔除）。顯然县踢，如果某個(gè)自變量對因變量作用不顯著转绷，那么他的系數(shù)就應(yīng)該為0。所以硼啤，我們要檢測每個(gè)自變量的系數(shù)是否顯著不為0议经。上面的F檢驗(yàn)，也是檢驗(yàn)的整體效果谴返，做F檢驗(yàn)時(shí)煞肾，我們是假設(shè)所有的自變量系數(shù)都為0，那么顯然嗓袱，即便模型通過了F檢驗(yàn)籍救，但也并不清楚究竟哪一個(gè)參數(shù)不為零，那么我們對模型的解釋就還不夠清楚渠抹。
如何判斷自變量系數(shù)顯著不為0呢蝙昙？因?yàn)樽宰兞肯禂?shù)是個(gè)隨機(jī)變量闪萄，方差也未知。在此情況下耸黑，根據(jù)統(tǒng)計(jì)學(xué)原理桃煎，這個(gè)隨機(jī)變量轉(zhuǎn)化為標(biāo)準(zhǔn)分?jǐn)?shù)后的標(biāo)準(zhǔn)值應(yīng)該服從自由度為n-2的t分布篮幢。因此我們用t檢驗(yàn)來檢測參數(shù)是否顯著不為0:
$t=\frac{\hat{\beta}_1-\overline{\beta_1}}{s_{\beta_1}}=\frac{\hat{\beta}_1}{s_{\beta_1}} \sim T(n-2)$
一般我們會計(jì)算P值大刊，即根據(jù)t分布表，查到的在n-2自由度下三椿，概率為t時(shí)對應(yīng)的a（也即百分比）缺菌，如果小于給定的a（例如0.05，也就是5%）搜锰，那么表示我們有極少的概率會出現(xiàn)系數(shù)為0的情況伴郁，因此要拒絕原假設(shè)，反之蛋叼，我們不拒絕原假設(shè)焊傅。
殘差分析：檢驗(yàn)誤差項(xiàng) $\epsilon$ 的假定是否成立
殘差除以標(biāo)準(zhǔn)誤差后的值，叫標(biāo)準(zhǔn)化殘差狈涮，記作： $z_{e_i}=\frac{y_i-\hat{y}_i}{s_e}$
檢驗(yàn)誤差項(xiàng) $\epsilon$ 的假定是否成立狐胎，可以通過殘差圖分析來完成。殘差圖的x軸是自變量的值 $x_i$ 或者因變量的值 $y_i$ 歌馍，縱軸是對應(yīng)的殘差 $e_i$ 握巢。 $x_i$ （或 $y_i$ ）對應(yīng)的殘差 $e_i$ ，在圖中用一個(gè)點(diǎn)表示松却。
若關(guān)于 $\epsilon$ 等方差的假設(shè)成立暴浦，且描述y與x之間關(guān)系的回歸模型是合理的，那么殘差圖中的所有點(diǎn)都應(yīng)以均值0為中心隨機(jī)分布在一條水平帶中間晓锻，如下圖（a）所示歌焦。

不同形態(tài)的殘差圖

另外，在R語言中砚哆，我們可以方便的來進(jìn)行圖形化的模型診斷

model <- lm(因變量～自變量)
plot(model)

此時(shí)會顯示四張圖：

其中同规，Residuals vs Fitted類似于殘差圖，橫坐標(biāo)代表你擬合值窟社，縱坐標(biāo)代表殘差值券勺。若關(guān)于

\epsilon

等方差的假設(shè)成立，且描述y與x之間關(guān)系的回歸模型是合理的灿里，那么殘差圖中的所有點(diǎn)都應(yīng)以均值0為中心隨機(jī)分布在一條水平帶中間关炼。
Normal QQ-plot用來檢測其殘差是否是正態(tài)分布的。正態(tài)分布的QQ圖的橫坐標(biāo)為:標(biāo)準(zhǔn)正態(tài)分布的分位數(shù),縱坐標(biāo)為樣本值匣吊。利用QQ圖鑒別樣本數(shù)據(jù)是否近似于正態(tài)分布只需看QQ圖上的點(diǎn)是否近似地在一條直線附近,圖形是直線說明是正態(tài)分布儒拂，而且該直線的斜率為標(biāo)準(zhǔn)差,截距為均值.
Scale-Location 是位置尺度圖寸潦，用來判斷殘差的方差齊性。若滿足方差齊性假設(shè)社痛，那么在位置尺度圖中见转，水平線周圍的點(diǎn)應(yīng)該隨機(jī)分布。
Residuals vs Leverage 用于判斷樣本數(shù)據(jù)中是否有離群點(diǎn)蒜哀、高杠桿值點(diǎn)和強(qiáng)影響點(diǎn)斩箫。
更細(xì)致的說明可以參考這篇文章：R語言里的模型診斷圖

4. 多元線性回歸

基本同一元線性回歸，回歸模型為： $y=\beta_0+\beta_1x_1+\beta_2x_2+...++\beta_kx_k+\epsilon$

在多元回歸總撵儿，我們?nèi)匀皇褂门卸ㄏ禂?shù)來判段擬合程度的好壞乘客。此時(shí)叫多重判定系數(shù)。但是要注意的是淀歇，殘差平方和往往隨著解釋變量個(gè)數(shù)的增加而減少易核，至少不會增加，但是由增加解釋變量個(gè)數(shù)引起的判定系數(shù)的增大與擬合好壞無關(guān)浪默，因此在多元回歸模型之間比較擬合優(yōu)度牡直，判定系數(shù)就不是一個(gè)合適的指標(biāo)，必須加以調(diào)整纳决，于是引入了調(diào)整的多重判定系數(shù)： $R_a^2=1-(1-R^2)(\frac{n-1}{n-k-1})$

在多元回歸中碰逸，既要避免遺漏變量偏誤的發(fā)生，也要盡量避免引入過多的變量岳链，導(dǎo)致多重共線性的發(fā)生花竞。

當(dāng)回歸模型中兩個(gè)或兩個(gè)以上的自變量彼此相關(guān)時(shí)，則稱回歸模型中存在多重共線性掸哑。具體來說约急，如果出現(xiàn)以下情況，暗示存在多重共線性：

模型中各對自變量存在顯著相關(guān)苗分；
當(dāng)模型的線性關(guān)系檢驗(yàn)（F檢驗(yàn)）顯著時(shí)厌蔽，幾乎所有回歸系數(shù)的t檢驗(yàn)卻不顯著；
回歸系數(shù)的正負(fù)號與預(yù)期的相反摔癣；
通過容忍度和方差擴(kuò)大因子判斷：容忍度越小奴饮，多重共線性越嚴(yán)重。方差擴(kuò)大因子越大择浊，多重共線性越嚴(yán)重戴卜。

多重共線性度問題主要是影響對單個(gè)回歸系數(shù)的解釋和檢驗(yàn)，在求因變量置信區(qū)間和預(yù)測區(qū)間時(shí)一般不會受影響琢岩，但必須保證用于估計(jì)和預(yù)測的自變量值在樣本數(shù)據(jù)范圍內(nèi)投剥。

解決多重共線性的方法主要是：

將一個(gè)或多個(gè)相關(guān)的自變量從模型中剔除，是保留的自變量盡量不相關(guān)担孔；
如果要保留所有的自變量江锨，則避免根據(jù)t統(tǒng)計(jì)量對單個(gè)參數(shù)進(jìn)行檢驗(yàn)吃警，同時(shí)對因變量y的推斷限定在自變量樣本值的范圍內(nèi)。

變量選擇與逐步回歸

在建立模型時(shí)啄育，盡量用最少的變量來建立模型酌心。每次只增加一個(gè)變量，并將新變量與模型中的變量進(jìn)行比較挑豌。若新變量引入模型后安券，以前的某個(gè)變量的t統(tǒng)計(jì)量不顯著，這個(gè)變量就會從模型中剔除浮毯。另外完疫，我們引入新的變量后泰鸡，要看是否使殘差平方和（SSE）顯著減少债蓝。如果增加一個(gè)自變量使得殘差平方和顯著減少，則說明有必要將這個(gè)自變量引入到模型中盛龄，否則就沒有必要饰迹。確定引入自變量是否使殘差平方和顯著減少的一個(gè)辦法就是使用F檢驗(yàn)統(tǒng)計(jì)量。
變量的選擇方法包括：向前選擇余舶、向后剔除啊鸭、逐步回歸、最優(yōu)子集等匿值。

向前選擇：
第一步：對k個(gè)自變量赠制，分別擬合與因變量y的一元線性回歸模型，共有k個(gè)挟憔，然后找出F統(tǒng)計(jì)量的最大模型及對應(yīng)的自變量 $x_i$ 钟些，并將其作為第一個(gè)自變量引入到模型中；
第二步：對剩下的k-1個(gè)自變量绊谭，分別引入到第一步的模型中政恍，得到k-1個(gè)二元線性回歸模型，然后找出F統(tǒng)計(jì)量的最大模型及對應(yīng)的自變量 $x_j$ 达传，并將其作為第二個(gè)自變量引入到模型中篙耗。如果除 $x_i$ 之外的k-1個(gè)自變量中沒有一個(gè)是統(tǒng)計(jì)上顯著的，則運(yùn)算終止宪赶。如此反復(fù)進(jìn)行宗弯，直到模型外的自變量均無統(tǒng)計(jì)顯著性為止。
向后剔除
與向前選擇相反搂妻，先建立包括所有自變量的多元線性回歸模型蒙保，然后考察去掉一個(gè)自變量的模型，是模型SSE值減小最小的自變量被挑出來并從模型中去除叽讳，直到剔除一個(gè)自變量不會使SSE顯著減小為止追他。上述過程可以通過F檢驗(yàn)的P值來判斷
逐步回歸
使用向前選擇和向后剔除的混合坟募。前兩步先用向前回歸，從增加第三個(gè)變量開始邑狸，需要判斷增加這個(gè)變量后懈糯，前面的變量是否對模型的貢獻(xiàn)變得不顯著，如不顯著单雾，就剔除赚哗。
在R中，使用AIC作為選擇標(biāo)準(zhǔn)硅堆，選擇使用AIC最小的變量建立模型屿储。AIC越小，表示擬合的模型精度越高而且越簡潔渐逃。 $AIC=n\ln(\frac{SSE}{n})+2p$
n為樣本量够掠，p為模型中參數(shù)的個(gè)數(shù)（包括常數(shù)項(xiàng)）

model1 <- lm(y~x1+x2+x3+x4+x5, data=example)
mode2 <- step(model1)

模型比較
采用了逐步回歸方式得到的模型是否很好的擬合了數(shù)據(jù)，或者說得到的模型是否就一定比使用所有變量的模型要好茄菊，需要比較后才能得知疯潭。
對于嵌套模型（一個(gè)模型中包含了另外一個(gè)模型的所有變量，并且至少有一個(gè)額外項(xiàng)）面殖，我們可以假設(shè)竖哩，多出來的額外項(xiàng)，其參數(shù)全為0脊僚。如果假設(shè)不成立相叁，則表示使用了比較全的模型，擬合效果要好于簡化模型辽幌。否則表示使用簡化模型和完全擬合模型擬合效果一樣好增淹，此時(shí)我們應(yīng)選擇簡化模型。
對于上述假設(shè)舶衬，我們一般是計(jì)算出兩個(gè)模型的SSE埠通。如果兩者的差值較大，證明完全擬合模型提供的信息比較多逛犹，就不能拒絕原假設(shè)端辱。檢驗(yàn)統(tǒng)計(jì)量為： $F=\frac{(SSE_R-SSE_F)/(k-g)}{SSE_F/(n-k-1)} \sim F(k-g,n-k-1)$
其中， $SSE_R$ 代表簡化模型虽画， $SSE_F$ 代表完全模型舞蔽，完全模型中的參數(shù)個(gè)數(shù)（包括常數(shù)項(xiàng)）為k+1，簡化模型中的參數(shù)個(gè)數(shù)為g+1码撰。如果檢驗(yàn)的P值很小渗柿，就拒絕 $H_0$ ，否則不拒絕原假設(shè)。這一檢驗(yàn)過程可以有R的anova函數(shù)來完成朵栖。
用anova函數(shù)比較時(shí)颊亮，要求兩個(gè)模型是嵌套模型。如果不是嵌套模型陨溅，可以使用AIC來比較终惑。AIC值小，說明模型用比較少的參數(shù)就獲得了足夠的擬合度门扇。

自變量的相對重要性
評估自變量的相對重要性的方法之一就是比較標(biāo)準(zhǔn)化回歸系數(shù)雹有。標(biāo)準(zhǔn)化回歸系數(shù)，就是將因變量和所有自變量都標(biāo)準(zhǔn)化后臼寄，再進(jìn)行回歸霸奕，得到的回歸系數(shù)。其含義是：在其他自變量取值不變的情況下吉拳，自變量 $x_i$ 每變動一個(gè)標(biāo)準(zhǔn)差质帅，因變量平均變動 $\overline{\beta}_i$ 個(gè)標(biāo)準(zhǔn)差。顯然合武， $\overline{\beta}_i$ 的絕對值越大临梗，說明該自變量 $x_i$ 對因變量的影響越大涡扼，因此相對于其他自變量而言稼跳，它也越重要。在R中吃沪，可以使用lm.beta(object)函數(shù)來計(jì)算標(biāo)準(zhǔn)化回歸系數(shù)汤善。

穩(wěn)健回歸：

我們一般使用的普通最小二乘法（OLS）進(jìn)行線性回歸，其原理就是使得殘差的平方和最小票彪，也就相當(dāng)于使各殘差平方的算術(shù)均數(shù)最小红淡，而算術(shù)均數(shù)對于偏離正態(tài)分布的情況其估計(jì)顯然是不穩(wěn)健的，
例如降铸，當(dāng)數(shù)據(jù)樣本點(diǎn)出現(xiàn)很多的異常點(diǎn)（outliers）在旱，這些異常點(diǎn)對回歸模型的影響會非常的大，傳統(tǒng)的基于最小二乘的回歸方法將不適用推掸。
比如下圖中所示桶蝎，數(shù)據(jù)中存在一個(gè)異常點(diǎn)，如果不剔除該點(diǎn)谅畅，適用OLS方法來做回歸的話登渣，那么就會得到途中紅色的那條線；如果將這個(gè)異常點(diǎn)剔除掉的話毡泻，那么就可以得到圖中藍(lán)色的那條線胜茧。顯然，藍(lán)色的線比紅色的線對數(shù)據(jù)有更強(qiáng)的解釋性仇味，這就是OLS在做回歸分析時(shí)候的弊端呻顽。

但在此情況下中位數(shù)卻非常穩(wěn)健雹顺，于是將LS估計(jì)的目標(biāo)函數(shù)改為使各殘差平方的中位數(shù)最小，得到的“最小平方中位數(shù)”估計(jì)應(yīng)該是穩(wěn)健的廊遍，這就是LMS无拗。

同理，由于在單變量情況下的“調(diào)整均數(shù)”(trimmed mean)是穩(wěn)健的昧碉，所以考慮在回歸情形下如果把殘差較大的點(diǎn)棄去不計(jì)英染，目標(biāo)函數(shù)是使排序在前一部分較小的殘差平方合計(jì)最小，這就是LTS被饿。

生活中常見的一個(gè)應(yīng)用穩(wěn)健統(tǒng)計(jì)（Robust Statistics）的例子是四康，在一些主觀性的評價(jià)比賽打分中，比如歌唱比賽狭握，藝術(shù)體操比賽闪金，去掉一個(gè)最高分，去掉一個(gè)最低分论颅，剩下的評分再取平均值為選手的得分哎垦，這樣就非常有效地防止了某些評委故意打出一個(gè)特別高的分或者特別低的分來影響選手的最終得分，這樣的評分統(tǒng)計(jì)規(guī)則就是穩(wěn)健的恃疯。

關(guān)于穩(wěn)健回歸漏设，可以參考這篇文章：穩(wěn)健回歸
以及這篇文章：線性回歸有離群值也不怕？穩(wěn)健回歸

由于上述原因今妄，我們通過普通最小二乘法估計(jì)出來的模型郑口，有可能存在異方差問題（可以通過上面的方法對殘差進(jìn)行異方差檢驗(yàn)），而我們單個(gè)參數(shù)的t統(tǒng)計(jì)量盾鳞，其公式等于系數(shù)值除以其標(biāo)準(zhǔn)誤犬性。如果存在異方差情況下，這個(gè)標(biāo)準(zhǔn)誤是不準(zhǔn)確的腾仅，因此我們得到的t檢驗(yàn)量也不準(zhǔn)確乒裆，此時(shí)應(yīng)該考慮使用穩(wěn)健的t檢驗(yàn)量來進(jìn)行檢驗(yàn)。
在R中推励，我們可以使用lmtest包中的coeftest()函數(shù)來進(jìn)行穩(wěn)健的t統(tǒng)計(jì)量檢驗(yàn)：

coeftest(linear_model, vcov. = vcov)

有關(guān)上述知識鹤耍，可以參考：標(biāo)準(zhǔn)誤兩三事：為什么一使用穩(wěn)健標(biāo)準(zhǔn)誤，我的系數(shù)就不顯著了吹艇？

這篇文章挺好惰蜜，收藏一下：R語言回歸篇

最后編輯于：2021.10.31 14:37:10

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市受神，隨后出現(xiàn)的幾起案子抛猖，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 217,277評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件财著，死亡現(xiàn)場離奇詭異联四，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)撑教，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,689評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門朝墩，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人伟姐，你說我怎么就攤上這事收苏。” “怎么了愤兵？”我有些...
開封第一講書人閱讀 163,624評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵鹿霸，是天一觀的道長。經(jīng)常有香客問我秆乳，道長懦鼠，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,356評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任屹堰，我火速辦了婚禮肛冶，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘扯键。我一直安慰自己睦袖，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,402評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布忧陪。她就那樣靜靜地躺著扣泊，像睡著了一般。火紅的嫁衣襯著肌膚如雪嘶摊。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,292評論 1贊 301
城市分裂傳說
那天评矩，我揣著相機(jī)與錄音叶堆，去河邊找鬼。笑死斥杜，一個(gè)胖子當(dāng)著我的面吹牛虱颗，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播蔗喂，決...
沈念sama閱讀 40,135評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼忘渔，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了缰儿？” 一聲冷哼從身側(cè)響起畦粮，我...
開封第一講書人閱讀 38,992評論 0贊 275
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后宣赔，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體预麸，經(jīng)...
沈念sama閱讀 45,429評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,636評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年儒将，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了吏祸。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,785評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡钩蚊，死狀恐怖贡翘，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情砰逻，我是刑警寧澤床估，帶...
沈念sama閱讀 35,492評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站诱渤，受9級特大地震影響丐巫，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜勺美，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,092評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一递胧、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧赡茸，春花似錦缎脾、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,723評論 0贊 22
一樁弒父案遗菠，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至华蜒，卻和暖如春辙纬，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背叭喜。一陣腳步聲響...
開封第一講書人閱讀 32,858評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工贺拣，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人捂蕴。一個(gè)月前我還...
沈念sama閱讀 47,891評論 2贊 370
代替公主和親
正文我出身青樓譬涡，卻偏偏與公主長得像，于是被迫代替她去往敵國和親啥辨。傳聞我的和親對象是個(gè)殘疾皇子涡匀，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,713評論 2贊 354

線性回歸

1. 如何理解協(xié)方差和相關(guān)系數(shù)末荐？

2. 相關(guān)系數(shù)的顯著性檢驗(yàn)

3. 一元線性回歸

4. 多元線性回歸

推薦閱讀更多精彩內(nèi)容