線性回歸

1. 如何理解協(xié)方差和相關(guān)系數(shù)末荐?

協(xié)方差公式:

公式簡單翻譯一下是:如果有X,Y兩個(gè)變量湃累,每個(gè)時(shí)刻的“X值與其均值之差”乘以“Y值與其均值之差”得到一個(gè)乘積陕靠,再對這每時(shí)刻的乘積求和并求出均值(其實(shí)是求“期望”,但就不引申太多新概念了脱茉,簡單認(rèn)為就是求均值了)剪芥。

相關(guān)系數(shù)的公式:

就是用X、Y的協(xié)方差除以X的標(biāo)準(zhǔn)差和Y的標(biāo)準(zhǔn)差琴许。

細(xì)節(jié)說明可以參考這篇文章:如何通俗易懂地解釋「協(xié)方差」與「相關(guān)系數(shù)」的概念榜田?

相關(guān)系數(shù)的性質(zhì)如下:

  1. 相關(guān)系數(shù)的值介于-1與+1之間箭券,即-1≤r≤+1蛔六。
    當(dāng)r>0時(shí),表示兩變量正相關(guān)具钥,當(dāng)r<0時(shí)骂删,表示兩變量為負(fù)相關(guān)。當(dāng)|r|=1時(shí)欧瘪,表示兩變量為完全線性相關(guān)即函數(shù)關(guān)系。當(dāng)r=1時(shí)罚屋,稱為完全正相關(guān),而當(dāng)r=-1時(shí)猛拴,稱為完全負(fù)相關(guān)愉昆。當(dāng)r=0時(shí),表示兩變量間無線性相關(guān)關(guān)系芳室。
  2. r具有對稱性堪侯。X與y之間的相關(guān)系數(shù)rxy和y與x之間的相關(guān)系數(shù)ryx相等芽死。
  3. r數(shù)值大小與x和y的數(shù)據(jù)原點(diǎn)及計(jì)量尺度無關(guān)收奔。改變x和y的數(shù)據(jù)原點(diǎn)和計(jì)量尺度,并不改變r(jià)數(shù)值的大小翩肌。
  4. r僅僅是x與y 之間線性關(guān)系的一個(gè)度量念祭,它不能用于描述非線性關(guān)系粱坤。
  5. r雖然是兩個(gè)變量之間線性關(guān)系的一個(gè)度量,卻不一定意味著x與y一定有因果關(guān)系株旷。
    當(dāng)︱r︱≥0.8時(shí)晾剖,可視為高度相關(guān)齿尽;當(dāng)0.5≤︱r︱<0.8時(shí)雕什,可視為中度相關(guān);當(dāng)0.3≤︱r︱<0.5時(shí)偿警,視為低度相關(guān)盒使;當(dāng)︱r︱<0.3時(shí)少办,說明兩個(gè)變量之間的相關(guān)程度極弱

在R中,相關(guān)系數(shù)的計(jì)算使用cor函數(shù)

2. 相關(guān)系數(shù)的顯著性檢驗(yàn)

一般情況下我們都是使用樣本數(shù)據(jù)來計(jì)算相關(guān)系數(shù),用樣本的相關(guān)系數(shù)來估計(jì)整體的相關(guān)系數(shù)吗蚌,因此存在一定的偏差敷燎,會受到抽樣波動的影響。每次抽樣數(shù)據(jù)不同澄成,得到的樣本相關(guān)系數(shù)也不同卫漫。因此樣本相關(guān)系數(shù)是個(gè)隨機(jī)變量宏悦。如何確定樣本相關(guān)系數(shù)是否能代表總體的相關(guān)水平呢包吝?需要對樣本相關(guān)系數(shù)進(jìn)行可靠性檢驗(yàn)砖瞧,也就是顯著性檢驗(yàn)嚷狞。一般我們用t檢驗(yàn)振坚。

根據(jù)給定的顯著性水平a和自由度(n-2)查t分布表斋扰,得出t_{a/2}(n-2)的臨界值渡八。若|t|>t_{a/2}則拒絕原假設(shè),認(rèn)為總體存在顯著的線性關(guān)系褥实。

在R中呀狼,相關(guān)系數(shù)的檢驗(yàn)可以使用cor.test函數(shù)

3. 一元線性回歸

回歸模型:y=\beta_0+\beta_1x+\epsilon
回歸模型中的參數(shù)估計(jì)(\beta_0 , \beta_1),使用最小二乘法來進(jìn)行估計(jì)計(jì)算损离。

擬合優(yōu)度:通俗點(diǎn)說就是看我們推斷出來的這條直線代表了實(shí)際數(shù)據(jù)分布情況的優(yōu)良程度哥艇。
判定系數(shù)(R^2):
實(shí)際的觀測數(shù)據(jù)跟總體平均值之間的差異叫作變差(也即離均差或離差)。變差的平方,也即平方偏差汁咏。所有的平方偏差之和赖瞒,記為:SST=\sum(y_i-\overline{y})^2

注意,方差的定義其實(shí)就是對平方偏差之和求平均數(shù)。即笑诅,\sigma^2=SST/n

從下圖可以看到,所有的變差(也即離均差)都可分解為:y-\overline{y}=(y-\hat{y})+(\hat{y}-\overline{y})


將上式兩邊平方再求和,得到:

\sum(y_i-\overline{y})^2=\sum(y_i-\hat{y}_i)^2+\sum(\hat{y}_i-\overline{y})^2+2\sum(y_i-\hat{y}_i)(\hat{y}_i-\overline{y})

可以證明有勾,\sum(y_i-\hat{y}_i)(\hat{y}_i-\overline{y})=0,因此

\sum(y_i-\overline{y})^2=\sum(y_i-\hat{y}_i)^2+\sum(\hat{y}_i-\overline{y})^2

其中呜达,由于\hat{y} 是根據(jù)回歸方程估計(jì)出來的值,因此大猛,\hat{y}_i-\overline{y} 可以表示根據(jù)回歸方程估計(jì)出來的值與總體平均值之間的變差撬槽,他是由于自變量x的變化而引起的變化究珊。其平方和我們稱為回歸平方和悬槽,記為SSR磅叛。
y_i-\hat{y}_i 表示的是實(shí)際觀測值和我們根據(jù)回歸方程估計(jì)出來的估計(jì)值之間的差異屑咳,也即回歸模型中的\epsilon部分访雪,它表示的是除了x對y線性影響之外的其他因素引起的y的變化部分脂倦,我們稱之為殘差。其平方和我們稱之為殘差平方和柳击,記為:SSE猿推。三個(gè)平方和之間的關(guān)系為:

總平方和(SST)= 回歸平方和(SSR)+殘差平方和(SSE)

根據(jù)上圖我們可以看到,回歸直線擬合的好壞取決于殘差部分。殘差越小蹬叭,擬合得越好藕咏。跟據(jù)上式我們可知,SSE越小秽五,SSR越大孽查。也即,SSR/SST的比值越大坦喘。我們將這個(gè)比例稱為判定系數(shù):
R^2=SSR/SST=1-SSE/SST
若所有觀測點(diǎn)都落在直線上盲再,則SSE=0,此時(shí)SSR=SST瓣铣,R^2=1 答朋。若y的變化與x完全無關(guān),x完全無助于解釋y的變化棠笑,此時(shí)SSR=0梦碗,R^2=0”途龋可見洪规,R^2的取值范圍為[0,1]。而上面講到的相關(guān)系數(shù)循捺,其實(shí)就是判定系數(shù)的平方根斩例,即 r=\sqrt{R^2}

估計(jì)標(biāo)準(zhǔn)誤:
從上面可以看到,\frac{SSE}{n-2}从橘,其實(shí)就是殘差的均方差(MSE)樱拴。而估計(jì)標(biāo)準(zhǔn)誤,其實(shí)就是對所有殘差求標(biāo)準(zhǔn)差而已洋满。公式:s_e=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE}

顯著性檢驗(yàn)
注意如下幾點(diǎn):
1)我們的回歸方程晶乔,是根據(jù)樣本數(shù)據(jù)得出的,不一定代表了整體真實(shí)數(shù)據(jù)牺勾;
2)我們在做擬合時(shí)正罢,先入為主的假定了y和x存在線性關(guān)系;
3)我們在做擬合時(shí)驻民,還假設(shè)了誤差項(xiàng)\epsilon是一個(gè)服從正態(tài)分布的隨機(jī)變量翻具,且對不同的x,具有相同的方差
以上假設(shè)是否成立回还,還需要通過檢驗(yàn)來加以證實(shí)裆泳。

  1. 線性關(guān)系的檢驗(yàn):
    F檢驗(yàn)(也叫方差比率檢驗(yàn)):對兩組樣本數(shù)據(jù)求方差,計(jì)算兩組樣本數(shù)據(jù)的方差之比F柠硕,如果:
    F < F表 表明兩組數(shù)據(jù)沒有顯著差異工禾;
    F ≥ F表 表明兩組數(shù)據(jù)存在顯著差異运提。
    如果y和x存在顯著的線性關(guān)系,那么闻葵,根據(jù)線性方程得到的y值(估計(jì)值)民泵,在樣本范圍內(nèi),其方差與實(shí)際值和估計(jì)值之間的殘差的方差槽畔,應(yīng)該存在顯著差異栈妆。那我們就可以采用F檢驗(yàn)來判定。即:
    F=\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE} \sim F(1,n-2)
    注意厢钧,SST的自由度為n鳞尔,SSR的自由度為k,即自變量的個(gè)數(shù)早直,在一元線性回歸中為1铅檩,SSE的自由度為n-k-1,在一元線性回歸中為n-2莽鸿;
    F>F_a昧旨,則拒絕原假設(shè)(兩個(gè)變量間的線性關(guān)系不顯著假設(shè)),認(rèn)為兩個(gè)變量間的線性關(guān)系是顯著的祥得,否則不拒絕原假設(shè)兔沃,沒有證據(jù)表明兩個(gè)變量間的線性關(guān)系是顯著的。

  2. 回歸系數(shù)的檢驗(yàn)(檢驗(yàn)\beta_1是否等于0)
    我們之前用的是判定系數(shù)或者估計(jì)標(biāo)準(zhǔn)誤來對回歸方程的擬合性好壞做判段级及。但是判定系數(shù)只能說明回歸方程總體的回歸效果乒疏,整體效果顯著并不能說明每個(gè)自變量對因變量都是有效的。(尤其是在多元回歸中饮焦,如果某個(gè)自變量對因變量不顯著怕吴,就應(yīng)該剔除)。顯然县踢,如果某個(gè)自變量對因變量作用不顯著转绷,那么他的系數(shù)就應(yīng)該為0。所以硼啤,我們要檢測每個(gè)自變量的系數(shù)是否顯著不為0议经。上面的F檢驗(yàn),也是檢驗(yàn)的整體效果谴返,做F檢驗(yàn)時(shí)煞肾,我們是假設(shè)所有的自變量系數(shù)都為0,那么顯然嗓袱,即便模型通過了F檢驗(yàn)籍救,但也并不清楚究竟哪一個(gè)參數(shù)不為零,那么我們對模型的解釋就還不夠清楚渠抹。
    如何判斷自變量系數(shù)顯著不為0呢蝙昙?因?yàn)樽宰兞肯禂?shù)是個(gè)隨機(jī)變量闪萄,方差也未知。在此情況下耸黑,根據(jù)統(tǒng)計(jì)學(xué)原理桃煎,這個(gè)隨機(jī)變量轉(zhuǎn)化為標(biāo)準(zhǔn)分?jǐn)?shù)后的標(biāo)準(zhǔn)值應(yīng)該服從自由度為n-2的t分布篮幢。因此我們用t檢驗(yàn)來檢測參數(shù)是否顯著不為0:
    t=\frac{\hat{\beta}_1-\overline{\beta_1}}{s_{\beta_1}}=\frac{\hat{\beta}_1}{s_{\beta_1}} \sim T(n-2)
    一般我們會計(jì)算P值大刊,即根據(jù)t分布表,查到的在n-2自由度下三椿,概率為t時(shí)對應(yīng)的a(也即百分比)缺菌,如果小于給定的a(例如0.05,也就是5%)搜锰,那么表示我們有極少的概率會出現(xiàn)系數(shù)為0的情況伴郁,因此要拒絕原假設(shè),反之蛋叼,我們不拒絕原假設(shè)焊傅。

  3. 殘差分析: 檢驗(yàn)誤差項(xiàng)\epsilon的假定是否成立
    殘差除以標(biāo)準(zhǔn)誤差后的值,叫標(biāo)準(zhǔn)化殘差狈涮,記作:z_{e_i}=\frac{y_i-\hat{y}_i}{s_e}
    檢驗(yàn)誤差項(xiàng)\epsilon的假定是否成立狐胎,可以通過殘差圖分析來完成。殘差圖的x軸是自變量的值x_i或者因變量的值y_i歌馍,縱軸是對應(yīng)的殘差e_i握巢。x_i(或y_i)對應(yīng)的殘差e_i,在圖中用一個(gè)點(diǎn)表示松却。
    若關(guān)于\epsilon等方差的假設(shè)成立暴浦,且描述y與x之間關(guān)系的回歸模型是合理的,那么殘差圖中的所有點(diǎn)都應(yīng)以均值0為中心隨機(jī)分布在一條水平帶中間晓锻,如下圖(a)所示歌焦。

    不同形態(tài)的殘差圖

另外,在R語言中砚哆,我們可以方便的來進(jìn)行圖形化的模型診斷

model <- lm(因變量~自變量)
plot(model)

此時(shí)會顯示四張圖:


其中同规,Residuals vs Fitted類似于殘差圖,橫坐標(biāo)代表你擬合值窟社,縱坐標(biāo)代表殘差值券勺。若關(guān)于\epsilon等方差的假設(shè)成立,且描述y與x之間關(guān)系的回歸模型是合理的灿里,那么殘差圖中的所有點(diǎn)都應(yīng)以均值0為中心隨機(jī)分布在一條水平帶中間关炼。
Normal QQ-plot用來檢測其殘差是否是正態(tài)分布的。正態(tài)分布的QQ圖的橫坐標(biāo)為:標(biāo)準(zhǔn)正態(tài)分布的分位數(shù),縱坐標(biāo)為樣本值匣吊。利用QQ圖鑒別樣本數(shù)據(jù)是否近似于正態(tài)分布只需看QQ圖上的點(diǎn)是否近似地在一條直線附近,圖形是直線說明是正態(tài)分布儒拂,而且該直線的斜率為標(biāo)準(zhǔn)差,截距為均值.
Scale-Location 是位置尺度圖寸潦,用來判斷殘差的方差齊性。若滿足方差齊性假設(shè)社痛,那么在位置尺度圖中见转,水平線周圍的點(diǎn)應(yīng)該隨機(jī)分布。
Residuals vs Leverage 用于判斷樣本數(shù)據(jù)中是否有離群點(diǎn)蒜哀、高杠桿值點(diǎn)和強(qiáng)影響點(diǎn)斩箫。
更細(xì)致的說明可以參考這篇文章:R語言里的模型診斷圖

4. 多元線性回歸

基本同一元線性回歸,回歸模型為:y=\beta_0+\beta_1x_1+\beta_2x_2+...++\beta_kx_k+\epsilon

在多元回歸總撵儿,我們?nèi)匀皇褂门卸ㄏ禂?shù)來判段擬合程度的好壞乘客。此時(shí)叫多重判定系數(shù)。但是要注意的是淀歇,殘差平方和往往隨著解釋變量個(gè)數(shù)的增加而減少易核,至少不會增加,但是由增加解釋變量個(gè)數(shù)引起的判定系數(shù)的增大與擬合好壞無關(guān)浪默,因此在多元回歸模型之間比較擬合優(yōu)度牡直,判定系數(shù)就不是一個(gè)合適的指標(biāo),必須加以調(diào)整纳决,于是引入了調(diào)整的多重判定系數(shù):R_a^2=1-(1-R^2)(\frac{n-1}{n-k-1})

在多元回歸中碰逸,既要避免遺漏變量偏誤的發(fā)生,也要盡量避免引入過多的變量岳链,導(dǎo)致多重共線性的發(fā)生花竞。

當(dāng)回歸模型中兩個(gè)或兩個(gè)以上的自變量彼此相關(guān)時(shí),則稱回歸模型中存在多重共線性掸哑。具體來說约急,如果出現(xiàn)以下情況,暗示存在多重共線性:

  1. 模型中各對自變量存在顯著相關(guān)苗分;
  2. 當(dāng)模型的線性關(guān)系檢驗(yàn)(F檢驗(yàn))顯著時(shí)厌蔽,幾乎所有回歸系數(shù)的t檢驗(yàn)卻不顯著;
  3. 回歸系數(shù)的正負(fù)號與預(yù)期的相反摔癣;
  4. 通過容忍度和方差擴(kuò)大因子判斷:容忍度越小奴饮,多重共線性越嚴(yán)重。方差擴(kuò)大因子越大择浊,多重共線性越嚴(yán)重戴卜。

多重共線性度問題主要是影響對單個(gè)回歸系數(shù)的解釋和檢驗(yàn),在求因變量置信區(qū)間和預(yù)測區(qū)間時(shí)一般不會受影響琢岩,但必須保證用于估計(jì)和預(yù)測的自變量值在樣本數(shù)據(jù)范圍內(nèi)投剥。

解決多重共線性的方法主要是:

  1. 將一個(gè)或多個(gè)相關(guān)的自變量從模型中剔除,是保留的自變量盡量不相關(guān)担孔;
  2. 如果要保留所有的自變量江锨,則避免根據(jù)t統(tǒng)計(jì)量對單個(gè)參數(shù)進(jìn)行檢驗(yàn)吃警,同時(shí)對因變量y的推斷限定在自變量樣本值的范圍內(nèi)。

變量選擇與逐步回歸

在建立模型時(shí)啄育,盡量用最少的變量來建立模型酌心。每次只增加一個(gè)變量,并將新變量與模型中的變量進(jìn)行比較挑豌。若新變量引入模型后安券,以前的某個(gè)變量的t統(tǒng)計(jì)量不顯著,這個(gè)變量就會從模型中剔除浮毯。另外完疫,我們引入新的變量后泰鸡,要看是否使殘差平方和(SSE)顯著減少债蓝。如果增加一個(gè)自變量使得殘差平方和顯著減少,則說明有必要將這個(gè)自變量引入到模型中盛龄,否則就沒有必要饰迹。確定引入自變量是否使殘差平方和顯著減少的一個(gè)辦法就是使用F檢驗(yàn)統(tǒng)計(jì)量。
變量的選擇方法包括:向前選擇余舶、向后剔除啊鸭、逐步回歸、最優(yōu)子集等匿值。

  • 向前選擇:
    第一步:對k個(gè)自變量赠制,分別擬合與因變量y的一元線性回歸模型,共有k個(gè)挟憔,然后找出F統(tǒng)計(jì)量的最大模型及對應(yīng)的自變量x_i钟些,并將其作為第一個(gè)自變量引入到模型中;
    第二步:對剩下的k-1個(gè)自變量绊谭,分別引入到第一步的模型中政恍,得到k-1個(gè)二元線性回歸模型,然后找出F統(tǒng)計(jì)量的最大模型及對應(yīng)的自變量x_j达传,并將其作為第二個(gè)自變量引入到模型中篙耗。如果除x_i之外的k-1個(gè)自變量中沒有一個(gè)是統(tǒng)計(jì)上顯著的,則運(yùn)算終止宪赶。如此反復(fù)進(jìn)行宗弯,直到模型外的自變量均無統(tǒng)計(jì)顯著性為止。

  • 向后剔除
    與向前選擇相反搂妻,先建立包括所有自變量的多元線性回歸模型蒙保,然后考察去掉一個(gè)自變量的模型,是模型SSE值減小最小的自變量被挑出來并從模型中去除叽讳,直到剔除一個(gè)自變量不會使SSE顯著減小為止追他。上述過程可以通過F檢驗(yàn)的P值來判斷

  • 逐步回歸
    使用向前選擇和向后剔除的混合坟募。前兩步先用向前回歸,從增加第三個(gè)變量開始邑狸,需要判斷增加這個(gè)變量后懈糯,前面的變量是否對模型的貢獻(xiàn)變得不顯著,如不顯著单雾,就剔除赚哗。
    在R中,使用AIC作為選擇標(biāo)準(zhǔn)硅堆,選擇使用AIC最小的變量建立模型屿储。AIC越小,表示擬合的模型精度越高而且越簡潔渐逃。AIC=n\ln(\frac{SSE}{n})+2p
    n為樣本量够掠,p為模型中參數(shù)的個(gè)數(shù)(包括常數(shù)項(xiàng))

model1 <- lm(y~x1+x2+x3+x4+x5, data=example)
mode2 <- step(model1)

模型比較
采用了逐步回歸方式得到的模型是否很好的擬合了數(shù)據(jù),或者說得到的模型是否就一定比使用所有變量的模型要好茄菊,需要比較后才能得知疯潭。
對于嵌套模型(一個(gè)模型中包含了另外一個(gè)模型的所有變量,并且至少有一個(gè)額外項(xiàng))面殖,我們可以假設(shè)竖哩,多出來的額外項(xiàng),其參數(shù)全為0脊僚。如果假設(shè)不成立相叁,則表示使用了比較全的模型,擬合效果要好于簡化模型辽幌。否則表示使用簡化模型和完全擬合模型擬合效果一樣好增淹,此時(shí)我們應(yīng)選擇簡化模型。
對于上述假設(shè)舶衬,我們一般是計(jì)算出兩個(gè)模型的SSE埠通。如果兩者的差值較大,證明完全擬合模型提供的信息比較多逛犹,就不能拒絕原假設(shè)端辱。檢驗(yàn)統(tǒng)計(jì)量為:F=\frac{(SSE_R-SSE_F)/(k-g)}{SSE_F/(n-k-1)} \sim F(k-g,n-k-1)
其中,SSE_R代表簡化模型虽画,SSE_F代表完全模型舞蔽,完全模型中的參數(shù)個(gè)數(shù)(包括常數(shù)項(xiàng))為k+1,簡化模型中的參數(shù)個(gè)數(shù)為g+1码撰。如果檢驗(yàn)的P值很小渗柿,就拒絕H_0,否則不拒絕原假設(shè)。這一檢驗(yàn)過程可以有R的anova函數(shù)來完成朵栖。
用anova函數(shù)比較時(shí)颊亮,要求兩個(gè)模型是嵌套模型。如果不是嵌套模型陨溅,可以使用AIC來比較终惑。AIC值小,說明模型用比較少的參數(shù)就獲得了足夠的擬合度门扇。

自變量的相對重要性
評估自變量的相對重要性的方法之一就是比較標(biāo)準(zhǔn)化回歸系數(shù)雹有。標(biāo)準(zhǔn)化回歸系數(shù),就是將因變量和所有自變量都標(biāo)準(zhǔn)化后臼寄,再進(jìn)行回歸霸奕,得到的回歸系數(shù)。其含義是:在其他自變量取值不變的情況下吉拳,自變量x_i每變動一個(gè)標(biāo)準(zhǔn)差质帅,因變量平均變動\overline{\beta}_i個(gè)標(biāo)準(zhǔn)差。顯然合武,\overline{\beta}_i的絕對值越大临梗,說明該自變量x_i對因變量的影響越大涡扼,因此相對于其他自變量而言稼跳,它也越重要。在R中吃沪,可以使用lm.beta(object)函數(shù)來計(jì)算標(biāo)準(zhǔn)化回歸系數(shù)汤善。

穩(wěn)健回歸:

我們一般使用的普通最小二乘法(OLS)進(jìn)行線性回歸,其原理就是使得殘差的平方和最小票彪,也就相當(dāng)于使各殘差平方的算術(shù)均數(shù)最小红淡,而算術(shù)均數(shù)對于偏離正態(tài)分布的情況其估計(jì)顯然是不穩(wěn)健的,
例如降铸,當(dāng)數(shù)據(jù)樣本點(diǎn)出現(xiàn)很多的異常點(diǎn)(outliers)在旱,這些異常點(diǎn)對回歸模型的影響會非常的大,傳統(tǒng)的基于最小二乘的回歸方法將不適用推掸。
比如下圖中所示桶蝎,數(shù)據(jù)中存在一個(gè)異常點(diǎn),如果不剔除該點(diǎn)谅畅,適用OLS方法來做回歸的話登渣,那么就會得到途中紅色的那條線;如果將這個(gè)異常點(diǎn)剔除掉的話毡泻,那么就可以得到圖中藍(lán)色的那條線胜茧。顯然,藍(lán)色的線比紅色的線對數(shù)據(jù)有更強(qiáng)的解釋性仇味,這就是OLS在做回歸分析時(shí)候的弊端呻顽。


但在此情況下中位數(shù)卻非常穩(wěn)健雹顺,于是將LS估計(jì)的目標(biāo)函數(shù)改為使各殘差平方的中位數(shù)最小,得到的“最小平方中位數(shù)”估計(jì)應(yīng)該是穩(wěn)健的廊遍,這就是LMS无拗。

同理,由于在單變量情況下的“調(diào)整均數(shù)”(trimmed mean)是穩(wěn)健的昧碉,所以考慮在回歸情形下如果把殘差較大的點(diǎn)棄去不計(jì)英染,目標(biāo)函數(shù)是使排序在前一部分較小的殘差平方合計(jì)最小,這就是LTS被饿。

生活中常見的一個(gè)應(yīng)用穩(wěn)健統(tǒng)計(jì)(Robust Statistics)的例子是四康, 在一些主觀性的評價(jià)比賽打分中, 比如歌唱比賽狭握,藝術(shù)體操比賽闪金, 去掉一個(gè)最高分, 去掉一個(gè)最低分论颅, 剩下的評分再取平均值為選手的得分哎垦, 這樣就非常有效地防止了某些評委故意打出一個(gè)特別高的分或者特別低的分來影響選手的最終得分,這樣的評分統(tǒng)計(jì)規(guī)則就是穩(wěn)健的恃疯。

關(guān)于穩(wěn)健回歸漏设,可以參考這篇文章:穩(wěn)健回歸
以及這篇文章:線性回歸有離群值也不怕?穩(wěn)健回歸

由于上述原因今妄,我們通過普通最小二乘法估計(jì)出來的模型郑口,有可能存在異方差問題(可以通過上面的方法對殘差進(jìn)行異方差檢驗(yàn)),而我們單個(gè)參數(shù)的t統(tǒng)計(jì)量盾鳞,其公式等于系數(shù)值除以其標(biāo)準(zhǔn)誤犬性。如果存在異方差情況下,這個(gè)標(biāo)準(zhǔn)誤是不準(zhǔn)確的腾仅,因此我們得到的t檢驗(yàn)量也不準(zhǔn)確乒裆,此時(shí)應(yīng)該考慮使用穩(wěn)健的t檢驗(yàn)量來進(jìn)行檢驗(yàn)。
在R中推励,我們可以使用lmtest包中的coeftest()函數(shù)來進(jìn)行穩(wěn)健的t統(tǒng)計(jì)量檢驗(yàn):

coeftest(linear_model, vcov. = vcov)

有關(guān)上述知識鹤耍,可以參考:標(biāo)準(zhǔn)誤兩三事:為什么一使用穩(wěn)健標(biāo)準(zhǔn)誤,我的系數(shù)就不顯著了吹艇?

這篇文章挺好惰蜜,收藏一下:R語言回歸篇

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市受神,隨后出現(xiàn)的幾起案子抛猖,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件财著,死亡現(xiàn)場離奇詭異联四,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)撑教,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門朝墩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人伟姐,你說我怎么就攤上這事收苏。” “怎么了愤兵?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵鹿霸,是天一觀的道長。 經(jīng)常有香客問我秆乳,道長懦鼠,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任屹堰,我火速辦了婚禮肛冶,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘扯键。我一直安慰自己睦袖,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布忧陪。 她就那樣靜靜地躺著扣泊,像睡著了一般。 火紅的嫁衣襯著肌膚如雪嘶摊。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天评矩,我揣著相機(jī)與錄音叶堆,去河邊找鬼。 笑死斥杜,一個(gè)胖子當(dāng)著我的面吹牛虱颗,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蔗喂,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼忘渔,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了缰儿?” 一聲冷哼從身側(cè)響起畦粮,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后宣赔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體预麸,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年儒将,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了吏祸。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,785評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡钩蚊,死狀恐怖贡翘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情砰逻,我是刑警寧澤床估,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站诱渤,受9級特大地震影響丐巫,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜勺美,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一递胧、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧赡茸,春花似錦缎脾、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至华蜒,卻和暖如春辙纬,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背叭喜。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工贺拣, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人捂蕴。 一個(gè)月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓譬涡,卻偏偏與公主長得像,于是被迫代替她去往敵國和親啥辨。 傳聞我的和親對象是個(gè)殘疾皇子涡匀,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容