穩(wěn)健回歸:是一類方法的總稱沪蓬,主要是針對異常值的處理方法。該方法的主要目的是檢測異常點来候,并在有異常點的情況下給出模型的穩(wěn)健估計跷叉。
基本思想:是對不同數(shù)據(jù)點給予不同權(quán)重,殘差小的給予較大的權(quán)重营搅,殘差大的給予較小權(quán)重性芬,以減小異常值對模型的影響。
SAS中關(guān)于穩(wěn)健回歸的估計方法主要有:
- M估計:由Huber1973年提出剧防,是較早的一種處理異常點的方法植锉,該法統(tǒng)計效率較高,但在異常點較多的時估計效果不佳峭拘。
- LTS估計:由Rousseeuw1984年提出俊庇,可用于處理高杠杠值問題。
- S估計:由Yashi1987年提出鸡挠,該法具有比LTS估計更高的統(tǒng)計效率辉饱。
- MM估計:由Yashi1987年提出,是對S估計的進一步發(fā)展拣展,它將M估計與LTS估計/S估計結(jié)合起來彭沼,綜合了上述估計方法的優(yōu)點。目前MM估計應(yīng)用越來越廣备埃,可能是應(yīng)用得最多的一種穩(wěn)健回歸技術(shù)姓惑。
穩(wěn)健回歸的SAS程序主要通過proc robustreg過程實現(xiàn):
proc robustreg <option(s)>;
model 因變量=自變量 </option(s)>;
run;
proc robustreg options:
method = : 指定穩(wěn)健估計方法,可選的有M按脚、LTS于毙、S、MM辅搬,默認為 mehod = M唯沮;
model options:
diagnostics:進行異常點檢測
leverage:檢測并列出杠杠點
SAS分析程序舉例
首先采用線性回歸對數(shù)據(jù)進行異常點診斷分析,然后采用穩(wěn)健回歸對數(shù)據(jù)進行分析堪遂,程序如下:
一般線性回歸的結(jié)果可分為兩部分介蛉。
第一部分為模型擬合結(jié)果,如下圖溶褪,表明x對y的影響無統(tǒng)計學(xué)意義(t=-0.20, p=0.8433)
第二部分是觀測的影響分析結(jié)果币旧。如下圖:
- 學(xué)生化殘差(student residual):反映了因變量的異常點;
- 杠桿值(hat diag H):反映了自變量的異常點竿滨;
- Cook's D值和DFFITS:綜合反映了強影響點佳恬。
從結(jié)果分析看出:
- 第1號觀測的學(xué)生化殘差絕對值遠遠大于其它觀測捏境,而杠桿值并不是非常高,提示其因變量為異常點毁葱;
- 第6號觀測的杠桿值遠遠大于其它觀測垫言,而學(xué)生化殘差并不高,提示其自變量為異常點倾剿;
- Cook's D值和DFFITS則顯示筷频,第1號和第6號的值均高于其它觀測的值,提示這兩個觀測可能為強影響點前痘。
一般線性回歸分析可知存在強影響點凛捏,且其值較大,因此我們采用穩(wěn)健回歸對數(shù)據(jù)進行分析芹缔。
穩(wěn)健回歸分析結(jié)果主要分為五部分坯癣。
第一部分是對變量的簡單統(tǒng)計描述,如下:
絕對離差中位數(shù)(MAD)是穩(wěn)健的變量尺度最欠,標準差與MAD差值越大示罗,提示可能存在異常。
結(jié)果分析顯示:y的標準差與MAD的差值比x的更大芝硬,提示y更有可能存在異常值蚜点。
第二部分是MM估計的概括性描述,如下:
- 結(jié)果顯示:最高的失效點為0.2667拌阴,估計率為0.85绍绘。
- 失效點通常來講就是所需的估計方法在數(shù)據(jù)有多少異常點時仍可保持模型的穩(wěn)健。失效點所占比例越高迟赃,表明估計方法越穩(wěn)健陪拘。
- MM估計默認的估計率為0.85。如果指定估計率捺氢,可通過以下語句實現(xiàn)
proc robustreg method=mm(eff=0.9);
第三部分是參數(shù)估計結(jié)果藻丢。
給出了參數(shù)的MM估計、標準誤摄乒、95%可信區(qū)間、卡方值及相應(yīng)的P值残黑。
第四部分為數(shù)據(jù)診斷結(jié)果馍佑,如下:
- 杠桿點主要根據(jù)穩(wěn)健MCD距離(robust MCD distance)判斷,當(dāng)該值大于診斷界值(cutoff)時梨水,即判斷為杠桿點拭荤,并以“*”標識;
- 離群點主要根據(jù)穩(wěn)健殘差(robust residual)判斷疫诽,當(dāng)該值的絕對值大于診斷界值(cutoff)時舅世,即判斷為離群點旦委,并以“*”標識;
結(jié)果顯示:
- 第1號判斷為離群點雏亚;
- 第6號判斷為高杠桿點缨硝,且同時為離群點。
第五部分為模型擬合結(jié)果罢低。
這部分主要用于模型的比較查辩,單看一個意義不大。
根據(jù)以上結(jié)果网持,穩(wěn)健回歸所得方程為y=421.8446+17.0256x宜岛。與普通線性回歸所得結(jié)果相差較大。這一點可結(jié)合散點圖理解功舀。
從上面兩個圖萍倡,明顯地看到兩個點脫離其它點,第1號觀測主要是偏離y的均值較大辟汰,第6號觀測主要偏離x均值列敲,但同時也偏離y均值。如果僅有第1號為異常莉擒,而第6號正常酿炸,那么直線上升趨勢更為明顯,即回歸系數(shù)會變大涨冀。而第6號將整個方程拉了下來填硕,使普通線性回歸估計的回歸系數(shù)變成了負值。由于第6號既是高杠杠點又是離群點鹿鳖,因此它是一個強影響點扁眯,正是它的存在,導(dǎo)致整個方程發(fā)生了重大改變翅帜。
總結(jié)
So姻檀,當(dāng)數(shù)據(jù)中存在高杠杠點、離群點甚至強影響點時涝滴,普通線性回歸受他們的影響特別大绣版,很有可能由于一兩個數(shù)據(jù)的影響而偏離了實際,而穩(wěn)健回歸則避免了這種誤導(dǎo)歼疮。
本例中杂抽,穩(wěn)健回歸給出的估計結(jié)果更加符合實際,因為數(shù)據(jù)總體仍是一種直線上升的趨勢韩脏。