穩(wěn)健回歸及其SAS實現(xiàn)

穩(wěn)健回歸:是一類方法的總稱沪蓬,主要是針對異常值的處理方法。該方法的主要目的是檢測異常點来候,并在有異常點的情況下給出模型的穩(wěn)健估計跷叉。

基本思想:是對不同數(shù)據(jù)點給予不同權(quán)重,殘差小的給予較大的權(quán)重营搅,殘差大的給予較小權(quán)重性芬,以減小異常值對模型的影響。

SAS中關(guān)于穩(wěn)健回歸的估計方法主要有:

  • M估計:由Huber1973年提出剧防,是較早的一種處理異常點的方法植锉,該法統(tǒng)計效率較高,但在異常點較多的時估計效果不佳峭拘。
  • LTS估計:由Rousseeuw1984年提出俊庇,可用于處理高杠杠值問題。
  • S估計:由Yashi1987年提出鸡挠,該法具有比LTS估計更高的統(tǒng)計效率辉饱。
  • MM估計:由Yashi1987年提出,是對S估計的進一步發(fā)展拣展,它將M估計與LTS估計/S估計結(jié)合起來彭沼,綜合了上述估計方法的優(yōu)點。目前MM估計應(yīng)用越來越廣备埃,可能是應(yīng)用得最多的一種穩(wěn)健回歸技術(shù)姓惑。

穩(wěn)健回歸的SAS程序主要通過proc robustreg過程實現(xiàn):

proc robustreg <option(s)>;
     model 因變量=自變量 </option(s)>;
run;

proc robustreg options:
method = : 指定穩(wěn)健估計方法,可選的有M按脚、LTS于毙、S、MM辅搬,默認為 mehod = M唯沮;
model options:
diagnostics:進行異常點檢測
leverage:檢測并列出杠杠點

SAS分析程序舉例

首先采用線性回歸對數(shù)據(jù)進行異常點診斷分析,然后采用穩(wěn)健回歸對數(shù)據(jù)進行分析堪遂,程序如下:

SAS分析程序.png

一般線性回歸的結(jié)果可分為兩部分介蛉。

第一部分為模型擬合結(jié)果,如下圖溶褪,表明x對y的影響無統(tǒng)計學(xué)意義(t=-0.20, p=0.8433)

模型擬合結(jié)果.png

第二部分是觀測的影響分析結(jié)果币旧。如下圖:

  • 學(xué)生化殘差(student residual):反映了因變量的異常點;
  • 杠桿值(hat diag H):反映了自變量的異常點竿滨;
  • Cook's D值和DFFITS:綜合反映了強影響點佳恬。
觀測的影響分析結(jié)果.png

從結(jié)果分析看出:

  • 第1號觀測的學(xué)生化殘差絕對值遠遠大于其它觀測捏境,而杠桿值并不是非常高,提示其因變量為異常點毁葱;
  • 第6號觀測的杠桿值遠遠大于其它觀測垫言,而學(xué)生化殘差并不高,提示其自變量為異常點倾剿;
  • Cook's D值和DFFITS則顯示筷频,第1號和第6號的值均高于其它觀測的值,提示這兩個觀測可能為強影響點前痘。
Studentized Residuals and Cook's D for y.png

一般線性回歸分析可知存在強影響點凛捏,且其值較大,因此我們采用穩(wěn)健回歸對數(shù)據(jù)進行分析芹缔。

穩(wěn)健回歸分析結(jié)果主要分為五部分坯癣。

第一部分是對變量的簡單統(tǒng)計描述,如下:

絕對離差中位數(shù)(MAD)是穩(wěn)健的變量尺度最欠,標準差與MAD差值越大示罗,提示可能存在異常。

結(jié)果分析顯示:y的標準差與MAD的差值比x的更大芝硬,提示y更有可能存在異常值蚜点。


變量的簡單統(tǒng)計描述.png

第二部分是MM估計的概括性描述,如下:

  • 結(jié)果顯示:最高的失效點為0.2667拌阴,估計率為0.85绍绘。
  • 失效點通常來講就是所需的估計方法在數(shù)據(jù)有多少異常點時仍可保持模型的穩(wěn)健。失效點所占比例越高迟赃,表明估計方法越穩(wěn)健陪拘。
  • MM估計默認的估計率為0.85。如果指定估計率捺氢,可通過以下語句實現(xiàn)
proc robustreg method=mm(eff=0.9);
MM估計的概括性描述.png

第三部分是參數(shù)估計結(jié)果藻丢。

給出了參數(shù)的MM估計、標準誤摄乒、95%可信區(qū)間、卡方值及相應(yīng)的P值残黑。

參數(shù)估計結(jié)果.png

第四部分為數(shù)據(jù)診斷結(jié)果馍佑,如下:

  • 杠桿點主要根據(jù)穩(wěn)健MCD距離(robust MCD distance)判斷,當(dāng)該值大于診斷界值(cutoff)時梨水,即判斷為杠桿點拭荤,并以“*”標識;
  • 離群點主要根據(jù)穩(wěn)健殘差(robust residual)判斷疫诽,當(dāng)該值的絕對值大于診斷界值(cutoff)時舅世,即判斷為離群點旦委,并以“*”標識;

結(jié)果顯示:

  • 第1號判斷為離群點雏亚;
  • 第6號判斷為高杠桿點缨硝,且同時為離群點。
數(shù)據(jù)診斷結(jié)果.png

第五部分為模型擬合結(jié)果罢低。

這部分主要用于模型的比較查辩,單看一個意義不大。

模型擬合結(jié)果2.png

根據(jù)以上結(jié)果网持,穩(wěn)健回歸所得方程為y=421.8446+17.0256x宜岛。與普通線性回歸所得結(jié)果相差較大。這一點可結(jié)合散點圖理解功舀。

線性回歸擬合.png
穩(wěn)健回歸擬合.png

從上面兩個圖萍倡,明顯地看到兩個點脫離其它點,第1號觀測主要是偏離y的均值較大辟汰,第6號觀測主要偏離x均值列敲,但同時也偏離y均值。如果僅有第1號為異常莉擒,而第6號正常酿炸,那么直線上升趨勢更為明顯,即回歸系數(shù)會變大涨冀。而第6號將整個方程拉了下來填硕,使普通線性回歸估計的回歸系數(shù)變成了負值。由于第6號既是高杠杠點又是離群點鹿鳖,因此它是一個強影響點扁眯,正是它的存在,導(dǎo)致整個方程發(fā)生了重大改變翅帜。

總結(jié)

So姻檀,當(dāng)數(shù)據(jù)中存在高杠杠點、離群點甚至強影響點時涝滴,普通線性回歸受他們的影響特別大绣版,很有可能由于一兩個數(shù)據(jù)的影響而偏離了實際,而穩(wěn)健回歸則避免了這種誤導(dǎo)歼疮。

本例中杂抽,穩(wěn)健回歸給出的估計結(jié)果更加符合實際,因為數(shù)據(jù)總體仍是一種直線上升的趨勢韩脏。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末缩麸,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子赡矢,更是在濱河造成了極大的恐慌杭朱,老刑警劉巖阅仔,帶你破解...
    沈念sama閱讀 218,525評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件厦酬,死亡現(xiàn)場離奇詭異签舞,居然都是意外死亡态坦,警方通過查閱死者的電腦和手機壶谒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評論 3 395
  • 文/潘曉璐 我一進店門摩渺,熙熙樓的掌柜王于貴愁眉苦臉地迎上來顿涣,“玉大人眶掌,你說我怎么就攤上這事狠角⊙渥” “怎么了闭树?”我有些...
    開封第一講書人閱讀 164,862評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長荒澡。 經(jīng)常有香客問我报辱,道長,這世上最難降的妖魔是什么单山? 我笑而不...
    開封第一講書人閱讀 58,728評論 1 294
  • 正文 為了忘掉前任碍现,我火速辦了婚禮,結(jié)果婚禮上米奸,老公的妹妹穿的比我還像新娘昼接。我一直安慰自己,他們只是感情好悴晰,可當(dāng)我...
    茶點故事閱讀 67,743評論 6 392
  • 文/花漫 我一把揭開白布慢睡。 她就那樣靜靜地躺著,像睡著了一般铡溪。 火紅的嫁衣襯著肌膚如雪漂辐。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,590評論 1 305
  • 那天棕硫,我揣著相機與錄音髓涯,去河邊找鬼。 笑死哈扮,一個胖子當(dāng)著我的面吹牛纬纪,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播滑肉,決...
    沈念sama閱讀 40,330評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼育八,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了赦邻?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,244評論 0 276
  • 序言:老撾萬榮一對情侶失蹤实檀,失蹤者是張志新(化名)和其女友劉穎惶洲,沒想到半個月后按声,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,693評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡恬吕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,885評論 3 336
  • 正文 我和宋清朗相戀三年签则,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片铐料。...
    茶點故事閱讀 40,001評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡渐裂,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出钠惩,到底是詐尸還是另有隱情柒凉,我是刑警寧澤,帶...
    沈念sama閱讀 35,723評論 5 346
  • 正文 年R本政府宣布篓跛,位于F島的核電站膝捞,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏愧沟。R本人自食惡果不足惜蔬咬,卻給世界環(huán)境...
    茶點故事閱讀 41,343評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望沐寺。 院中可真熱鬧林艘,春花似錦、人聲如沸混坞。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拔第。三九已至咕村,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蚊俺,已是汗流浹背懈涛。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留泳猬,地道東北人批钠。 一個月前我還...
    沈念sama閱讀 48,191評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像得封,于是被迫代替她去往敵國和親埋心。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,955評論 2 355

推薦閱讀更多精彩內(nèi)容