為啥一定要用殘差圖檢查你的回歸分析芒划?

先說殘差圖究竟是什么鬼豁延。

Residual Illustration

殘差圖是指以殘差為縱坐標(biāo),以任何其他指定的量為橫坐標(biāo)的散點圖腊状。(上圖僅是殘差的示意圖,非殘差圖苔可,殘差圖可見下文)

用普通最小二乘法(OLS)做回歸分析的人都知道缴挖,回歸分析后的結(jié)果一定要用殘差圖(residual plots)來檢查,以驗證你的模型焚辅。你有沒有想過這究竟是為什么映屋?殘差圖又究竟是怎么看的呢?

這背后當(dāng)然有數(shù)學(xué)上的原因同蜻,但是這里將著重于聊聊概念上的理解棚点。從根本上說,隨機性(randomness)和不可預(yù)測性(unpredictability)是任何回歸模型的關(guān)鍵組成部分湾蔓,如果你沒有考慮到這兩點瘫析,那么你的模型就不可信了,甚至說是無效的默责。

為什么這么說呢贬循?首先,對于一個有效的回歸模型來說桃序,可以細(xì)分定義出兩個基本組成部分:

Response =(Constant + Predictors)+ Error

我想說的是另一種說法杖虾,那就是:

響應(yīng)(Response) = 確定性(Deterministic) + 隨機性(Stochastic)

(有時候真是不得不吐槽下,畢竟是外國人發(fā)明的現(xiàn)代科學(xué)媒熊,中文翻譯過來難眠有混淆視聽之嫌奇适,學(xué)術(shù)詞匯的理解還是看英文更能清晰本質(zhì),一會就會聊到Stochastic就明白為什么這么說)

確定性部分(The Deterministic Portion)

為了完整芦鳍,先提一下Deterministic這部分嚷往。在預(yù)測模型中,該部分是由關(guān)于預(yù)測自變量的函數(shù)組成怜校,其中包含了回歸模型中所有可解釋间影、可預(yù)測的信息

隨機誤差(The Stochastic Error)

Stochastic 這個詞很牛逼茄茁,其不僅蘊含著隨機性(random)魂贬,還有不可預(yù)測性(unpredictable)。這是很重要的兩點裙顽,往往很多朋友都以為有隨機性的特點就夠了付燥,其實不然。這兩點放在一起愈犹,就是在告訴我們回歸模型下的預(yù)測值和觀測值之間的差異必須是隨機不可預(yù)測的键科。換句話說闻丑,在誤差(error)中不應(yīng)該含有任何可解釋、可預(yù)測的信息勋颖。

模型中的確定性部分應(yīng)該是可以很好的解釋或預(yù)測任何現(xiàn)實世界中固有的隨機響應(yīng)嗦嗡。如果你在隨機誤差中發(fā)現(xiàn)有可解釋的、可預(yù)測的信息饭玲,那就說明你的預(yù)測模型缺少了些可預(yù)測信息侥祭。那么殘差圖(residual plots)就可以幫助你檢查是否如此了!

小注:回歸殘差其實是真實誤差(ture error)的估計茄厘,就好比回歸系數(shù)是真實母體系數(shù)(ture population coefficients)的估計矮冬。

殘差圖(Residual Plots)

我們可以用殘差圖來估計觀察或預(yù)測到的誤差error(殘差residuals)與隨機誤差(stochastic error)是否一致。用一個丟骰子的例子最好理解了次哈。當(dāng)你丟出去一個六面的骰子時胎署,你不應(yīng)該能夠預(yù)測得到哪面點數(shù)向上。然而窑滞,你卻可以評估在一系列投擲后琼牧,正面向上的數(shù)字是否遵循一個隨機模式,你自己心中就會想象出一個隨機散布的殘差圖葛假。如果障陶,有人背著你對骰子做了點手腳,讓六點更頻繁的出現(xiàn)向上聊训,這時你心中的殘差圖看上去就似乎有規(guī)律可循抱究,從而不得不修改心中的模型,讓你狐疑骰子一定有問題带斑。

相同的原則也適用于回歸模型鼓寺。你不應(yīng)該能夠預(yù)測任何給定的觀察或預(yù)測結(jié)果的錯誤(或者說差別)。你需要確定殘差是否與隨機誤差相互呈現(xiàn)一致性勋磕,就像丟骰子一樣妈候,殘差若整體呈現(xiàn)“很古怪”的模式,你就需要回頭修改你的回歸模型了挂滓。上面“古怪”究竟怎么看呢苦银?看下文。

話說赶站,OLS回歸模型的隨機誤差到底是什么樣子的呢幔虏?首先,殘差不應(yīng)該成片的很高或很低贝椿,而是在擬合值的范圍內(nèi)想括,殘差應(yīng)該以0為中心。換句話說烙博,模型的擬合應(yīng)該平均散布在被擬合值點附近瑟蜈。而且烟逊,在OLS理論中,假設(shè)隨機誤差產(chǎn)生的是正態(tài)分布的殘差铺根。因此宪躯,殘差應(yīng)該是以對稱的模式,并且在整個擬合范圍內(nèi)具有恒定均勻的擴散位迂,如下圖python代碼和繪圖:

%matplotlib inline
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
# 給任務(wù)單獨分配隨機種子
np.random.seed(sum(map(ord
                       , "anscombe"))) 
import seaborn as sns

anscombe = sns.load_dataset("anscombe")
sns.residplot(x="x", y="y"
              , data=anscombe.query("dataset == 'I'")
              , scatter_kws={"s": 80}) 
Valid residual plot

這是用Seaborn畫的美圖眷唉。擬合的好,就是0均值的白噪聲分布$N(0,\sigma^2)$囤官,不含任何人為模態(tài)。

下面來看一個有問題的殘差圖蛤虐。請一定要記住党饮,殘差不應(yīng)該包含任何可預(yù)測的信息

sns.residplot(x="x", y="y"
              , data=anscombe.query("dataset == 'II'")
              , scatter_kws={"s": 80})
Not valid residual plot

在上圖中驳庭,你就可以根據(jù)擬合值來預(yù)測殘差的非零值刑顺。例如,擬合值為9的預(yù)期殘差為正值饲常,而5和13的擬合值具有負(fù)的預(yù)期殘差蹲堂。

殘差中的非隨機模式表明模型的確定部分(預(yù)測變量)沒有捕獲一些“泄露”到殘差中的一些可解釋/可預(yù)測信息。該圖表明模型幾種沒法解釋的可能性贝淤,可能性包括:

  • 一個缺失的變量
  • 模型缺少一個變量的高階項來解釋曲率
  • 模型缺少在已經(jīng)存在的項之間的相互作用項(交叉項)

由此來回溯去修改模型柒竞,以期望修改后的殘差圖是理想中的殘差圖。

除了上述之外播聪,還有兩種預(yù)測信息會潛入到了殘差中的方式:

  • 殘差不應(yīng)該與另外的變量有所相關(guān)朽基。如果你可以用另一個變量預(yù)測出此殘差圖,那么該變量就應(yīng)該考慮到你的模型當(dāng)中离陶。那么就可以通過繪制其他變量的殘差圖稼虎,來考察這個問題。
  • 相鄰殘差(Adjacent residuals)不應(yīng)該相互關(guān)聯(lián)(殘差的自相關(guān)性)招刨。如果你可以使用一個殘差來預(yù)測得到下一個殘差霎俩,則說明存在一些模型還未捕捉到的可預(yù)測信息。通常來說沉眶,這種情況涉及時間有序的觀察預(yù)測打却。例子就不舉了。

綜上沦寂,若非要一句話小結(jié)学密,那就是要留意兩個細(xì)節(jié):正確殘差圖不僅要體現(xiàn)出隨機性(random),還要體現(xiàn)不可預(yù)測性(unpredictable)即可传藏。

以上腻暮。

Ref:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末彤守,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子哭靖,更是在濱河造成了極大的恐慌具垫,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件试幽,死亡現(xiàn)場離奇詭異筝蚕,居然都是意外死亡,警方通過查閱死者的電腦和手機铺坞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進(jìn)店門起宽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人济榨,你說我怎么就攤上這事坯沪。” “怎么了擒滑?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵腐晾,是天一觀的道長。 經(jīng)常有香客問我丐一,道長藻糖,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任库车,我火速辦了婚禮巨柒,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘柠衍。我一直安慰自己潘拱,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布拧略。 她就那樣靜靜地躺著芦岂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪垫蛆。 梳的紋絲不亂的頭發(fā)上禽最,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天,我揣著相機與錄音袱饭,去河邊找鬼川无。 笑死,一個胖子當(dāng)著我的面吹牛虑乖,可吹牛的內(nèi)容都是我干的懦趋。 我是一名探鬼主播,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼疹味,長吁一口氣:“原來是場噩夢啊……” “哼仅叫!你這毒婦竟也來了帜篇?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤诫咱,失蹤者是張志新(化名)和其女友劉穎笙隙,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體坎缭,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡竟痰,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了掏呼。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坏快。...
    茶點故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖憎夷,靈堂內(nèi)的尸體忽然破棺而出假消,到底是詐尸還是另有隱情,我是刑警寧澤岭接,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站臼予,受9級特大地震影響鸣戴,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜粘拾,卻給世界環(huán)境...
    茶點故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一窄锅、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧缰雇,春花似錦入偷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至暇咆,卻和暖如春锋爪,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背爸业。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工其骄, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人扯旷。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓拯爽,卻偏偏與公主長得像,于是被迫代替她去往敵國和親钧忽。 傳聞我的和親對象是個殘疾皇子毯炮,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 機器學(xué)習(xí)是做NLP和計算機視覺這類應(yīng)用算法的基礎(chǔ)逼肯,雖然現(xiàn)在深度學(xué)習(xí)模型大行其道,但是懂一些傳統(tǒng)算法的原理和它們之間...
    在河之簡閱讀 20,507評論 4 65
  • 介紹 我正在和一位剛剛在印度超市連鎖店擔(dān)任運營經(jīng)理的朋友說話。在我們的討論中备禀,我們開始談?wù)撛谟《裙?jié)日(排燈節(jié))開始...
    正在充電Loading閱讀 5,300評論 2 1
  • 不知從哪兒看來的洲拇,說當(dāng)你感到抑郁的時候,就去菜市場看看曲尸,感受下菜市場熱騰騰的煙火氣兒赋续,我深以為然。 我家屋后就有個...
    曾經(jīng)是小黑閱讀 331評論 0 1
  • 海賊王,第十五集講了什么昆箕?拼命的目的很簡單鸦列,為了正義而已。強手過招是一件過癮的事情鹏倘,不論在三國水滸里薯嗤,還是在當(dāng)今世...
    航海船夫閱讀 511評論 13 0
  • “喂,你好纤泵,請問是李先生嗎骆姐?” “你好,哪位捏题?” “我是你們這次貴州之行的導(dǎo)游玻褪,小冉」” “小冉带射?咦,我不是讓你們...
    冉不是再閱讀 226評論 0 1