【r<-model】模型預(yù)測與置信區(qū)間

線性回歸的主要目的是根據(jù)一個或多個預(yù)測變量(自變量)預(yù)測一個結(jié)果值。本文會討論如何使用R來預(yù)測新觀測值的結(jié)果毒嫡。你也將學習如何展示置信區(qū)間和預(yù)測的區(qū)間。

構(gòu)建線性回歸

我們首先構(gòu)建一個基于汽車速度預(yù)測剎車距離的線性回歸模型。

# Load the data
data("cars", package = "datasets")
# Build the model
model <- lm(dist ~ speed, data = cars)
model
#> 
#> Call:
#> lm(formula = dist ~ speed, data = cars)
#> 
#> Coefficients:
#> (Intercept)        speed  
#>      -17.58         3.93

因此線性模型公式可以寫作: dist = -17.579 + 3.932*speed.

公式中兩個變量的單位需要注意

新數(shù)據(jù)集的預(yù)測

使用上面的模型舞吭,我們可以為一個新的速度值預(yù)測剎車距離。

首先創(chuàng)建一個新的數(shù)據(jù)框析珊,它必須包含新的數(shù)據(jù)值羡鸥,比如3個新的速度值,變量名要保持一致:

new.speeds <- data.frame(
  speed = c(12, 19, 24)
)

通過R函數(shù)predict()忠寻,我們可以進行新剎車距離的預(yù)測:

predict(model, newdata = new.speeds)
#>    1    2    3 
#> 29.6 57.1 76.8

置信區(qū)間

置信區(qū)間反應(yīng)了均值預(yù)測的不確定性惧浴。想要展示預(yù)測均值的95%置信區(qū)間,指定選項interval = "confidence"

predict(model, newdata = new.speeds, interval = "confidence")
#>    fit  lwr  upr
#> 1 29.6 24.4 34.8
#> 2 57.1 51.8 62.4
#> 3 76.8 68.4 85.2

輸出包含下面一些列:

  • fit: 預(yù)測的均值
  • lwrupr: 預(yù)測均值的下邊界與上邊界奕剃,默認是95%置信區(qū)間

該如何解釋呢衷旅?例如,速度為19時的95%置信區(qū)間是 (51.83, 62.44)纵朋。這意味著根據(jù)我們的模型芜茵,一個以19 mph速度行駛的汽車,它的剎車距離平均水平在 51.83到62.44 ft范圍內(nèi)倡蝙。

預(yù)測區(qū)間

預(yù)測區(qū)間給出了單個值得不確定性九串。跟計算置信區(qū)間方式相同,我們可以用一下代碼計算預(yù)測區(qū)間:

predict(model, newdata = new.speeds, interval = "prediction")
#>    fit   lwr   upr
#> 1 29.6 -1.75  61.0
#> 2 57.1 25.76  88.5
#> 3 76.8 44.75 108.8

跟速度為19關(guān)聯(lián)的95%預(yù)測區(qū)間是(25.76, 88.51)寺鸥。這意味著猪钮,根據(jù)我們的模型,95%的以19 mph速度行駛的車的剎車距離在25.76和88.51之間胆建。

注意預(yù)測區(qū)間非常依賴殘差服從正態(tài)分布的假設(shè)烤低。因此,如果你確定手里的數(shù)據(jù)基本滿足這個假設(shè)才能使用它笆载。

預(yù)測區(qū)間或置信區(qū)間扑馁?

一個預(yù)測區(qū)間反映了單個數(shù)值的不確定性涯呻,而一個置信區(qū)間反映了預(yù)測均值的不確定性。因此腻要,一般而言复罐,對同樣的值,預(yù)測區(qū)間的范圍都比置信區(qū)間大雄家。

我們應(yīng)該使用哪一種呢效诅?這個問題的答案依賴分析的語境和目的。通常講趟济,我們隊特定的單個預(yù)測感興趣乱投,這時候預(yù)測區(qū)間會比較合適。在你該使用預(yù)測區(qū)間時卻使用了置信區(qū)間會極大地低估給定預(yù)測值的不確定性(P. Bruce and Bruce 2017)顷编。

下面的R代碼創(chuàng)建一個散點圖戚炫,并帶有:

  • 藍色的回歸線
  • 灰色的置信區(qū)間
  • 紅色的預(yù)測區(qū)間
# 0. Build linear model 
data("cars", package = "datasets")
model <- lm(dist ~ speed, data = cars)
# 1. Add predictions 
pred.int <- predict(model, interval = "prediction")
#> Warning in predict.lm(model, interval = "prediction"): predictions on current data refer to _future_ responses
mydata <- cbind(cars, pred.int)
# 2. Regression line + confidence intervals
library("ggplot2")
p <- ggplot(mydata, aes(speed, dist)) +
  geom_point() +
  stat_smooth(method = lm)
# 3. Add prediction intervals
p + geom_line(aes(y = lwr), color = "red", linetype = "dashed")+
    geom_line(aes(y = upr), color = "red", linetype = "dashed")

參考文獻

Bruce, Peter, and Andrew Bruce. 2017. Practical Statistics for Data Scientists. O’Reilly Media.

原英文 http://www.sthda.com/english/articles/40-regression-analysis/166-predict-in-r-model-predictions-and-confidence-intervals/


文章作者 王詩翔

上次更新 2018-09-30

許可協(xié)議 CC BY-NC-ND 4.0

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市媳纬,隨后出現(xiàn)的幾起案子双肤,更是在濱河造成了極大的恐慌,老刑警劉巖层宫,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件杨伙,死亡現(xiàn)場離奇詭異其监,居然都是意外死亡萌腿,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進店門抖苦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來毁菱,“玉大人,你說我怎么就攤上這事锌历≈樱” “怎么了?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵究西,是天一觀的道長窗慎。 經(jīng)常有香客問我,道長卤材,這世上最難降的妖魔是什么遮斥? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮扇丛,結(jié)果婚禮上术吗,老公的妹妹穿的比我還像新娘。我一直安慰自己帆精,他們只是感情好较屿,可當我...
    茶點故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布隧魄。 她就那樣靜靜地躺著,像睡著了一般隘蝎。 火紅的嫁衣襯著肌膚如雪购啄。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天末贾,我揣著相機與錄音闸溃,去河邊找鬼。 笑死拱撵,一個胖子當著我的面吹牛辉川,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播拴测,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼乓旗,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了集索?” 一聲冷哼從身側(cè)響起屿愚,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎务荆,沒想到半個月后妆距,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡函匕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年娱据,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盅惜。...
    茶點故事閱讀 39,731評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡中剩,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出抒寂,到底是詐尸還是另有隱情结啼,我是刑警寧澤,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布屈芜,位于F島的核電站郊愧,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏井佑。R本人自食惡果不足惜属铁,卻給世界環(huán)境...
    茶點故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望毅糟。 院中可真熱鬧红选,春花似錦、人聲如沸姆另。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蝶防,卻和暖如春甚侣,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背间学。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工殷费, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人低葫。 一個月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓详羡,卻偏偏與公主長得像,于是被迫代替她去往敵國和親嘿悬。 傳聞我的和親對象是個殘疾皇子实柠,可洞房花燭夜當晚...
    茶點故事閱讀 44,629評論 2 354