前言
不知道你是否見(jiàn)過(guò)這樣的圖:
這是對(duì)三組數(shù)據(jù)的線性回歸础倍,來(lái)自經(jīng)典數(shù)據(jù)集“帕爾默群島的企鵝”
- 橫軸(bill_depth)表示嘴峰深度烛占。
- 縱軸(bill_length)表示嘴峰長(zhǎng)度。
- 不同顏色表示不同種類的企鵝沟启。
在看到這樣的圖時(shí)忆家,你是否會(huì)有疑問(wèn):置信區(qū)間為什么會(huì)出現(xiàn)兩邊寬,中間窄的情況咧德迹?
我們從線性模型開(kāi)始
線性模型
假設(shè)響應(yīng)變量和自變量
存在簡(jiǎn)單線性關(guān)系(兩者可以用最簡(jiǎn)單的線性模型描述):
其中是回歸參數(shù)(回歸系數(shù))芽卿,
是誤差項(xiàng)。
根據(jù)這個(gè)式子我們可以得到預(yù)測(cè)值與自變量之間的關(guān)系:
最小二乘估參數(shù)
- 定義殘差
如果我們找到一條直線胳搞,使得每個(gè)預(yù)測(cè)值和實(shí)際值之間的差的平方和(或者絕對(duì)值卸例、正負(fù)項(xiàng)和)最小,也就是殘差平方和最小流酬, 此時(shí)的直線最接近實(shí)際的數(shù)據(jù)币厕,由此而來(lái)只需要計(jì)算殘差平方和(residual sum of squares ,RSS),并求其取最小值時(shí)的芽腾, 即可找到擬合直線旦装,前人已經(jīng)計(jì)算過(guò)了,使RSS最小的參數(shù)估計(jì)值是:
置信區(qū)間
某一個(gè)預(yù)測(cè)值的置信區(qū)間
(confidence interval)可以用以下的式子表達(dá):
其中某一個(gè)預(yù)測(cè)值的標(biāo)準(zhǔn)誤差
(standard error)可以用以下的式子表達(dá):
其中:
-
是殘差的標(biāo)準(zhǔn)誤摊滔。
-
是樣本大小阴绢。
-
是自變量的均值。
-
是特定的自變量艰躺。
合在一起就得到了預(yù)測(cè)值置信區(qū)間的表達(dá)式:
結(jié)論
由上式可知當(dāng)取到
附近時(shí)呻袭,
逐漸變小,使得偏差部分整體變小腺兴,那么此時(shí)的置信區(qū)間就會(huì)變小左电,反映在圖上就是中間窄、兩邊寬了;
還有一種直觀的理解是:左側(cè)點(diǎn)對(duì)右側(cè)預(yù)測(cè)值的影響沒(méi)有那么大篓足,右側(cè)點(diǎn)對(duì)左側(cè)預(yù)測(cè)值的影響也沒(méi)有那么大段誊,但是兩邊的點(diǎn)都會(huì)為預(yù)測(cè)中間的值作出貢獻(xiàn),因此中間的預(yù)測(cè)值實(shí)際上是在獲得了更多信息(兩側(cè)的點(diǎn))后預(yù)測(cè)得到的栈拖,加上回歸直線一定會(huì)過(guò)點(diǎn)连舍,所以預(yù)測(cè)中間值的信心就很足,置信區(qū)間就窄一點(diǎn)涩哟。