機器學習之線性回歸(1) — 單變量回歸

預測懷俄明州蛇河流域的水量狡刘,數(shù)據(jù)集snake可以加載alr3包得到扶欣。

install.packages("alr3")
library(alr3)
data("snake")
str(snake)
'data.frame': 17 obs. of 2 variables:
X: num 23.1 32.8 31.8 32 30.4 24 39.5 24.2 52.5 37.9 ... Y: num 10.5 16.7 18.2 17 16.3 10.5 23.1 12.4 24.9 22.8 ...
head(snake)
X Y
1 23.1 10.5
2 32.8 16.7
3 31.8 18.2
4 32.0 17.0
5 30.4 16.3
6 24.0 10.5

更改變量名

names(snake) <- c("content","yield")
str(snake)
'data.frame': 17 obs. of 2 variables:
content: num 23.1 32.8 31.8 32 30.4 24 39.5 24.2 52.5 37.9 ... yield : num 10.5 16.7 18.2 17 16.3 10.5 23.1 12.4 24.9 22.8 ...
with(snake,plot(content,yield,xlab = "water content of snow",ylab = "water yield",las = 1))

snake01.png

散點圖顯示content和yield之間存在線性關系稿静,但首尾疑似存在兩個離群點。

建立線性回歸

yield.fit <- lm(yield~content,data = snake)
summary(yield.fit)
Call:
lm(formula = yield ~ content)
Residuals:
Min 1Q Median 3Q Max
-2.179 -1.515 -0.362 1.628 3.197
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.7254 1.5488 0.47 0.65
content 0.4981 0.0495 10.06 4.6e-08 ***


Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.74 on 15 degrees of freedom
Multiple R-squared: 0.871, Adjusted R-squared: 0.862
F-statistic: 101 on 1 and 15 DF, p-value: 4.63e-08

P值高度顯著芯勘,可以拒絕原假設滑频。
回到剛剛的散點圖,為散點圖添加線性回歸模型產(chǎn)生的擬合直線。

with(snake,plot(content,yield))
abline(yield.fit,lwd=3,col="red")

snake02.png

線性回歸必須通過統(tǒng)計假設檢驗帅容。
正態(tài)性:對于固定的自變量值颇象,因變量值呈正態(tài)分布。
獨立性:Y值之間相互獨立并徘。
線性:因變量和自變量之間為線性相關遣钳。
同方差性:因變量的方差不隨自變量的水平不同而變化。

對模型進行回歸診斷

par(mfrow=c(2,2))
plot(yield.fit)

snake03.png

標準方法

正態(tài)性:右上角QQ圖是在正態(tài)分布對應的值下麦乞,標準化殘差的概率圖蕴茴,若滿足正態(tài)假設,那么圖上的點應該落在呈45度角的直線上姐直。
獨立性:從收集的數(shù)據(jù)來驗證倦淀。
線性:左上角殘差與擬合圖中,殘差值和擬合值不存在任何系統(tǒng)的關聯(lián)声畏。
同方差性:左下角位置尺度圖中撞叽,水平線的點應該隨機分布。

改進的方法

正態(tài)性:
(1)car包qqPlot()函數(shù)
library(car)
qqPlot(yield.fit,labels=row.names(snake),id.method="identify",simulate=TRUE,main="Q-Q Plot")

snake04.png

(2)學生化殘差圖

學生化殘差圖

residplot <- function(fit,nbreaks=10){

  • z <- rstudent(fit)
  • hist(z,breaks = nbreaks,freq = FALSE,
  •    xlab = "Studentized Residual",
    
  •    xlim = c(-3,3),
    
  •    main = "Distribution of Errors")
    
  • rug(jitter(z),col = "brown")
  • curve(dnorm(x,mean = mean(z)),add = TRUE,col = "blue",lwd = 2)
  • lines(density(z)x,density(z)y,col="red",lwd=2,lty=2)
  • legend("topright",
  •      legend = c("Normal Curve","Kernel Density Cruve"),
    
  •      lty = 1:2,col=c("blue","red"),cex=.7)
    
  • }

residplot(yield.fit)

snake05.png

誤差的獨立性

car包的Durbin-Watson檢驗砰识。

durbinWatsonTest(yield.fit)
lag Autocorrelation D-W Statistic p-value
1 -0.4152 2.706 0.106
Alternative hypothesis: rho != 0

P值等于0.106不顯著能扒,說明無自相關性佣渴。

線性

car包的crPlots()辫狼,繪制成分殘差圖。

crPlots(yield.fit)


snake06.png

若圖形存在非線性辛润,則說明預測變量的函數(shù)形式建模不夠充分膨处,需要添加一些曲線成分,比如多項式和對數(shù)變換砂竖、指數(shù)變換等真椿。

同方差性

(1)car包的ncvTest()函數(shù)

ncvTest(yield.fit)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.8439 Df = 1 p = 0.3583

原始假設為誤差方差不變,p = 0.3583無法拒接原假設

(2)car包的spreadLevelPlot()函數(shù)

spreadLevelPlot(yield.fit)

Suggested power transformation: 0.6308

snake07.png

如果圖中的點在水平的最佳擬合曲線周圍呈水平隨機分布乎澄,說明滿足方差不變假設突硝,否則建議冪次轉換為0.5,用根號Y代替Y置济,若建議冪次為0解恰,則使用對數(shù)變換。此例中應使用冪次轉換浙于。

yield.fit2 <- lm(sqrt(yield)~content,data = snake)
summary(yield.fit2)
Call:
lm(formula = sqrt(yield) ~ content, data = snake)
Residuals:
Min 1Q Median 3Q Max
-0.329 -0.150 -0.020 0.146 0.365
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.04727 0.19425 10.5 2.5e-08 ***
content 0.06233 0.00621 10.0 4.8e-08 ***


Signif. codes: 0 ‘’ 0.001 ‘’ 0.01 ‘’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.219 on 15 degrees of freedom
Multiple R-squared: 0.87, Adjusted R-squared: 0.862
F-statistic: 101 on 1 and 15 DF, p-value: 4.77e-08

冪次變換后線性模型的擬合效果稍微提高了护盈,當然也可能是由于離群點導致,暫不做分析羞酗。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末腐宋,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌胸竞,老刑警劉巖欺嗤,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異卫枝,居然都是意外死亡剂府,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進店門剃盾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來腺占,“玉大人,你說我怎么就攤上這事痒谴∷ゲ” “怎么了?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵积蔚,是天一觀的道長意鲸。 經(jīng)常有香客問我,道長尽爆,這世上最難降的妖魔是什么怎顾? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮漱贱,結果婚禮上槐雾,老公的妹妹穿的比我還像新娘。我一直安慰自己幅狮,他們只是感情好募强,可當我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著崇摄,像睡著了一般擎值。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上逐抑,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天鸠儿,我揣著相機與錄音,去河邊找鬼厕氨。 笑死进每,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的腐巢。 我是一名探鬼主播品追,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼冯丙!你這毒婦竟也來了肉瓦?” 一聲冷哼從身側響起遭京,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎泞莉,沒想到半個月后哪雕,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡鲫趁,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年斯嚎,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片挨厚。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡堡僻,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出疫剃,到底是詐尸還是另有隱情钉疫,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布巢价,位于F島的核電站牲阁,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏壤躲。R本人自食惡果不足惜城菊,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望碉克。 院中可真熱鬧凌唬,春花似錦、人聲如沸棉胀。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽唁奢。三九已至,卻和暖如春窝剖,著一層夾襖步出監(jiān)牢的瞬間麻掸,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工赐纱, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留脊奋,地道東北人。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓疙描,卻偏偏與公主長得像诚隙,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子起胰,可洞房花燭夜當晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容