筆記說明
在datacamp網(wǎng)站上學習“Time Series with R ”track
“Introduction to Time Series Analysis”課程 做的對應(yīng)筆記。
學識有限舞吭,錯誤難免睛挚,還請不吝賜教纳击。
如無特殊說明,筆記中所使用數(shù)據(jù)均來自datacamp課程
自協(xié)方差與自相關(guān)
自相關(guān)(autocorrelation or lagged correlation)用于評估時間序列數(shù)據(jù)是否依賴于其過去的數(shù)據(jù)帐我。
假設(shè)時間序列是弱平穩(wěn)的:之間的相關(guān)系數(shù)記為槽卫,函數(shù)ρ稱為自相關(guān)函數(shù)(autocorrelation function, ACF)
與之類似,自協(xié)方差函數(shù)用表示
設(shè)滿足弱平穩(wěn)過程擦囊。
- 用樣本均值估計總體均值,用樣本方差估計總體方差
- 用樣本自協(xié)方差函數(shù)估計總體自協(xié)方差函數(shù)嘴办,樣本自協(xié)方差函數(shù):
??
另外一種計算版本用替代上式中的瞬场,當n相對大而h相對小時,這兩種計算方法間的差異是很小的涧郊。
(這里我感覺用n-h做分母,和協(xié)方差計算公式保持一致更加合理) - 用樣本自相關(guān)函數(shù)(sample ACF)估計贯被,樣本自相關(guān)函數(shù)定義為:
??????
用cov()函數(shù)手動計算自相關(guān)系數(shù)
設(shè)有例數(shù)為n的時間序列數(shù)據(jù)x,按照自相關(guān)函數(shù)的定義妆艘,以計算為例彤灶,我們可以手動構(gòu)造計算自相關(guān)系數(shù)的成對數(shù)據(jù),x_t0 x_t1對應(yīng)x[t],x[t-1]批旺,然后用cor()函數(shù)計算幌陕,本例中n=150:
# Define x_t0 as x[-1]
x_t0 <- x[-1]
# Define x_t1 as x[-n]
x_t1 <- x[-150]
# Confirm that x_t0 and x_t1 are (x[t], x[t-1]) pairs
head(cbind(x_t0, x_t1))
# Plot x_t0 and x_t1
plot(x_t0, x_t1)
# View the correlation between x_t0 and x_t1
cor(x_t0, x_t1)
cor(x_t0, x_t1)輸出為:0.7630314
用acf()函數(shù)計算自相關(guān)系數(shù)
acf(..., lag.max =1, plot = FALSE)函數(shù)可以用來計算lag為1的自相關(guān)系數(shù):
acf(x, lag.max = 1, plot = F)
acf()函數(shù)輸出中l(wèi)ag為1的自相關(guān)系數(shù)為0.758
可以看出我們手動計算的結(jié)果和acf()函數(shù)計算的結(jié)果略有不同。這是因為acf()使用的是用n作為分母的計算版本而手動計算利用cov()函數(shù)使用的是用n-h(這里h=1)作為分母的計算版本汽煮。
acf()函數(shù)以n作為分母的計算方法算出的自相關(guān)系數(shù)是有偏的搏熄,但是在時間序列分析中更常用(preferred)棚唆。
驗證兩種計算方法相差一個因子:(n-h)/n
# Confirm that difference factor is (n-1)/n
cor(x_t1, x_t0) * (n-1)/n
acf(x, lag.max = 1, plot = F)[1][[1]]
cor(x_t1, x_t0) * (n-1)/n輸出結(jié)果為0.7579445.
acf(x, lag.max = 1, plot = F)[1][[1]]輸出結(jié)果為0.7579761
看來除了課程中提到的計算版本分母不同以外這兩種計算方法還有其他的差異導致計算結(jié)果在考慮到分母問題以后仍然有一點點微小的不同。
關(guān)于acf()函數(shù)的更多內(nèi)容
acf(..., lag.max = ..., plot = FALSE)函數(shù)會計算h=0,1,2...直到lag.max參數(shù)指定值對應(yīng)的自相關(guān)系數(shù)心例。
此外宵凌,acf()函數(shù)的plot選項默認為TRUE,可以生成自相關(guān)圖契邀,自相關(guān)圖會顯示各lag值對應(yīng)的自相關(guān)系數(shù)摆寄,并用藍色水平虛線表示自相關(guān)系數(shù)為0的95%置信區(qū)間邊界線,如果自相關(guān)系數(shù)在兩條虛線以內(nèi)則表明自相關(guān)系數(shù)沒有統(tǒng)計學意義坯门。
例子數(shù)據(jù):x顯示出強持續(xù)性(persistence),即時間序列的值與前一測量值呈現(xiàn)出強相關(guān)性逗扒;y具有周期性古戴,周期大約為4;z則沒有明確的模式矩肩。
對上面三個時間序列使用acf()函數(shù):
# View the ACF of x y z
acf(x)
acf(y)
acf(z)