1.1 介紹
課程采用Ruey S. Tsay的《金融數(shù)據(jù)分析導論:基于R語言》(Tsay 2013) (An Introduction to Analysis of Financial Data with R)作為主要教材之一迫肖。
時間序列的線性模型,包括:
- 一些基本概念
- AR, MA, ARMA模型
- 單位根過程
- 指數(shù)平滑
- 季節(jié)模型
- 回歸模型中誤差項有序列相關的處理
- 長記憶的分數(shù)階差分模型
- 模型比較
- 實例分析
1.1.1 例子:蘋果公司2003年到2020年股票日收盤價
library(quantmod)
AAPL <- getSymbols("AAPL", src="yahoo", auto.assign=FALSE)
chartSeries(
AAPL, type="line", TA=NULL,
subset="2003/2020",
major.ticks="years", minor.ticks=FALSE,
theme="white", name="Apple")
股價序列呈現(xiàn)緩慢的碑定、非單調的上升趨勢峭状, 局部又有短暫的波動蛛砰。
1.1.2 例子:可口可樂公司盈利季度數(shù)據(jù)
可口可樂公司每季度發(fā)布的每股盈利數(shù)據(jù)芍殖。 讀入:
da <- read_table(
"q-ko-earns8309.txt",
col_types=cols(
.default = col_double(),
pends = col_date("%Y%m%d"),
anntime = col_date("%Y%m%d")
) )
ko.Rqtr <- xts(da[["value"]], da[["pends"]])
時間序列圖:
chartSeries(
ko.Rqtr, type="line", TA=NULL,
major.ticks="years", minor.ticks=FALSE,
theme="white", name="Coca Kola Quarterly Return" )
序列仍體現(xiàn)出緩慢的、非單調的上升趨勢外厂,又有明顯的每年的周期變化(稱為季節(jié)性)冕象, 還有短期的波動。
下面用基本R的plot()
作圖并用不同顏色標出不同季節(jié)汁蝶。
library(lubridate)
tmp.x <- year(index(ko.Rqtr)) + (quarter(index(ko.Rqtr))-1)/4
tmp.y <- c(coredata(ko.Rqtr))
plot(tmp.x, tmp.y, type="l", col="gray",
xlab="year", ylab="Return")
cpal <- c("green", "red", "yellow", "black")
points(tmp.x, tmp.y, pch=16,
col=cpal[quarter(index(ko.Rqtr))])
legend("topleft", pch=16, col=cpal,
legend=c("Spring", "Summer", "Autumn", "Winter"))
現(xiàn)在可以看出渐扮,每年一般冬季和春季最低, 夏季最高掖棉,秋季介于夏季和冬季之間墓律。
1.1.3 例子:標普500指數(shù)月對數(shù)收益率
d <- read_table(
"m-ibmsp-2611.txt",
col_types=cols(.default=col_double(),
date=col_date(format="%Y%m%d")))
sp.rmon <- xts(log(1 + d[["sp"]]), d[["date"]])
chartSeries(
sp.rmon, type="line", TA=NULL,
major.ticks="auto", minor.ticks=FALSE,
theme="white", name="S&P 500 Monthly Returns"
)
收益率在0上下波動,除了個別時候基本在某個波動范圍之內(nèi)幔亥。
1.1.4 例子:美國國債3月期和6月期周利率
d <- read_table2(
"w-tb3ms.txt",
col_types=cols(.default=col_double()))
x1 <- xts(d[["rate"]], make_date(d[["year"]], d[["mon"]], d[["day"]]))
d <- read_table2(
"w-tb6ms.txt",
col_types=cols(.default=col_double()))
x2 <- xts(d[["rate"]], make_date(d[["year"]], d[["mon"]], d[["day"]]))
tb36ms <- merge(x1, x2)
names(tb36ms) <- c("tb3ms", "tb6ms")
rm(d, x1, x2)
用xts包的plot()
函數(shù)作圖:
plot(tb36ms, type="l", grid.ticks.on="years")
聚焦到2004年的數(shù)據(jù):
plot(tb36ms, type="l", subset="2004")
紅色是6月期國債利率耻讽, 黑色是3月期國債。 一般6月期高帕棉, 但是有些時期3月期超過了6月期针肥,如1980年:
plot(tb36ms, type="l", subset="1980")
1.2 平穩(wěn)性
如圖標普500月收益率那樣的收益率數(shù)據(jù)基本呈現(xiàn)出在一個水平線(一般是0)上下波動, 且波動范圍基本不變香伴。 這樣的表現(xiàn)是時間序列“弱平穩(wěn)序列”的表現(xiàn)慰枕。
弱平穩(wěn)需要一階矩和二階矩有限。某些分布是沒有有限的二階矩的瞒窒,比如柯西分布捺僻, 這樣的分布就不適用傳統(tǒng)的線性時間序列理論。
稍后給出弱平穩(wěn)的理論定義崇裁。
如圖2可口可樂季度盈利這樣的價格序列則呈現(xiàn)出水平的上下起伏匕坯, 如果分成幾段平均的話, 各段的平均值差距較大拔稳。 這體現(xiàn)出非平穩(wěn)的特性葛峻。
以下為一堆公式推導,具體查看:http://www.math.pku.edu.cn/teachers/lidf/course/fts/ftsnotes/html/_ftsnotes/fts-tslin.html#fig:tslin-intro-sp02
時間序列
自協(xié)方差函數(shù)
弱平穩(wěn)序列
1.3 相關系數(shù)和自相關函數(shù)
1.3.1 相關系數(shù)
圖6是IBM股票月度簡單收益率對標普500收益率的散點圖巴比。 從圖中看出术奖, 兩者有明顯的正向相關關系。
對于不獨立的樣本轻绞, 比如時間序列樣本采记, 也可以計算相關系數(shù), 其估計合理性需要一些模型假設政勃。
對于聯(lián)合分布非正態(tài)的情況唧龄, 有時相關系數(shù)不能很好地反映X和Y的正向或者負向的相關。 斯皮爾曼(Spearman)相關系數(shù)是計算X的樣本的秩(名次)與Y的樣本的秩之間的相關系數(shù)奸远, 也稱為Spearman rank correlation既棺。
另一種常用的非參數(shù)相關系數(shù)是肯德爾tau(Kendall’s )系數(shù)讽挟, 反映了一致數(shù)對和非一致數(shù)對之間的差別。
即兩個觀測的分量次序一致的概率減去分量次序相反的概率丸冕。 一致的概率越大耽梅,說明兩個的正向相關性越強。
對IBM收益率與標普收益率數(shù)據(jù)計算這三種相關系數(shù):
cor(d[,"sp"], d[,"ibm"])
[1] 0.6395979
cor(d[,"sp"], d[,"ibm"], method="spearman")
[1] 0.6065789
cor(d[,"sp"], d[,"ibm"], method="kendall")
[1] 0.4328066
1.3.2 自相關函數(shù)
自相關函數(shù) (Autocorrelation function, ACF)參見 (何書元 2003) P.131 §4.2的例2.1胖烛。 原始文獻: MAURICE STEVENSON BARTLETT, On the Theoretical Specification and Sampling Properties of Auto-Correlated Time Series, Journal of the Royal Statistical Society (Supplement) 8 (1946), pp. 24-41.
在基本R軟件中眼姐, acf(x)
可以估計時間序列x
的自相關函數(shù)并對其前面若干項畫圖。
例:CRSP的第10分位組合的月對數(shù)收益率佩番, 1967-1到2009-12妥凳。 第10分位組合是NYSE、AMEX答捕、NASDAQ市值最小的10%股票組成的投資組合逝钥, 每年都重新調整。
- CRSP是Center for Research in Security Prices, 位于Chicago Booth拱镐。
- NYSE(The New York Stock Exchange, 紐約證券交易所),
- AMEX(American Stock Exchange, 美國證券交易所艘款,在紐約華爾街附近),
- NASDAQ(National Association of Securities Dealers Automated Quotations沃琅,納斯達克哗咆,位于紐約)。
d <- read_table2(
"m-dec12910.txt",
col_types=cols(.default=col_double(),
date=col_date(format="%Y%m%d")))
dec <- xts(as.matrix(d[,-1]), d$date)
indexClass(dec) <- "yearmon"
d10 <- ts(coredata(dec)[,"dec10"], start=c(1967,1), frequency=12)
plot(d10, main="CRSP Lower 10% Mothly Returns")
圖6: CRSP第10分位組合月對數(shù)收益率
用acf()
作時間序列的自相關函數(shù)圖:
acf(d10)
acf()
的返回值是一個列表益眉,其中lag
相當于晌柬, acf
相當于。 用plot=FALSE
取消默認的圖形輸出郭脂。
1.3.3 用單個自相關系數(shù)作白噪聲檢驗
有研究者認為小市值股票傾向于在每年的一月份有正的收益率年碘。
為此,用對的檢驗來驗證展鸡。 如果一月份有取正值的傾向屿衅, 則相隔12個月的值會有正相關。
tmp1 <- acf(d10, plot=FALSE)
r12 <- tmp1$acf[abs(tmp1$lag-12/12)<1E-10]
r12
## [1] 0.130411
計算統(tǒng)計量的值莹弊,檢驗p值:
t12 <- sqrt(tmp1$n.used)*r12; t12
## [1] 2.962369
pv <- 2*(1 - pnorm(abs(t12))); pv
## [1] 0.003052812
值小于0.05, 這個檢驗的結果支持一月份效應的存在性涤久。
1.3.4 Ljung-Box白噪聲檢驗
Ljung和Box(Ljung and Box 1978)對Box和Pierce(Box and Pierce 1970)提出了混成統(tǒng)計量(Portmanteau statistic)
檢驗方法進行了改進
在R軟件中, Box.test(x, type="Ljung-Box")
執(zhí)行Ljung-Box白噪聲檢驗忍弛。 Box.test(x, type="Box-Pierce")
執(zhí)行Box-Pierce混成檢驗响迂。 用fitdf=
指定要減去的自由度個數(shù)。
檢驗IBM股票月收益率是否白噪聲细疚。
考慮IBM股票從1926-01到2011-09的月度收益率數(shù)據(jù)蔗彤, 簡單收益率和對數(shù)收益率分別考慮。
讀入數(shù)據(jù):
d <- read_table(
"m-ibmsp-2611.txt",
col_types=cols(.default=col_double(),
date=col_date(format="%Y%m%d")))
ibm <- ts(d[["ibm"]], start=c(1926,1), frequency=12)
讀入的是簡單收益率的月度數(shù)據(jù)。 作ACF圖:
acf(ibm)
從ACF來看月度簡單收益率是白噪聲幕与。
作Ljung-Box白噪聲檢驗, 分別取和:
Box.test(ibm, lag=12, type="Ljung-Box")
##
## Box-Ljung test
##
## data: ibm
## X-squared = 13.098, df = 12, p-value = 0.362
Box.test(ibm, lag=24, type="Ljung-Box")
##
## Box-Ljung test
##
## data: ibm
## X-squared = 35.384, df = 24, p-value = 0.0629
在0.05水平下均不拒絕零假設镇防, 支持IBM月度簡單收益率是白噪聲的零假設啦鸣。
從簡單收益率計算對數(shù)收益率, 并進行LB白噪聲檢驗:
Box.test(log(1 + ibm), lag=12, type="Ljung-Box")
##
## Box-Ljung test
##
## data: log(1 + ibm)
## X-squared = 12.814, df = 12, p-value = 0.3827
Box.test(log(1 + ibm), lag=24, type="Ljung-Box")
##
## Box-Ljung test
##
## data: log(1 + ibm)
## X-squared = 34.506, df = 24, p-value = 0.07607
在0.05水平下不拒絕零假設来氧。
Box-Pierce檢驗和Ljung-Box檢驗受到取值的影響诫给, 建議采用, 且序列為季度啦扬、月度這樣的周期序列時中狂, 應取為周期的整數(shù)倍。
對CRSP最低10分位的資產(chǎn)組合的月簡單收益率作白噪聲檢驗扑毡。
此組合的收益率序列的ACF:
acf(d10)
針對和作Ljung-Box白噪聲檢驗:
Box.test(d10, type="Ljung-Box", lag=12)
##
## Box-Ljung test
##
## data: d10
## X-squared = 41.06, df = 12, p-value = 4.789e-05
Box.test(d10, type="Ljung-Box", lag=24)
##
## Box-Ljung test
##
## data: d10
## X-squared = 56.246, df = 24, p-value = 0.0002122
在0.05水平下均拒絕零假設胃榕, 認為CRSP最低10分位的投資組合的月度簡單收益率不是白噪聲。
有效市場假設認為收益率是不可預測的瞄摊, 也就不會有非零的自相關勋又。 但是,股價的決定方式和指數(shù)收益率的計算方式等可能會導致在觀測到的收益率序列中有自相關性换帜。 高頻金融數(shù)據(jù)中很常見自相關性楔壤。
常見的白噪聲檢驗還有TREVOR S. BREUSCH (1978) 和LESLIE G. GODFREY (1978)提出的拉格朗日乘子法檢驗(LM檢驗)。 零假設為白噪聲惯驼, 對立假設為AR蹲嚣、MA或者ARMA。 參見:
- TREVOR S. BREUSCH(1978), Testing for Autocorrelation in Dynamic Linear Models, Australian Economic Papers 17, pp. 334 – 355
- LESLIE G. GODFREY(1978), Testing Against General Autoregressive and Moving Average Error Models When Regressors Include Lagged Dependent Variables, Econometrica 46 , S. 1293 – 1302
1.4 白噪聲和線性時間序列
1.4.1 白噪聲
設是獨立同分布的二階矩有限的隨機變量祟牲, 稱為獨立同分布白噪聲(white noise)隙畜。 最常用的白噪聲一般假設均值為零。 如果獨立同分布说贝, 稱為高斯(Gaussian)白噪聲或正態(tài)白噪聲禾蚕。
白噪聲序列的自相關函數(shù)為零(除外)。
實際應用中如果樣本自相關函數(shù)近似為零 (ACF圖中都位于控制線之內(nèi)或基本不超出控制線)狂丝, 則可認為該序列是白噪聲的樣本换淆。
如:IBM月度收益率可以認為是白噪聲(見例3.3); CRSP最低10分位投資組合月度收益率不是白噪聲(見例3.4)几颜。
1.4.2 線性時間序列
不是所有的弱平穩(wěn)時間序列都有這樣的性質倍试。 非平穩(wěn)序列更是不需要滿足這些性質。
1.5 附錄:補充知識
1.5.1 嚴平穩(wěn)
公式就不贅述
1.5.2 嚴平穩(wěn)遍歷性
如果從時間序列的一條軌道就可以推斷出它的所有有限維分布蛋哭, 就稱其為嚴平穩(wěn)遍歷的县习。 這里不給出遍歷性的嚴格定義, 僅給出一些嚴平穩(wěn)遍歷的充分條件。 可以證明躁愿, 寬平穩(wěn)的正態(tài)時間序列是嚴平穩(wěn)遍歷的叛本, 由零均值獨立同分布白噪聲產(chǎn)生的線性序列是嚴平穩(wěn)遍歷的。
參考文獻
Tsay, Ruey S. 2013. 金融數(shù)據(jù)分析導論:基于R語言. 機械工業(yè)出版社.
何書元. 2003. 應用時間序列分析. 北京大學出版社.
Box, GEP, and D. Pierce. 1970. “Distribution of Residual Autocorelations in Autoregressive-Integrated Moving Average Time Series Models.” J. of American Stat. Assoc. 65: 1509–26.
Ljung, G., and GEP Box. 1978. “On a Measure of Lack of Fit in Time Series Models.” Biometrika 66: 67–72.