如今,提到股市洪己,大多數(shù)人都會(huì)想到滬深股市妥凳。目前,我國(guó)大陸僅有上海答捕、深圳兩家證券交易市場(chǎng)逝钥,深圳交易所為中小板和創(chuàng)投板塊,上海證券市場(chǎng)為中國(guó)內(nèi)地首屈一指的市場(chǎng)拱镐,上市公司數(shù)艘款、上市股票數(shù)、市價(jià)總值沃琅、流通市值哗咆、證券成交總額、股票成交金額和國(guó)債成交金額等各項(xiàng)指標(biāo)均居首位益眉。我國(guó)人口基數(shù)大晌柬,所以股民數(shù)量也不容小覷。
在機(jī)器學(xué)習(xí)理論被炒得火熱的今天郭脂,網(wǎng)絡(luò)上對(duì)于股票的走勢(shì)預(yù)測(cè)信息層出不窮年碘。這也提起了我對(duì)這個(gè)小項(xiàng)目的興趣,于是自己查閱了一些資料展鸡,簡(jiǎn)單的實(shí)現(xiàn)了一下股票預(yù)測(cè)算法屿衅。本項(xiàng)目居于SVM 支持向量機(jī),它是一種十分優(yōu)秀的分類算法莹弊,能為股票帶來(lái)一定程度上的預(yù)測(cè)涤久。原理就不多贅述了,可以進(jìn)行參考的書(shū)目有很多忍弛,例如周志華老師的《機(jī)器學(xué)習(xí)》响迂,李航老師的《統(tǒng)計(jì)學(xué)習(xí)方法》。
本次項(xiàng)目選擇滬深300中農(nóng)業(yè)銀行股票作為原始數(shù)據(jù)细疚。這些數(shù)據(jù)在網(wǎng)易財(cái)經(jīng)-農(nóng)業(yè)銀行的頁(yè)面中均可以獲取到栓拜。我們選擇2015年1月1日到2018年3月20號(hào)的數(shù)據(jù)作為本次項(xiàng)目的數(shù)據(jù)集,供后面的分析使用惠昔。下面首先介紹一下項(xiàng)目的實(shí)現(xiàn)過(guò)程。
1.數(shù)據(jù)處理
這些年來(lái)挑势,小波理論得到了極其迅速的發(fā)展镇防,而且由于小波具備良好的時(shí)頻特性,因而實(shí)際應(yīng)用也非常廣泛潮饱,如數(shù)學(xué)領(lǐng)域来氧,信號(hào)分析、圖像處理等通信領(lǐng)域以及醫(yī)學(xué)成像領(lǐng)域。在去噪領(lǐng)域中啦扬,小波理論也同樣受到了許多學(xué)者的重視中狂,他們應(yīng)用小波進(jìn)行去噪并獲得了非常好的效果。信號(hào)中的頻率分量可以在傳遞過(guò)程中攜帶許多信息扑毡,同時(shí)在傳遞過(guò)程中也會(huì)夾雜一些噪聲胃榕。同樣的,股票在順移過(guò)程中瞄摊,也會(huì)收到市場(chǎng)以外的諸多因素的影響勋又,這和信號(hào)的傳遞過(guò)程十分相似。于是换帜,本文我們像通信系統(tǒng)濾波過(guò)程一樣楔壤,對(duì)股價(jià)進(jìn)行二階小波消噪處理。
本項(xiàng)目基于matlab進(jìn)行消躁處理惯驼,我們先借農(nóng)業(yè)銀行2015年一整年的所有開(kāi)盤(pán)日數(shù)據(jù)進(jìn)行去噪嘗試蹲嚣,結(jié)果如下:
通過(guò)上述三組數(shù)據(jù)的對(duì)比,我們可以發(fā)現(xiàn)原本帶有許多微小毛刺的原始曲線被處理的很平滑祟牲,而同時(shí)又保持了曲線應(yīng)有的漲落趨勢(shì)隙畜,可以說(shuō)經(jīng)過(guò)去噪處理的曲線符合我們的預(yù)期。
接下來(lái)我們借助SVM算法進(jìn)行股票預(yù)測(cè)疲眷。首先我們要確定預(yù)測(cè)過(guò)程中所依據(jù)的特征向量禾蚕,網(wǎng)站中為我們提供的股票指標(biāo)很多,展示如下:
預(yù)測(cè)中使用的特征向量要具有代表性狂丝,且權(quán)重相同换淆,并且要求我們盡可能多的選擇機(jī)組特征向量,本文將特征值最終選定為最高價(jià)几颜、最低價(jià)和收盤(pán)價(jià)三個(gè)指標(biāo)倍试。
2. 開(kāi)始訓(xùn)練
首先,我們先使用16-17年農(nóng)業(yè)銀行股票的最高價(jià)蛋哭、最低價(jià)和收盤(pán)價(jià)三個(gè)維度的數(shù)據(jù)進(jìn)行訓(xùn)練县习,此時(shí)輸入的適量是一個(gè)N*3的矩陣,N表示樣本數(shù)谆趾,3表示樣本特征數(shù)躁愿。接下來(lái)我們預(yù)測(cè)未來(lái)K天的收盤(pán)價(jià)漲落情況,此時(shí)我們應(yīng)該比較當(dāng)天的收盤(pán)價(jià)與K天后的收盤(pán)價(jià)大小沪蓬,當(dāng)K天后收盤(pán)價(jià)大于當(dāng)天收盤(pán)價(jià)彤钟,則 label=1,反之則 label=-1跷叉。接下來(lái)我們需要考慮的則是選取多大長(zhǎng)的的訓(xùn)練長(zhǎng)度比較合適逸雹。
首先我們先選定訓(xùn)練長(zhǎng)度為50营搅,100和200并預(yù)測(cè)未來(lái)7天的股票情況,即N = 50梆砸、100转质、200,K=7.2016年和2017年的開(kāi)盤(pán)日均為244天帖世,所以我們的數(shù)據(jù)集長(zhǎng)度為488.如下圖所示休蟹,圖中紅顏色線為預(yù)測(cè)值,黑色線為初始值狮暑。
如上圖(a)所示鸡挠,當(dāng)訓(xùn)練長(zhǎng)度為50時(shí),預(yù)測(cè)曲線與實(shí)際曲線有較大差距搬男,我們基本無(wú)法通過(guò)預(yù)測(cè)曲線獲取有用信息拣展;接著我們加大訓(xùn)練長(zhǎng)度到100,結(jié)果如圖(b)所示缔逛,這是預(yù)測(cè)曲線與原始曲線較多部分出現(xiàn)吻合备埃,但很多漲落情況并沒(méi)有體現(xiàn)出來(lái),設(shè)置出現(xiàn)相反的情況褐奴,這對(duì)于我們預(yù)測(cè)股票趨勢(shì)并選擇買(mǎi)入或拋出是不利的按脚;于是我們繼續(xù)加大訓(xùn)練長(zhǎng)度到200,結(jié)果如圖(c)所示敦冬,在這種情況下兩條曲線的漲落趨勢(shì)基本保持一致辅搬。由此我們可以得到結(jié)論,訓(xùn)練集越大則預(yù)測(cè)結(jié)果越準(zhǔn)確脖旱,于是在接下來(lái)的預(yù)測(cè)工作中堪遂,我們選取訓(xùn)練長(zhǎng)度N = 200.
3. 進(jìn)行預(yù)測(cè)
接下來(lái)我們應(yīng)用2017年前200個(gè)開(kāi)盤(pán)日數(shù)據(jù)對(duì)2017年底截止到2018年3月20日的股票進(jìn)行預(yù)測(cè)。其結(jié)果如下:
由圖所示萌庆,預(yù)測(cè)從2017年11月開(kāi)始溶褪,持續(xù)到2018年3月20日〖眨縱觀整體預(yù)測(cè)曲線猿妈,二者很多漲落特征都非常吻合,下面我們通過(guò)數(shù)據(jù)再次驗(yàn)證預(yù)測(cè)的準(zhǔn)確率巍虫,由于前期曲線趨于平緩彭则,所以我們選取2018年2月1號(hào)以后的數(shù)據(jù)進(jìn)行驗(yàn)證。
根據(jù)表格中實(shí)際數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)的注意對(duì)比占遥,可以計(jì)算出預(yù)測(cè)準(zhǔn)確率為70.6%(當(dāng)實(shí)際無(wú)漲落時(shí)贰剥,預(yù)測(cè)為漲也判為準(zhǔn)確)】昶担可以看出蚌成,通過(guò)本算法所預(yù)測(cè)到的股票走勢(shì)情況準(zhǔn)確率較高,但是準(zhǔn)確率還有提高的空間凛捏,可以通過(guò)擴(kuò)大訓(xùn)練樣本量担忧,增加樣本特征數(shù)等方式來(lái)實(shí)現(xiàn)。
4.總結(jié)
本位從整個(gè)流程上講述了股票預(yù)測(cè)的過(guò)程坯癣,并以一支股票為例瓶盛,實(shí)現(xiàn)了對(duì)股票走勢(shì)的預(yù)測(cè),但是由于? 影響股票的因素較多示罗,所以預(yù)測(cè)結(jié)果并不十分準(zhǔn)確惩猫。相信若我們引入更多的訓(xùn)練樣本與樣本特征值,其準(zhǔn)確率可以得到進(jìn)一步提升蚜点。