數(shù)據(jù)挖掘之預(yù)測模型
定性研究與定量研究的結(jié)合不恭,是科學(xué)的預(yù)測的發(fā)展趨勢缠诅。在實(shí)際預(yù)測工作中宿礁,應(yīng)該將定性預(yù)測和定量預(yù)測結(jié)合起來使用拂封,即在對(duì)系統(tǒng)做出正確分析的基礎(chǔ)上茬射,根據(jù)定量預(yù)測得出的量化指標(biāo),對(duì)系統(tǒng)未來走勢做出判斷冒签。
回歸分析法
基本思想:
根據(jù)歷史數(shù)據(jù)的變化規(guī)律在抛,尋找自變量與因變量之間的回歸方程式,確定模型參數(shù)萧恕,據(jù)此預(yù)測刚梭〕澹回歸問題分為一元和多元回歸、線性和非線性回歸朴读。
特點(diǎn):
技術(shù)比較成熟屹徘,預(yù)測過程簡單;將預(yù)測對(duì)象的影響因素分解磨德,考察各因素的變化情況缘回,從而估計(jì)預(yù)測對(duì)象未來的數(shù)量狀態(tài);回歸模型誤差較大典挑,外推特性差酥宴。
適用范圍:
回歸分析法一般適用于中期預(yù)測∧酰回歸分析法要求樣本量大且要求樣本有較好的分布規(guī)律拙寡,當(dāng)預(yù)測的長度大于占有的原始數(shù)據(jù)長度時(shí),采用該方法進(jìn)行預(yù)測在理論上不能保證預(yù)測結(jié)果的精度琳水。另外肆糕,可能出現(xiàn)量化結(jié)果與定性分析結(jié)果不符的現(xiàn)象,有時(shí)難以找到合適的回歸方程類型在孝。
時(shí)間序列分析法
基本思想:
把預(yù)測對(duì)象的歷史數(shù)據(jù)按一定的時(shí)間間隔進(jìn)行排列诚啃,構(gòu)成一個(gè)隨時(shí)間變化的統(tǒng)計(jì)序列,建立相應(yīng)的數(shù)據(jù)隨時(shí)間變化的變化模型私沮,并將該模型外推到未來進(jìn)行預(yù)測始赎。
適用范圍:
此方法有效的前提是過去的發(fā)展模式會(huì)延續(xù)到未來,因而這種方法對(duì)短期預(yù)測效果比較好仔燕,而不適合作中長期預(yù)測造垛。一般來說,若影響預(yù)測對(duì)象變化各因素不發(fā)生突變晰搀,
利用時(shí)間序列分析方法能得到較好的預(yù)測結(jié)果五辽;若這些因素發(fā)生突變,時(shí)間序列法的預(yù)測結(jié)果將受到一定的影響外恕。
灰色預(yù)測法
基本思想:
將一切隨機(jī)變量看作是在一定范圍內(nèi)變化的灰色變量杆逗,不是從統(tǒng)計(jì)規(guī)律角度出發(fā)進(jìn)行大樣本分析研究,而是利用數(shù)據(jù)處理方法(數(shù)據(jù)生成與還原)鳞疲,將雜亂無章的原始數(shù)據(jù)整理成規(guī)律性較強(qiáng)的生成數(shù)據(jù)來加以研究罪郊,即灰色系統(tǒng)理論建立的不是原始數(shù)據(jù)模型,而是生成數(shù)據(jù)模型建丧。
適用范圍:
預(yù)測模型是一個(gè)指數(shù)函數(shù)排龄,如果待測量是以某一指數(shù)規(guī)律發(fā)展的波势,則可望得較高精度的預(yù)測結(jié)果翎朱。影響模型預(yù)測精度及其適應(yīng)性的關(guān)鍵因素橄维,是模型中背景值的構(gòu)造及預(yù)測公式中初值的選取。
?
BP神經(jīng)網(wǎng)絡(luò)法
人工神經(jīng)網(wǎng)絡(luò)的理論有表示任意非線性關(guān)系和學(xué)習(xí)等的能力拴曲,給解決很多具有復(fù)雜的不確定性和時(shí)變性的實(shí)際問題提供了新思想和新方法争舞。利用人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)功能,用大量樣本對(duì)神經(jīng)元網(wǎng)絡(luò)進(jìn)行訓(xùn)練澈灼,調(diào)整其連接權(quán)值和閉值竞川,然后可以利用已確定的模型進(jìn)行預(yù)測摇予。
神經(jīng)網(wǎng)絡(luò)能從數(shù)據(jù)樣本中自動(dòng)地學(xué)習(xí)以前的經(jīng)驗(yàn)而無需繁復(fù)的查詢和表述過程堤魁,并自動(dòng)地逼近那些最佳刻畫了樣本數(shù)據(jù)規(guī)律的函數(shù),而不論這些函數(shù)具有怎樣的形式痪伦,且所考慮的系統(tǒng)表現(xiàn)的函數(shù)形式越復(fù)雜荣回,神經(jīng)網(wǎng)絡(luò)這種特性的作用就越明顯遭贸。
誤差反向傳播算法(BP算法)的基本思想是通過網(wǎng)絡(luò)誤差的反向傳播,調(diào)整和修改網(wǎng)絡(luò)的連接權(quán)值和閉值心软,使誤差達(dá)到最小壕吹,其學(xué)習(xí)過程包括前向計(jì)算和誤差反向傳播。它利用一個(gè)簡單的三層人工神經(jīng)網(wǎng)絡(luò)模型删铃,就能實(shí)現(xiàn)從輸入到輸出之間任何復(fù)雜的非線性映射關(guān)系耳贬。
目前,神經(jīng)網(wǎng)絡(luò)模型已成功地應(yīng)用于許多領(lǐng)域猎唁,諸如經(jīng)濟(jì)預(yù)測咒劲、財(cái)政分析、貸款抵押評(píng)估和破產(chǎn)預(yù)測等許多經(jīng)濟(jì)領(lǐng)域胖秒。
優(yōu)點(diǎn):可以在不同程度和層次上模仿人腦神經(jīng)系統(tǒng)的結(jié)構(gòu)及信息處理和檢索等功能缎患,對(duì)大量非結(jié)構(gòu)性、非精確性規(guī)律具有極強(qiáng)的自適應(yīng)功能阎肝,具有信息記憶挤渔、自主學(xué)習(xí)、知識(shí)推理和優(yōu)化計(jì)算等特點(diǎn)风题,其自學(xué)習(xí)和自適應(yīng)功能是常規(guī)算法和專家系統(tǒng)技術(shù)所不具備的判导,同時(shí)在一定程度上克服了由于隨機(jī)性和非定量因素而難以用數(shù)學(xué)公式嚴(yán)密表達(dá)的困難。
缺點(diǎn):網(wǎng)絡(luò)結(jié)構(gòu)確定困難沛硅,同時(shí)要求有足夠多的歷史數(shù)據(jù)眼刃,樣本選擇困難,算法復(fù)雜摇肌,容易陷入局部極小點(diǎn)擂红。
支持向量機(jī)法
支持向量機(jī)是基于統(tǒng)計(jì)學(xué)習(xí)的機(jī)器學(xué)習(xí)方法,通過尋求結(jié)構(gòu)風(fēng)險(xiǎn)化最小围小,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小昵骤,從而達(dá)到在統(tǒng)計(jì)樣本較少的情況下树碱,亦能獲得良好統(tǒng)計(jì)規(guī)律的目的。其中支持向量機(jī)是統(tǒng)計(jì)學(xué)習(xí)理論的核心和重點(diǎn)变秦。支持向量機(jī)是結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的近似成榜,它能夠提高學(xué)習(xí)機(jī)的泛化能力,既能夠由有限的訓(xùn)練樣本得到小的誤差蹦玫,又能夠保證對(duì)獨(dú)立的測試集仍保持小的誤差赎婚,而且支持向量機(jī)算法是一個(gè)凸優(yōu)化問題,因此局部最優(yōu)解一定是全局最優(yōu)解樱溉,支持向量機(jī)就克服了神經(jīng)網(wǎng)絡(luò)收斂速度慢和局部極小點(diǎn)等缺陷挣输。
核函數(shù)的選取在SVM方法中是一個(gè)較為困難的問題,至今沒有一定的理論方面的指導(dǎo)
組合預(yù)測法
在實(shí)際預(yù)測工作中福贞,從信息利用的角度來說歧焦,就是任何一種單一預(yù)測方法都只利用了部分有用信息,同時(shí)也拋棄了其它有用的信息肚医。為了充分發(fā)揮各預(yù)測模型的優(yōu)勢绢馍,對(duì)于同一預(yù)測問題,往往可以采用多種預(yù)測方法進(jìn)行預(yù)測肠套。不同的預(yù)測方法往往能提供不同的有用信息舰涌,
組合預(yù)測將不同預(yù)測模型按一定方式進(jìn)行綜合。根據(jù)組合定理你稚,各種預(yù)測方法通過組合可以盡可能利用全部的信息瓷耙,盡可能地提高預(yù)測精度,達(dá)到改善預(yù)測性能的目的刁赖。
優(yōu)化組合預(yù)測有兩類概念搁痛,一是指將幾種預(yù)測方法所得的預(yù)測結(jié)果,選取適當(dāng)?shù)臋?quán)重進(jìn)行加權(quán)平均的一種預(yù)測方法宇弛,其關(guān)鍵是確定各個(gè)單項(xiàng)預(yù)測方法的加權(quán)系數(shù)鸡典;二是指在幾種預(yù)防方法中進(jìn)行比較,選擇擬合度最佳或標(biāo)準(zhǔn)離差最小的預(yù)測模型作為最優(yōu)模型進(jìn)行預(yù)測枪芒。
組合預(yù)測是在單個(gè)預(yù)測模型不能完全正確地描述預(yù)測量的變化規(guī)律時(shí)發(fā)揮其作用的彻况。