要想做到區(qū)間預(yù)測居暖,首先搞清楚一般預(yù)報方法顽频,這屬于數(shù)據(jù)挖掘的范疇√耄看到這樣的網(wǎng)絡(luò)總結(jié)糯景,雖然寫的不夠精細(xì),但是可以幫助了解省骂。日后我也會對其做出細(xì)化的描述蟀淮。
以下是網(wǎng)絡(luò)總結(jié):
數(shù)據(jù)挖掘的任務(wù)分為描述性任務(wù)(關(guān)聯(lián)分析、聚類钞澳、序列分析怠惶、離群點等)和預(yù)測任務(wù)(回歸和分類)兩種。本文簡介預(yù)測任務(wù)轧粟。
數(shù)據(jù)挖掘預(yù)測與周易預(yù)測有相似之處策治。周易建立在陰陽二元論基礎(chǔ)上,對天地萬物進(jìn)行性狀歸類(天干地支五行論)兰吟,精確到可以對事物的未來發(fā)展做出較為準(zhǔn)確的預(yù)測通惫。許多學(xué)者認(rèn)為周易理論依據(jù)是萬事萬物的相似性、關(guān)聯(lián)性和全息性原理揽祥。這三個原理已被現(xiàn)代科學(xué)所證實讽膏。全息性是指事物的某一局部包含了整體的信息。例如拄丰,法醫(yī)工作者對一根毛發(fā)進(jìn)行化驗府树,得出受害者或嫌疑人的許多身體特征。
周易預(yù)測通過對歷史事件的學(xué)習(xí)來積累經(jīng)驗料按,得出事物間的相似性和關(guān)聯(lián)性奄侠,從而對事物的未來狀況做出預(yù)測。數(shù)據(jù)挖掘預(yù)測則是通過對樣本數(shù)據(jù)(歷史數(shù)據(jù))的輸入值和輸出值關(guān)聯(lián)性的學(xué)習(xí)载矿,得到預(yù)測模型垄潮,再利用該模型對未來的輸入值進(jìn)行輸出值預(yù)測。一般地闷盔,可以通過機(jī)器學(xué)習(xí)方法建立預(yù)測模型弯洗。DM(Data Mining)的技術(shù)基礎(chǔ)是人工智能(機(jī)器學(xué)習(xí)),但是DM僅僅利用了人工智能(AI)中一些已經(jīng)成熟的算法和技術(shù)逢勾,因而復(fù)雜度和難度都比AI小很多[2]牡整。
機(jī)器學(xué)習(xí):假定事物的輸入、輸出之間存在一種函數(shù)關(guān)系y=f(x, β)溺拱,其中β是待定參數(shù)逃贝,x是輸入變量谣辞,則y=f(x, β)稱為學(xué)習(xí)機(jī)器。通過數(shù)據(jù)建模沐扳,由樣本數(shù)據(jù)(一般是歷史數(shù)據(jù)泥从,包含輸入值和輸出值)學(xué)習(xí)得到參數(shù)β的取值,就確定了具體表達(dá)式y(tǒng)=f(x, β)沪摄,這樣就可以對新的x預(yù)測y了躯嫉。這個過程稱作機(jī)器學(xué)習(xí)。
數(shù)據(jù)建模不同于數(shù)學(xué)建模卓起,它是基于數(shù)據(jù)建立數(shù)學(xué)模型和敬,它是相對于基于物理凹炸、化學(xué)和其他專業(yè)基本原理建立數(shù)學(xué)模型(即機(jī)理建模)而言的戏阅。對于預(yù)測來說,如果所研究的對象有明晰的機(jī)理啤它,可以依其進(jìn)行數(shù)學(xué)建模奕筐,這當(dāng)然是最好的選擇。但是實際問題中变骡,一般無法進(jìn)行機(jī)理建模离赫。但是歷史數(shù)據(jù)往往是容易獲得的,這時就可使用數(shù)據(jù)建模塌碌。
典型的機(jī)器學(xué)習(xí)方法包括:決策樹方法渊胸、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)台妆、正則化方法翎猛。其他常見的預(yù)測方法還有近鄰法、樸素貝葉斯(屬于統(tǒng)計學(xué)習(xí)方法)等
1 決策樹方法
決策樹算法的典型代表是ID3算法(Iterative Dichotomiser 3接剩,迭代二叉樹3代)是由Ross Quinlan與1986年提出切厘。ID3算法建立在奧卡姆剃刀的基礎(chǔ)上:越是小型的決策樹越優(yōu)于大的決策樹(簡單理論)。盡管如此懊缺,該算法也不是總是生成最小的樹形結(jié)構(gòu)疫稿,而是一個啟發(fā)式算法。其核心思想是選取具有最高信息增益的屬性(相對于信息熵最高的屬性鹃两,可參考維基百科中二者的計算公式)作為當(dāng)前節(jié)點的分裂屬性遗座。ID3算法構(gòu)造的決策樹對樣本的識別率較高。
ID3算法的不足:1)ID3在搜索過程中不能回溯重新考慮選擇過的屬性俊扳,從而可能收斂到局部最優(yōu)解而不是全局最優(yōu)解途蒋;2)使用信息增益度量每次都選擇取值數(shù)目最多的屬性,這未必合理拣度;3)ID3只能處理離散值碎绎,不能處理連續(xù)值螃壤;4)當(dāng)訓(xùn)練樣本過小或包含噪聲時,容易導(dǎo)致過度擬合(overfitting)筋帖。
針對ID3的不足奸晴,Quinlan于1993年提出了ID3的改進(jìn)算法:C4.5算法。C4.5主要特點:用信息增益比率作為選擇標(biāo)準(zhǔn)日麸;合并連續(xù)屬性的值寄啼;可以處理缺少屬性值的訓(xùn)練樣本;運(yùn)用不同的剪枝策略避免過度擬合代箭;K折交叉驗證等墩划。剪枝策略可分為預(yù)剪枝(pre-pruning)和后剪枝(post-pruning)。預(yù)剪枝通過建立某些規(guī)則限制決策樹的充分生長嗡综,后剪枝則是等決策樹充分生長完畢后再剪去那些不具有一般代表性的葉節(jié)點或者分枝乙帮。實際應(yīng)用中更多采用后剪枝。
2 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)极景,Artificial Neural Networks(ANNs)察净,是對人腦若干基本特性的抽象。它由大量神經(jīng)元通過豐富的連接構(gòu)成多層網(wǎng)絡(luò)盼樟,用以模擬人腦功能氢卡。實際上,神經(jīng)網(wǎng)絡(luò)是不依賴于模型的自適應(yīng)函數(shù)估計器晨缴,可以實現(xiàn)任意的函數(shù)關(guān)系译秦。定量和定性的信息都可貯存在網(wǎng)絡(luò)內(nèi)的各神經(jīng)元中,也就是說击碗,它可以同時處理定量和定性知識筑悴,可以用于回歸和分類。而且網(wǎng)絡(luò)有很強(qiáng)的穩(wěn)定性和容錯性延都。
神經(jīng)網(wǎng)絡(luò)方法模擬人腦神經(jīng)元結(jié)構(gòu)雷猪,以MP模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ)。主要包括三種神經(jīng)網(wǎng)絡(luò)模型[2]:
(1)前饋式網(wǎng)絡(luò)晰房。它以感知機(jī)求摇、反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表殊者,可用于預(yù)測与境、模式識別方面。
(2)反饋式網(wǎng)絡(luò)猖吴。它以Hopfield的離散模型和連續(xù)模型為代表摔刁,分別用于聯(lián)想記憶和優(yōu)化計算。
(3)自組織網(wǎng)絡(luò)海蔽。它以ART模型共屈、Koholon模型為代表绑谣,用于聚類分析等方面。
神經(jīng)網(wǎng)絡(luò)的不足:神經(jīng)網(wǎng)絡(luò)容易陷入局部最小點拗引,易出現(xiàn)過度擬合而使得泛化能力較差借宵;網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的確定沒有成熟的理論指導(dǎo);神經(jīng)網(wǎng)絡(luò)訓(xùn)練代價很高矾削;其解不具有稀疏性且難以解釋壤玫。
3 支持向量機(jī)
支持向量機(jī),Support Vector Machines(SVM)哼凯,是20世紀(jì)90年代Vapnik等人根據(jù)統(tǒng)計學(xué)習(xí)理論中結(jié)構(gòu)風(fēng)險最小化原則提出的一種機(jī)器學(xué)習(xí)方法欲间。SVM最初是從分類問題提出的,后來擴(kuò)展到求解回歸問題断部。SVM是從線性可分的二分類問題開始的猎贴,再逐步向線性不可分問題、非線性問題深入家坎,最后推廣到線性和非線性回歸問題建模嘱能。
對于二次規(guī)劃的求解可采用SMO算法。對于回歸問題虱疏,需要依靠不敏感損失函數(shù)。
SVM在解決小樣本苏携、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢做瞪。
支持向量機(jī)方法是在機(jī)器學(xué)習(xí)理論指導(dǎo)下專門針對有限樣本設(shè)計的學(xué)習(xí)方法,不僅對于小樣本問題可以得到最優(yōu)解右冻,而且SVM模型具有很強(qiáng)的泛化能力装蓬。更為突出的是SVM最終轉(zhuǎn)化為求解一個凸二次規(guī)劃問題,在理論上可以得到全局最優(yōu)解纱扭,克服了一些傳統(tǒng)方法(如神經(jīng)網(wǎng)絡(luò)方法)可能陷入局部極值的不足牍帚。雖然SVM與神經(jīng)網(wǎng)絡(luò)相比有明顯優(yōu)勢,但在實際應(yīng)用中還存在一些問題乳蛾,比如對于大規(guī)模的數(shù)據(jù)集暗赶,由于SVM要解凸二次規(guī)劃而使算法效率很低,甚至無法進(jìn)行肃叶;SVM對奇異值的穩(wěn)健性不高蹂随;SVM的解不具有稀疏性,存在著大量冗余支撐向量因惭;其參數(shù)沒有好的選擇策略岳锁。
4 正則化方法
針對上述神經(jīng)網(wǎng)絡(luò)和SVM的不足,提出了一些滿足不同性能要求的基于正則化的框架模型蹦魔,其典型代表有Lasso模型(Least Absolute Selection and Shrinkage Operator模型)和推廣的Lasso模型激率、L1/2正則化模型及其迭代閾值算法等咳燕。
Lasso方法用模型系數(shù)的絕對值函數(shù)作為懲罰來壓縮模型系數(shù),使絕對值較小的系數(shù)自動壓縮為0乒躺,這樣得到的模型具有稀疏性迟郎,從而同時實現(xiàn)顯著性變量的選擇和對應(yīng)參數(shù)的軌跡。Lasso模型采用平方損失函數(shù)而導(dǎo)致其穩(wěn)健性較差聪蘸,而且在很多應(yīng)用場合(如分類問題)損失函數(shù)不宜采用平方損失宪肖,因此對Lasso模型進(jìn)行推廣,使用其他損失函數(shù)健爬,可應(yīng)用于回歸問題和分類問題控乾。
Lasso模型和推廣的Lasso模型都屬于L1正則化模型,是凸優(yōu)化問題娜遵,有很多算法可以求解蜕衡,但梯度Boosting算法最實用。L1/2正則化模型比L1正則化模型的解更稀疏设拟,雖然它是非凸優(yōu)化問題慨仿,難以求解,但使用L1/2迭代閾值算法可巧妙地對其求解纳胧。
參考資料:
[1]《大話數(shù)據(jù)挖掘》
[2]《數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理》
來源:http://blog.csdn.net/kingzone_2008/article/details/8977837