經(jīng)過數(shù)據(jù)探索與數(shù)據(jù)預(yù)處理智哀,我們得到了可以直接建模的數(shù)據(jù)殖侵。根據(jù)挖掘目標和數(shù)據(jù)形式可以建立分類與預(yù)測贸呢、聚類分析、關(guān)聯(lián)規(guī)則拢军、時序模式和偏差檢測等模型楞陷。
分類和預(yù)測是預(yù)測問題的兩種類型,分類主要是預(yù)測分類標號(離散屬性)茉唉,而預(yù)測主要是建立連續(xù)值函數(shù)模型固蛾,預(yù)測給定自變量對應(yīng)的因變量的值。
回歸分析:
回歸分析是確定預(yù)測屬性(數(shù)值型)與其他變量間相互依賴的定量關(guān)系最常用的統(tǒng)計學方法度陆。包括線性回歸艾凯、非線性回歸、Logistic回歸懂傀、嶺回歸趾诗、主成分回歸、偏最小二乘回歸等模型。
1.線性回歸:對一個或多個自變量和因變量之間的線性關(guān)系進行建模恃泪,可用最小二乘法求解模型系數(shù)郑兴。
2.非線性回歸:對一個或多個自變量和因變量之間的線性關(guān)系進行建模。如果非線性關(guān)系可以通過簡單的函數(shù)變換轉(zhuǎn)化成線性關(guān)系贝乎,用線性回歸的思想求解情连;如果不能轉(zhuǎn)化,用非線性最小二乘法求解览效。
3.Logistic回歸:是廣義線性回歸模型的特例却舀,利用Logistic函數(shù)將因變量的取值范圍控制在0和1之間,表示取值為1的概率朽肥。
4.嶺回歸:是一種改進最小二乘法估計的方法禁筏。
5.主成分回歸:主成分回歸是根據(jù)主成分分析的思想提出來的持钉,是對最小二乘法估計的一種改進衡招,它是參數(shù)估計的一種偏估計∶壳浚可以消除自變量之間的多重共線性始腾。
決策樹:
決策樹采用自頂向下的遞歸方式,在內(nèi)部節(jié)點進行屬性值的比較空执,并根據(jù)不同的屬性值從該節(jié)點向下分支浪箭,最終得到的葉節(jié)點是學習劃分的類。
1.ID3算法:其核心是在決策樹的各級節(jié)點上辨绊,使用信息增益方法作為屬性的選擇標準奶栖,來幫助確定生成每個節(jié)點時所應(yīng)采用的合適屬性。
2.C4.5算法:C4.5決策樹生成算法相對于ID3算法的重要改進是使用信息增益率來選擇節(jié)點屬性门坷。C4.5算法可以克服ID3算法存在的不足:ID3算法只適用于離散的描述屬性宣鄙,而C4.5算法既能夠處理離散的描述屬性,也可以處理連續(xù)的描述屬性默蚌。
3.CART算法:CART決策樹是一種十分有效的非參數(shù)分類和回歸方法冻晤,通過構(gòu)建樹、修剪樹绸吸、評估樹來構(gòu)建一個二叉樹鼻弧。當終結(jié)點是連續(xù)變量時,該樹為回歸樹锦茁;當終結(jié)點是分類變量時攘轩,該樹為分類樹;
人工神經(jīng)網(wǎng)絡(luò):
人工神經(jīng)網(wǎng)絡(luò)是一種模仿大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的信息處理系統(tǒng)码俩,表示神經(jīng)網(wǎng)絡(luò)的輸入與輸出變量之間關(guān)系的模型撑刺。
1.BP神經(jīng)網(wǎng)絡(luò):是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡(luò),學習算法是誤差校正學習算法握玛,是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一够傍。
2.LM神經(jīng)網(wǎng)絡(luò):是基于梯度下降法和牛頓法結(jié)合的多層前饋網(wǎng)絡(luò)甫菠,特點:迭代次數(shù)少,收斂速度快冕屯,精確度高寂诱。
3.RBF徑向基神經(jīng)網(wǎng)絡(luò):RBF網(wǎng)絡(luò)能夠以任意精度逼近任意連續(xù)函數(shù),從輸入層到隱含層的變換是非線性的安聘,而從隱含層到輸出層的變換是線性的痰洒,特別適合于解決分類問題。
4.FNN模糊神經(jīng)網(wǎng)絡(luò):FNN模糊神經(jīng)網(wǎng)絡(luò)是具有模糊權(quán)系數(shù)或者輸入信號是模糊量的神經(jīng)網(wǎng)絡(luò)浴韭,是模糊系統(tǒng)與神經(jīng)網(wǎng)絡(luò)相結(jié)合的產(chǎn)物丘喻,它匯聚了神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)的優(yōu)點,集聯(lián)想念颈、識別泉粉、自適應(yīng)及模糊信息于一體
5.GMDH神經(jīng)網(wǎng)絡(luò):GMDH網(wǎng)絡(luò)也稱為多項式網(wǎng)絡(luò),它是前饋神經(jīng)網(wǎng)絡(luò)中常用的一種用于預(yù)測的神經(jīng)網(wǎng)絡(luò)榴芳。它的特點是網(wǎng)路結(jié)構(gòu)不固定嗡靡,而且在訓練過程中不斷改變。
6.ANFIS自適應(yīng)神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)鑲嵌在一個全部模糊的結(jié)構(gòu)之中窟感,在不知不覺中向訓練數(shù)據(jù)學習讨彼,自動產(chǎn)生、修正并高度概括出最佳的輸入與輸出變量的隸屬函數(shù)及模糊規(guī)則柿祈;另外哈误,神經(jīng)網(wǎng)絡(luò)的各層結(jié)構(gòu)與參數(shù)也都具有了明確的、易于理解的物理意義躏嚎。
貝葉斯網(wǎng)絡(luò):
貝葉斯網(wǎng)絡(luò)又稱信度網(wǎng)絡(luò)蜜自,是Bayes方法的擴展,是目前不確定知識表達和推理領(lǐng)域最有效的理論模型之一紧索。
支持向量機:
支持向量機是一種通過某種非線性映射袁辈,把低維的非線性可分轉(zhuǎn)化為高維的線性可分,在高維空間進行線性分析的算法珠漂。