常見(jiàn)挖掘模型有以下幾類(lèi):
1 聚類(lèi)
聚類(lèi)(Clustering)是根據(jù)特定的標(biāo)準(zhǔn)將數(shù)據(jù)劃分為不同的組子房。
聚類(lèi)和分類(lèi)(Classification)的不同在于:聚類(lèi)并不決定于事先定義好的種類(lèi)。
聚類(lèi)是一種強(qiáng)大的間接知識(shí)發(fā)現(xiàn)的技術(shù),它大大降低了數(shù)據(jù)的復(fù)雜性晾嘶,提高了數(shù)據(jù)挖掘成功的可能性号醉。
聚類(lèi)產(chǎn)生的結(jié)果也需要人們?nèi)ソ忉尯屠斫庀さ帧>垲?lèi)是將物理或抽象對(duì)象的集合組成為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的過(guò)程岭皂。
聚類(lèi)算法應(yīng)用很廣泛,比如簿透,聚類(lèi)能幫助市場(chǎng)分析人員從用戶(hù)基本信息庫(kù)中發(fā)現(xiàn)不同的用戶(hù)群移袍,有利于用戶(hù)的細(xì)分,并且用不同的購(gòu)買(mǎi)模式來(lái)刻畫(huà)不同的消費(fèi)群體的特征老充。
2 關(guān)聯(lián)
關(guān)聯(lián)分析是指如果兩個(gè)或多個(gè)事物之間存在一定的關(guān)聯(lián)葡盗,那么其中一個(gè)事物就能通過(guò)其他事物進(jìn)行預(yù)測(cè),其目的是為了挖掘隱藏在數(shù)據(jù)間的相互關(guān)系啡浊。
在數(shù)據(jù)挖掘的基本任務(wù)中觅够,關(guān)聯(lián)(Association)和順序序貫?zāi)P停⊿equencing)的關(guān)聯(lián)分析是指搜索事務(wù)數(shù)據(jù)庫(kù)(Transactional Databases)中的所有細(xì)節(jié)或事務(wù),從中尋找重復(fù)出現(xiàn)概率很高的模式或規(guī)則虫啥。
關(guān)聯(lián)分析是尋找同一事件中出現(xiàn)的不同項(xiàng)的相關(guān)性蔚约,比如,一次購(gòu)買(mǎi)活動(dòng)中所買(mǎi)不同商品的相關(guān)性涂籽,利用這些關(guān)聯(lián)規(guī)則可以了解用戶(hù)的行為,這對(duì)于改進(jìn)電商商務(wù)活動(dòng)的決策很有幫助砸抛,比如评雌,可以幫助改進(jìn)商品的擺放等。
3 決策樹(shù)
決策樹(shù)(Decision Trees)主要是指分類(lèi)和回歸樹(shù)(Classification andRegression Trees直焙,CART)景东。它是運(yùn)用最廣泛的數(shù)據(jù)挖掘算法,其中分類(lèi)樹(shù)(Classification Tree)主要用于數(shù)據(jù)記錄的標(biāo)記和歸類(lèi)奔誓;回歸樹(shù)(RegressionTree)主要用于估計(jì)目標(biāo)變量的數(shù)值斤吐。決策樹(shù)的最大優(yōu)點(diǎn)在于它的易于理解搔涝,缺點(diǎn)是難于處理關(guān)系復(fù)雜的數(shù)據(jù)。決策樹(shù)是一種常用于預(yù)測(cè)模型的算法和措,預(yù)測(cè)技術(shù)乃依據(jù)某一特定對(duì)象屬性庄呈,觀察其過(guò)去的行為或歷史資料,推算其未來(lái)的值會(huì)是多少派阱。決策樹(shù)是同時(shí)提供分類(lèi)和預(yù)測(cè)常用的方法诬留。
4 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)(Neural Networks)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型贫母。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度文兑,通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的腺劣。神經(jīng)網(wǎng)絡(luò)廣泛地應(yīng)用于預(yù)測(cè)模型的建立绿贞,與決策樹(shù)一樣,它是目前數(shù)據(jù)挖掘中運(yùn)用最多的算法之一橘原。神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)在于對(duì)復(fù)雜問(wèn)題的預(yù)測(cè)籍铁,但它不能解釋預(yù)測(cè)結(jié)果。因此靠柑,當(dāng)對(duì)規(guī)則的解釋是問(wèn)題的關(guān)鍵時(shí)寨辩,神經(jīng)網(wǎng)絡(luò)并不是一個(gè)好的選擇。此外歼冰,當(dāng)輸入變量過(guò)多(成百上千)時(shí)靡狞,神經(jīng)網(wǎng)絡(luò)難以得到滿(mǎn)意的結(jié)果,這時(shí)隔嫡,通常采取神經(jīng)網(wǎng)絡(luò)和決策樹(shù)結(jié)合的方法甸怕。
神經(jīng)網(wǎng)絡(luò)常用于解決根據(jù)客戶(hù)信息,預(yù)測(cè)客戶(hù)流失的可能性腮恩,以及如何從眾多申請(qǐng)經(jīng)費(fèi)或者納稅中發(fā)現(xiàn)欺詐等問(wèn)題梢杭。
5 回歸
回歸分析的主要內(nèi)容為從一組數(shù)據(jù)出發(fā)確定某些變量之間的定量關(guān)系式,即建立數(shù)學(xué)模型并估計(jì)其中的未知參數(shù)秸滴。估計(jì)參數(shù)的常用方法是最小二乘法武契;對(duì)這些關(guān)系式的可信程度進(jìn)行檢驗(yàn);在許多自變量共同影響著一個(gè)因變量的關(guān)系中荡含,判斷哪個(gè)(或哪些)自變量的影響是顯著的咒唆,哪些自變量的影響是不顯著的,將影響顯著的自變量選入模型中释液,而剔除影響不顯著的變量全释,通常用逐步回歸、向前回歸和向后回歸等方法误债;利用所求的關(guān)系式對(duì)某一生產(chǎn)過(guò)程進(jìn)行預(yù)測(cè)或控制浸船⊥ǎ回歸分析的應(yīng)用是非常廣泛的,利用統(tǒng)計(jì)軟件包可使各種回歸方法的計(jì)算十分方便李命。
回歸常用于自變量與因變量的影響關(guān)系登淘,如使用回歸分析可以解決產(chǎn)品質(zhì)量如何影響用戶(hù)滿(mǎn)意度的問(wèn)題。