《系統(tǒng)架構(gòu) 設(shè)計(jì)師教程(第4版) 》希賽教育 編著
數(shù)據(jù)挖掘通過(guò)預(yù)測(cè)未來(lái)趨勢(shì)及行為挖帘,做出前攝的亥宿、基于知識(shí)的決策姥敛。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含的道逗、有意義的知識(shí)兵罢,主要有以下五類功能。
1.自動(dòng)預(yù)測(cè)趨勢(shì)和行為
數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫(kù)中尋找預(yù)測(cè)性信息滓窍,以往需要進(jìn)行大量手工分析的問(wèn)題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論卖词。一個(gè)典型的例子是市場(chǎng)預(yù)測(cè)問(wèn)題,數(shù)據(jù)挖掘使用過(guò)去有關(guān)促銷的數(shù)據(jù)來(lái)尋找未來(lái)投資中回報(bào)最大的用戶吏夯,其他可預(yù)測(cè)的問(wèn)題包括預(yù)報(bào)破產(chǎn)及認(rèn)定對(duì)指定事件最可能做出反應(yīng)的群體此蜈。
2.關(guān)聯(lián)分析
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性锦亦,就稱為關(guān)聯(lián)舶替。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)杠园、因果關(guān)聯(lián)顾瞪。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù)抛蚁,即使知道也是不確定的陈醒,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。
3.聚類
數(shù)據(jù)庫(kù)中的記錄可被劃分為一系列有意義的子集瞧甩,即聚類钉跷。聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件肚逸。聚類技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類學(xué)爷辙。20世紀(jì)80年代初彬坏,Mchalski提出了概念聚類技術(shù)及其要點(diǎn),即在劃分對(duì)象時(shí)不僅要考慮對(duì)象之間的距離膝晾,還要求劃分出的類具有某種內(nèi)涵描述栓始,從而避免了傳統(tǒng)技術(shù)的某些片面性。
4.概念描述
概念描述就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述血当,并概括這類對(duì)象的有關(guān)特征幻赚。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對(duì)象的共同特征臊旭,后者描述不同類對(duì)象之間的區(qū)別落恼。生成一個(gè)類的特征性描述只涉及該類對(duì)象中所有對(duì)象的共性。生成區(qū)別性描述的方法很多离熏,如決策樹方法佳谦、遺傳算法等。
5.偏差檢測(cè)
數(shù)據(jù)庫(kù)中的數(shù)據(jù)常有一些異常記錄撤奸,從數(shù)據(jù)庫(kù)中檢測(cè)這些偏差很有意義吠昭。偏差包括很多潛在的知識(shí),如分類中的反常實(shí)例胧瓜、不滿足規(guī)則的特例矢棚、觀測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、量值隨時(shí)間的變化等府喳。偏差檢測(cè)的基本方法是蒲肋,尋找觀測(cè)結(jié)果與參照值之間有意義的差別。