系統(tǒng)架構(gòu)設(shè)計筆記(13)—— 數(shù)據(jù)挖掘

隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息侦鹏,人們希望能夠?qū)ζ溥M行更高層次的分析候址,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入 种柑、 查詢 岗仑、 統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則聚请,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢荠雕。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導(dǎo)致了 “ 數(shù)據(jù)爆炸但知識貧乏 ” 的現(xiàn)象驶赏。

1 數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘( DataMining )技術(shù)是人們長期對數(shù)據(jù)庫技術(shù)進行研究和開發(fā)的結(jié)果炸卑。起初各種商業(yè)數(shù)據(jù)是存儲在計算機的數(shù)據(jù)庫中的,然后發(fā)展到可對數(shù)據(jù)庫進行查詢和訪問煤傍,進而發(fā)展到對數(shù)據(jù)庫的即時遍歷盖文。數(shù)據(jù)挖掘使數(shù)據(jù)庫技術(shù)進入了一個更高級的階段,它不僅能對過去的數(shù)據(jù)進行查詢和遍歷蚯姆,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系五续,從而促進信息的傳遞。現(xiàn)在數(shù)據(jù)挖掘技術(shù)在商業(yè)應(yīng)用中已經(jīng)可以馬上投入使用龄恋,因為對這種技術(shù)進行支持的三種基礎(chǔ)技術(shù)已經(jīng)發(fā)展成熟疙驾,它們是海量數(shù)據(jù)搜集 、 強大的多處理器計算機和數(shù)據(jù)挖掘算法郭毕。

從技術(shù)角度來看它碎,數(shù)據(jù)挖掘就是從大量的 、 不完全的 显押、 有噪聲的 扳肛、 模糊的 、 隨機的實際應(yīng)用數(shù)據(jù)中乘碑,提取隱含在其中的 挖息、 人們事先不知道的 、 但又是潛在有用的信息和知識的過程蝉仇。這個定義包括好幾層含義:數(shù)據(jù)源必須是真實的 旋讹、 大量的 、 含噪聲的轿衔;發(fā)現(xiàn)的是用戶感興趣的知識沉迹;發(fā)現(xiàn)的知識要可接受 、 可理解 害驹、 可運用鞭呕;并不要求發(fā)現(xiàn)放之四海而皆準的知識,僅支持特定的發(fā)現(xiàn)問題宛官。

還有很多和這一術(shù)語相近的術(shù)語葫松,如從數(shù)據(jù)庫中發(fā)現(xiàn)知識 瓦糕、 數(shù)據(jù)分析 、 數(shù)據(jù)融合( DataFusion )腋么,以及決策支持等咕娄。

何為知識?從廣義上理解珊擂,數(shù)據(jù) 圣勒、 信息也是知識的表現(xiàn)形式,但是人們更把概念 摧扇、 規(guī)則 圣贸、 模式 、 規(guī)律和約束等看做知識扛稽。原始數(shù)據(jù)可以是結(jié)構(gòu)化的吁峻,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的在张,如文本 用含、 圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)瞧掺。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的耕餐,也可以是非數(shù)學(xué)的凡傅;可以是演繹的辟狈,也可以是歸納的。發(fā)現(xiàn)的知識可以被用于信息管理夏跷,查詢優(yōu)化哼转,決策支持和過程控制等,還可以用于數(shù)據(jù)自身的維護槽华。因此壹蔓,數(shù)據(jù)挖掘是一門交叉學(xué)科,它把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢猫态,提升到從數(shù)據(jù)中挖掘知識佣蓉,提供決策支持。在這種需求牽引下亲雪,匯聚了不同領(lǐng)域的研究者勇凭,尤其是數(shù)據(jù)庫技術(shù) 、 人工智能技術(shù) 义辕、 數(shù)理統(tǒng)計 虾标、 可視化技術(shù) 、 并行計算等方面的學(xué)者和工程技術(shù)人員灌砖,投身到數(shù)據(jù)挖掘這一新興的研究領(lǐng)域璧函,形成新的技術(shù)熱點傀蚌。

從商業(yè)角度來看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù)蘸吓,其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取 善炫、 轉(zhuǎn)換 、 分析和其他模型化處理库继,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)销部。

簡而言之,數(shù)據(jù)挖掘其實是一種深層次的數(shù)據(jù)分析方法制跟。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史舅桩,只不過在過去數(shù)據(jù)收集和分析的目的是用于科學(xué)研究,另外雨膨,由于當(dāng)時計算能力的限制擂涛,對大量數(shù)據(jù)進行分析的復(fù)雜數(shù)據(jù)分析方法受到很大限制。現(xiàn)在聊记,由于各行業(yè)業(yè)務(wù)自動化的實現(xiàn)撒妈,商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)不再是為了分析的目的而收集排监,而是由于純機會的商業(yè)運作而產(chǎn)生狰右。分析這些數(shù)據(jù)也不再是單純?yōu)榱搜芯康男枰饕菫樯虡I(yè)決策提供真正有價值的信息舆床,進而獲得利潤棋蚌。但所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少挨队,因此從大量的數(shù)據(jù)中通過深層分析谷暮,獲得有利于商業(yè)運作 、 提高競爭力的信息盛垦,就像從礦石中淘金一樣湿弦,數(shù)據(jù)挖掘也因此而得名。

因此腾夯,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標颊埃,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的 蝶俱、 未知的或驗證已知的規(guī)律性班利,并進一步將其模型化的先進有效的方法。

數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢 跷乐、 報表 肥败、 聯(lián)機應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息 、 發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先知馒稍,有效和可實用三個特征皿哨。

先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識纽谒,甚至是違背直覺的信息或知識证膨,挖掘出的信息越是出乎意料,就可能越有價值鼓黔。在商業(yè)應(yīng)用中最典型的例子就是一家連鎖店通過數(shù)據(jù)挖掘發(fā)現(xiàn)了小孩紙尿布和啤酒之間有著驚人的聯(lián)系央勒。

特別要指出的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的澳化。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用崔步,而且要對這些數(shù)據(jù)進行微觀 、 中觀乃至宏觀的統(tǒng)計 缎谷、 分析 井濒、 綜合和推理,以指導(dǎo)實際問題的求解列林,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián)瑞你,甚至利用已有的數(shù)據(jù)對未來的活動進行預(yù)測。例如希痴,加拿大 BC 省電話公司要求加拿大 SimonFraser 大學(xué)知識發(fā)現(xiàn)研究組者甲,根據(jù)其擁有十多年的客戶數(shù)據(jù),總結(jié) 砌创、 分析并提出新的電話收費和管理辦法虏缸,制定既有利于公司又有利于客戶的優(yōu)惠政策。這樣一來纺铭,就把人們對數(shù)據(jù)的應(yīng)用寇钉,從低層次的末端查詢操作,提高到為各級經(jīng)營決策者提供決策支持舶赔。這種需求驅(qū)動力比數(shù)據(jù)庫查詢更為強大。

2 數(shù)據(jù)挖掘的功能

數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為谦秧,做出前攝的 竟纳、 基于知識的決策。數(shù)據(jù)挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的 疚鲤、 有意義的知識锥累,主要有以下五類功能。

前攝行為(Proactive Behavior)集歇,就是遭遇困境時桶略,反過來控制局面,而不被局面所牽制。 前攝的思想與行為行動(前一活動中的因素對后一活動造成影響的)际歼;具有前瞻性的惶翻,采取先行一步的;積極主動的行為使得局面立刻被控制鹅心。

(1)自動預(yù)測趨勢和行為數(shù)據(jù)挖掘

自動在大型數(shù)據(jù)庫中尋找預(yù)測性信息吕粗,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。一個典型的例子是市場預(yù)測問題旭愧,數(shù)據(jù)挖掘使用過去有關(guān)促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶颅筋,其他可預(yù)測的問題包括預(yù)報破產(chǎn)及認定對指定事件最可能做出反應(yīng)的群體。

(2)關(guān)聯(lián)分析

數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識输枯。若兩個或多個變量的取值之間存在某種規(guī)律性议泵,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián) 桃熄、 時序關(guān)聯(lián) 肢簿、 因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)蜻拨。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù)池充,即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度缎讼。

(3)聚類

聚類數(shù)據(jù)庫中的記錄可被劃分為一系列有意義的子集收夸,即聚類。聚類增強了人們對客觀現(xiàn)實的認識血崭,是概念描述和偏差分析的先決條件卧惜。聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學(xué)分類學(xué) 。20 世紀 80 年代初夹纫, Mchalski 提出了概念聚類技術(shù)及其要點咽瓷,即在劃分對象時不僅要考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性搜立。

(4)概念描述

概念描述就是對某類對象的內(nèi)涵進行描述桩匪,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述钻洒,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別锄开。生成一個類的特征性描述只涉及該類對象中所有對象的共性素标。生成區(qū)別性描述的方法很多,如決策樹方法 萍悴、 遺傳算法等头遭。

(5)偏差檢測

檢測數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄寓免,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識计维,如分類中的反常實例 袜香、 不滿足規(guī)則的特例 、 觀測結(jié)果與模型預(yù)測值的偏差 享潜、 量值隨時間的變化等困鸥。偏差檢測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別剑按。

3 數(shù)據(jù)挖掘常用技術(shù)

常見和應(yīng)用最廣泛的數(shù)據(jù)挖掘方法有 :

  1. 決策樹疾就。利用信息論中的互信息 ( 信息增益 ) 尋找數(shù)據(jù)庫中具有最大信息量的屬性,建立決策樹的一個結(jié)點艺蝴,再根據(jù)該屬性的不同取值建設(shè)樹的分支 : 在每個分支子集中重復(fù)建立樹的下層結(jié)點和分支的過程猬腰。國際上最早的 、 也是最有影響的決策樹方法是 Qiulan 研究的 ID3 方法猜敢。
  2. 神經(jīng)網(wǎng)絡(luò)姑荷。模擬人腦神經(jīng)元結(jié)構(gòu),完成類似統(tǒng)計學(xué)中的判別 缩擂、 回歸 鼠冕、 聚類等功能,是一種非線性的模型胯盯,主要有3種神經(jīng)網(wǎng)絡(luò)模型懈费,分別是前饋式網(wǎng)絡(luò) 、 反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)博脑。人工神經(jīng)網(wǎng)絡(luò)最大的長處是可以自動地從數(shù)據(jù)中學(xué)習(xí)憎乙,形成知識,這些知識有些是我們過去未曾發(fā)現(xiàn)的叉趣,因此它具有較強的創(chuàng)新性泞边。神經(jīng)網(wǎng)絡(luò)的知識體現(xiàn)在網(wǎng)絡(luò)連接的權(quán)值上,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)主要表現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計算上疗杉。
  3. 遺傳算法阵谚。模擬生物進化過程的算法,它由3個基本過程組成乡数,分別是繁殖 ( 選擇 ) 椭蹄、 交叉 ( 重組 ) 、 變異 ( 突變 ) 净赴。采用遺傳算法可以產(chǎn)生優(yōu)良的后代,經(jīng)過若干代的遺傳罩润,將得到滿足要求的后代即問題得解玖翅。
  4. 關(guān)聯(lián)規(guī)則挖掘算法。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)之間存在關(guān)系的規(guī)則,一般分為兩個步驟 : 首先求出大數(shù)據(jù)項集金度,然后用大數(shù)據(jù)項集產(chǎn)生關(guān)聯(lián)規(guī)則应媚。

除了上述的常用方法外,還有粗集方法 猜极、 模糊集合方法 中姜、 最鄰近算法等。無論采用哪種方法完成數(shù)據(jù)挖掘跟伏,從功能上可以將數(shù)據(jù)挖掘的分析方法劃分為6種丢胚,即關(guān)聯(lián)分析 、 序列分析 受扳、 分類 携龟、 預(yù)測 、 聚類分析及時間序列分析等勘高。

(1)關(guān)聯(lián)分析

關(guān)聯(lián)分析主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性峡蟋,即一個事件發(fā)生的同時,另一個事件也經(jīng)常發(fā)生华望。關(guān)聯(lián)分析的重點在于快速發(fā)現(xiàn)那些有實用價值的關(guān)聯(lián)發(fā)生的事件蕊蝗。其主要依據(jù)是事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計意義。

對于結(jié)構(gòu)化的數(shù)據(jù)赖舟,以客戶的購買習(xí)慣數(shù)據(jù)為例蓬戚,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)客戶的關(guān)聯(lián)購買需要建蹄。例如碌更,一個開設(shè)儲蓄賬戶的客戶很可能同時進行債券交易和股票交易,購買紙尿褲的男顧客經(jīng)常同時購買啤酒等洞慎。利用這種知識可以采取積極的營銷策略痛单,擴展客戶購買的產(chǎn)品范圍,吸引更多的客戶劲腿。通過調(diào)整商品的布局便于顧客買到經(jīng)常同時購買的商品旭绒,或者通過降低一種商品的價格來促進另一種商品的銷售等。

對于非結(jié)構(gòu)化的數(shù)據(jù)焦人,以空間數(shù)據(jù)為例挥吵,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)地理位置的關(guān)聯(lián)性花椭。例如忽匈, 85% 的靠近高速公路的大城鎮(zhèn)與水相鄰,或者發(fā)現(xiàn)通常與高爾夫球場相鄰的對象等矿辽。

(2)序列分析

序列分析技術(shù)主要用于發(fā)現(xiàn)一定時間間隔內(nèi)接連發(fā)生的事件丹允。這些事件構(gòu)成一個序列郭厌,發(fā)現(xiàn)的序列應(yīng)該具有普遍意義,其依據(jù)除了統(tǒng)計上的概率之外雕蔽,還要加上時間的約束折柠。

(3)分類分析

分類分析通過分析具有類別的樣本的特點,得到?jīng)Q定樣本屬于各種類別的規(guī)則或方法批狐。利用這些規(guī)則和方法對未知類別的樣本分類時應(yīng)該具有一定的準確度扇售。其主要方法有基于統(tǒng)計學(xué)的貝葉斯方法 、 神經(jīng)網(wǎng)絡(luò)方法 嚣艇、 決策樹方法及支持向量機( supportvectormachines )等承冰。

利用分類技術(shù),可以根據(jù)顧客的消費水平和基本特征對顧客進行分類髓废,找出對商家有較大利益貢獻的重要客戶的特征巷懈,通過對其進行個性化服務(wù),提高他們的忠誠度慌洪。

利用分類技術(shù)顶燕,可以將大量的半結(jié)構(gòu)化的文本數(shù)據(jù),如 WEB 頁面 冈爹、 電子郵件等進行分類涌攻。可以將圖片進行分類频伤,例如恳谎,根據(jù)已有圖片的特點和類別,可以判定一幅圖片屬于何種類型的規(guī)則憋肖。對于空間數(shù)據(jù)因痛,也可以進行分類分析,例如岸更,可以根據(jù)房屋的地理位置決定房屋的檔次鸵膏。

(4)聚類分析

聚類分析是根據(jù)物以類聚的原理,將本身沒有類別的樣本聚集成不同的組怎炊,并且對每一個這樣的組進行描述的過程谭企。其主要依據(jù)是聚到同一個組中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似评肆。

仍以客戶關(guān)系管理為例债查,利用聚類技術(shù),根據(jù)客戶的個人特征及消費數(shù)據(jù)瓜挽,可以將客戶群體進行細分盹廷。例如,可以得到這樣的一個消費群體:女性占 91% 久橙,全部無子女 速和、 年齡在 31 歲到 40 歲占 70% 歹垫,高消費級別的占 64% 剥汤,買過針織品的占 91% 颠放,買過廚房用品的占 89% ,買過園藝用品的占 79%吭敢。 針對不同的客戶群碰凶,可以實施不同的營銷和服務(wù)方式,從而提高客戶的滿意度鹿驼。

對于空間數(shù)據(jù)欲低,根據(jù)地理位置及障礙物的存在情況可以自動進行區(qū)域劃分。例如畜晰,根據(jù)分布在不同地理位置的 ATM 機的情況將居民進行區(qū)域劃分砾莱,根據(jù)這一信息,可以有效地進行 ATM 機的設(shè)置規(guī)劃凄鼻,避免浪費腊瑟,同時也避免失掉每一個商機。

對于文本數(shù)據(jù)块蚌,利用聚類技術(shù)可以根據(jù)文檔的內(nèi)容自動劃分類別闰非,從而便于文本的檢索。

(5)預(yù)測

預(yù)測與分類類似峭范,但預(yù)測是根據(jù)樣本的已知特征估算某個連續(xù)類型的變量的取值的過程财松,而分類則只是用于判別樣本所屬的離散類別而已。預(yù)測常用的技術(shù)是回歸分析纱控。

(6)時間序列

分析時間序列分析的是隨時間而變化的事件序列辆毡,目的是預(yù)測未來發(fā)展趨勢,或者尋找相似發(fā)展模式或者是發(fā)現(xiàn)周期性發(fā)展規(guī)律甜害。

4 數(shù)據(jù)挖掘的流程

數(shù)據(jù)挖掘是指一個完整的過程舶掖,該過程從大型數(shù)據(jù)庫中挖掘先前未知的,有效的唾那,可實用的信息访锻,并使用這些信息做出決策或豐富知識。

數(shù)據(jù)挖掘環(huán)境示意圖如圖 1 所示闹获。

(1)問題定義

問題定義在開始數(shù)據(jù)挖掘之前期犬,最先的也是最重要的要求就是熟悉背景知識,弄清用戶的需求避诽。缺少了背景知識龟虎,就不能明確定義要解決的問題,就不能為挖掘準備優(yōu)質(zhì)的數(shù)據(jù)沙庐,也很難正確地解釋得到的結(jié)果鲤妥。要想充分發(fā)揮數(shù)據(jù)挖掘的價值佳吞,必須對目標有一個清晰明確的定義,即決定到底想干什么棉安。

(2)建立數(shù)據(jù)挖掘庫

要進行數(shù)據(jù)挖掘必須收集要挖掘的數(shù)據(jù)資源底扳。一般建議把要挖掘的數(shù)據(jù)都收集到一個數(shù)據(jù)庫中,而不是采用原有的數(shù)據(jù)庫或數(shù)據(jù)倉庫贡耽。這是因為大部分情況下需要修改要挖掘的數(shù)據(jù)衷模,而且還會遇到采用外部數(shù)據(jù)的情況;另外蒲赂,數(shù)據(jù)挖掘還要對數(shù)據(jù)進行各種紛繁復(fù)雜的統(tǒng)計分析阱冶,而數(shù)據(jù)倉庫可能不支持這些數(shù)據(jù)結(jié)構(gòu)。

(3)分析數(shù)據(jù)

分析數(shù)據(jù)就是通常所進行的對數(shù)據(jù)深入調(diào)查的過程滥嘴。從數(shù)據(jù)集中找出規(guī)律和趨勢木蹬,用聚類分析區(qū)分類別,最終要達到的目的就是搞清楚多因素相互影響的 若皱、 十分復(fù)雜的關(guān)系镊叁,發(fā)現(xiàn)因素之間的相關(guān)性。

(4)調(diào)整數(shù)據(jù)

通過上述步驟的操作是尖,對數(shù)據(jù)的狀態(tài)和趨勢有了進一步的了解意系,這時要盡可能對問題解決的要求能進一步明確化 、 進一步量化饺汹。針對問題的需求對數(shù)據(jù)進行增刪蛔添,按照對整個數(shù)據(jù)挖掘過程的新認識組合或生成一個新的變量,以體現(xiàn)對狀態(tài)的有效描述兜辞。

(5)模型化

在問題進一步明確迎瞧,數(shù)據(jù)結(jié)構(gòu)和內(nèi)容進一步調(diào)整的基礎(chǔ)上,就可以建立形成知識的模型逸吵。這一步是數(shù)據(jù)挖掘的核心環(huán)節(jié)凶硅,一般運用神經(jīng)網(wǎng)絡(luò) 、 決策樹 扫皱、 數(shù)理統(tǒng)計 足绅、 時間序列分析等方法來建立模型。

(6)評價和解釋

上面得到的模式模型韩脑,有可能是沒有實際意義或沒有實用價值的氢妈,也有可能是其不能準確反映數(shù)據(jù)的真實意義,甚至在某些情況下是與事實相反的段多,因此需要評估首量,確定哪些是有效的 、 有用的模式。評估的一種辦法是直接使用原先建立的挖掘數(shù)據(jù)庫中的數(shù)據(jù)來進行檢驗加缘,另一種辦法是另找一批數(shù)據(jù)并對其進行檢驗鸭叙,再一種辦法是在實際運行的環(huán)境中取出新鮮數(shù)據(jù)進行檢驗。


數(shù)據(jù)挖掘過程的分步實現(xiàn)拣宏,不同的步驟需要不同專長的人員沈贝,他們大體可以分為三類。

  1. 業(yè)務(wù)分析人員蚀浆。要求精通業(yè)務(wù)缀程,能夠解釋業(yè)務(wù)對象,并根據(jù)各業(yè)務(wù)對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求市俊。
  2. 數(shù)據(jù)分析人員。精通數(shù)據(jù)分析技術(shù)滤奈,并較熟練地掌握統(tǒng)計學(xué)摆昧,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù)蜒程。
  3. 數(shù)據(jù)管理人員绅你。精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)昭躺。由上可見忌锯,數(shù)據(jù)挖掘是一個多種專家合作的過程,也是一個在資金上和技術(shù)上高投入的過程领炫。這一過程要反復(fù)進行偶垮,在反復(fù)過程中,不斷地趨近事物的本質(zhì)帝洪,不斷地優(yōu)選問題的解決方案似舵。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市葱峡,隨后出現(xiàn)的幾起案子砚哗,更是在濱河造成了極大的恐慌,老刑警劉巖砰奕,帶你破解...
    沈念sama閱讀 218,546評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蛛芥,死亡現(xiàn)場離奇詭異,居然都是意外死亡军援,警方通過查閱死者的電腦和手機仅淑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來盖溺,“玉大人漓糙,你說我怎么就攤上這事『嬷觯” “怎么了昆禽?”我有些...
    開封第一講書人閱讀 164,911評論 0 354
  • 文/不壞的土叔 我叫張陵蝗蛙,是天一觀的道長。 經(jīng)常有香客問我醉鳖,道長捡硅,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,737評論 1 294
  • 正文 為了忘掉前任盗棵,我火速辦了婚禮壮韭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘纹因。我一直安慰自己喷屋,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,753評論 6 392
  • 文/花漫 我一把揭開白布瞭恰。 她就那樣靜靜地躺著屯曹,像睡著了一般。 火紅的嫁衣襯著肌膚如雪惊畏。 梳的紋絲不亂的頭發(fā)上恶耽,一...
    開封第一講書人閱讀 51,598評論 1 305
  • 那天,我揣著相機與錄音颜启,去河邊找鬼偷俭。 笑死,一個胖子當(dāng)著我的面吹牛缰盏,可吹牛的內(nèi)容都是我干的涌萤。 我是一名探鬼主播,決...
    沈念sama閱讀 40,338評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼乳规,長吁一口氣:“原來是場噩夢啊……” “哼形葬!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起暮的,我...
    開封第一講書人閱讀 39,249評論 0 276
  • 序言:老撾萬榮一對情侶失蹤笙以,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后冻辩,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體猖腕,經(jīng)...
    沈念sama閱讀 45,696評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,888評論 3 336
  • 正文 我和宋清朗相戀三年恨闪,在試婚紗的時候發(fā)現(xiàn)自己被綠了倘感。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,013評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡咙咽,死狀恐怖老玛,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤蜡豹,帶...
    沈念sama閱讀 35,731評論 5 346
  • 正文 年R本政府宣布麸粮,位于F島的核電站,受9級特大地震影響镜廉,放射性物質(zhì)發(fā)生泄漏弄诲。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,348評論 3 330
  • 文/蒙蒙 一娇唯、第九天 我趴在偏房一處隱蔽的房頂上張望齐遵。 院中可真熱鬧,春花似錦塔插、人聲如沸梗摇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽留美。三九已至,卻和暖如春伸刃,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背逢倍。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評論 1 270
  • 我被黑心中介騙來泰國打工捧颅, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人较雕。 一個月前我還...
    沈念sama閱讀 48,203評論 3 370
  • 正文 我出身青樓碉哑,卻偏偏與公主長得像,于是被迫代替她去往敵國和親亮蒋。 傳聞我的和親對象是個殘疾皇子扣典,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,960評論 2 355

推薦閱讀更多精彩內(nèi)容