一、數(shù)據(jù)挖掘的過(guò)程
數(shù)據(jù)挖掘使用一定的算法從實(shí)際應(yīng)用數(shù)據(jù)中挖掘出未知溉旋、有價(jià)值的模式或規(guī)律等知識(shí),整個(gè)過(guò)程由數(shù)據(jù)準(zhǔn)備畸冲、數(shù)據(jù)挖掘、模式評(píng)估、鞏固知識(shí)和運(yùn)用知識(shí)等步驟組成邑闲。
1.數(shù)據(jù)準(zhǔn)備算行。數(shù)據(jù)挖掘的處理對(duì)象是數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中,是長(zhǎng)期積累的結(jié)果。但往往不適合直接在這些數(shù)據(jù)上進(jìn)行知識(shí)挖掘,首先要清除數(shù)據(jù)噪聲和與挖掘主題明顯無(wú)關(guān)的數(shù)據(jù);其次將來(lái)自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)組合并;然后將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲(chǔ)形式,這就是數(shù)據(jù)準(zhǔn)備苫耸。
2.數(shù)據(jù)挖掘州邢。數(shù)據(jù)挖掘就是根據(jù)數(shù)據(jù)挖掘的目標(biāo),選取相應(yīng)算法及參數(shù),分析準(zhǔn)備好的數(shù)據(jù),產(chǎn)生一個(gè)特定的模式或數(shù)據(jù)集,從而得到可能形成知識(shí)的模式模型。
3.模式評(píng)估鲸阔。由挖掘算法產(chǎn)生的模式規(guī)律,存在無(wú)實(shí)際意義或無(wú)實(shí)用價(jià)值的情況,也存在不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義的情況,甚至在某些情況下與事實(shí)相反,因此需要對(duì)其進(jìn)行評(píng)估,從挖掘結(jié)果中篩選出有意義的模式規(guī)律偷霉。在此過(guò)程中,為了取得更為有效的知識(shí),可能會(huì)返回前面的某一處理步驟中以反復(fù)提取,從而提取出更有效的知識(shí)。
二褐筛、數(shù)據(jù)挖掘的常用方法
1.決策樹(shù)方法类少。決策樹(shù)是一種常用于預(yù)測(cè)模型的算法,它通過(guò)一系列規(guī)則將大量數(shù)據(jù)有目的分類(lèi),從中找到一些有價(jià)值的、潛在的信息渔扎。它的主要優(yōu)點(diǎn)是描述簡(jiǎn)單,分類(lèi)速度快,易于理解硫狞、精度較高,特別適合大規(guī)模的數(shù)據(jù)處理,在知識(shí)發(fā)現(xiàn)系統(tǒng)中應(yīng)用較廣。它的主要缺點(diǎn)是很難基于多個(gè)變量組合發(fā)現(xiàn)規(guī)則晃痴。在數(shù)據(jù)挖掘中,決策樹(shù)方法主要用于分類(lèi)残吩。
2.神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)是模擬人類(lèi)的形象直覺(jué)思維,在生物神經(jīng)網(wǎng)絡(luò)研究的基礎(chǔ)上,根據(jù)生物神經(jīng)元和神經(jīng)網(wǎng)絡(luò)的特點(diǎn),通過(guò)簡(jiǎn)化倘核、歸納泣侮、提煉總結(jié)出來(lái)的一類(lèi)并行處理網(wǎng)絡(luò),利用其非線(xiàn)性映射的思想和并行處理的方法,用神經(jīng)網(wǎng)絡(luò)本身結(jié)構(gòu)來(lái)表達(dá)輸入和輸出的關(guān)聯(lián)知識(shí)。
3.粗糙集方法紧唱。粗糙集理論是一種研究不精確活尊、不確定知識(shí)的數(shù)學(xué)工具。粗糙集處理的對(duì)象是類(lèi)似二維關(guān)系表的信息表漏益。目前成熟的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)和新發(fā)展起來(lái)的數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng),為粗糙集的數(shù)據(jù)挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)蛹锰。粗糙集理論能夠在缺少先驗(yàn)知識(shí)的情況下,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)處理。在該方法中知識(shí)是以信息系統(tǒng)的形式表示的,先對(duì)信息系統(tǒng)進(jìn)行歸約,再?gòu)慕?jīng)過(guò)歸約后的知識(shí)庫(kù)抽取得到更有價(jià)值绰疤、更準(zhǔn)確的一系列規(guī)則铜犬。因此,基于粗糙集的數(shù)據(jù)挖掘算法實(shí)際上就是對(duì)大量數(shù)據(jù)構(gòu)成的信息系統(tǒng)進(jìn)行約簡(jiǎn),得到一種屬性歸約集的過(guò)程,最后抽取規(guī)則。
4.遺傳算法轻庆。遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法癣猾。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、事先未知的余爆、潛在有用的信息煎谍。因此,許多數(shù)據(jù)挖掘問(wèn)題可以看成是搜索問(wèn)題,數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)為搜索空間,挖掘算法是搜索策略。應(yīng)用遺傳算法在數(shù)據(jù)庫(kù)中進(jìn)行搜索,對(duì)隨機(jī)產(chǎn)生的一組規(guī)則進(jìn)行進(jìn)化,直到數(shù)據(jù)庫(kù)能被該組規(guī)則覆蓋,就可以挖掘出隱含在數(shù)據(jù)庫(kù)中的規(guī)則龙屉。