時(shí)間:2019-2-25
一、DATA MINING
1.信息的處理方式——計(jì)算機(jī)的核心
2.進(jìn)行數(shù)據(jù)分析與挖掘(與關(guān)系型DB聯(lián)系緊密)
3.數(shù)據(jù)與知識(shí)
4.定義:數(shù)據(jù)挖掘(Data Mining)就是從大量的虱颗、不完全的吸申、有噪聲的贰锁、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中驯嘱,提取隱含在其中的址芯、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程牧抽。
5.數(shù)據(jù)挖掘的常用方法:
分類、回歸分析扭弧、聚類、關(guān)聯(lián)規(guī)則记舆、特征鸽捻、變化和偏差分析、Web頁(yè)挖掘等
二泽腮、引言
1.概念描述
1)? 數(shù)據(jù)爆炸問(wèn)題
2)? 我們數(shù)據(jù)豐富御蒲,但信息貧乏!(We are drowning in data, but starving for knowledge.)
?3)? 解決方法:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘
聯(lián)機(jī)事務(wù)處理(Online transaction processing,OLTP)——針對(duì)關(guān)系型數(shù)據(jù)庫(kù),如增刪改查的操作
數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理(OLAP)——針對(duì)數(shù)據(jù)倉(cāng)庫(kù)
2. .....她剛才在說(shuō)什么诊赊?厚满?..
3.什么是數(shù)據(jù)挖掘
從海量數(shù)據(jù)中抽取出有用的模式或者知識(shí),這些模式或者知識(shí)應(yīng)該是:
非常識(shí)性碧磅、隱藏的碘箍、當(dāng)前未知的以及潛在有益的遵馆。
有的也稱,KDD.
從數(shù)據(jù)倉(cāng)庫(kù)的角度來(lái)看:數(shù)據(jù)挖掘——知識(shí)發(fā)現(xiàn)過(guò)程的核心丰榴。
KDD的過(guò)程:——見(jiàn)常規(guī)的數(shù)據(jù)分析過(guò)程+數(shù)據(jù)挖掘
注意各個(gè)過(guò)程的數(shù)據(jù)可見(jiàn)的金字塔形货邓。
4.數(shù)據(jù)挖掘和KDD在各個(gè)領(lǐng)域的典型應(yīng)用和作用的方面
5.基于何種數(shù)據(jù)?
關(guān)系數(shù)據(jù)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)
事務(wù)數(shù)據(jù)
其他類型的數(shù)據(jù):空間數(shù)據(jù)四濒;流數(shù)據(jù)换况;ect.
6.數(shù)據(jù)挖掘的功能
1)概念描述:數(shù)據(jù)特征化和數(shù)據(jù)區(qū)分
特征化:數(shù)據(jù)可分為一類(CLASS)的一般特性或特征;
2)? 頻繁模式(或頻繁項(xiàng))(如義)
3)關(guān)聯(lián)與相關(guān)性 (關(guān)聯(lián)性數(shù)值與相關(guān)性數(shù)值不相同)
4)用于預(yù)測(cè)分析的分類和回歸
分類與回歸是兩種不同的預(yù)測(cè)盗蟆。
分類構(gòu)造模型戈二,進(jìn)行分類,用于將來(lái)的預(yù)測(cè)喳资。分類預(yù)測(cè)類別標(biāo)號(hào)觉吭;
分類的表示方式:決策樹,分類規(guī)則骨饿,神經(jīng)網(wǎng)絡(luò)等亏栈。
回歸預(yù)測(cè)一些未知或者丟失的數(shù)值『曜福回歸建立連續(xù)值的函數(shù)模型绒北;
回歸的表示方式:邏輯回歸等。
7.聚類分析(Cluster Analysis)
聚類分析數(shù)據(jù)對(duì)象而不考慮類標(biāo)號(hào)察署。
目標(biāo):最大化類內(nèi)的相似性闷游,最小化類間的相似性。
8.離群點(diǎn)分析
離群點(diǎn):一個(gè)數(shù)據(jù)對(duì)象贴汪,并不遵從這類數(shù)據(jù)的通用行為脐往。
有時(shí)離群點(diǎn),和離群點(diǎn)分析很有用扳埂,并不總是噪音或亂數(shù)據(jù)业簿。