先從概念上了解數(shù)據(jù)挖掘
為什么進(jìn)行數(shù)據(jù)挖掘
我們生活在大量數(shù)據(jù)日積月累的年代。分析這些數(shù)據(jù)是一種重要需求。
數(shù)據(jù)挖掘能把大型數(shù)據(jù)轉(zhuǎn)化成知識(shí)
數(shù)據(jù)挖掘是信息數(shù)據(jù)的進(jìn)化
可以挖掘什么樣的數(shù)據(jù)
數(shù)據(jù)庫(kù)數(shù)據(jù)
關(guān)系數(shù)據(jù)庫(kù)是表的匯集,表中通常有大量關(guān)系數(shù)據(jù)
數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)
數(shù)據(jù)倉(cāng)庫(kù)是從一個(gè)或者多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ)庫(kù)浴捆,存放在一致的模式下,并且通常駐留在單個(gè)站點(diǎn)
事務(wù)數(shù)據(jù)
事務(wù)數(shù)據(jù)庫(kù)的一個(gè)記錄代表一個(gè)事務(wù),比如顧客的一次購(gòu)物
其他類型數(shù)據(jù)
比如多媒體數(shù)據(jù)等等...
可以挖掘什么類型的模式
特征化與區(qū)分
數(shù)據(jù)特征化
目標(biāo)類數(shù)據(jù)的一般或者全部匯總泡态,特征化的輸出一般使用餅圖、條形圖迂卢、曲線圖等等兽赁,比如匯總一年花費(fèi)5000元以上的用戶
數(shù)據(jù)區(qū)分
將數(shù)據(jù)對(duì)象的一般特征進(jìn)行比較
挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性
用于預(yù)測(cè)分析的分類與回歸
分類:找出描述和區(qū)分?jǐn)?shù)據(jù)類或者概念的模型冷守,比如決策樹
相關(guān)分析:試圖識(shí)別與分類與回歸過(guò)程顯著相關(guān)的屬性
回歸:一種常用的數(shù)值預(yù)測(cè)的統(tǒng)計(jì)學(xué)方法
聚類分析
分析數(shù)據(jù)對(duì)象刀崖,不考慮類標(biāo)號(hào)
離群點(diǎn)分析
對(duì)和一般數(shù)據(jù)特征明顯不同的數(shù)據(jù)進(jìn)行分析
使用的技術(shù)
統(tǒng)計(jì)學(xué):研究數(shù)據(jù)的收集、分析拍摇、解釋和表示
機(jī)器學(xué)習(xí):分為監(jiān)督學(xué)習(xí)亮钦、無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)三種
數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)
信息檢索
面向什么類型的應(yīng)用
哪里有數(shù)據(jù),哪里就有數(shù)據(jù)挖掘
電子商務(wù)
web搜索引擎
等等..
數(shù)據(jù)挖掘面臨的問(wèn)題
1充活、挖掘方法
2蜂莉、用戶交互
3、有效性與可伸縮性
4混卵、數(shù)據(jù)類型的多樣性
5映穗、數(shù)據(jù)挖掘與社會(huì)