數(shù)據(jù)分析需要掌握的概念
商業(yè)智能 BI熄云、數(shù)據(jù)倉庫 DW膨更、數(shù)據(jù)挖掘 DM 三者之間的關(guān)系
- 商業(yè)智能(Business Intelligence,BI) - 預(yù)測用戶行為
基于數(shù)據(jù)倉庫缴允,經(jīng)過了數(shù)據(jù)挖掘后荚守,得到了商業(yè)價值的過程 - 數(shù)據(jù)倉庫(Data Warehouse,DW): - 存儲用戶數(shù)據(jù) - 金礦
數(shù)據(jù)倉庫將多個數(shù)據(jù)源進(jìn)行匯總练般、整理矗漾,數(shù)據(jù)倉庫量比較龐大,相比數(shù)據(jù)庫是升級的概念 - 數(shù)據(jù)挖掘(Data Mining薄料,DM): - 對個體進(jìn)行行為分析總結(jié)出來規(guī)律 - 煉金術(shù)
包括分類敞贡、聚類、預(yù)測摄职、關(guān)聯(lián)分析等任務(wù)誊役,從數(shù)據(jù)倉庫中得到有用的信息,繪制成商業(yè)報告
元數(shù)據(jù) VS 數(shù)據(jù)元
- 元數(shù)據(jù)(MetaData):描述其它數(shù)據(jù)的數(shù)據(jù)谷市,也稱為“中介數(shù)據(jù)“
- 數(shù)據(jù)元 Data Element):就是最小數(shù)據(jù)單元蛔垢。
數(shù)據(jù)挖掘的流程
英文解釋為 Knowledge Discovery in Database,KDD迫悠,數(shù)據(jù)庫中的知識發(fā)現(xiàn)
包含分類鹏漆、聚類、預(yù)測和關(guān)聯(lián)分析
分類: 就是通過訓(xùn)練集得到一個分類模型创泄,然后用這個模型可以對其他數(shù)據(jù)分類
聚類: 人以群分艺玲,物以類聚。聚類就是將數(shù)據(jù)自動聚類成幾個類別验烧,聚到一起相似度大板驳,不在一起差異性大。我們往往用聚類做數(shù)據(jù)劃分碍拆。
預(yù)測: 就是通過當(dāng)前和歷史數(shù)據(jù)來預(yù)測未來趨勢若治,可以更好地幫助我們識別風(fēng)險和機(jī)遇。
-
關(guān)聯(lián)分析: 就是發(fā)現(xiàn)數(shù)據(jù)中的關(guān)聯(lián)規(guī)則感混,它被廣泛應(yīng)用在購物籃分析端幼,或事務(wù)數(shù)據(jù)分析中。
KDD 過程:
輸入數(shù)據(jù) -> 數(shù)據(jù)預(yù)處理 -> 數(shù)據(jù)挖掘 -> 后處理 -> 信息
數(shù)據(jù)預(yù)處理通常包括:
數(shù)據(jù)清洗:去除重復(fù)數(shù)據(jù)弧满,去噪聲
數(shù)據(jù)集成:將多個數(shù)據(jù)源數(shù)據(jù)統(tǒng)一存放在數(shù)據(jù)存儲中
數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成合適的數(shù)據(jù)挖掘形式婆跑,比如相同的計量單位
- 歸一化 - 數(shù)據(jù)落到 0 - 1 之間
數(shù)據(jù)后處理: 將模型預(yù)測的結(jié)果進(jìn)一步處理后導(dǎo)出
- 比如 0-1 之間的數(shù)據(jù)以 0.5 為界限進(jìn)行四舍五入就可以實現(xiàn)后處理
白話數(shù)據(jù)概念 - 追女孩
- 商業(yè)智能會告訴你要追哪個?成功率多大庭呜?
- 數(shù)據(jù)倉庫會告訴你存儲了這幾個女孩的信息滑进,你要嗎犀忱?
- 每個女孩有單獨文件夾(元數(shù)據(jù)),里面有姓名生日(數(shù)據(jù)元 - 數(shù)據(jù)單元)等
- 數(shù)據(jù)挖掘會幫助你確定追哪個女孩扶关,并且整理好套路給你用
- 分類算法:御姐還是蘿莉
- 女孩太多 - 聚類算法
- 你想要女孩的閨蜜 - 關(guān)聯(lián)分析算法
- 給你推薦女孩的人太多阴汇,有重復(fù) - 數(shù)據(jù)清洗
- 為了方便記憶,把不同朋友推薦的女孩信息和成一個 - 數(shù)據(jù)集成
- 有些女孩給你的體重信息是斤有些是公斤 - 數(shù)據(jù)變換
- 最后數(shù)據(jù)可視化