06. 學(xué)數(shù)據(jù)分析要掌握哪些基本概念?

數(shù)據(jù)分析需要掌握的概念

商業(yè)智能 BI熄云、數(shù)據(jù)倉庫 DW膨更、數(shù)據(jù)挖掘 DM 三者之間的關(guān)系

  • 商業(yè)智能(Business Intelligence,BI) - 預(yù)測用戶行為
    基于數(shù)據(jù)倉庫缴允,經(jīng)過了數(shù)據(jù)挖掘后荚守,得到了商業(yè)價值的過程
  • 數(shù)據(jù)倉庫(Data Warehouse,DW): - 存儲用戶數(shù)據(jù) - 金礦
    數(shù)據(jù)倉庫將多個數(shù)據(jù)源進(jìn)行匯總练般、整理矗漾,數(shù)據(jù)倉庫量比較龐大,相比數(shù)據(jù)庫是升級的概念
  • 數(shù)據(jù)挖掘(Data Mining薄料,DM): - 對個體進(jìn)行行為分析總結(jié)出來規(guī)律 - 煉金術(shù)
    包括分類敞贡、聚類、預(yù)測摄职、關(guān)聯(lián)分析等任務(wù)誊役,從數(shù)據(jù)倉庫中得到有用的信息,繪制成商業(yè)報告

元數(shù)據(jù) VS 數(shù)據(jù)元

  • 元數(shù)據(jù)(MetaData):描述其它數(shù)據(jù)的數(shù)據(jù)谷市,也稱為“中介數(shù)據(jù)“
  • 數(shù)據(jù)元 Data Element):就是最小數(shù)據(jù)單元蛔垢。

數(shù)據(jù)挖掘的流程

英文解釋為 Knowledge Discovery in Database,KDD迫悠,數(shù)據(jù)庫中的知識發(fā)現(xiàn)
包含分類鹏漆、聚類、預(yù)測和關(guān)聯(lián)分析

  1. 分類: 就是通過訓(xùn)練集得到一個分類模型创泄,然后用這個模型可以對其他數(shù)據(jù)分類

  2. 聚類: 人以群分艺玲,物以類聚。聚類就是將數(shù)據(jù)自動聚類成幾個類別验烧,聚到一起相似度大板驳,不在一起差異性大。我們往往用聚類做數(shù)據(jù)劃分碍拆。

  3. 預(yù)測: 就是通過當(dāng)前和歷史數(shù)據(jù)來預(yù)測未來趨勢若治,可以更好地幫助我們識別風(fēng)險和機(jī)遇。

  4. 關(guān)聯(lián)分析: 就是發(fā)現(xiàn)數(shù)據(jù)中的關(guān)聯(lián)規(guī)則感混,它被廣泛應(yīng)用在購物籃分析端幼,或事務(wù)數(shù)據(jù)分析中。


    image.png

KDD 過程:
輸入數(shù)據(jù) -> 數(shù)據(jù)預(yù)處理 -> 數(shù)據(jù)挖掘 -> 后處理 -> 信息

數(shù)據(jù)預(yù)處理通常包括:
數(shù)據(jù)清洗:去除重復(fù)數(shù)據(jù)弧满,去噪聲
數(shù)據(jù)集成:將多個數(shù)據(jù)源數(shù)據(jù)統(tǒng)一存放在數(shù)據(jù)存儲中
數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成合適的數(shù)據(jù)挖掘形式婆跑,比如相同的計量單位

  • 歸一化 - 數(shù)據(jù)落到 0 - 1 之間

數(shù)據(jù)后處理: 將模型預(yù)測的結(jié)果進(jìn)一步處理后導(dǎo)出

  • 比如 0-1 之間的數(shù)據(jù)以 0.5 為界限進(jìn)行四舍五入就可以實現(xiàn)后處理

白話數(shù)據(jù)概念 - 追女孩

  • 商業(yè)智能會告訴你要追哪個?成功率多大庭呜?
  • 數(shù)據(jù)倉庫會告訴你存儲了這幾個女孩的信息滑进,你要嗎犀忱?
  • 每個女孩有單獨文件夾(元數(shù)據(jù)),里面有姓名生日(數(shù)據(jù)元 - 數(shù)據(jù)單元)等
  • 數(shù)據(jù)挖掘會幫助你確定追哪個女孩扶关,并且整理好套路給你用
  • 分類算法:御姐還是蘿莉
  • 女孩太多 - 聚類算法
  • 你想要女孩的閨蜜 - 關(guān)聯(lián)分析算法
  • 給你推薦女孩的人太多阴汇,有重復(fù) - 數(shù)據(jù)清洗
  • 為了方便記憶,把不同朋友推薦的女孩信息和成一個 - 數(shù)據(jù)集成
  • 有些女孩給你的體重信息是斤有些是公斤 - 數(shù)據(jù)變換
  • 最后數(shù)據(jù)可視化

上帝不會告訴我們規(guī)律节槐,而是展示給我們數(shù)據(jù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末搀庶,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子铜异,更是在濱河造成了極大的恐慌哥倔,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件揍庄,死亡現(xiàn)場離奇詭異咆蒿,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)蚂子,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評論 2 384
  • 文/潘曉璐 我一進(jìn)店門蜡秽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人缆镣,你說我怎么就攤上這事∈哉悖” “怎么了董瞻?”我有些...
    開封第一講書人閱讀 156,674評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長田巴。 經(jīng)常有香客問我钠糊,道長,這世上最難降的妖魔是什么壹哺? 我笑而不...
    開封第一講書人閱讀 56,340評論 1 283
  • 正文 為了忘掉前任抄伍,我火速辦了婚禮,結(jié)果婚禮上管宵,老公的妹妹穿的比我還像新娘截珍。我一直安慰自己,他們只是感情好箩朴,可當(dāng)我...
    茶點故事閱讀 65,404評論 5 384
  • 文/花漫 我一把揭開白布岗喉。 她就那樣靜靜地躺著,像睡著了一般炸庞。 火紅的嫁衣襯著肌膚如雪钱床。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,749評論 1 289
  • 那天埠居,我揣著相機(jī)與錄音查牌,去河邊找鬼事期。 笑死,一個胖子當(dāng)著我的面吹牛纸颜,可吹牛的內(nèi)容都是我干的兽泣。 我是一名探鬼主播,決...
    沈念sama閱讀 38,902評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼懂衩,長吁一口氣:“原來是場噩夢啊……” “哼撞叨!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起浊洞,我...
    開封第一講書人閱讀 37,662評論 0 266
  • 序言:老撾萬榮一對情侶失蹤牵敷,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后法希,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體枷餐,經(jīng)...
    沈念sama閱讀 44,110評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年苫亦,在試婚紗的時候發(fā)現(xiàn)自己被綠了毛肋。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,577評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡屋剑,死狀恐怖润匙,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情唉匾,我是刑警寧澤孕讳,帶...
    沈念sama閱讀 34,258評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站巍膘,受9級特大地震影響厂财,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜峡懈,卻給世界環(huán)境...
    茶點故事閱讀 39,848評論 3 312
  • 文/蒙蒙 一璃饱、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧肪康,春花似錦荚恶、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至齐唆,卻和暖如春嗤栓,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評論 1 264
  • 我被黑心中介騙來泰國打工茉帅, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留叨叙,地道東北人。 一個月前我還...
    沈念sama閱讀 46,271評論 2 360
  • 正文 我出身青樓堪澎,卻偏偏與公主長得像擂错,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子樱蛤,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,452評論 2 348

推薦閱讀更多精彩內(nèi)容