What a heck! 終于開始學(xué)習(xí)數(shù)據(jù)挖掘?qū)崙?zhàn)課程了A硕摹!玄糟!
Lesson 2 數(shù)據(jù)挖掘概況
數(shù)據(jù)挖掘(data mining)勿她,指從大量的數(shù)據(jù)中,通過統(tǒng)計學(xué)阵翎、人工智能逢并、機器學(xué)習(xí)等方法,挖掘出未知的郭卫,且有價值的信息和知識的過程筒狠。
數(shù)據(jù)挖掘是人們處理商業(yè)問題的某些方法,我們通過它來獲得有價值的結(jié)果
模型
定量:數(shù)學(xué)公式 e.g. Y = a*X
定性:規(guī)則 e.g. (年齡>30歲 and 收入>1萬元)
算法
實現(xiàn)數(shù)據(jù)挖掘技術(shù)箱沦、模型的具體步驟與方法
Lesson 3 數(shù)據(jù)挖掘常見問題
從商業(yè)角度辩恼,需要解決哪些問題?
- 用戶流失預(yù)測 (分類問題)
- 促銷活動響應(yīng) (分類問題)
- 目標(biāo)市場細(xì)分 (聚類問題)
- 交叉銷售提升 (關(guān)聯(lián)問題)
- 未來銷量預(yù)測 (預(yù)測問題)
分類問題
分類型目標(biāo)變量(Y) -- 有監(jiān)督學(xué)習(xí)
使用已知目標(biāo)分類的歷史樣本來訓(xùn)練
需要對未知分類的樣本預(yù)測所屬的分類
常見分類方法:決策樹谓形,貝葉斯灶伊,KNN, 支持向量機,神經(jīng)網(wǎng)絡(luò)寒跳,邏輯回歸
解決的商業(yè)問題:預(yù)測用戶流失聘萨,促銷活動響應(yīng),用戶信用評估
聚類問題
無分類目標(biāo)變量(Y) -- 無監(jiān)督學(xué)習(xí)
物以類聚思想
常見分類方法:劃分聚類童太,層次聚類米辐,密度聚類胸完,網(wǎng)格聚類,基于模型聚類
解決的商業(yè)問題:目標(biāo)市場細(xì)分翘贮,指定營銷發(fā)展策略
現(xiàn)有客戶細(xì)分
關(guān)聯(lián)問題赊窥,又稱購物籃問題
無目標(biāo)變量(Y)
基于數(shù)據(jù)項關(guān)聯(lián),描述數(shù)據(jù)項之間的密切程度狸页,識別頻繁發(fā)生的模式
解決的商業(yè)問題:哪些商品同時購買的幾率高锨能,如何提高商品銷售和交叉銷售
預(yù)測問題
數(shù)值型目標(biāo)變量(Y)-- 有監(jiān)督學(xué)習(xí)
需有已知目標(biāo)值的歷史樣本來訓(xùn)練模型
對未知的樣本預(yù)測其目標(biāo)值
常見預(yù)測方法:簡單線性回歸分析,多重線性回歸分析芍耘,時間序列
解決的商業(yè)問題:未來氣溫預(yù)測址遇,GDP增長預(yù)測,收入斋竞、用戶數(shù)預(yù)測
Lesson 4 數(shù)據(jù)挖掘流程
CRISP-DM數(shù)據(jù)挖掘方法論
- 商業(yè)理解
- 確定商業(yè)目標(biāo) (商業(yè)背景倔约,成功標(biāo)準(zhǔn))
- 確定挖掘目標(biāo) (相關(guān)數(shù)據(jù)統(tǒng)計口徑,數(shù)據(jù)時間窗口成功標(biāo)準(zhǔn))
- 制定項目方案(項目計劃坝初,確定建模工具跺株,選用算法)
- 數(shù)據(jù)理解
- 數(shù)據(jù)收集:形成收集報告
- 數(shù)據(jù)描述:求 均值,最大值脖卖,最小值等乒省,形成數(shù)據(jù)描述報告
- 數(shù)據(jù)探索:形成直方圖
- 質(zhì)量描述:形成數(shù)據(jù)質(zhì)量報告
- 數(shù)據(jù)準(zhǔn)備 (數(shù)據(jù)寬表,又稱一維表)
- 數(shù)據(jù)導(dǎo)入
- 數(shù)據(jù)抽取
- 數(shù)據(jù)清洗(缺失畦木,重復(fù)袖扛,異常)
- 數(shù)據(jù)合并 (記錄合并,字段合并十籍,字段匹配)
- 變量計算 (求均值蛆封,占比,標(biāo)準(zhǔn)化值
- 模型構(gòu)建
- 準(zhǔn)備模型的訓(xùn)練集和驗證集
- 選擇并使用建模技術(shù)和算法
- 建立模型
- 模型對比(調(diào)整參數(shù))
- 模型評估
- 技術(shù)層面:設(shè)計對照組進(jìn)行比較勾栗,評估指標(biāo):命中率惨篱,覆蓋率,提升度
- 業(yè)務(wù)經(jīng)驗
- 模型部署
- 營銷過程跟蹤記錄
- 觀察模型衰退變化
- 引入新的特征優(yōu)化模型
- 模型寫成程序固化到平臺
Lesson 5 文本挖掘
語料庫 (Corpus)
要分析的所有文檔的集合
語料庫的構(gòu)建
構(gòu)建方法
os.walk(fileDir)
#fileDir是文件夾路徑
文件讀取
codecs.open(filePath, method, encoding)
#filePath: 文件路徑
#method: 打開方式围俘,r, w, rw
#encoding: 文件的編碼砸讳,中文文件使用UTF-8編碼打開