1伴郁、概述
1.1數(shù)據(jù)挖掘的基本任務(wù)
基本任務(wù)包括分類與預(yù)測、聚類分析蛋叼、關(guān)聯(lián)規(guī)則焊傅、時序模式剂陡、偏差檢測、智能推薦等方法狐胎,通過完成這些任務(wù)鸭栖,發(fā)現(xiàn)數(shù)據(jù)的價值,指導(dǎo)商業(yè)抉擇握巢,帶來商業(yè)新價值晕鹊。
1.2 數(shù)據(jù)挖掘建模過程
1.2.1定義挖掘目標(biāo)
一般可以分為三類:把握趨勢和模式、預(yù)測或分類暴浦、求最優(yōu)解
1.2.2 數(shù)據(jù)取樣
常見的抽樣方法包括:隨機(jī)抽樣溅话、等距抽樣、分層抽樣歌焦、順序抽樣飞几、分類抽樣
1.2.3數(shù)據(jù)探索
這一步考慮的是數(shù)據(jù)集的數(shù)量和質(zhì)量能否滿足建模的要求。包括數(shù)據(jù)質(zhì)量分析和數(shù)據(jù)特征分析
[if !supportLists](1)[endif]數(shù)據(jù)質(zhì)量分析就是檢查原始數(shù)據(jù)中是否存在缺失值独撇、異常值(離群點(diǎn))屑墨、不一致的值、重復(fù)數(shù)據(jù)及含有特殊符號(如#¥@等)的數(shù)據(jù)纷铣。
[if !supportLists](2)[endif]數(shù)據(jù)特征分析包括分布分析绪钥、對比分析、統(tǒng)計(jì)量分析关炼、貢獻(xiàn)度分析程腹、相關(guān)分析和周期性分析等。
分布分析:定量數(shù)據(jù)可做頻率分布圖儒拂,直方圖寸潦、莖葉圖;定性數(shù)據(jù)可用餅圖社痛、條形圖
1.2.4數(shù)據(jù)預(yù)處理
主要包括數(shù)據(jù)清洗见转、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約蒜哀。
[if !supportLists](1)[endif]數(shù)據(jù)清洗:數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù)斩箫、重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù)撵儿,篩選掉與挖掘主題無關(guān)的數(shù)據(jù),處理缺失值和異常值等淀歇。
缺失值主要的處理方式為:刪除記錄易核、數(shù)據(jù)插補(bǔ)和不處理;
異常值主要的處理方式為:刪除異常值浪默、視為缺失值牡直、平均值修正缀匕、不處理
(2)數(shù)據(jù)集成:就是將多個數(shù)據(jù)源合并存放在一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中的過程。在進(jìn)行數(shù)據(jù)集成時要考慮實(shí)體識別問題和屬性冗余問題碰逸。實(shí)體識別:同名異義乡小、異名同義、單位不統(tǒng)一饵史;冗余屬性識別:同一屬性多次出現(xiàn)满钟;同一屬性不同命名;
(3)數(shù)據(jù)變換:對數(shù)據(jù)進(jìn)行規(guī)范化處理约急,將數(shù)據(jù)轉(zhuǎn)換為合理形式零远,以適應(yīng)后續(xù)挖掘任務(wù)和算法。常用規(guī)范化:最小最大規(guī)范化厌蔽,零-均值規(guī)范化
(4)數(shù)據(jù)規(guī)約:產(chǎn)生更小單保持元數(shù)據(jù)完整性的新數(shù)據(jù)集牵辣,使得后續(xù)的數(shù)據(jù)集在進(jìn)行分析和建模時更有效率。包括屬性規(guī)約和數(shù)值規(guī)約兩個方面奴饮。
屬性規(guī)約:通過屬性合并創(chuàng)建新屬性或者直接刪除不相關(guān)的屬性常用方法包括:①合并屬性②逐步向前選擇③逐步向后刪除④決策樹歸納⑤主成分分析纬向,其中②③④屬于直接刪除不相關(guān)屬性,⑤是一種用于連續(xù)屬性的數(shù)據(jù)降維方法
數(shù)值規(guī)約通過選擇替代的戴卜、較小的數(shù)據(jù)來減少數(shù)據(jù)量逾条,包括①參數(shù)方法:回歸,線性模型②無參數(shù)方法:直方圖投剥、聚類师脂、抽樣
1.2.5挖掘建模(這步是關(guān)鍵)
包括分類與預(yù)測算法、最優(yōu)化決策問題
(1)分類與預(yù)測算法:回歸分析江锨,決策樹吃警,人工神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)啄育、支持向量機(jī)
(2)最優(yōu)化決策問題:
a.精確式求解方式:單純形法酌心、分支定界法、列生成法挑豌、割平面法安券、動態(tài)規(guī)劃法等
b.啟發(fā)式方法:進(jìn)化算法、粒子群算法氓英、模擬退火算法侯勉、鄰域搜索算法等
1.2.6 模型評價
對于分類和預(yù)測模型,有一些常用的指標(biāo)用來評估债蓝,當(dāng)然壳鹤,為說明模型的效果,一般是訓(xùn)練集和測試集進(jìn)行分離饰迹,在沒有參與模型建立的測試集上進(jìn)行模型的評價芳誓。
評價指標(biāo)一般包括:相對/絕對誤差,平均絕對誤差啊鸭、均方誤差锹淌、均方根誤差等。
對于一些分類問題赠制,可以通過識別準(zhǔn)確度赂摆、識別精確率、反饋率钟些、ROC曲線烟号、混淆矩陣等方式進(jìn)行評估。