挖掘建模概述

1伴郁、概述

1.1數(shù)據(jù)挖掘的基本任務(wù)

基本任務(wù)包括分類與預(yù)測、聚類分析蛋叼、關(guān)聯(lián)規(guī)則焊傅、時序模式剂陡、偏差檢測、智能推薦等方法狐胎,通過完成這些任務(wù)鸭栖,發(fā)現(xiàn)數(shù)據(jù)的價值,指導(dǎo)商業(yè)抉擇握巢,帶來商業(yè)新價值晕鹊。

1.2 數(shù)據(jù)挖掘建模過程

1.2.1定義挖掘目標(biāo)

一般可以分為三類:把握趨勢和模式、預(yù)測或分類暴浦、求最優(yōu)解

1.2.2 數(shù)據(jù)取樣

常見的抽樣方法包括:隨機(jī)抽樣溅话、等距抽樣、分層抽樣歌焦、順序抽樣飞几、分類抽樣

1.2.3數(shù)據(jù)探索

這一步考慮的是數(shù)據(jù)集的數(shù)量和質(zhì)量能否滿足建模的要求。包括數(shù)據(jù)質(zhì)量分析和數(shù)據(jù)特征分析

[if !supportLists](1)[endif]數(shù)據(jù)質(zhì)量分析就是檢查原始數(shù)據(jù)中是否存在缺失值独撇、異常值(離群點(diǎn))屑墨、不一致的值、重復(fù)數(shù)據(jù)及含有特殊符號(如#¥@等)的數(shù)據(jù)纷铣。

[if !supportLists](2)[endif]數(shù)據(jù)特征分析包括分布分析绪钥、對比分析、統(tǒng)計(jì)量分析关炼、貢獻(xiàn)度分析程腹、相關(guān)分析和周期性分析等。

分布分析:定量數(shù)據(jù)可做頻率分布圖儒拂,直方圖寸潦、莖葉圖;定性數(shù)據(jù)可用餅圖社痛、條形圖

1.2.4數(shù)據(jù)預(yù)處理

主要包括數(shù)據(jù)清洗见转、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約蒜哀。

[if !supportLists](1)[endif]數(shù)據(jù)清洗:數(shù)據(jù)清洗主要是刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù)斩箫、重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù)撵儿,篩選掉與挖掘主題無關(guān)的數(shù)據(jù),處理缺失值和異常值等淀歇。

缺失值主要的處理方式為:刪除記錄易核、數(shù)據(jù)插補(bǔ)和不處理;

異常值主要的處理方式為:刪除異常值浪默、視為缺失值牡直、平均值修正缀匕、不處理

(2)數(shù)據(jù)集成:就是將多個數(shù)據(jù)源合并存放在一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中的過程。在進(jìn)行數(shù)據(jù)集成時要考慮實(shí)體識別問題和屬性冗余問題碰逸。實(shí)體識別:同名異義乡小、異名同義、單位不統(tǒng)一饵史;冗余屬性識別:同一屬性多次出現(xiàn)满钟;同一屬性不同命名;

(3)數(shù)據(jù)變換:對數(shù)據(jù)進(jìn)行規(guī)范化處理约急,將數(shù)據(jù)轉(zhuǎn)換為合理形式零远,以適應(yīng)后續(xù)挖掘任務(wù)和算法。常用規(guī)范化:最小最大規(guī)范化厌蔽,零-均值規(guī)范化

(4)數(shù)據(jù)規(guī)約:產(chǎn)生更小單保持元數(shù)據(jù)完整性的新數(shù)據(jù)集牵辣,使得后續(xù)的數(shù)據(jù)集在進(jìn)行分析和建模時更有效率。包括屬性規(guī)約和數(shù)值規(guī)約兩個方面奴饮。

屬性規(guī)約:通過屬性合并創(chuàng)建新屬性或者直接刪除不相關(guān)的屬性常用方法包括:①合并屬性②逐步向前選擇③逐步向后刪除④決策樹歸納⑤主成分分析纬向,其中②③④屬于直接刪除不相關(guān)屬性,⑤是一種用于連續(xù)屬性的數(shù)據(jù)降維方法

數(shù)值規(guī)約通過選擇替代的戴卜、較小的數(shù)據(jù)來減少數(shù)據(jù)量逾条,包括①參數(shù)方法:回歸,線性模型②無參數(shù)方法:直方圖投剥、聚類师脂、抽樣

1.2.5挖掘建模(這步是關(guān)鍵)

包括分類與預(yù)測算法、最優(yōu)化決策問題

(1)分類與預(yù)測算法:回歸分析江锨,決策樹吃警,人工神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)啄育、支持向量機(jī)

(2)最優(yōu)化決策問題:

a.精確式求解方式:單純形法酌心、分支定界法、列生成法挑豌、割平面法安券、動態(tài)規(guī)劃法等

b.啟發(fā)式方法:進(jìn)化算法、粒子群算法氓英、模擬退火算法侯勉、鄰域搜索算法等

1.2.6 模型評價

對于分類和預(yù)測模型,有一些常用的指標(biāo)用來評估债蓝,當(dāng)然壳鹤,為說明模型的效果,一般是訓(xùn)練集和測試集進(jìn)行分離饰迹,在沒有參與模型建立的測試集上進(jìn)行模型的評價芳誓。

評價指標(biāo)一般包括:相對/絕對誤差,平均絕對誤差啊鸭、均方誤差锹淌、均方根誤差等。

對于一些分類問題赠制,可以通過識別準(zhǔn)確度赂摆、識別精確率、反饋率钟些、ROC曲線烟号、混淆矩陣等方式進(jìn)行評估。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末政恍,一起剝皮案震驚了整個濱河市汪拥,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌篙耗,老刑警劉巖迫筑,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異宗弯,居然都是意外死亡脯燃,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進(jìn)店門蒙保,熙熙樓的掌柜王于貴愁眉苦臉地迎上來辕棚,“玉大人,你說我怎么就攤上這事邓厕∈藕浚” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵邑狸,是天一觀的道長懈糯。 經(jīng)常有香客問我,道長单雾,這世上最難降的妖魔是什么赚哗? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮硅堆,結(jié)果婚禮上屿储,老公的妹妹穿的比我還像新娘。我一直安慰自己渐逃,他們只是感情好够掠,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著茄菊,像睡著了一般疯潭。 火紅的嫁衣襯著肌膚如雪赊堪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天竖哩,我揣著相機(jī)與錄音哭廉,去河邊找鬼。 笑死相叁,一個胖子當(dāng)著我的面吹牛遵绰,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播增淹,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼椿访,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了虑润?” 一聲冷哼從身側(cè)響起成玫,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎端辱,沒想到半個月后梁剔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡舞蔽,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年荣病,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片渗柿。...
    茶點(diǎn)故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡个盆,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出朵栖,到底是詐尸還是另有隱情颊亮,我是刑警寧澤,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布陨溅,位于F島的核電站终惑,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏门扇。R本人自食惡果不足惜雹有,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望臼寄。 院中可真熱鬧霸奕,春花似錦、人聲如沸吉拳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至煤惩,卻和暖如春嫉嘀,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背盟庞。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工吃沪, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留汤善,地道東北人什猖。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像红淡,于是被迫代替她去往敵國和親不狮。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容