淺談數(shù)據(jù)挖掘評(píng)估技術(shù)
前言:模型的性能評(píng)估是數(shù)據(jù)挖掘過(guò)程中重要的步驟酱塔,是模型能否投入到實(shí)際使用當(dāng)中的一個(gè)重要環(huán)節(jié)。
一、數(shù)據(jù)挖掘評(píng)估概述
數(shù)據(jù)挖掘過(guò)程中需要評(píng)估過(guò)程的內(nèi)容和環(huán)節(jié)示意圖
其中產(chǎn)生影響的步驟:
1數(shù)據(jù):數(shù)據(jù)應(yīng)用分層法進(jìn)行分類收集和整理荠察,應(yīng)用概念層化方法處理數(shù)據(jù)置蜀。
2參數(shù):利用模型比較技術(shù)來(lái)選取合適的模型,并確定模型的參數(shù)悉盆。
3數(shù)據(jù)挖掘技術(shù):選擇挖掘技術(shù)的時(shí)候盯荤,要考慮數(shù)據(jù)的特性,如果數(shù)據(jù)的分布不是正態(tài)分布焕盟,最好不要使用基于統(tǒng)計(jì)的數(shù)學(xué)模型秋秤。利用模型比較技術(shù),選出離目標(biāo)最好的結(jié)果京髓。
4模型:監(jiān)督的模型利用檢驗(yàn)數(shù)據(jù)進(jìn)行評(píng)估航缀,使用分類正確率和混淆矩陣進(jìn)行商架,再使用置信區(qū)間進(jìn)行可信度評(píng)估堰怨。非監(jiān)督模型利用計(jì)算每個(gè)聚類形成的簇中的實(shí)例與該簇中心的誤差平方作為簇的質(zhì)量的度量。
5檢驗(yàn)集:隨機(jī)抽取數(shù)據(jù)蛇摸,確保數(shù)據(jù)分布备图。
評(píng)估工具
評(píng)估監(jiān)督學(xué)習(xí)模型
上面我們談了如何評(píng)估一個(gè)監(jiān)督的學(xué)習(xí)模型,接下來(lái)我們講述不同的監(jiān)督徐熙模型之間的比較方法:
1使用Lift比較模型
Lift度量了一個(gè)偏差樣本內(nèi)的類C的期望集中度相對(duì)于總體內(nèi)的C的集中度的百分比的變化赶袄。Lift用來(lái)評(píng)估一個(gè)有指導(dǎo)的分類或預(yù)測(cè)模型是否有效揽涮。評(píng)估不同監(jiān)督模型之間的性能優(yōu)越度。
2通過(guò)假設(shè)檢驗(yàn)比較模型
通過(guò)假設(shè)檢驗(yàn)來(lái)比較兩個(gè)用同樣訓(xùn)練集創(chuàng)建的有指導(dǎo)學(xué)習(xí)模型饿肺。
說(shuō)完模型之間的評(píng)估技術(shù)蒋困,接下來(lái)是對(duì)于屬性的評(píng)估
以上就是數(shù)據(jù)挖掘過(guò)程中涉及的內(nèi)容,應(yīng)該使用什么樣的方法來(lái)進(jìn)行評(píng)估敬辣,建立出最優(yōu)模型雪标。