17年暑假看過(guò)的《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》發(fā)現(xiàn)挺不錯(cuò)的森瘪,最近拿來(lái)繼續(xù)翻一翻牡属,總結(jié)一下數(shù)據(jù)挖掘里經(jīng)典的方法,敲一敲代碼扼睬。
簡(jiǎn)述:
1逮栅、K-NN:
優(yōu)點(diǎn):精度高、對(duì)異常值不敏感,無(wú)數(shù)據(jù)輸入假設(shè)
缺點(diǎn):計(jì)算復(fù)雜度高措伐,空間復(fù)雜度高
適用數(shù)據(jù)范圍:數(shù)值型和標(biāo)稱型
(無(wú)監(jiān)督分類方法特纤,初始需要?jiǎng)澐忠恍╊悇e)
2、歸一化數(shù)值?
newValue=(oldValue-min)/(max-min)將任意值轉(zhuǎn)化到0-1之間侥加。
也可以使用normalization
3叫潦、決策樹(shù)
優(yōu)點(diǎn):計(jì)算復(fù)雜度不高,輸出結(jié)果易于理解官硝,對(duì)中間值的缺失不敏感矗蕊,可以處理不相關(guān)特征數(shù)據(jù)。(決策樹(shù)算法是一種有監(jiān)督分類算法)
缺點(diǎn):可能會(huì)產(chǎn)生過(guò)度匹配問(wèn)題
適用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型氢架。
每個(gè)類的信息值:
原始的信息熵:
按第i個(gè)特征分類后傻咖,得到的新的分類數(shù)為k,則按第i個(gè)特征分類后的信息熵為:
則信息熵增益為:
計(jì)算得到最大的信息熵增益的那個(gè)特征岖研,作為本次分類的特征卿操。
4、樸素貝葉斯
5孙援、Logistic回歸
6害淤、支持向量機(jī)
7、利用Adaboost提高分類性能
10拓售、K-means
【重點(diǎn)】11窥摄、使用Apriori算法進(jìn)行關(guān)聯(lián)分析
從大規(guī)模數(shù)據(jù)集中尋找物品間的隱含關(guān)系被稱作關(guān)聯(lián)分析或者關(guān)聯(lián)規(guī)則學(xué)習(xí)。
Apriori算法:
優(yōu)點(diǎn):易編碼實(shí)現(xiàn)
缺點(diǎn):在大數(shù)據(jù)集熵可能較慢
適用數(shù)據(jù)類型:數(shù)值型或者標(biāo)稱型數(shù)據(jù)础淤。
關(guān)聯(lián)分析是一種在大規(guī)模數(shù)據(jù)集中尋找有趣關(guān)系的任務(wù)崭放,這些關(guān)系可以有兩種形式:頻繁項(xiàng)集或者關(guān)聯(lián)規(guī)則。頻繁項(xiàng)集是經(jīng)常出現(xiàn)在一塊的物品的集合鸽凶,關(guān)聯(lián)規(guī)則按時(shí)梁總物品之間可能存在很強(qiáng)的關(guān)系币砂。一個(gè)項(xiàng)集的支持度被定義為數(shù)據(jù)集中包含該項(xiàng)集的記錄所占的比例。支持度是針對(duì)項(xiàng)集來(lái)說(shuō)的玻侥,因此可以定義一個(gè)最小支持度决摧。可信度或置信度是針對(duì)一條關(guān)聯(lián)規(guī)則來(lái)定義的。支持度和可信度是用來(lái)量化關(guān)聯(lián)分析是否成功的方法凑兰。
Apriori(a priori掌桩,一個(gè)先驗(yàn))原理是說(shuō)如果某個(gè)項(xiàng)集是頻繁的,那么它的素有子集也是頻繁的票摇。這個(gè)原理轉(zhuǎn)上并沒(méi)有什么幫助拘鞋,但是如果反過(guò)來(lái)看既有用了,也就是說(shuō)如果一個(gè)項(xiàng)集是非頻繁集矢门,那么它的所有超集也是非頻繁集盆色。
Apriori算法是發(fā)現(xiàn)頻繁項(xiàng)集的一種方法灰蛙,Apriori算法的兩個(gè)輸入?yún)?shù)分別是最小支持度和數(shù)據(jù)集。該算法首先會(huì)生成所有單個(gè)物品的項(xiàng)集列表隔躲,接著掃描交易記錄來(lái)查看哪些項(xiàng)集滿足最小支持度要求摩梧,哪些不滿意最小支持度要求的集合會(huì)被去掉。然后對(duì)剩下的集合進(jìn)行組合以生成包含兩個(gè)元素的項(xiàng)集宣旱。接下來(lái)仅父,再重新掃描交易記錄,去掉不滿足最小支持度的項(xiàng)集浑吟。該過(guò)程重復(fù)進(jìn)行直到所有項(xiàng)集都被去掉笙纤。
【重點(diǎn)】12、使用FP-growth算法來(lái)高效發(fā)現(xiàn)頻繁項(xiàng)集
FP-growth比Apriori算法要快组力,它基于Apriori構(gòu)建省容,但是在完成相同任務(wù)時(shí)采用了一些不同的技術(shù),這里的任務(wù)是將數(shù)據(jù)集存儲(chǔ)咋一個(gè)特定的稱作FP樹(shù)的結(jié)構(gòu)之后發(fā)現(xiàn)頻繁項(xiàng)集或者頻繁項(xiàng)對(duì)燎字。FP-growth執(zhí)行速度要比Apriori快2個(gè)數(shù)量級(jí)以上腥椒。但是該算法不能用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。FP-growth算法只需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行兩次掃描候衍。
優(yōu)點(diǎn):比Apriori快
缺點(diǎn):實(shí)現(xiàn)比較困難笼蛛,在某些數(shù)據(jù)集上性能會(huì)下降
適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)