2019-04-23 《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》筆記

17年暑假看過(guò)的《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》發(fā)現(xiàn)挺不錯(cuò)的森瘪,最近拿來(lái)繼續(xù)翻一翻牡属,總結(jié)一下數(shù)據(jù)挖掘里經(jīng)典的方法,敲一敲代碼扼睬。


簡(jiǎn)述:


第一章的總結(jié)表格




1逮栅、K-NN:

優(yōu)點(diǎn):精度高、對(duì)異常值不敏感,無(wú)數(shù)據(jù)輸入假設(shè)

缺點(diǎn):計(jì)算復(fù)雜度高措伐,空間復(fù)雜度高

適用數(shù)據(jù)范圍:數(shù)值型和標(biāo)稱型

(無(wú)監(jiān)督分類方法特纤,初始需要?jiǎng)澐忠恍╊悇e)



2、歸一化數(shù)值?

newValue=(oldValue-min)/(max-min)將任意值轉(zhuǎn)化到0-1之間侥加。

也可以使用normalization



3叫潦、決策樹(shù)

優(yōu)點(diǎn):計(jì)算復(fù)雜度不高,輸出結(jié)果易于理解官硝,對(duì)中間值的缺失不敏感矗蕊,可以處理不相關(guān)特征數(shù)據(jù)。(決策樹(shù)算法是一種有監(jiān)督分類算法)

缺點(diǎn):可能會(huì)產(chǎn)生過(guò)度匹配問(wèn)題

適用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型氢架。


每個(gè)類的信息值:l(x_i)=-log_2 p(x_i)

原始的信息熵:H(X)=-\sum_{i=1}^n p_i log_2p_i

按第i個(gè)特征分類后傻咖,得到的新的分類數(shù)為k,則按第i個(gè)特征分類后的信息熵為:H(\tilde{X} )=-\sum_{i=1}^k p_i log_2 p_i

則信息熵增益為:\Delta (X)=H(X)-H(\tilde{X})

計(jì)算得到最大的信息熵增益的那個(gè)特征岖研,作為本次分類的特征卿操。



4、樸素貝葉斯


5孙援、Logistic回歸


6害淤、支持向量機(jī)


7、利用Adaboost提高分類性能


10拓售、K-means



【重點(diǎn)】11窥摄、使用Apriori算法進(jìn)行關(guān)聯(lián)分析

從大規(guī)模數(shù)據(jù)集中尋找物品間的隱含關(guān)系被稱作關(guān)聯(lián)分析或者關(guān)聯(lián)規(guī)則學(xué)習(xí)。

Apriori算法:

優(yōu)點(diǎn):易編碼實(shí)現(xiàn)

缺點(diǎn):在大數(shù)據(jù)集熵可能較慢

適用數(shù)據(jù)類型:數(shù)值型或者標(biāo)稱型數(shù)據(jù)础淤。

關(guān)聯(lián)分析是一種在大規(guī)模數(shù)據(jù)集中尋找有趣關(guān)系的任務(wù)崭放,這些關(guān)系可以有兩種形式:頻繁項(xiàng)集或者關(guān)聯(lián)規(guī)則頻繁項(xiàng)集是經(jīng)常出現(xiàn)在一塊的物品的集合鸽凶,關(guān)聯(lián)規(guī)則按時(shí)梁總物品之間可能存在很強(qiáng)的關(guān)系币砂。一個(gè)項(xiàng)集的支持度被定義為數(shù)據(jù)集中包含該項(xiàng)集的記錄所占的比例。支持度是針對(duì)項(xiàng)集來(lái)說(shuō)的玻侥,因此可以定義一個(gè)最小支持度决摧。可信度或置信度是針對(duì)一條關(guān)聯(lián)規(guī)則來(lái)定義的。支持度和可信度是用來(lái)量化關(guān)聯(lián)分析是否成功的方法凑兰。

Apriori(a priori掌桩,一個(gè)先驗(yàn))原理是說(shuō)如果某個(gè)項(xiàng)集是頻繁的,那么它的素有子集也是頻繁的票摇。這個(gè)原理轉(zhuǎn)上并沒(méi)有什么幫助拘鞋,但是如果反過(guò)來(lái)看既有用了,也就是說(shuō)如果一個(gè)項(xiàng)集是非頻繁集矢门,那么它的所有超集也是非頻繁集盆色。

Apriori算法是發(fā)現(xiàn)頻繁項(xiàng)集的一種方法灰蛙,Apriori算法的兩個(gè)輸入?yún)?shù)分別是最小支持度和數(shù)據(jù)集。該算法首先會(huì)生成所有單個(gè)物品的項(xiàng)集列表隔躲,接著掃描交易記錄來(lái)查看哪些項(xiàng)集滿足最小支持度要求摩梧,哪些不滿意最小支持度要求的集合會(huì)被去掉。然后對(duì)剩下的集合進(jìn)行組合以生成包含兩個(gè)元素的項(xiàng)集宣旱。接下來(lái)仅父,再重新掃描交易記錄,去掉不滿足最小支持度的項(xiàng)集浑吟。該過(guò)程重復(fù)進(jìn)行直到所有項(xiàng)集都被去掉笙纤。




【重點(diǎn)】12、使用FP-growth算法來(lái)高效發(fā)現(xiàn)頻繁項(xiàng)集

FP-growth比Apriori算法要快组力,它基于Apriori構(gòu)建省容,但是在完成相同任務(wù)時(shí)采用了一些不同的技術(shù),這里的任務(wù)是將數(shù)據(jù)集存儲(chǔ)咋一個(gè)特定的稱作FP樹(shù)的結(jié)構(gòu)之后發(fā)現(xiàn)頻繁項(xiàng)集或者頻繁項(xiàng)對(duì)燎字。FP-growth執(zhí)行速度要比Apriori快2個(gè)數(shù)量級(jí)以上腥椒。但是該算法不能用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。FP-growth算法只需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行兩次掃描候衍。

優(yōu)點(diǎn):比Apriori快

缺點(diǎn):實(shí)現(xiàn)比較困難笼蛛,在某些數(shù)據(jù)集上性能會(huì)下降

適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市蛉鹿,隨后出現(xiàn)的幾起案子滨砍,更是在濱河造成了極大的恐慌,老刑警劉巖榨为,帶你破解...
    沈念sama閱讀 211,743評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件惨好,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡随闺,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)蔓腐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)矩乐,“玉大人,你說(shuō)我怎么就攤上這事回论∩⒑保” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,285評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵傀蓉,是天一觀的道長(zhǎng)欧漱。 經(jīng)常有香客問(wèn)我,道長(zhǎng)葬燎,這世上最難降的妖魔是什么误甚? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,485評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上仅政,老公的妹妹穿的比我還像新娘魁淳。我一直安慰自己,他們只是感情好冈钦,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,581評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布郊丛。 她就那樣靜靜地躺著,像睡著了一般瞧筛。 火紅的嫁衣襯著肌膚如雪厉熟。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,821評(píng)論 1 290
  • 那天较幌,我揣著相機(jī)與錄音庆猫,去河邊找鬼。 笑死绅络,一個(gè)胖子當(dāng)著我的面吹牛月培,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播恩急,決...
    沈念sama閱讀 38,960評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼杉畜,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了衷恭?” 一聲冷哼從身側(cè)響起此叠,我...
    開(kāi)封第一講書(shū)人閱讀 37,719評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎随珠,沒(méi)想到半個(gè)月后灭袁,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,186評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡窗看,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,516評(píng)論 2 327
  • 正文 我和宋清朗相戀三年茸歧,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片显沈。...
    茶點(diǎn)故事閱讀 38,650評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡软瞎,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出拉讯,到底是詐尸還是另有隱情涤浇,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評(píng)論 4 330
  • 正文 年R本政府宣布魔慷,位于F島的核電站只锭,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏院尔。R本人自食惡果不足惜蜻展,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,936評(píng)論 3 313
  • 文/蒙蒙 一喉誊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧铺呵,春花似錦裹驰、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,757評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至音念,卻和暖如春沪饺,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背闷愤。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,991評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工整葡, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人讥脐。 一個(gè)月前我還...
    沈念sama閱讀 46,370評(píng)論 2 360
  • 正文 我出身青樓遭居,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親旬渠。 傳聞我的和親對(duì)象是個(gè)殘疾皇子俱萍,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,527評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容