~~~相關(guān)案例閱讀書籍《啤酒和尿布--神奇的購物籃分析》~~~
鏈接:https://pan.baidu.com/s/1mi02ALy 密碼:m8ab
以下筆記來源于《數(shù)據(jù)挖掘--方法與應(yīng)用》 清華出版社 ? 第四章相關(guān)性與關(guān)聯(lián)規(guī)則
相關(guān)概念:
1万栅、一般人們會對支持度較高的商品感興趣,即當(dāng)支持度達到一定閾值時烦粒,才有被挖掘的意義。
2扰她、相關(guān)性是什么?
3徒役、關(guān)聯(lián)規(guī)則是什么?
從圖中可以看到忧勿,我們買了牛奶杉女,很有可能會去買可樂狐蜕,暗示這兩樣物品之間可能存在的關(guān)系稱為關(guān)聯(lián)規(guī)則宠纯。
4层释、支持度是什么婆瓜?(support)
在學(xué)概率論與數(shù)理統(tǒng)計時贡羔,我們曾了解過古典概率,從圖中可以看到一共有7個人乖寒,同時選了牛奶和可樂的占了3個猴蹂,所以它的概率為3/7楣嘁,在關(guān)聯(lián)規(guī)則中它叫支持度磅轻。
5、閾值是什么聋溜?
也就是最小支持度計數(shù),某一條件出現(xiàn)的最少次數(shù)撮躁。
6漱病、頻繁項集是什么把曼?
當(dāng)某種商品的支持度超過最小支持計數(shù)時,這個商品就叫做頻繁項集嗤军。
7注盈、置信度是什么叙赚?(confidence)
要理解置信度我們先要理解什么是置信區(qū)間当凡,要理解置信區(qū)間我們要著重掌握用樣本估計總體這一核心思想纠俭。
首先真值只能是總體參數(shù),而我們選取的數(shù)據(jù)是樣本數(shù)據(jù)冤荆,點估計是樣本參數(shù)的真實值,而我們需要估計的是總體參數(shù)权纤。
90%的置信度的意思不是這個區(qū)間有90%的概率包含真值。
真值并不會發(fā)生變化汹想,置信區(qū)間會發(fā)生變化。
比如說一個人20歲古掏,20歲這個現(xiàn)狀是不會發(fā)生變化的,我們可能猜他18~22歲槽唾,也可能是覺得他25左右....
所以置信度的意思是,在100個置信區(qū)間中庞萍,有90個區(qū)間cover 了這個真值拧烦。
故而我們拿出一個置信區(qū)間的時候钝计,就覺得它有90%的概率會包含真值恋博。
8、如何計算置信度债沮?
confidence(A→B)=P(B|A)=support(A ∪B)/support(A)=P(A∪B)/P(A)
可以看出在關(guān)聯(lián)規(guī)則中的置信度類同于概率論與數(shù)理統(tǒng)計中的條件概率。
基底是A還是B呢秦士?若是A到B,就是在A的條件下成為B的概率隧土,那么基底就是A提针。
9曹傀、提升度是什么辐脖?(left)
for example:(例子來源于百度知道)貸款客戶的違約率為2%皆愉,你用數(shù)據(jù)挖掘方法建立了一個預(yù)測貸款客戶將來違約可能性的模型嗜价,用這個模型將客戶進行評分后幕庐,違約可能性最高的10%的客戶中,實際違約客戶占了50%异剥,說明你所建立的模型對于這一部分客戶識別的提升率是25(50%是2%的25倍)妈橄,你只要做好這10%的客戶的貸后管理碴开,就能夠避免50%違約客戶的損失送浊,比起你毫無目的地對所有貸款客戶進行貸后管理效率要高得多。
9督怜、如何計算提升度?并且進行判斷号杠。
在圖中我們可以看出有ABCDF五個人買了牛奶,并在該條件下有ACF三個人買了可樂姨蟋,說明P(可樂|牛奶)=3/5,七個人中有五個人買了可樂辣吃,說明大家會去買可樂的概率為5/7芬探,將3/5除以5/7得到3/7,這個值就是提升度(left)偷仿。
當(dāng)left >1時哩簿,說明這個關(guān)聯(lián)規(guī)則是可行的。?
? ? ? ? ? = 1节榜,說明實行不實行都沒有差別。
? ? ? ? ?< 1宗苍,哎算了算了還是原來的樣子吧稼稿,可能買牛奶的都是健康人士都懶得看可樂一眼讳窟。
10、什么是強關(guān)聯(lián)規(guī)則丽啡?
滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則叫做強關(guān)聯(lián)規(guī)則谋右。
(題外話补箍,最小支持度和最小置信度都是大家自己設(shè)的改执,但是怎么設(shè)坑雅,就是經(jīng)驗之談了)
10辈挂、強關(guān)聯(lián)規(guī)則一定是有意義的嗎裹粤?
這里就又要把我們的left拿出來溜溜啦~~
只有l(wèi)eft>1呢岗,(當(dāng)然有時候=1也是ok的) 強關(guān)聯(lián)規(guī)則才有意義蛹尝。
11悉尾、性質(zhì)突那?
如果一個項集是頻繁的构眯,那么它的子項集也是頻繁的愕难,強調(diào)了反單調(diào)性惫霸。
12猫缭、采用什么方式壹店?
逐層搜索猜丹。(爬樓梯回答問題硅卢,挨個回答問題射窒,回答上了就上一層樓,這時將其中兩人捆綁成一組脉顿,按組回答問題,回答上樓艾疟,再講其中三人捆綁成一組来吩,按組回答問題蔽莱,直到將n個人都變成一隊并回答成功問題為止)
13、舉例計算碾褂。
14、瓶頸
1)多次掃描事務(wù)數(shù)據(jù)庫正塌,需要很大的I/O負載嘀略。
? ? ?因為我們要對產(chǎn)生的候選集進行掃描乓诽,確定每一個元素都已通過驗證。如果一個頻繁大項集包含10項鸠天,那么至少要掃描10次讼育。
2)可能產(chǎn)生龐大的候選集稠集。
15奶段、優(yōu)化
1)基于散列的方法剥纷。
2)事務(wù)壓縮
3)基于數(shù)據(jù)劃分的方法
4)基于采樣的方法?
16、用R進行apriori算法(希望我趕緊弄完github然后把案例放上面去嚶嚶嚶)