關(guān)聯(lián)規(guī)則--Apriori算法

~~~相關(guān)案例閱讀書籍《啤酒和尿布--神奇的購物籃分析》~~~


鏈接:https://pan.baidu.com/s/1mi02ALy 密碼:m8ab


以下筆記來源于《數(shù)據(jù)挖掘--方法與應(yīng)用》 清華出版社 ? 第四章相關(guān)性與關(guān)聯(lián)規(guī)則

相關(guān)概念:

1万栅、一般人們會對支持度較高的商品感興趣,即當(dāng)支持度達到一定閾值時烦粒,才有被挖掘的意義。


(這個是我隨便敲的:(

2扰她、相關(guān)性是什么?

3徒役、關(guān)聯(lián)規(guī)則是什么?

從圖中可以看到忧勿,我們買了牛奶杉女,很有可能會去買可樂狐蜕,暗示這兩樣物品之間可能存在的關(guān)系稱為關(guān)聯(lián)規(guī)則宠纯。

4层释、支持度是什么婆瓜?(support)

在學(xué)概率論與數(shù)理統(tǒng)計時贡羔,我們曾了解過古典概率,從圖中可以看到一共有7個人乖寒,同時選了牛奶和可樂的占了3個猴蹂,所以它的概率為3/7楣嘁,在關(guān)聯(lián)規(guī)則中它叫支持度磅轻。

5、閾值是什么聋溜?

也就是最小支持度計數(shù),某一條件出現(xiàn)的最少次數(shù)撮躁。

6漱病、頻繁項集是什么把曼?

當(dāng)某種商品的支持度超過最小支持計數(shù)時,這個商品就叫做頻繁項集嗤军。

7注盈、置信度是什么叙赚?(confidence)

要理解置信度我們先要理解什么是置信區(qū)間当凡,要理解置信區(qū)間我們要著重掌握用樣本估計總體這一核心思想纠俭。

首先真值只能是總體參數(shù),而我們選取的數(shù)據(jù)是樣本數(shù)據(jù)冤荆,點估計是樣本參數(shù)的真實值,而我們需要估計的是總體參數(shù)权纤。

90%的置信度的意思不是這個區(qū)間有90%的概率包含真值。

真值并不會發(fā)生變化汹想,置信區(qū)間會發(fā)生變化。

比如說一個人20歲古掏,20歲這個現(xiàn)狀是不會發(fā)生變化的,我們可能猜他18~22歲槽唾,也可能是覺得他25左右....

所以置信度的意思是,在100個置信區(qū)間中庞萍,有90個區(qū)間cover 了這個真值拧烦。

故而我們拿出一個置信區(qū)間的時候钝计,就覺得它有90%的概率會包含真值恋博。

8、如何計算置信度债沮?

confidence(A→B)=P(B|A)=support(A ∪B)/support(A)=P(A∪B)/P(A)

可以看出在關(guān)聯(lián)規(guī)則中的置信度類同于概率論與數(shù)理統(tǒng)計中的條件概率。

基底是A還是B呢秦士?若是A到B,就是在A的條件下成為B的概率隧土,那么基底就是A提针。

9曹傀、提升度是什么辐脖?(left)

for example:(例子來源于百度知道)貸款客戶的違約率為2%皆愉,你用數(shù)據(jù)挖掘方法建立了一個預(yù)測貸款客戶將來違約可能性的模型嗜价,用這個模型將客戶進行評分后幕庐,違約可能性最高的10%的客戶中,實際違約客戶占了50%异剥,說明你所建立的模型對于這一部分客戶識別的提升率是25(50%是2%的25倍)妈橄,你只要做好這10%的客戶的貸后管理碴开,就能夠避免50%違約客戶的損失送浊,比起你毫無目的地對所有貸款客戶進行貸后管理效率要高得多。

9督怜、如何計算提升度?并且進行判斷号杠。

在圖中我們可以看出有ABCDF五個人買了牛奶,并在該條件下有ACF三個人買了可樂姨蟋,說明P(可樂|牛奶)=3/5,七個人中有五個人買了可樂辣吃,說明大家會去買可樂的概率為5/7芬探,將3/5除以5/7得到3/7,這個值就是提升度(left)偷仿。

當(dāng)left >1時哩簿,說明這個關(guān)聯(lián)規(guī)則是可行的。?

? ? ? ? ? = 1节榜,說明實行不實行都沒有差別。

? ? ? ? ?< 1宗苍,哎算了算了還是原來的樣子吧稼稿,可能買牛奶的都是健康人士都懶得看可樂一眼讳窟。

10、什么是強關(guān)聯(lián)規(guī)則丽啡?

滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則叫做強關(guān)聯(lián)規(guī)則谋右。

(題外話补箍,最小支持度和最小置信度都是大家自己設(shè)的改执,但是怎么設(shè)坑雅,就是經(jīng)驗之談了)

10辈挂、強關(guān)聯(lián)規(guī)則一定是有意義的嗎裹粤?

這里就又要把我們的left拿出來溜溜啦~~

只有l(wèi)eft>1呢岗,(當(dāng)然有時候=1也是ok的) 強關(guān)聯(lián)規(guī)則才有意義蛹尝。

11悉尾、性質(zhì)突那?

如果一個項集是頻繁的构眯,那么它的子項集也是頻繁的愕难,強調(diào)了反單調(diào)性惫霸。

12猫缭、采用什么方式壹店?

逐層搜索猜丹。(爬樓梯回答問題硅卢,挨個回答問題射窒,回答上了就上一層樓,這時將其中兩人捆綁成一組脉顿,按組回答問題,回答上樓艾疟,再講其中三人捆綁成一組来吩,按組回答問題蔽莱,直到將n個人都變成一隊并回答成功問題為止)

13、舉例計算碾褂。




14、瓶頸

1)多次掃描事務(wù)數(shù)據(jù)庫正塌,需要很大的I/O負載嘀略。

? ? ?因為我們要對產(chǎn)生的候選集進行掃描乓诽,確定每一個元素都已通過驗證。如果一個頻繁大項集包含10項鸠天,那么至少要掃描10次讼育。

2)可能產(chǎn)生龐大的候選集稠集。

15奶段、優(yōu)化

1)基于散列的方法剥纷。


2)事務(wù)壓縮

3)基于數(shù)據(jù)劃分的方法

4)基于采樣的方法?

16、用R進行apriori算法(希望我趕緊弄完github然后把案例放上面去嚶嚶嚶)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末晦鞋,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子悠垛,更是在濱河造成了極大的恐慌线定,老刑警劉巖确买,帶你破解...
    沈念sama閱讀 211,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異湾趾,居然都是意外死亡周偎,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,347評論 3 385
  • 文/潘曉璐 我一進店門蓉坎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蛉艾,你說我怎么就攤上這事∥鸷睿” “怎么了?”我有些...
    開封第一講書人閱讀 157,435評論 0 348
  • 文/不壞的土叔 我叫張陵助琐,是天一觀的道長。 經(jīng)常有香客問我兵钮,道長蛆橡,這世上最難降的妖魔是什么掘譬? 我笑而不...
    開封第一講書人閱讀 56,509評論 1 284
  • 正文 為了忘掉前任泰演,我火速辦了婚禮葱轩,結(jié)果婚禮上睦焕,老公的妹妹穿的比我還像新娘靴拱。我一直安慰自己垃喊,他們只是感情好袜炕,可當(dāng)我...
    茶點故事閱讀 65,611評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著妇蛀,像睡著了一般。 火紅的嫁衣襯著肌膚如雪评架。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,837評論 1 290
  • 那天纵诞,我揣著相機與錄音,去河邊找鬼培遵。 笑死登刺,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的纸俭。 我是一名探鬼主播,決...
    沈念sama閱讀 38,987評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼揍很,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了万伤?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,730評論 0 267
  • 序言:老撾萬榮一對情侶失蹤敌买,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后虹钮,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體聋庵,經(jīng)...
    沈念sama閱讀 44,194評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡芜抒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,525評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了宅倒。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,664評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡拐迁,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出线召,到底是詐尸還是另有隱情铺韧,我是刑警寧澤缓淹,帶...
    沈念sama閱讀 34,334評論 4 330
  • 正文 年R本政府宣布哈打,位于F島的核電站讯壶,受9級特大地震影響料仗,放射性物質(zhì)發(fā)生泄漏伏蚊。R本人自食惡果不足惜立轧,卻給世界環(huán)境...
    茶點故事閱讀 39,944評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望氛改。 院中可真熱鬧,春花似錦胜卤、人聲如沸疆导。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,764評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽紫新。三九已至均蜜,卻和暖如春芒率,著一層夾襖步出監(jiān)牢的瞬間囤耳,已是汗流浹背偶芍。 一陣腳步聲響...
    開封第一講書人閱讀 31,997評論 1 266
  • 我被黑心中介騙來泰國打工充择, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留匪蟀,地道東北人椎麦。 一個月前我還...
    沈念sama閱讀 46,389評論 2 360
  • 正文 我出身青樓材彪,卻偏偏與公主長得像观挎,于是被迫代替她去往敵國和親段化。 傳聞我的和親對象是個殘疾皇子嘁捷,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,554評論 2 349

推薦閱讀更多精彩內(nèi)容