關聯(lián)規(guī)則

關聯(lián)規(guī)則是形如X→Y的蘊涵式快鱼,其中薄料, X和Y分別稱為關聯(lián)規(guī)則的先導(antecedent或left-hand-side, LHS)和后繼(consequent或right-hand-side, RHS) 朋腋。其中惊来,關聯(lián)規(guī)則XY蝗罗,存在支持度和信任度夹纫。

關聯(lián)規(guī)則的經典案例是購物籃分析(basket relationships)栖忠。

嬰兒尿不濕 → 啤酒

這是發(fā)生在美國沃爾瑪連鎖店超市的真實案例刊懈,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據倉庫系統(tǒng)娃闲,為了能夠準確了解顧客在其門店的購買習慣虚汛,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些皇帮。沃爾瑪數(shù)據倉庫里集中了其各門店的詳細原始交易數(shù)據卷哩。在這些原始交易數(shù)據的基礎上,沃爾瑪利用數(shù)據挖掘方法對這些數(shù)據進行分析和挖掘属拾。一個意外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒将谊!經過大量實際調查和分析,揭示了一個隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國渐白,一些年輕的父親下班后經常要到超市去買嬰兒尿布尊浓,而他們中有30%~40%的人同時也為自己買一些啤酒。產生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布纯衍,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒栋齿。

關聯(lián)規(guī)則數(shù)據挖掘主要目的是為了找出數(shù)據集中的頻繁模式(frequent pattern)和并發(fā)關系(cooccurrence relationships)。但是事件A和事件B一起發(fā)生了一定次數(shù)襟诸,并不一定代表著其中有很強的關聯(lián)性瓦堵,也有可能是偶發(fā)性的事件。是商業(yè)事件中歌亲,偶發(fā)性的事件是不具有價值的菇用。要評估A和B是偶發(fā)性事件還是關聯(lián)性事件,則需要更多的指標來衡量陷揪。

支持度主要衡量規(guī)則的有用性

X→Y的支持度指: 包含XUY的事件數(shù) / 事件全集數(shù) *100%

置信度衡量規(guī)則的確定性(可預測性)

X→Y的置信度指:X和Y共同發(fā)生的事件數(shù)量/包含X的事件數(shù)量* 100%

關于支持度指標的使用惋鸥,我一直存在一些疑問的地方杂穷。

首先,從定義來講卦绣,支持度指 X和Y同時發(fā)生的事件占全部事件集的比例耐量。例如:X→Y的支持度,按照定義應該是指商品X和Y一起下單的訂單量迎卤,除以當天店鋪的全量訂單數(shù)。但是我也有看到csdn上一些文章使用支持度的時候是用XY的交集/ XY的并集玷坠,也就是X和Y同時發(fā)生的概率蜗搔,除以X或Y發(fā)生的概率。包括我所舉的的案例中的支持度“連帶人數(shù)/關聯(lián)支付買家數(shù)”也是屬于后者八堡。

在計算關聯(lián)規(guī)則常用的Apriori算法中(對算法感興趣的可以搜索一下)樟凄,支付度是用來篩選頻繁項級的,也就是說兄渺,“頻繁”出現(xiàn)的事件缝龄,我們認為其關聯(lián)規(guī)則是有效的。在Apriori算法步驟中挂谍,我們先試根據“頻繁項級的所有子集也是頻繁項級”的原則叔壤,將所有可能的事件集合中,發(fā)生頻率小于支持度的事件組合過濾掉口叙。這樣可以加快計算過程炼绘,節(jié)約計算資源。如果一天中妄田,有且僅有一個用戶購買了X和Y商品俺亮,同時沒有其他任何客戶購買X和Y商品。在用上述第二種用法時疟呐,支持度=100%脚曾,但是顯然,這個案例完全不具有普適性启具,這個關聯(lián)規(guī)則屬于偶發(fā)性事件的概率很高本讥。

我們也可以換一個角度理解第二種定義,X和Y同時發(fā)生的概率 / X或Y發(fā)生的概率鲁冯,得到的結果越大囤踩,可以看出,在X和Y的關聯(lián)性越高晓褪。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末堵漱,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子涣仿,更是在濱河造成了極大的恐慌勤庐,老刑警劉巖示惊,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異愉镰,居然都是意外死亡米罚,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進店門丈探,熙熙樓的掌柜王于貴愁眉苦臉地迎上來录择,“玉大人,你說我怎么就攤上這事碗降“撸” “怎么了?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵讼渊,是天一觀的道長动看。 經常有香客問我,道長爪幻,這世上最難降的妖魔是什么菱皆? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮挨稿,結果婚禮上仇轻,老公的妹妹穿的比我還像新娘。我一直安慰自己奶甘,他們只是感情好拯田,可當我...
    茶點故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著甩十,像睡著了一般船庇。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上侣监,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天鸭轮,我揣著相機與錄音,去河邊找鬼橄霉。 笑死窃爷,一個胖子當著我的面吹牛,可吹牛的內容都是我干的姓蜂。 我是一名探鬼主播按厘,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼钱慢!你這毒婦竟也來了逮京?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤束莫,失蹤者是張志新(化名)和其女友劉穎懒棉,沒想到半個月后草描,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡策严,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年穗慕,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片妻导。...
    茶點故事閱讀 38,724評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡逛绵,死狀恐怖,靈堂內的尸體忽然破棺而出倔韭,到底是詐尸還是另有隱情术浪,我是刑警寧澤,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布狐肢,位于F島的核電站添吗,受9級特大地震影響沥曹,放射性物質發(fā)生泄漏份名。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一妓美、第九天 我趴在偏房一處隱蔽的房頂上張望僵腺。 院中可真熱鬧,春花似錦壶栋、人聲如沸辰如。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽琉兜。三九已至,卻和暖如春毙玻,著一層夾襖步出監(jiān)牢的瞬間豌蟋,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工桑滩, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留梧疲,地道東北人。 一個月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓运准,卻偏偏與公主長得像幌氮,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子胁澳,可洞房花燭夜當晚...
    茶點故事閱讀 43,627評論 2 350