關聯(lián)規(guī)則是形如X→Y的蘊涵式快鱼,其中薄料, X和Y分別稱為關聯(lián)規(guī)則的先導(antecedent或left-hand-side, LHS)和后繼(consequent或right-hand-side, RHS) 朋腋。其中惊来,關聯(lián)規(guī)則XY蝗罗,存在支持度和信任度夹纫。
關聯(lián)規(guī)則的經典案例是購物籃分析(basket relationships)栖忠。
嬰兒尿不濕 → 啤酒
這是發(fā)生在美國沃爾瑪連鎖店超市的真實案例刊懈,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據倉庫系統(tǒng)娃闲,為了能夠準確了解顧客在其門店的購買習慣虚汛,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經常一起購買的商品有哪些皇帮。沃爾瑪數(shù)據倉庫里集中了其各門店的詳細原始交易數(shù)據卷哩。在這些原始交易數(shù)據的基礎上,沃爾瑪利用數(shù)據挖掘方法對這些數(shù)據進行分析和挖掘属拾。一個意外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒将谊!經過大量實際調查和分析,揭示了一個隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國渐白,一些年輕的父親下班后經常要到超市去買嬰兒尿布尊浓,而他們中有30%~40%的人同時也為自己買一些啤酒。產生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布纯衍,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒栋齿。
關聯(lián)規(guī)則數(shù)據挖掘主要目的是為了找出數(shù)據集中的頻繁模式(frequent pattern)和并發(fā)關系(cooccurrence relationships)。但是事件A和事件B一起發(fā)生了一定次數(shù)襟诸,并不一定代表著其中有很強的關聯(lián)性瓦堵,也有可能是偶發(fā)性的事件。是商業(yè)事件中歌亲,偶發(fā)性的事件是不具有價值的菇用。要評估A和B是偶發(fā)性事件還是關聯(lián)性事件,則需要更多的指標來衡量陷揪。
支持度主要衡量規(guī)則的有用性
X→Y的支持度指: 包含XUY的事件數(shù) / 事件全集數(shù) *100%
置信度衡量規(guī)則的確定性(可預測性)
X→Y的置信度指:X和Y共同發(fā)生的事件數(shù)量/包含X的事件數(shù)量* 100%
關于支持度指標的使用惋鸥,我一直存在一些疑問的地方杂穷。
首先,從定義來講卦绣,支持度指 X和Y同時發(fā)生的事件占全部事件集的比例耐量。例如:X→Y的支持度,按照定義應該是指商品X和Y一起下單的訂單量迎卤,除以當天店鋪的全量訂單數(shù)。但是我也有看到csdn上一些文章使用支持度的時候是用XY的交集/ XY的并集玷坠,也就是X和Y同時發(fā)生的概率蜗搔,除以X或Y發(fā)生的概率。包括我所舉的的案例中的支持度“連帶人數(shù)/關聯(lián)支付買家數(shù)”也是屬于后者八堡。
在計算關聯(lián)規(guī)則常用的Apriori算法中(對算法感興趣的可以搜索一下)樟凄,支付度是用來篩選頻繁項級的,也就是說兄渺,“頻繁”出現(xiàn)的事件缝龄,我們認為其關聯(lián)規(guī)則是有效的。在Apriori算法步驟中挂谍,我們先試根據“頻繁項級的所有子集也是頻繁項級”的原則叔壤,將所有可能的事件集合中,發(fā)生頻率小于支持度的事件組合過濾掉口叙。這樣可以加快計算過程炼绘,節(jié)約計算資源。如果一天中妄田,有且僅有一個用戶購買了X和Y商品俺亮,同時沒有其他任何客戶購買X和Y商品。在用上述第二種用法時疟呐,支持度=100%脚曾,但是顯然,這個案例完全不具有普適性启具,這個關聯(lián)規(guī)則屬于偶發(fā)性事件的概率很高本讥。
我們也可以換一個角度理解第二種定義,X和Y同時發(fā)生的概率 / X或Y發(fā)生的概率鲁冯,得到的結果越大囤踩,可以看出,在X和Y的關聯(lián)性越高晓褪。