關(guān)聯(lián)規(guī)則(以購物籃為例)
支持度:規(guī)則前項LHS和規(guī)則后項RHS所包含的商品同時出現(xiàn)的概率娘锁,LHS和RHS的商品交易次數(shù)/總交易次數(shù)。
support(A=>B)=P(AUB)
置信度:在所有的購買了左邊商品的交易中间雀,同時又購買了右邊商品的交易機(jī)率镊屎,包含規(guī)則兩邊商品的交易次數(shù)/包括規(guī)則左邊商品的交易次數(shù)。
confidence(A=>B)=P(B|A)=support(AUB) / support(A)
提升度:(有這個規(guī)則和沒有這個規(guī)則是否概率會提升匪煌,規(guī)則是否有價值):無任何約束的情況下買后項的交易次數(shù)/置信度党巾。提升度必須大于1才有意義。
lift(A,B)=P(AUB)/P(A)P(B)
關(guān)聯(lián)規(guī)則的挖掘一般分為兩步:
(1)找出頻繁項集
(2)由頻繁項產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則
????????【Apriori算法】逐層搜索的迭代算法驳规。通過掃描數(shù)據(jù)庫累計每個項的計數(shù)署海,并收集滿足最小支持度的項,找出頻繁 i 項集合砸狞,記為Li。
????????【提高Apriori的效率】
(1)基于散列的技術(shù)踱启,散列項集到對應(yīng)的桶中
(2)事物壓縮研底,壓縮進(jìn)一步迭代掃描的事物數(shù)。
(3)抽樣冠蒋,對給定數(shù)據(jù)的一個子集進(jìn)行挖掘
(4)動態(tài)項集計數(shù)乾胶,在掃描的不同點添加候選項集
挖掘頻繁項集的模式增長方法(FP-growth)
(1)將代表頻繁項集的數(shù)據(jù)庫壓縮到一棵頻繁模式樹(FP-樹)朽寞,該樹任然保留項集的關(guān)聯(lián)信息斩郎。
(2)把壓縮后的數(shù)據(jù)庫劃分成一組條件數(shù)據(jù)庫(一種特殊類型的投影數(shù)據(jù)庫),每個數(shù)據(jù)庫關(guān)聯(lián)一個頻繁項或“模式段”吨掌,并分別挖掘每個條件數(shù)據(jù)庫脓恕。
模式評估方法:
(1)提升度
(2)卡方
(3)全置信度
all_conf(A,B)=sup(AUB)/max{sup(A),sup(B)}=min{P(A|B),P(B|A)}
(4)最大置信度
max_conf(A,B)=max{sup(A),sup(B)}
(5)kulczynski
kulc(A,B)=1/2(P(A|B)+P(B|A))
(6)余弦
cosine(A,B)=P(AUB)/((P(A)*P(B))^1/2)=sup(AUB)/((sup(A)*sup(B))^1/2)
【高級模式挖掘】
-----多層關(guān)聯(lián)規(guī)則
------多維關(guān)聯(lián)規(guī)則
------量化關(guān)聯(lián)規(guī)則
-----稀有模式和負(fù)模式
【基于約束的頻繁項挖掘】
【挖掘高維數(shù)據(jù)和巨型模式】
【挖掘壓縮或近似模式】
----通過模式聚類挖掘壓縮模式
-----提取感知冗余的top-k模式
? ? ? ?挖掘top-k個最頻繁模式是一種減少挖掘返回的模式數(shù)量的策略炼幔。