6.1
6.2
(a)不能需要的其它信息可以是閉頻繁項集,算法可以參照6.1
(b)項集X是閉項集屡江,如果不存在真超項集Y芭概,使得Y與X具有相同的支持度計數(shù);而如果項集X是生成元惩嘉,如果不存在其真子集Y罢洲,使得Y與X具有相同的支持度計數(shù)∥睦瑁可見惹苗,閉項集考察的是真超項集,生成元考察的是真子集耸峭;閉頻繁項集包含了關(guān)于頻繁項集的完整信息鸽粉,而頻繁生成元集并不包含對應的頻繁項集的完整支持度信息。
6.3
(a)設(shè)s是一個頻繁項集抓艳,min_sup是(相對)最小支持度閾值触机,任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,|D|是D中的事務(wù)數(shù)量玷或,則support_count(s)>=min_sup*|D|儡首;再設(shè)s’是s的非空子集,則任何包含項集s的事務(wù)將同樣包含項集s’偏友,即support_count(s’)≥support_count(s) ≥min_sup*|D|蔬胯,所以s’也是一個頻繁項集。
(b)設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合位他,|D|是D的事務(wù)量氛濒,由定義得:
support(s)=support_count(s)/|D|
設(shè)s’是s的非空子集,由定義得:support(s’)=support_count(s’)/|D|
由(a)可知:support(s’)≥support(s)
由此證明鹅髓,項集s的任意非空子集s’的至少和s的支持度一樣大舞竿。
(c)設(shè)s是l的子集,則confidence(s=>(l-s))=support(l)/support(s)
設(shè)s’是s的非空子集窿冯,則confidence(s’=>(l-s’))=support(l)/support(s’)
由(b)可知:support_count(s’)≥support_count(s)骗奖,此外,confidence((s’)=>(l-s’))≤confidence((s)=>(l-s))
所以,規(guī)則”s’=>(l-s’)”的置信度不可能大于”s=>(l-s)”
(d)證明:假設(shè)頻繁項集F在事務(wù)數(shù)據(jù)庫D中的任何一個分區(qū)中都是非頻繁的执桌。令C表示D中的所有事務(wù)量鄙皇;令A表示D中包含頻繁模式F的事務(wù)量,令min_sup表示最小支持度閾值仰挣,令d1,d2,..,dn表示D的n個不重疊的分區(qū)伴逸,ci表示分區(qū)di中的事務(wù)總數(shù),ai表示分區(qū)di中包含F(xiàn)的事務(wù)數(shù)膘壶。所以错蝴,C=c1+c2+..+cn,A=a1+a2+..+an。因為F是一個頻繁項集香椎,所以A>=C*min_sup,即(a1+a2+..+an)>=(c1+c2+...+cn)*min_sup禽篱。又因為F在每個分區(qū)中都是不頻繁的畜伐,所以對于任意i,ai=(c1+c2+...+cn)*min_sup)矛盾。所以得到:D中頻繁的項集至少在D的一個分區(qū)中是頻繁的躺率。
6.4
6.5
圖5.1給出了一種從頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則的算法玛界,它比6.2.2節(jié)介紹的方法更加高效是因為它只生成且測試必要的子集。如果一個長度為k的子集x不滿足最低可信度悼吱,那么就沒有意義的生成它的非空子集慎框,因為這些子集的置信度將永遠不會大于x的置信度(參照習題6.3(b)6.3(c))。然而后添,如果x滿足最低可信度笨枯,那么我們就生成且測試他的(k-1)子集,使用這個標準遇西,我們從n項集的(n-1)子集逐漸到1子集馅精。從另一方面講,6.2.2中的方法是一個強力的方法粱檀,生成頻繁項集L的所有非空子集洲敢,然后測試他們是否存在潛在的關(guān)聯(lián)規(guī)則。這是不高效的茄蚯,因為會產(chǎn)生很多不必要的子集压彭。如果我們考慮最糟的情況,有k-項集b渗常,k是個很大的數(shù)壮不。假設(shè)沒有b的(k-1)子集滿足最小置信度,6.2.2中的方法仍然會不必要的生成所有非空子集且測試皱碘。新方法則不同忆畅,他會只生成b的(k-1)子集,確定沒有規(guī)則滿足最小置信度,會避免生成和測試更多的子集家凯,從而節(jié)省大量不必要的計算缓醋。
6.6
(a)Apriori
FP-growth:
有效性比較:Apriori需要多次掃描數(shù)據(jù)庫而FP增長建立FP樹只需一次的掃描。在Apriori算法中產(chǎn)生候選是昂貴的(由于聯(lián)接)绊诲,而FP增長不產(chǎn)生任何候選送粱。
(b)k,o→e[0.6,1]e,o→k[0.6,1]
6.8
(a)K=3,頻繁3項集是{Bread,Milk,Cheese}。關(guān)聯(lián)規(guī)則是:
K=3掂之,頻繁3-項集是{Bread,Milk,Cheese}
關(guān)聯(lián)規(guī)則是:
Bread^Cheese=>Milk,[75%,100%]
Cheese^Milk=>Bread,[75%,100%]
Cheese=>Milk^Bread,[75%,100%]
(b)K=3抗俄,頻繁3-項集是{(Wonder-Bread,Dairyland-Milk,Tasty-Pie),(Wonder-Bread,Sunset-Milk,Dairyland-Cheese)}
6.14
(a)根據(jù)規(guī)則世舰,support=2000/5000=40%,confidence=2000/3000=66.7%
該規(guī)則是強規(guī)則动雹。
(b)corr{hotdog,hamburger}=P({hotdog,hamburger})/(P{hotdog})P({hamburger})=0.4/(0.5*0.6)=1.33>1,所以,買hotdog不是獨立于買hamburger跟压。兩者存在正相關(guān)關(guān)系胰蝠。
(c)全置信度為:2/3
最大置信度為:0.8
Kulczynski為:11/15
余弦:(8/15)^(1/2)
提升度:4/3
相關(guān)度:833.33
比較:就此數(shù)據(jù)而言,全置信度震蒋,最大置信度茸塞,Kulczynski,余弦的值(均小于1)與提升度,相關(guān)度(均大于1)的值存在明顯差異查剖;四個新的度量顯示兩種產(chǎn)品存在正相關(guān)钾虐,與提升度和相關(guān)度的分析結(jié)果相同。