數(shù)據(jù)挖掘課后習題 第6章

6.1


6.2

(a)不能需要的其它信息可以是閉頻繁項集,算法可以參照6.1

(b)項集X是閉項集屡江,如果不存在真超項集Y芭概,使得Y與X具有相同的支持度計數(shù);而如果項集X是生成元惩嘉,如果不存在其真子集Y罢洲,使得Y與X具有相同的支持度計數(shù)∥睦瑁可見惹苗,閉項集考察的是真超項集,生成元考察的是真子集耸峭;閉頻繁項集包含了關(guān)于頻繁項集的完整信息鸽粉,而頻繁生成元集并不包含對應的頻繁項集的完整支持度信息。

6.3

(a)設(shè)s是一個頻繁項集抓艳,min_sup是(相對)最小支持度閾值触机,任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,|D|是D中的事務(wù)數(shù)量玷或,則support_count(s)>=min_sup*|D|儡首;再設(shè)s’是s的非空子集,則任何包含項集s的事務(wù)將同樣包含項集s’偏友,即support_count(s’)≥support_count(s) ≥min_sup*|D|蔬胯,所以s’也是一個頻繁項集。

(b)設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合位他,|D|是D的事務(wù)量氛濒,由定義得:

support(s)=support_count(s)/|D|

設(shè)s’是s的非空子集,由定義得:support(s’)=support_count(s’)/|D|

由(a)可知:support(s’)≥support(s)

由此證明鹅髓,項集s的任意非空子集s’的至少和s的支持度一樣大舞竿。

(c)設(shè)s是l的子集,則confidence(s=>(l-s))=support(l)/support(s)

設(shè)s’是s的非空子集窿冯,則confidence(s’=>(l-s’))=support(l)/support(s’)

由(b)可知:support_count(s’)≥support_count(s)骗奖,此外,confidence((s’)=>(l-s’))≤confidence((s)=>(l-s))

所以,規(guī)則”s’=>(l-s’)”的置信度不可能大于”s=>(l-s)”

(d)證明:假設(shè)頻繁項集F在事務(wù)數(shù)據(jù)庫D中的任何一個分區(qū)中都是非頻繁的执桌。令C表示D中的所有事務(wù)量鄙皇;令A表示D中包含頻繁模式F的事務(wù)量,令min_sup表示最小支持度閾值仰挣,令d1,d2,..,dn表示D的n個不重疊的分區(qū)伴逸,ci表示分區(qū)di中的事務(wù)總數(shù),ai表示分區(qū)di中包含F(xiàn)的事務(wù)數(shù)膘壶。所以错蝴,C=c1+c2+..+cn,A=a1+a2+..+an。因為F是一個頻繁項集香椎,所以A>=C*min_sup,即(a1+a2+..+an)>=(c1+c2+...+cn)*min_sup禽篱。又因為F在每個分區(qū)中都是不頻繁的畜伐,所以對于任意i,ai=(c1+c2+...+cn)*min_sup)矛盾。所以得到:D中頻繁的項集至少在D的一個分區(qū)中是頻繁的躺率。


6.4


6.5


圖5.1給出了一種從頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則的算法玛界,它比6.2.2節(jié)介紹的方法更加高效是因為它只生成且測試必要的子集。如果一個長度為k的子集x不滿足最低可信度悼吱,那么就沒有意義的生成它的非空子集慎框,因為這些子集的置信度將永遠不會大于x的置信度(參照習題6.3(b)6.3(c))。然而后添,如果x滿足最低可信度笨枯,那么我們就生成且測試他的(k-1)子集,使用這個標準遇西,我們從n項集的(n-1)子集逐漸到1子集馅精。從另一方面講,6.2.2中的方法是一個強力的方法粱檀,生成頻繁項集L的所有非空子集洲敢,然后測試他們是否存在潛在的關(guān)聯(lián)規(guī)則。這是不高效的茄蚯,因為會產(chǎn)生很多不必要的子集压彭。如果我們考慮最糟的情況,有k-項集b渗常,k是個很大的數(shù)壮不。假設(shè)沒有b的(k-1)子集滿足最小置信度,6.2.2中的方法仍然會不必要的生成所有非空子集且測試皱碘。新方法則不同忆畅,他會只生成b的(k-1)子集,確定沒有規(guī)則滿足最小置信度,會避免生成和測試更多的子集家凯,從而節(jié)省大量不必要的計算缓醋。

6.6

(a)Apriori


FP-growth:


有效性比較:Apriori需要多次掃描數(shù)據(jù)庫而FP增長建立FP樹只需一次的掃描。在Apriori算法中產(chǎn)生候選是昂貴的(由于聯(lián)接)绊诲,而FP增長不產(chǎn)生任何候選送粱。

(b)k,o→e[0.6,1]e,o→k[0.6,1]

6.8

(a)K=3,頻繁3項集是{Bread,Milk,Cheese}。關(guān)聯(lián)規(guī)則是:

K=3掂之,頻繁3-項集是{Bread,Milk,Cheese}

關(guān)聯(lián)規(guī)則是:

Bread^Cheese=>Milk,[75%,100%]

Cheese^Milk=>Bread,[75%,100%]

Cheese=>Milk^Bread,[75%,100%]

(b)K=3抗俄,頻繁3-項集是{(Wonder-Bread,Dairyland-Milk,Tasty-Pie),(Wonder-Bread,Sunset-Milk,Dairyland-Cheese)}

6.14

(a)根據(jù)規(guī)則世舰,support=2000/5000=40%,confidence=2000/3000=66.7%

該規(guī)則是強規(guī)則动雹。

(b)corr{hotdog,hamburger}=P({hotdog,hamburger})/(P{hotdog})P({hamburger})=0.4/(0.5*0.6)=1.33>1,所以,買hotdog不是獨立于買hamburger跟压。兩者存在正相關(guān)關(guān)系胰蝠。

(c)全置信度為:2/3

最大置信度為:0.8

Kulczynski為:11/15

余弦:(8/15)^(1/2)

提升度:4/3

相關(guān)度:833.33

比較:就此數(shù)據(jù)而言,全置信度震蒋,最大置信度茸塞,Kulczynski,余弦的值(均小于1)與提升度,相關(guān)度(均大于1)的值存在明顯差異查剖;四個新的度量顯示兩種產(chǎn)品存在正相關(guān)钾虐,與提升度和相關(guān)度的分析結(jié)果相同。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末笋庄,一起剝皮案震驚了整個濱河市效扫,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌直砂,老刑警劉巖哆键,帶你破解...
    沈念sama閱讀 216,919評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件掘托,死亡現(xiàn)場離奇詭異,居然都是意外死亡籍嘹,警方通過查閱死者的電腦和手機闪盔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來辱士,“玉大人泪掀,你說我怎么就攤上這事∷痰猓” “怎么了异赫?”我有些...
    開封第一講書人閱讀 163,316評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我塔拳,道長鼠证,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,294評論 1 292
  • 正文 為了忘掉前任靠抑,我火速辦了婚禮量九,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘颂碧。我一直安慰自己荠列,他們只是感情好,可當我...
    茶點故事閱讀 67,318評論 6 390
  • 文/花漫 我一把揭開白布载城。 她就那樣靜靜地躺著肌似,像睡著了一般。 火紅的嫁衣襯著肌膚如雪诉瓦。 梳的紋絲不亂的頭發(fā)上川队,一...
    開封第一講書人閱讀 51,245評論 1 299
  • 那天,我揣著相機與錄音垦搬,去河邊找鬼呼寸。 笑死艳汽,一個胖子當著我的面吹牛猴贰,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播河狐,決...
    沈念sama閱讀 40,120評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼米绕,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了馋艺?” 一聲冷哼從身側(cè)響起栅干,我...
    開封第一講書人閱讀 38,964評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎捐祠,沒想到半個月后碱鳞,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,376評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡踱蛀,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,592評論 2 333
  • 正文 我和宋清朗相戀三年窿给,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片率拒。...
    茶點故事閱讀 39,764評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡崩泡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出猬膨,到底是詐尸還是另有隱情角撞,我是刑警寧澤,帶...
    沈念sama閱讀 35,460評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站谒所,受9級特大地震影響热康,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜百炬,卻給世界環(huán)境...
    茶點故事閱讀 41,070評論 3 327
  • 文/蒙蒙 一褐隆、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧剖踊,春花似錦庶弃、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,697評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至梆造,卻和暖如春缴守,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背镇辉。 一陣腳步聲響...
    開封第一講書人閱讀 32,846評論 1 269
  • 我被黑心中介騙來泰國打工屡穗, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人忽肛。 一個月前我還...
    沈念sama閱讀 47,819評論 2 370
  • 正文 我出身青樓村砂,卻偏偏與公主長得像,于是被迫代替她去往敵國和親屹逛。 傳聞我的和親對象是個殘疾皇子础废,可洞房花燭夜當晚...
    茶點故事閱讀 44,665評論 2 354

推薦閱讀更多精彩內(nèi)容