頻繁模式和關(guān)聯(lián)規(guī)則

頻繁模式和關(guān)聯(lián)規(guī)則

頻繁模式是數(shù)據(jù)集中頻繁出現(xiàn)的項(xiàng)集串结、序列或子結(jié)構(gòu)蒿柳。例如,在購物籃分析中岳枷,會(huì)分析哪些商品頻繁的被客戶同時(shí)購買芒填;在網(wǎng)頁日志分析中,會(huì)分析用戶在瀏覽“手機(jī)”頁面后空繁,通常會(huì)繼續(xù)瀏覽哪些頁面殿衰。這些都是頻繁模式挖掘的典型例子。頻繁模式挖掘是關(guān)聯(lián)規(guī)則盛泡、相關(guān)分析闷祥、因果分析的基礎(chǔ),對分類傲诵、聚類也有很大幫助凯砍。它在實(shí)際中的應(yīng)用非常廣泛,例如拴竹,購物籃分析悟衩、網(wǎng)頁日志分析、DNA序列分析等栓拜。因此座泳,頻繁模式挖掘是一項(xiàng)非常重要的數(shù)據(jù)挖掘任務(wù)。

頻繁項(xiàng)集基本概念

  • 項(xiàng)集(itemset):最基本的模式是項(xiàng)集幕与,它是指若干個(gè)項(xiàng)的集合挑势。例如,某用戶在一次購物過程中購買了啤酒纽门、咖啡和雞蛋薛耻,那么集合{“啤酒”, “咖啡”, “雞蛋”}是一個(gè)項(xiàng)集。包含k個(gè)項(xiàng)的項(xiàng)集稱為k項(xiàng)集(k-itemset)
  • 數(shù)據(jù)集:典型的數(shù)據(jù)集是事物(Transaction)的集合赏陵,每一個(gè)事物是一個(gè)非空項(xiàng)集饼齿,并擁有一個(gè)標(biāo)識TID(表1)饲漾。用戶購物日志是一個(gè)典型例子,其中用戶的每一次購物行為是一個(gè)事物缕溉。數(shù)據(jù)集也可以表示為Data Matrix的形式(表2)考传。
TID Itemset
1 {Beer, Coffee, Milk}
2 {Beer, Milk}
3 {Beer, Coffee, Milk, Fish}

| TID | Beer| Coffee | Milk | Fish |
| :-------- | :--------| :--------| :--------|
| 1 |1|1|1|0|
| 2 |1|0|1|0|
| 3 |1|1|1|1|

  • 支持度計(jì)數(shù)/絕對支持度(support count):數(shù)據(jù)集中包含項(xiàng)集X的事物數(shù)
  • 相對支持度(support):項(xiàng)集X的絕對支持度與數(shù)據(jù)集事物總數(shù)的比值
  • 頻繁項(xiàng)集(frequent itemset):項(xiàng)集X的支持度超過最小門限值min_sup時(shí),稱X為頻繁項(xiàng)集

頻繁項(xiàng)集的壓縮表示

易知证鸥,一個(gè)頻繁項(xiàng)集的子集都是頻繁的僚楞。當(dāng)數(shù)據(jù)集很大時(shí),通常會(huì)挖掘出大量的頻繁項(xiàng)集枉层,很難計(jì)算和存儲泉褐。所以,我們引入了閉頻繁項(xiàng)集(closed frequent itemset)極大頻繁項(xiàng)集(maximal frequent itemset)來對數(shù)據(jù)集D的全部頻繁項(xiàng)集進(jìn)行壓縮表示鸟蜡。

  • 閉頻繁項(xiàng)集(closed frequent itemset):當(dāng)項(xiàng)集X是頻繁項(xiàng)集膜赃,且數(shù)據(jù)集D中不存在X的真超集Y,使得X和Y的支持度相等揉忘,則X是閉頻繁項(xiàng)集跳座。閉頻繁項(xiàng)集的表示是無損壓縮,不會(huì)丟失支持度的信息泣矛。通過閉頻繁項(xiàng)集可以反推出所有的頻繁項(xiàng)集以及相應(yīng)的支持度
  • 極大頻繁項(xiàng)集(maximal frequent itemset):當(dāng)項(xiàng)集X是頻繁項(xiàng)集疲眷,且數(shù)據(jù)集D中不存在X的真超集Y,使得Y是頻繁項(xiàng)集您朽,則X是極大頻繁項(xiàng)集狂丝。極大頻繁項(xiàng)集的表示是有損壓縮,失去了頻繁項(xiàng)集的支持度信息哗总,我們可以根據(jù)極大頻繁項(xiàng)集判斷任意項(xiàng)集是否是頻繁的美侦,但無法得到相應(yīng)的支持度

實(shí)際中,需要根據(jù)應(yīng)用的特點(diǎn)來選擇相應(yīng)的表示方法魂奥。這里的項(xiàng)集可以推廣到其他的模式(pattern)

關(guān)聯(lián)規(guī)則

由頻繁項(xiàng)集,我們引入關(guān)聯(lián)規(guī)則的概念易猫。關(guān)聯(lián)規(guī)則(association rules)是形如X→Y(s,c)的表達(dá)式耻煤,其中X
和Y均為項(xiàng)集,且X∩Y=?准颓。
s代表支持度(support)哈蝇,反映了規(guī)則的可用性。支持度一個(gè)事物包含X∪Y的概率


c代表置信度(confidence)攘已,反映了規(guī)則的確定性炮赦。置信度是一個(gè)事物在包含X的同時(shí)也包含Y的條件概率

同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī)則稱為強(qiáng)規(guī)則
一般而言,關(guān)聯(lián)規(guī)則的挖掘分為兩步:

  1. 找出所有頻繁項(xiàng)集样勃,即候選規(guī)則
  2. 對所有候選規(guī)則計(jì)算置信度吠勘,找出其中的強(qiáng)規(guī)則

頻繁項(xiàng)集挖掘算法

頻繁項(xiàng)集的挖掘算法基于Downward Closure性質(zhì)性芬。具體的說,如果一個(gè)項(xiàng)集X是頻繁的剧防,那么它的所有子集也是頻繁的植锉。反過來說,一個(gè)項(xiàng)集S是非頻繁的峭拘,那么它的所有超集也是非頻繁的俊庇。根據(jù)這個(gè)性質(zhì),誕生了一系列經(jīng)典算法:

  • Apriori :(Agrawal & Srikant@VLDB’94)
  • Eclat (Zaki, Parthasarathy, Ogihara, Li @KDD’97)
  • FP-Growth (Han, Pei, Yin @SIGMOD’00)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鸡挠,一起剝皮案震驚了整個(gè)濱河市辉饱,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌拣展,老刑警劉巖彭沼,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異瞎惫,居然都是意外死亡溜腐,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進(jìn)店門瓜喇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來挺益,“玉大人,你說我怎么就攤上這事乘寒⊥冢” “怎么了?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵伞辛,是天一觀的道長烂翰。 經(jīng)常有香客問我,道長蚤氏,這世上最難降的妖魔是什么甘耿? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮竿滨,結(jié)果婚禮上佳恬,老公的妹妹穿的比我還像新娘。我一直安慰自己于游,他們只是感情好毁葱,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著贰剥,像睡著了一般倾剿。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蚌成,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天前痘,我揣著相機(jī)與錄音凛捏,去河邊找鬼。 笑死际度,一個(gè)胖子當(dāng)著我的面吹牛葵袭,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播乖菱,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼坡锡,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了窒所?” 一聲冷哼從身側(cè)響起鹉勒,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎吵取,沒想到半個(gè)月后禽额,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡皮官,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年脯倒,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片捺氢。...
    茶點(diǎn)故事閱讀 40,040評論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡藻丢,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出摄乒,到底是詐尸還是另有隱情悠反,我是刑警寧澤,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布馍佑,位于F島的核電站斋否,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏拭荤。R本人自食惡果不足惜茵臭,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望舅世。 院中可真熱鬧笼恰,春花似錦、人聲如沸歇终。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽评凝。三九已至,卻和暖如春腺律,著一層夾襖步出監(jiān)牢的瞬間奕短,已是汗流浹背宜肉。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留翎碑,地道東北人谬返。 一個(gè)月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像日杈,于是被迫代替她去往敵國和親遣铝。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容