數(shù)據(jù)挖掘之關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘研究里的重要內(nèi)容儒恋,目的是為了找出不同東西之間的相關(guān)性弊予。下面來介紹關(guān)聯(lián)規(guī)則中一些重要的定義嚷硫。

下面借用一個(gè)引例來介紹關(guān)聯(lián)規(guī)則簿晓。

某超市的事務(wù)數(shù)據(jù)庫

項(xiàng)集

D是一個(gè)事務(wù)數(shù)據(jù)庫,其中每一個(gè)事務(wù)T由一些項(xiàng)目構(gòu)成罗晕,并且都有一個(gè)唯一的標(biāo)識(shí)(TID)济欢。如上圖所示,每一個(gè)TID對(duì)應(yīng)一條事務(wù)Ti小渊,每一個(gè)事務(wù)Ti中的物品稱為項(xiàng)目法褥,項(xiàng)目的集合就稱為項(xiàng)目集,而含有K個(gè)項(xiàng)目的項(xiàng)目集稱為K-項(xiàng)目集酬屉。

支持度

項(xiàng)目集X的支持度是指在事務(wù)數(shù)據(jù)庫D中包含項(xiàng)目集X的事務(wù)占整個(gè)事務(wù)的比例半等,記為sup(X),可以看作是項(xiàng)目集X在總事務(wù)中出現(xiàn)的頻率呐萨。一般定義為sup(X)=X出現(xiàn)的次數(shù)/事務(wù)總數(shù)T杀饵。
引例中X={bread, milk}出現(xiàn)在T1,T2垛吗,T5,T9和T10中烁登,所以支持度為0.5怯屉。

最小支持度

最小支持度是項(xiàng)集的最小支持閾值,記為min_sup饵沧,代表了用戶關(guān)心的關(guān)聯(lián)規(guī)則的最低重要性锨络。支持度不小于min_sup的稱為頻繁項(xiàng)目集,長度為K的頻繁集稱為K-頻繁集狼牺。如果設(shè)定sup_min為0.3羡儿,引例中{bread, milk}的支持度是0.5,所以是2-頻繁集是钥。

可信度

可信度是指在事務(wù)數(shù)據(jù)庫D中掠归,同時(shí)含項(xiàng)目集X和Y的事務(wù)與含項(xiàng)目集X的事務(wù)的比缅叠,即sup(XUY)/sup(X),看作是項(xiàng)目集X出現(xiàn)虏冻,使項(xiàng)目集Y也出現(xiàn)肤粱,這一件事情在總事務(wù)中出現(xiàn)的頻率。

關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則可形式化為X?Y厨相,它的含義是XUY的支持度sup(XUY)大于用戶指定的最小支持度min_sup领曼,且可信度conf大于用戶指定的最小可信度min_conf。關(guān)聯(lián)規(guī)則挖掘就是在事務(wù)數(shù)據(jù)庫D中找出滿足用戶指定的最小支持度min_sup和最小可信度min_conf的所有關(guān)聯(lián)規(guī)則蛮穿。

Apriori關(guān)聯(lián)規(guī)則算法

Apriori算法是一種以概率為基礎(chǔ)的關(guān)聯(lián)規(guī)則算法庶骄,它是一種迭代算法,從少到多践磅,從簡單到復(fù)雜尋找極大頻繁集的算法单刁。

1.Apriori特性
如果一個(gè)擁有K個(gè)項(xiàng)目的項(xiàng)目集I不滿足最小支持度,根據(jù)定義音诈,項(xiàng)目集I不是一個(gè)頻繁集幻碱,如果往I中加入任意一個(gè)新的項(xiàng)目得到一個(gè)擁有K+1個(gè)項(xiàng)目的項(xiàng)目集I',則I'必定也不是頻繁集细溅。

2.算法過程

  • 制定最小支持度及最小置信度
  • Apriori算法使用了候選項(xiàng)集的概念褥傍,首先掃描數(shù)據(jù)庫產(chǎn)生候選項(xiàng)目集,如果候選項(xiàng)目集的支持度不小于最小支持度喇聊,則該候選項(xiàng)目集為頻繁項(xiàng)目集
  • 從數(shù)據(jù)庫中讀入所有事務(wù)數(shù)據(jù)恍风,得到出候選1項(xiàng)集C1及相應(yīng)的支持度數(shù)據(jù),通過將每個(gè)1項(xiàng)集的支持度與最小支持度比較誓篱,得出頻繁項(xiàng)集合L1朋贬,然后將這些頻繁1項(xiàng)集兩兩進(jìn)行連接,產(chǎn)生候選2項(xiàng)集合C2窜骄。
  • 然后再次掃描數(shù)據(jù)庫得到候選2項(xiàng)集合C2的支持度锦募,將2項(xiàng)集的支持度與最小支持度比較,確定頻繁2項(xiàng)集邻遏。類似地糠亩,利用這些頻繁2項(xiàng)集L2產(chǎn)生候選3項(xiàng)集和確定頻繁3項(xiàng)集,以此類推准验。
  • 反復(fù)掃描數(shù)據(jù)庫赎线,與最小支持度比較,產(chǎn)生更高項(xiàng)的頻繁項(xiàng)集合糊饱,再結(jié)合產(chǎn)生下一級(jí)候選項(xiàng)集垂寥,直到不再產(chǎn)生出新的候選項(xiàng)集為止。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市滞项,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌唉铜,老刑警劉巖潭流,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件柜去,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡讼撒,警方通過查閱死者的電腦和手機(jī)股耽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來炎滞,“玉大人册赛,你說我怎么就攤上這事震嫉。” “怎么了扼睬?”我有些...
    開封第一講書人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵悴势,是天一觀的道長。 經(jīng)常有香客問我担映,道長叫潦,這世上最難降的妖魔是什么官硝? 我笑而不...
    開封第一講書人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮傻咖,結(jié)果婚禮上卿操,老公的妹妹穿的比我還像新娘。我一直安慰自己扇雕,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開白布镶奉。 她就那樣靜靜地躺著哨苛,像睡著了一般建峭。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上迹缀,一...
    開封第一講書人閱讀 49,144評(píng)論 1 285
  • 那天祝懂,我揣著相機(jī)與錄音拘鞋,去河邊找鬼盆色。 笑死,一個(gè)胖子當(dāng)著我的面吹牛隔躲,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播仅父,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼笙纤,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了抖拴?” 一聲冷哼從身側(cè)響起腥椒,我...
    開封第一講書人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎家夺,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拉馋,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡煌茴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年蔓腐,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了回论。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片分歇。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖葬燎,靈堂內(nèi)的尸體忽然破棺而出谱净,到底是詐尸還是另有隱情擅威,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布李请,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏庆猫。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一嘁字、第九天 我趴在偏房一處隱蔽的房頂上張望纪蜒。 院中可真熱鬧此叠,春花似錦、人聲如沸猬错。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至涤浇,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間吊奢,已是汗流浹背页滚。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留裹驰,地道東北人片挂。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像躏敢,于是被迫代替她去往敵國和親整葡。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容