加權關聯(lián)規(guī)則挖掘算法

加權關聯(lián)規(guī)則挖掘

在 R 語言中的 arules 包有該算法的實現(xiàn),故花時間研究了一下該算法的原理和產生的背景试幽。關于什么是關聯(lián)規(guī)則挖掘算法的可以看我的上一篇簡書螟凭。

為什么要加權

加權的原因是因為在現(xiàn)實生活中,事物都是有重要程度之分的峡蟋。

譬如說晶通,在超市的購物記錄中璃氢,每條記錄和每個商品都會對應著相應的利潤,如果我們給記錄和商品按照利潤高低添加權重后就可能可以挖掘到更加多利潤高并且頻繁出現(xiàn)的規(guī)則狮辽。

基于這個思想一也,有學者就提出了加權關聯(lián)規(guī)則挖掘算法。

HITS 算法

加權關聯(lián)規(guī)則挖掘算法是在基于 HITS 算法思想上提出的喉脖。HITS 算法是鏈接分析中非骋叮基礎且重要的算法,被很多搜索引擎所使用动看。

Hub 頁面(樞紐頁面):指的是包含了很多指向高質量“Authority”頁面鏈接的網(wǎng)頁尊剔,比如 hao123 首頁可以認為是一個典型的高質量“Hub”網(wǎng)頁爪幻。

Authority 頁面(權威頁面):是指與某個領域或者某個話題相關的高質量網(wǎng)頁菱皆,比如搜索引擎領域,Google 和百度首頁即該領域的高質量網(wǎng)頁挨稿,比如視頻領域仇轻,優(yōu)酷和土豆首頁即該領域的高質量網(wǎng)頁。

HITS 算法的思想基于如下兩個假設:

假設1:一個好的“Authority”頁面會被很多好的“Hub”頁面指向

假設2:一個好的“Hub”頁面會指向很多好的“Authority”頁面

假設每個頁面都有對應的 Hub 值和 Authority 值奶甘,并且初始值都為 1 篷店。可利用上面提到的兩個基本假設,以及相互增強關系等原則進行多輪迭代計算疲陕,每輪迭代計算更新每個頁面的兩個權值(值 +1 或其他策略)方淤,直到權值穩(wěn)定不再發(fā)生明顯的變化為止。更多關于 HITS 算法的細節(jié)可以查看尾部的參考文獻蹄殃。

加權關聯(lián)規(guī)則挖掘

在知道了 HITS 算法的思想后携茂。同樣的,我們也可以做出如下假設:

假設1:一個高質量的事務應該包含很多高質量的項诅岩。

假設2:一個高質量的項應該被很多高質量的事務所包含讳苦。

所以基于假設,論文 [1] 就提出了一種新的度量方式吩谦,稱之為 w-support鸳谜。

給定一個事務數(shù)據(jù)庫。我們可以繪制出其對應的二部圖(bipartite graph)

二部圖(bipartite graph)

在這里式廷,我們將事務作為 Hub咐扭,而將項集作為 Auth,并且初始值都為 1(實際使用中是根據(jù)項的重要程度調整 Auth 的值)滑废,以下面的公式計算和調整 Hub 和 Auth 的值和計算項集對應的 w-support



公式中草描,T 表示事務,D 表示數(shù)據(jù)庫策严。計算完后穗慕,我們可以得下表的結果

拿表中 {C} 做為個例子,w-support 的值是如下進行計算的

從表中我們可以觀察兩件有意思的事情妻导。第一逛绵,最大的 hub 值的事務并不是具備 item 數(shù)目最多的。還有就是支持度高的 item 并不一定擁有最大的 w-support倔韭。 原因是因為 w-support 度量考慮的是二部圖中事務與 item 之間的相互貢獻度术浪,而不是單純的依靠 item 在事務中出現(xiàn)的頻數(shù)。而事務的重要性是由 item 重要性決定的寿酌,而不依靠 item 數(shù)量的多少胰苏。

同樣的,我們也可以使用 w-support 度量計算關聯(lián)規(guī)則的支持度和置信度醇疼。計算的公式如下:


與傳統(tǒng)關聯(lián)規(guī)則挖掘類似硕并,加權關聯(lián)規(guī)則挖掘算法的步驟一般也被劃分為兩步

  1. 利用最小支持度從數(shù)據(jù)庫中找到頻繁項集。
  2. 利用最小置信度從頻繁項集中找到關聯(lián)規(guī)則秧荆。

在論文中倔毙,作者還做了兩個有趣的實驗來驗證他 w-support 度量的有效性。

第一個實驗是使用加權關聯(lián)規(guī)則算法從 Netflix 的數(shù)據(jù)集中找出最受歡迎的 10 部電影乙濒。他們的做法是將電影做為一個項(Authority)陕赃,每個用戶對相應的電影打分做為事務(Hub),而且假設流行度和用戶的正面的評價有關,和具體的評分多少是無關的么库。

除此傻丝,作者按照評分用戶的活躍度賦予不同的權重,他們認為活躍的用戶更加具有權威性(此處想起水軍)诉儒,也即活躍用戶具有更高的權重桑滩,最后他們與 support 度量的對比圖如下所示

從對比圖中我們可以看到钢拧,兩個最流行的電影列表排序存在明顯的差異岖是,其中值得注意的是用戶的是 The Sixth Sense 在第一個列表中并沒有出現(xiàn),然而因為多數(shù)的活躍的用戶對該電影給出了正面評價了碰凶,所以出現(xiàn)在列表中了缭受。

另外一個實驗是選出最好的 10 部電影胁澳,與上面稍微有點不同的是,這里的事務都是 5 分評價的而且結果是和 IDMB 的評分列表相對比的米者。得出的實驗結果如下圖所示:

可以看到使用 w-support 度量的列表與 IDMB 最大的不同前三位都被指環(huán)王所包攬了韭畸。另外兩部指環(huán)王的排名的提升是受排名第一的 Lord of the Rings: The Two Towers 的影響。由前面所提到的假設我們可知蔓搞,導致這個結果的原因是因為給排在第一名的電影評五分的用戶的權重的提升胰丁,導致他在評價其他電影的時候,會順帶提高其他電影的 w-support 值喂分,從而最終提升了一部分電影的排名锦庸。

總結

該算法適合稀疏的數(shù)據(jù),因為計算 w-support 不是單純的依賴頻數(shù)蒲祈。

參考

[1] Ke Sun, Fenshan Bai. 2008. Mining Weighted Association Rules without Preassigned Weights[J]. IEEE Transactions on Knowledge and Data Engineering, 4 (30): 489–495. (w-support 度量)

[2] Kleinberg J M. 1999. Authoritative sources in a hyperlinked environment[J], Journal of the ACM (JACM). 46(5): 604-632. (HITS 模型)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末甘萧,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子梆掸,更是在濱河造成了極大的恐慌扬卷,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件酸钦,死亡現(xiàn)場離奇詭異怪得,居然都是意外死亡,警方通過查閱死者的電腦和手機卑硫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進店門徒恋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人拔恰,你說我怎么就攤上這事因谎』ǎ” “怎么了颜懊?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我河爹,道長匠璧,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任咸这,我火速辦了婚禮夷恍,結果婚禮上,老公的妹妹穿的比我還像新娘媳维。我一直安慰自己酿雪,他們只是感情好,可當我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布侄刽。 她就那樣靜靜地躺著指黎,像睡著了一般。 火紅的嫁衣襯著肌膚如雪州丹。 梳的紋絲不亂的頭發(fā)上醋安,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天,我揣著相機與錄音墓毒,去河邊找鬼吓揪。 笑死,一個胖子當著我的面吹牛所计,可吹牛的內容都是我干的柠辞。 我是一名探鬼主播,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼主胧,長吁一口氣:“原來是場噩夢啊……” “哼钾腺!你這毒婦竟也來了?” 一聲冷哼從身側響起讥裤,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤放棒,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后己英,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體间螟,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年损肛,在試婚紗的時候發(fā)現(xiàn)自己被綠了厢破。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡治拿,死狀恐怖摩泪,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情劫谅,我是刑警寧澤见坑,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布嚷掠,位于F島的核電站,受9級特大地震影響荞驴,放射性物質發(fā)生泄漏不皆。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一熊楼、第九天 我趴在偏房一處隱蔽的房頂上張望霹娄。 院中可真熱鬧,春花似錦鲫骗、人聲如沸犬耻。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽香追。三九已至,卻和暖如春坦胶,著一層夾襖步出監(jiān)牢的瞬間透典,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工顿苇, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留峭咒,地道東北人。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓纪岁,卻偏偏與公主長得像凑队,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子幔翰,可洞房花燭夜當晚...
    茶點故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內容

  • 鏈接分析 我們在最開始說過漩氨,搜索引擎在查找能夠滿足用戶需求的網(wǎng)頁時,主要會考慮兩方面的因素遗增,一方面是用戶發(fā)出的查詢...
    我偏笑_NSNirvana閱讀 3,219評論 1 12
  • soure code 一:Pagerank:PageRank是Google用于衡量特定網(wǎng)頁相對于搜索引擎索引中的其...
    SamDing閱讀 1,444評論 0 1
  • 關聯(lián)規(guī)則挖掘是一種基于規(guī)則的機器學習算法叫惊,該算法可以在大數(shù)據(jù)庫中發(fā)現(xiàn)感興趣的關系。它的目的是利用一些度量指標來分辨...
    曾梓華閱讀 25,287評論 4 25
  • 曾經(jīng)在Airbnb的博客上看到一篇關于建立信任的文章(外網(wǎng)需翻墻)做修,當時留意到里面描述如何運用數(shù)據(jù)來支持設計的部分...
    janepi閱讀 5,036評論 0 5
  • 房到用時才顯小啊霍狰。 昨天,僧哥從老家?guī)Щ亓撕枚鄸|西饰及,到家才發(fā)現(xiàn)原來家里壓根沒有這些東西的立足之地蔗坯。胡亂塞在客廳里就...
    Lufeewang閱讀 511評論 0 0