名詞:
挖掘數(shù)據(jù)集:購物籃數(shù)據(jù)
挖掘目標:關聯(lián)規(guī)則
關聯(lián)規(guī)則:啤酒=>尿布(支持度0.02,置信度0.6)
支持度:所有數(shù)據(jù)中有2%的購物記錄包含了啤酒和尿布
置信度:所有包含啤酒的購物記錄里有60%包含尿布
最小支持度閾值和最小置信度閾值味榛。
項集:項(商品)組成的集合
K-項集:k個項組成的集合
頻繁項集:滿足最小支持度的項集
強關聯(lián)規(guī)則:滿足最小支持閾值和最小置信度閾值的規(guī)則
步驟:
找出所有頻繁項集猛们;由頻繁項集產(chǎn)生強關聯(lián)規(guī)則炼彪。
案例:
TID為購物記錄,List of item_ID為商品ID晓锻,如第T100條購物記錄中,包含商品I1,I2,I5淮捆。
最后推出的關聯(lián)規(guī)則有:
(以上圖片來源薛毅老師的《r modeling》)
R語言操作:
包:arules
數(shù)據(jù)集:Groceries(內(nèi)置數(shù)據(jù)集)
函數(shù):inspect:顯檢查,示一個的文集或一個術語文檔矩陣的詳細信息本股。查看數(shù)據(jù)攀痊。
? ? ? ? ?apriori:提取關聯(lián)規(guī)則
代碼: