python實現(xiàn)關(guān)聯(lián)規(guī)則Apriori算法簡易電影推薦

環(huán)境

python版本:3.5

數(shù)據(jù)來源

數(shù)據(jù)來自51CTO網(wǎng)站的分享,點(diǎn)此下載

關(guān)聯(lián)規(guī)則

所謂關(guān)聯(lián)規(guī)則,就是指現(xiàn)實中同時發(fā)生兩種不同事情之間的相關(guān)聯(lián)程度起意,具體分析可以參考這篇博客,講的很清晰

數(shù)據(jù)分析

這是數(shù)據(jù)文件


數(shù)據(jù)文件

其中movies中電影信息的內(nèi)容如圖所示


movies.dat

每行分別為電影id,電影名字最楷,電影類型,每項之間用::分隔待错,rating.dat為收集的用戶打分記錄籽孙,users.dat為用戶id對應(yīng)的用戶信息,personalRating.txt為個人打分火俄,用來找到規(guī)律后為個人推薦電影犯建,ratings.dat文件內(nèi)容如圖所示
ratings.dat

其中分別為用戶id,電影id瓜客,評分(1-5分)适瓦,評分時間,總共一百萬行多點(diǎn)的數(shù)據(jù)谱仪。我設(shè)置評分3分以上算是喜歡玻熙,最小支持度為0.2,最小置信度為0.5,下面是代碼實現(xiàn)

# -*- coding: utf-8 -*-
"""
Apriori exercise.
Created on Sun Oct 26 11:09:03 2017

@author: FWW
"""

import time


def createC1( dataSet ):
    '''
    構(gòu)建初始候選項集的列表疯攒,即所有候選項集只包含一個元素嗦随,
    C1是大小為1的所有候選項集的集合
    '''
    C1 = []
    for transaction in dataSet:
        for item in transaction:
            if [ item ] not in C1:
                C1.append( [ item ] )
    C1.sort()
    return list(map( frozenset, C1 ))

def scanD( D, Ck, minSupport ):
    '''
    計算Ck中的項集在事務(wù)集合D的每個transactions中的支持度,
    返回滿足最小支持度的項集的集合,和所有項集支持度信息的字典敬尺。
    '''
    ssCnt = {}
    for tid in D:
        # 對于每一條transaction
        for can in Ck:
            # 對于每一個候選項集can枚尼,檢查是否是transaction的一部分
            # 即該候選can是否得到transaction的支持
            if can.issubset( tid ):
                ssCnt[ can ] = ssCnt.get( can, 0) + 1
    numItems = float( len( D ) )
    retList = []
    supportData = {}
    for key in ssCnt:
        # 每個項集的支持度
        support = ssCnt[ key ] / numItems
        
        # 將滿足最小支持度的項集贴浙,加入retList
        if support >= minSupport:
            retList.insert( 0, key )
            
        # 匯總支持度數(shù)據(jù)
        supportData[ key ] = support
    return retList, supportData

# Aprior算法
def aprioriGen( Lk, k ):
    '''
    由初始候選項集的集合Lk生成新的生成候選項集,
    k表示生成的新項集中所含有的元素個數(shù)
    '''
    retList = []
    lenLk = len( Lk )
    for i in range( lenLk ):
        for j in range( i + 1, lenLk ):
            L1 = list( Lk[ i ] )[ : k - 2 ];
            L2 = list( Lk[ j ] )[ : k - 2 ];
            L1.sort();L2.sort()
            if L1 == L2:
                retList.append( Lk[ i ] | Lk[ j ] ) 
    return retList

def apriori( dataSet, minSupport = 0.5 ):
    # 構(gòu)建初始候選項集C1
    C1 = createC1( dataSet )
    
    # 將dataSet集合化姑原,以滿足scanD的格式要求
    D = list(map( set, dataSet ))
    
    # 構(gòu)建初始的頻繁項集悬而,即所有項集只有一個元素
    L1, suppData = scanD( D, C1, minSupport )
    L = [ L1 ]
    # 最初的L1中的每個項集含有一個元素,新生成的
    # 項集應(yīng)該含有2個元素锭汛,所以 k=2
    k = 2
    
    while ( len( L[ k - 2 ] ) > 0 ):
        Ck = aprioriGen( L[ k - 2 ], k )
        Lk, supK = scanD( D, Ck, minSupport )
        
        # 將新的項集的支持度數(shù)據(jù)加入原來的總支持度字典中
        suppData.update( supK )
        
        # 將符合最小支持度要求的項集加入L
        L.append( Lk )
        
        # 新生成的項集中的元素個數(shù)應(yīng)不斷增加
        k += 1
    # 返回所有滿足條件的頻繁項集的列表笨奠,和所有候選項集的支持度信息
    return L, suppData

def calcConf( freqSet, H, supportData, brl, minConf=0.5 ):
    '''
    計算規(guī)則的可信度,返回滿足最小可信度的規(guī)則唤殴。
    
    freqSet(frozenset):頻繁項集
    H(frozenset):頻繁項集中所有的元素
    supportData(dic):頻繁項集中所有元素的支持度
    brl(tuple):滿足可信度條件的關(guān)聯(lián)規(guī)則
    minConf(float):最小可信度
    '''
    prunedH = []
    for conseq in H:
        conf = supportData[ freqSet ] / supportData[ freqSet - conseq ]
        if conf >= minConf:
            #print (freqSet - conseq, '-->', conseq, 'conf:', conf)
            brl.append( ( freqSet - conseq, conseq, conf ) )
            prunedH.append( conseq )
    return prunedH

def rulesFromConseq( freqSet, H, supportData, brl, minConf=0.5 ):
    '''
    對頻繁項集中元素超過2的項集進(jìn)行合并般婆。
    
    freqSet(frozenset):頻繁項集
    H(frozenset):頻繁項集中的所有元素,即可以出現(xiàn)在規(guī)則右部的元素
    supportData(dict):所有項集的支持度信息
    brl(tuple):生成的規(guī)則
    
    '''
    m = len( H[ 0 ] )
    if m == 1:
        calcConf( freqSet, H , supportData, brl, minConf )
    # 查看頻繁項集是否大到移除大小為 m 的子集
    if len( freqSet ) > m + 1:
        Hmp1 = aprioriGen( H, m + 1 )
        Hmp1 = calcConf( freqSet, Hmp1, supportData, brl, minConf )
        # 如果不止一條規(guī)則滿足要求朵逝,進(jìn)一步遞歸合并
        if len( Hmp1 ) > 1:
            rulesFromConseq( freqSet, Hmp1, supportData, brl, minConf )

def recommendMovies(rules,personal_list,movie_list):
    recommend_list = []
    sup_list = []
    for rule in rules:
        if rule[0] <= personal_list:
            for movie in rule[1]:
                if movie_list[movie-1] not in recommend_list:
                    recommend_list.append(movie_list[movie-1])
                    sup_list.append(rule[2])
    for recommend in recommend_list:
        i = recommend_list.index(recommend)
        print('Recommend you to watch',recommend,',',round(sup_list[i]*100,2),'% people who is similar to you like it!')


def generateRules( L, supportData, minConf=0.5 ):
    '''
    根據(jù)頻繁項集和最小可信度生成規(guī)則蔚袍。
    
    L(list):存儲頻繁項集
    supportData(dict):存儲著所有項集(不僅僅是頻繁項集)的支持度
    minConf(float):最小可信度
    '''
    bigRuleList = []
    for i in range( 1, len( L ) ):
        for freqSet in L[ i ]:
            # 對于每一個頻繁項集的集合freqSet
            H1 = [ frozenset( [ item ] ) for item in freqSet ]
            # 如果頻繁項集中的元素個數(shù)大于2,需要進(jìn)一步合并
            if i > 1:
                rulesFromConseq( freqSet, H1, supportData, bigRuleList, minConf )
            else:
                calcConf( freqSet, H1, supportData, bigRuleList, minConf )
    return bigRuleList

if __name__ == '__main__':
    # 導(dǎo)入數(shù)據(jù)集
    start_time = time.time()
    file_object = open('ratings.dat')
    movies_object = open('movies.dat')
    personal_object = open('personalRatings.txt')
    file_list = []
    try:
        all_the_text = file_object.read()
        origin_list = (line.split('::') for line in all_the_text.split('\n'))
        tem_list = []
        for line in origin_list:
            if len(file_list)<int(line[0]):
                file_list.append(tem_list)
                tem_list = []
            else:
                if int(line[2])>3:
                    tem_list.append(int(line[1]))
        movies_text = movies_object.read()
        movies_list = []
        for item in (line.split('::') for line in movies_text.split('\n')):
            if item[1] not in movies_list:
                movies_list.append(item[1])
        personal_text = personal_object.read()
        personal_list = []
        for item in (line.split('::') for line in personal_text.split('\n')):
            if int(item[2])>3:
                personal_list.append(int(item[1]))

    finally:
        file_object.close()
        movies_object.close()
        personal_object.close()
        print('Read file sucess in',time.time()-start_time,'s')   
        # 選擇頻繁項集
        L, suppData = apriori( file_list, 0.2 )
        rules = generateRules( L, suppData, minConf=0.5 )
        #print ('rules:\n', rules)
        print ('Caculate rules success in',time.time()-start_time,'s')
        recommendMovies(rules,frozenset(personal_list),movies_list)
        print ('The program completes in',time.time()-start_time,'s')

運(yùn)行結(jié)果


2017-11-05 14-53-20屏幕截圖.png

讀文件用了1.3秒配名,運(yùn)行花了14秒啤咽,相信之后用numpy數(shù)組改進(jìn)一下運(yùn)行速度會更快

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市渠脉,隨后出現(xiàn)的幾起案子宇整,更是在濱河造成了極大的恐慌,老刑警劉巖芋膘,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鳞青,死亡現(xiàn)場離奇詭異,居然都是意外死亡为朋,警方通過查閱死者的電腦和手機(jī)臂拓,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來习寸,“玉大人胶惰,你說我怎么就攤上這事∪诨粒” “怎么了童番?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長威鹿。 經(jīng)常有香客問我剃斧,道長,這世上最難降的妖魔是什么忽你? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任幼东,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘根蟹。我一直安慰自己脓杉,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布简逮。 她就那樣靜靜地躺著球散,像睡著了一般。 火紅的嫁衣襯著肌膚如雪散庶。 梳的紋絲不亂的頭發(fā)上蕉堰,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天,我揣著相機(jī)與錄音悲龟,去河邊找鬼屋讶。 笑死,一個胖子當(dāng)著我的面吹牛须教,可吹牛的內(nèi)容都是我干的皿渗。 我是一名探鬼主播,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼轻腺,長吁一口氣:“原來是場噩夢啊……” “哼乐疆!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起贬养,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤诀拭,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后煤蚌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡细卧,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年尉桩,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片贪庙。...
    茶點(diǎn)故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡蜘犁,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出止邮,到底是詐尸還是另有隱情这橙,我是刑警寧澤,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布导披,位于F島的核電站屈扎,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏撩匕。R本人自食惡果不足惜鹰晨,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧模蜡,春花似錦漠趁、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至卤妒,卻和暖如春甥绿,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背荚孵。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工妹窖, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人收叶。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓骄呼,卻偏偏與公主長得像,于是被迫代替她去往敵國和親判没。 傳聞我的和親對象是個殘疾皇子蜓萄,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 國家電網(wǎng)公司企業(yè)標(biāo)準(zhǔn)(Q/GDW)- 面向?qū)ο蟮挠秒娦畔?shù)據(jù)交換協(xié)議 - 報批稿:20170802 前言: 排版 ...
    庭說閱讀 10,967評論 6 13
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)澄峰,斷路器嫉沽,智...
    卡卡羅2017閱讀 134,654評論 18 139
  • 1.聚類算法 聚類(Cluster analysis)有時也被翻譯為簇類,其核心任務(wù)是:將一組目標(biāo)object劃分...
    lmem閱讀 1,725評論 0 2
  • 你問我什么是成熟? : 可能是一種聲音俏竞,滄桑的細(xì)膩 可能是一種畫面绸硕,黑白的鮮明 可能是一種語言,聒噪的不宣 似雪花...
    Sohar守浩閱讀 171評論 0 0
  • 我的手機(jī)電也不足咬崔,所以我只好求助,又是一次求助烦秩,因為我們互相幫助垮斯,其實這是,早上我自己跑只祠,快去拿證件兜蠕,全部是因為這...
    馬上做閱讀 106評論 0 0