數(shù)據(jù)挖掘案例分析(1)-Apriori算法
前言:由于單單學(xué)習(xí)算法太過于枯燥和乏味,所以我們采取的學(xué)習(xí)方法是練中學(xué)召嘶,本人也是之前一點(diǎn)關(guān)于數(shù)據(jù)挖掘的算法知識沒有學(xué)習(xí),因此可能在理解上還不是很到位哮缺,我會盡我最大的努力來進(jìn)行闡述苍蔬。我們一起共勉。學(xué)習(xí)資料來源蝴蜓,《數(shù)據(jù)挖掘十大算法》-清華大學(xué)和《數(shù)據(jù)挖掘?qū)嵱冒咐治觥罚瓩C(jī)械工業(yè)出版社。
案例:商業(yè)零售業(yè)中的購物籃分析
一俺猿、挖掘目標(biāo)的提出
零售商的問題:
銷售什么樣子的商品茎匠?
采取什么樣的銷售策略和促銷方式?
商品在貨架上的擺放位置押袍?
針對以上的問題诵冒,我們需要分析客戶的購買數(shù)據(jù),才能發(fā)現(xiàn)顧客的購買規(guī)律谊惭。所以基于問題的分析汽馋,我們明確了數(shù)據(jù)來源。那么我們明確了數(shù)據(jù)的來源圈盔,對這些數(shù)據(jù)該采取什么樣的分析方法才能達(dá)到我們想要完成的目標(biāo)豹芯。
二、分析方法與過程
根據(jù)所要實(shí)現(xiàn)的目標(biāo)挥下,我們先來介紹一個經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法:Apriori算法递雀。
Apriori算法:關(guān)聯(lián)規(guī)則挖掘問題可以劃分為兩個子問題:第一是找出事務(wù)數(shù)據(jù)庫中所有大于等于用戶指定的最小支持度的數(shù)據(jù)項集排吴;第二個是利用頻繁項集生成所需要的關(guān)聯(lián)規(guī)則。根據(jù)用戶設(shè)定的最小置信度進(jìn)行取舍握牧,最后得到強(qiáng)關(guān)聯(lián)規(guī)則。識別或發(fā)現(xiàn)所有頻繁項目集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心娩梨。
主要步驟:
其中在這個算法中沿腰,為了達(dá)到用戶的一定要求,需要指定規(guī)則必須滿足的支持度和置信度閾值狈定,此兩個值稱為最小支持度閾值(min_sup)和最小置信度閾值(min_conf)颂龙。其中min_sup描述了關(guān)聯(lián)規(guī)則的最低重要度,min_conf規(guī)定了關(guān)聯(lián)規(guī)則必須滿足的最低可靠性掸冤。
具體的簡單應(yīng)用讀者可以自己自行從網(wǎng)上找取資源厘托。
下面我們來總結(jié)一下Apriori算法的優(yōu)缺點(diǎn):
Apriori算法應(yīng)用的領(lǐng)域多樣,其中主要包括:商業(yè)稿湿、網(wǎng)絡(luò)安全铅匹、高效管理和移動通信等領(lǐng)域的應(yīng)用。
介紹完Apriori算法之后饺藤,我們回歸我們的案例分析包斑,基于關(guān)聯(lián)規(guī)則的購物籃分析流礁。那么關(guān)聯(lián)規(guī)則的挖掘過程如圖:
三、建模仿真
1模型輸入
模型的輸入包括兩部分罗丰,一部分是建模專家樣本數(shù)據(jù)的輸入神帅,另外一部分是建模參數(shù)的輸入。
建模參數(shù)如下表:
2具體的仿真過程:
經(jīng)過上述的分析萌抵,我們可以發(fā)現(xiàn)找御,在彼此不同的屬性之間,可以發(fā)現(xiàn)它們之間的關(guān)聯(lián)規(guī)則绍填,這有利于我們進(jìn)行商品定價和商品的擺放霎桅。合理的制定消費(fèi)策略