什么是購(gòu)物籃分析贺嫂?
購(gòu)物籃分析本質(zhì)其實(shí)就是商品之間的關(guān)聯(lián)分析弦追,因?yàn)樽畛踹@種關(guān)聯(lián)分析主要是在超市應(yīng)用廣泛毕骡,所以后來(lái)被人們稱為“購(gòu)物籃分析”驴娃。購(gòu)物籃分析的目的在于在一個(gè)數(shù)據(jù)集中找出項(xiàng)之間的關(guān)聯(lián)關(guān)系奏候。比如循集,購(gòu)買鞋的顧客唇敞,有10%的可能也會(huì)買襪子,60%的買面包的顧客咒彤,也會(huì)買牛奶疆柔。
購(gòu)物籃分析一般在電商和超市行業(yè)應(yīng)用的比較多,在金融服務(wù)業(yè)镶柱,保險(xiǎn)業(yè)也有應(yīng)用旷档,對(duì)于電商場(chǎng)景,一般應(yīng)用有這幾個(gè)部分:
個(gè)性化推薦:像我開頭的經(jīng)歷一樣歇拆,給用戶推一些相關(guān)商品
組合優(yōu)惠券:給購(gòu)買過的用戶發(fā)相關(guān)聯(lián)商品的優(yōu)惠券
捆綁銷售:將相關(guān)聯(lián)的商品組合起來(lái)銷售
Apriori算法的三個(gè)關(guān)鍵指標(biāo)
支持度(support):,表示A和B同時(shí)出現(xiàn)的概率
置信度(confidence):,表示A和B同時(shí)出現(xiàn)的概率占A出現(xiàn)概率的比值
提升度(Lift):提升度指當(dāng)銷售一個(gè)物品時(shí)鞋屈,另一個(gè)物品銷售率會(huì)增加多少,計(jì)算方式是:
Lift=1,表示X與Y相互獨(dú)立
Lift>1,表示有效強(qiáng)關(guān)聯(lián)規(guī)則
Lift<1,表示無(wú)效強(qiáng)關(guān)聯(lián)規(guī)則
分析目標(biāo):找到集合中的頻繁元素故觅,發(fā)現(xiàn)顧客購(gòu)買的規(guī)律厂庇。如果從單個(gè)商品的出現(xiàn)頻率分析到多個(gè)商品的出現(xiàn)頻率,那么隨著商品數(shù)目的增多输吏,商品的組合數(shù)必定會(huì)飛速增長(zhǎng)权旷,運(yùn)算量極大,因此需要一種能夠快速剪枝的方法贯溅。
頻繁模式的剪枝原理為:如果某一項(xiàng)集是頻繁的拄氯,那么它的子集全都是頻繁的;如果某一項(xiàng)集是不頻繁的它浅,那么它的超集都是不頻繁的译柏,即如果項(xiàng)集CDE是頻繁的,那么它的子集C姐霍、D鄙麦、E、CD、CE黔衡、DE都是頻繁的蚓聘,反之,如果項(xiàng)集AB不頻繁盟劫,則它的超集ABC夜牡、ABD、ABE等也不頻繁
python實(shí)現(xiàn)方法
由于每一個(gè)國(guó)家用戶群體對(duì)于商品購(gòu)買的偏好會(huì)有所偏差侣签,此處使用數(shù)據(jù)集中的美國(guó)銷售數(shù)據(jù)進(jìn)行分析
檢查數(shù)據(jù)缺失值塘装、異常值、格式一致性影所,由于數(shù)據(jù)完整性較好蹦肴,無(wú)需做數(shù)據(jù)清洗
關(guān)聯(lián)分析
(1)提取國(guó)家為美國(guó)的數(shù)據(jù)
(2)提取所需關(guān)鍵字段
(3)商品列轉(zhuǎn)行:通過groupby把商品變成二級(jí)索引,通過聚合購(gòu)買數(shù)量猴娩,用unstack方法把二級(jí)轉(zhuǎn)換成行阴幌,對(duì)于無(wú)數(shù)據(jù)(無(wú)購(gòu)買記錄)的地方用fillna(0)填充
(4)為了防止僅一次購(gòu)買且同時(shí)購(gòu)買多件商品被誤判為高關(guān)聯(lián)商品,此處設(shè)置min_value = 3/basket.shape[0]卷中,用于后續(xù)判斷頻繁項(xiàng)集最少出現(xiàn)3次
(5)對(duì)數(shù)據(jù)框中商品是否出現(xiàn)變換為0-1關(guān)系
(6)計(jì)算頻繁項(xiàng)目集
(7)生成相應(yīng)的支持度矛双、置信度和提升度規(guī)則
變量說(shuō)明:
antecedent support:規(guī)則先導(dǎo)項(xiàng)支持度
consequent support:規(guī)則后繼項(xiàng)支持度
support:規(guī)則支持度 (前項(xiàng)后項(xiàng)并集的支持度)
confidence:規(guī)則置信度 (規(guī)則置信度:規(guī)則支持度support / 規(guī)則先導(dǎo)項(xiàng))
lift:規(guī)則提升度,表示含有先導(dǎo)項(xiàng)條件下同時(shí)含有后繼項(xiàng)的概率蟆豫,與后繼項(xiàng)總體發(fā)生的概率之比议忽。
結(jié)果分析:
實(shí)際上頻繁項(xiàng)集中只有少數(shù)是有意義的,很多時(shí)候很多商品存在互補(bǔ)關(guān)系(比如乒乓球和球拍)十减,即使不做購(gòu)物籃分析栈幸,運(yùn)營(yíng)人員也知道可以進(jìn)行捆綁銷售,這是common sense帮辟,因此數(shù)據(jù)分析師需要有一雙善于發(fā)現(xiàn)的眼睛速址,從沙子中挖掘金子。
本文中可以發(fā)現(xiàn)织阅,在辦公場(chǎng)景下壳繁,折疊椅、打印機(jī)荔棉、真空袋闹炉、信封、桌子與訂書釘存在著一定的關(guān)聯(lián)關(guān)系润樱,可以理解為新辦公室下相關(guān)辦公用品的配置中訂書釘是一個(gè)頻繁出現(xiàn)的購(gòu)置項(xiàng)目渣触。
進(jìn)一步,我們通過商品的銷量發(fā)現(xiàn)壹若,訂書釘?shù)男枨髲?qiáng)度較其他關(guān)聯(lián)產(chǎn)品更高嗅钻,可以嘗試通過捆綁銷售或贈(zèng)送訂書釘皂冰、購(gòu)買訂書釘贈(zèng)送其他產(chǎn)品優(yōu)惠券、個(gè)性化推薦等方法养篓,提高銷量秃流。