1.數據準備
本次黑色星期五數據集來自kaggle地消,關于零售商店中黑色星期五的55萬觀察數據集,它包含不同類型的數字或分類變量和缺失值。利用Jupyter Notebook對數據集進行清洗處理、可視化操作。一共12個字段诗祸,538k條數據。
數據來源:
字段說明:
2. 數據分析內容
對于商品銷售類的數據分析方向可以從 銷售畫像浇冰,用戶畫像贬媒、商品畫像 三個維度展開分析。
銷售畫像主要針對以下幾個方面:
用戶畫像主要針對以下幾個方面:
商品畫像主要針對以下幾個方面:
3.數據清洗
加載數據肘习,查看數據情況:
import numpy as np
import pandas as pd
import matplotlib.pyplot? as plt
data = pd.read_csv('BlackFriday.csv')
data.info()
因產品分類存在缺失值际乘,無法填補,故去掉產品分類字段漂佩,不作為分析的內容脖含。
4.數據分析
【1】銷售畫像
銷售總額
用戶總數,用戶人均消費金額
商品總量
【2】用戶畫像
用戶性別分布和消費情況
import seaborn as sns
plt.style.use("fivethirtyeight")
sns.set_style({'font.sans-serif':['simhei','Arial']}) #設置字體
labels = ['Male','Female']
x = [M,F]
explode = (0.1,0)
plt.pie(x,labels=labels,autopct='%.0f%%',textprops = {'fontsize':10,'color':'k'},
? ? ? explode=explode,shadow=True,startangle=60,pctdistance = 0.5)
plt.axis('equal')
plt.title('用戶性別分布情況')
plt.show()
可以看出投蝉,本次黑色星期五用戶中养葵,男性用戶約為女性用戶的2.5倍,男性消費水平是女性消費水平的3.3倍瘩缆,男性在數量和消費金額上都比女性多关拒。
用戶年齡分布和消費情況
dt.drop_duplicates('User_ID').groupby('Age')['User_ID'].count()
dt.groupby('Age')['Purchase'].sum()
用戶年齡主要集中在18-45之間,其中26-35用戶數占比總用戶數的34.9%庸娱,消費金額占總銷售額的40%着绊,可見這個年齡段是本次活動的主力軍。
用戶職業(yè)分布和消費情況
4熟尉,0归露,7三個職業(yè)用戶數占總用戶數的35.6%,其消費金額前三也是4斤儿,0剧包,7恐锦,可見,這三個職業(yè)的消費人數和消費金額大于其他職業(yè)疆液。
用戶婚姻分布和消費情況
dt.drop_duplicates('User_ID').groupby('Marital_Status')['User_ID'].count()
dt.groupby('Marital_Status')['Purchase'].sum()
dt.groupby('Marital_Status')['Purchase'].sum()/dt.groupby('Marital_Status')['User_ID'].count()
未婚在本次活動中占比大于已婚一铅,但是未婚和已婚在人均消費情況下基本一致,可見婚姻狀態(tài)對消費金額影響不是很大枚粘。
用戶城市居住時間分布和消費情況
dt.drop_duplicates('User_ID').groupby('Stay_In_Current_City_Years')['User_ID'].count()
dt.groupby('Stay_In_Current_City_Years')['Purchase'].sum()
當前城市居住時間大部分是在1年馅闽,消費水平在四個類別中最高飘蚯。
【商品畫像】
最受喜愛的商品分布和消費情況
dt.groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)
dt.groupby('Product_ID')['Purchase'].sum().sort_values(ascending=False).head(10)
最受喜愛的商品前十分布和成交金額最多的商品重疊部分比較少馍迄,不過也是正常,成交數量最多若是單價不高局骤,成交金額也就不是最多攀圈。
男女消費者喜愛的商品分布和消費情況
喜愛的商品在男女消費者之間差距比較大,重復的商品數不多赘来。
不同年齡段喜歡的商品分布和消費情況
未婚和已婚喜歡的商品分布和消費情況
未婚用戶和已婚用戶最受喜愛前十商品中有7個是一樣的,可以大致看出在是否結婚對商品的需求影響不明顯幌缝。
不同職業(yè)喜歡的商品分布和消費情況
以4涵卵,0轿偎,7三個職業(yè)進行分析
dt[dt['Occupation']==4].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)
dt[dt['Occupation']==0].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)
dt[dt['Occupation']==7].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)
dt[dt['Occupation']==4].groupby('Product_ID')['Purchase'].sum().sort_values(ascending=False).head(10)
dt[dt['Occupation']==0].groupby('Product_ID')['Purchase'].sum().sort_values(ascending=False).head(10)
dt[dt['Occupation']==7].groupby('Product_ID')['Purchase'].sum().sort_values(ascending=False).head(10)
4坏晦,0昆婿,7三職業(yè)喜歡的商品分布和消費情況總體大致一樣挖诸,喜歡商品重復率高法精。
不同城市喜歡的商品分布和消費情況
dt[dt['City_Category']=='A'].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)
dt[dt['City_Category']=='B'].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)
dt[dt['City_Category']=='C'].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)
dt[dt['City_Category']=='A'].groupby('City_Category')['Purchase'].sum()
dt[dt['City_Category']=='B'].groupby('City_Category')['Purchase'].sum()
dt[dt['City_Category']=='C'].groupby('City_Category')['Purchase'].sum()
A,B狼荞,C三城市最受歡迎的商品都是P00265242相味,其他商品三座城市的重疊率高,可見丰涉,ABC城市的人群在商品需求方面比較類似一死。
5.總結
本文利用實際數據進行分析,從 銷售畫像承耿,用戶畫像加袋、商品畫像三個維度展開职烧,基于Python的數據處理阳堕,可視化展示等技術分析數據的內在特性恬总。