黑色星期五數據分析

1.數據準備

本次黑色星期五數據集來自kaggle地消,關于零售商店中黑色星期五的55萬觀察數據集,它包含不同類型的數字或分類變量和缺失值。利用Jupyter Notebook對數據集進行清洗處理、可視化操作。一共12個字段诗祸,538k條數據。

數據來源:

黑色星期五數據集

字段說明:


2. 數據分析內容

對于商品銷售類的數據分析方向可以從 銷售畫像浇冰,用戶畫像贬媒、商品畫像 三個維度展開分析。

銷售畫像主要針對以下幾個方面:


用戶畫像主要針對以下幾個方面:


商品畫像主要針對以下幾個方面:


3.數據清洗

加載數據肘习,查看數據情況:

import numpy as np

import pandas as pd

import matplotlib.pyplot? as plt

data = pd.read_csv('BlackFriday.csv')

data.info()


因產品分類存在缺失值际乘,無法填補,故去掉產品分類字段漂佩,不作為分析的內容脖含。


4.數據分析

【1】銷售畫像

銷售總額

用戶總數,用戶人均消費金額

商品總量

【2】用戶畫像

用戶性別分布和消費情況

用戶性別分布情況


男女消費金額分布情況


import seaborn as sns

plt.style.use("fivethirtyeight")

sns.set_style({'font.sans-serif':['simhei','Arial']}) #設置字體

labels = ['Male','Female']

x = [M,F]

explode = (0.1,0)

plt.pie(x,labels=labels,autopct='%.0f%%',textprops = {'fontsize':10,'color':'k'},

? ? ? explode=explode,shadow=True,startangle=60,pctdistance = 0.5)

plt.axis('equal')

plt.title('用戶性別分布情況')

plt.show()

可以看出投蝉,本次黑色星期五用戶中养葵,男性用戶約為女性用戶的2.5倍,男性消費水平是女性消費水平的3.3倍瘩缆,男性在數量和消費金額上都比女性多关拒。

用戶年齡分布和消費情況

dt.drop_duplicates('User_ID').groupby('Age')['User_ID'].count()


用戶年齡分布情況

dt.groupby('Age')['Purchase'].sum()


不同年齡消費金額分布


用戶年齡主要集中在18-45之間,其中26-35用戶數占比總用戶數的34.9%庸娱,消費金額占總銷售額的40%着绊,可見這個年齡段是本次活動的主力軍。

用戶職業(yè)分布和消費情況

用戶職業(yè)分布


不同職業(yè)消費金額分布

4熟尉,0归露,7三個職業(yè)用戶數占總用戶數的35.6%,其消費金額前三也是4斤儿,0剧包,7恐锦,可見,這三個職業(yè)的消費人數和消費金額大于其他職業(yè)疆液。

用戶婚姻分布和消費情況

dt.drop_duplicates('User_ID').groupby('Marital_Status')['User_ID'].count()


用戶婚姻分布

dt.groupby('Marital_Status')['Purchase'].sum()


不同婚姻狀態(tài)的消費情況

dt.groupby('Marital_Status')['Purchase'].sum()/dt.groupby('Marital_Status')['User_ID'].count()


未婚和已婚的人均消費情況

未婚在本次活動中占比大于已婚一铅,但是未婚和已婚在人均消費情況下基本一致,可見婚姻狀態(tài)對消費金額影響不是很大枚粘。

用戶城市居住時間分布和消費情況

dt.drop_duplicates('User_ID').groupby('Stay_In_Current_City_Years')['User_ID'].count()


用戶在當前城市居住時間分布

dt.groupby('Stay_In_Current_City_Years')['Purchase'].sum()


不同用戶在當前城市居住時間消費情況

當前城市居住時間大部分是在1年馅闽,消費水平在四個類別中最高飘蚯。

【商品畫像】

最受喜愛的商品分布和消費情況

dt.groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)


最受喜愛的商品前十分布

dt.groupby('Product_ID')['Purchase'].sum().sort_values(ascending=False).head(10)


成交金額最多的商品前十分布情況

最受喜愛的商品前十分布和成交金額最多的商品重疊部分比較少馍迄,不過也是正常,成交數量最多若是單價不高局骤,成交金額也就不是最多攀圈。

男女消費者喜愛的商品分布和消費情況

男性消費者在哪些商品比較受歡迎


女性消費者在哪些商品比較受歡迎

喜愛的商品在男女消費者之間差距比較大,重復的商品數不多赘来。

不同年齡段喜歡的商品分布和消費情況

不同年齡段喜歡的商品分布



不同年齡段喜歡的消費情況

未婚和已婚喜歡的商品分布和消費情況


未婚用戶最受喜愛前十的商品名


已婚用戶最受喜愛前十的商品名??

未婚用戶和已婚用戶最受喜愛前十商品中有7個是一樣的,可以大致看出在是否結婚對商品的需求影響不明顯幌缝。

不同職業(yè)喜歡的商品分布和消費情況

以4涵卵,0轿偎,7三個職業(yè)進行分析

dt[dt['Occupation']==4].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)

dt[dt['Occupation']==0].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)

dt[dt['Occupation']==7].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)

dt[dt['Occupation']==4].groupby('Product_ID')['Purchase'].sum().sort_values(ascending=False).head(10)

dt[dt['Occupation']==0].groupby('Product_ID')['Purchase'].sum().sort_values(ascending=False).head(10)

dt[dt['Occupation']==7].groupby('Product_ID')['Purchase'].sum().sort_values(ascending=False).head(10)

4坏晦,0昆婿,7三職業(yè)喜歡的商品分布和消費情況總體大致一樣挖诸,喜歡商品重復率高法精。

不同城市喜歡的商品分布和消費情況

dt[dt['City_Category']=='A'].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)

dt[dt['City_Category']=='B'].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)

dt[dt['City_Category']=='C'].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)

dt[dt['City_Category']=='A'].groupby('City_Category')['Purchase'].sum()

dt[dt['City_Category']=='B'].groupby('City_Category')['Purchase'].sum()

dt[dt['City_Category']=='C'].groupby('City_Category')['Purchase'].sum()

A,B狼荞,C三城市最受歡迎的商品都是P00265242相味,其他商品三座城市的重疊率高,可見丰涉,ABC城市的人群在商品需求方面比較類似一死。

5.總結

本文利用實際數據進行分析,從 銷售畫像承耿,用戶畫像加袋、商品畫像三個維度展開职烧,基于Python的數據處理阳堕,可視化展示等技術分析數據的內在特性恬总。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末壹堰,一起剝皮案震驚了整個濱河市贱纠,隨后出現的幾起案子响蕴,更是在濱河造成了極大的恐慌谆焊,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,729評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件浦夷,死亡現場離奇詭異辜王,居然都是意外死亡,警方通過查閱死者的電腦和手機呐馆,發(fā)現死者居然都...
    沈念sama閱讀 95,226評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來莲兢,“玉大人,你說我怎么就攤上這事改艇∈瞻啵” “怎么了?”我有些...
    開封第一講書人閱讀 169,461評論 0 362
  • 文/不壞的土叔 我叫張陵遣耍,是天一觀的道長闺阱。 經常有香客問我舵变,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,135評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上住涉,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好媳握,可當我...
    茶點故事閱讀 69,130評論 6 398
  • 文/花漫 我一把揭開白布碱屁。 她就那樣靜靜地躺著,像睡著了一般蛾找。 火紅的嫁衣襯著肌膚如雪娩脾。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,736評論 1 312
  • 那天打毛,我揣著相機與錄音柿赊,去河邊找鬼架曹。 笑死,一個胖子當著我的面吹牛闹瞧,可吹牛的內容都是我干的绑雄。 我是一名探鬼主播,決...
    沈念sama閱讀 41,179評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼奥邮,長吁一口氣:“原來是場噩夢啊……” “哼万牺!你這毒婦竟也來了?” 一聲冷哼從身側響起洽腺,我...
    開封第一講書人閱讀 40,124評論 0 277
  • 序言:老撾萬榮一對情侶失蹤脚粟,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后蘸朋,有當地人在樹林里發(fā)現了一具尸體核无,經...
    沈念sama閱讀 46,657評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,723評論 3 342
  • 正文 我和宋清朗相戀三年藕坯,在試婚紗的時候發(fā)現自己被綠了团南。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,872評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡炼彪,死狀恐怖吐根,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情辐马,我是刑警寧澤拷橘,帶...
    沈念sama閱讀 36,533評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站喜爷,受9級特大地震影響冗疮,放射性物質發(fā)生泄漏。R本人自食惡果不足惜檩帐,卻給世界環(huán)境...
    茶點故事閱讀 42,213評論 3 336
  • 文/蒙蒙 一术幔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧轿塔,春花似錦特愿、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至俩由,卻和暖如春毒嫡,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評論 1 274
  • 我被黑心中介騙來泰國打工兜畸, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留努释,地道東北人。 一個月前我還...
    沈念sama閱讀 49,304評論 3 379
  • 正文 我出身青樓咬摇,卻偏偏與公主長得像伐蒂,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子肛鹏,可洞房花燭夜當晚...
    茶點故事閱讀 45,876評論 2 361

推薦閱讀更多精彩內容

  • pyspark.sql模塊 模塊上下文 Spark SQL和DataFrames的重要類: pyspark.sql...
    mpro閱讀 9,465評論 0 13
  • CREATE TABLE IF NOT EXISTS ecs_order_info (order_id mediu...
    cookie口閱讀 15,700評論 0 16
  • 數據是來自于CDNow網站的用戶購買明細逸邦。一共有用戶ID,購買日期在扰,購買數量缕减,購買金額四個字段。 我們通過案例數據...
    楊昊_6c65閱讀 2,788評論 1 10
  • 錢丟丟《每天聽本書》D26——《番茄工作法圖解》諾特博格 2017.7.18 今天本來要寫《番茄工作法圖解》的芒珠,可...
    領讀者錢丟丟閱讀 272評論 0 1
  • ##標題 *列表-列表 1.有序列表 >引用 **粗體** *斜體* ***分割線 死睡懶覺
    繁星慌雨閱讀 155評論 0 0