注:本人是數(shù)據(jù)分析小白,這是第一篇數(shù)據(jù)分析報(bào)告,分析較膚淺示血,歡迎批評(píng)指正。
數(shù)據(jù)來(lái)源:www.kaggle.com/neuromusic/avocado-prices
基本步驟梳理
1 提出問題
??????2 理解數(shù)據(jù)
??????3 數(shù)據(jù)處理
??????4 構(gòu)建模型
??????5 數(shù)據(jù)可視化
1牛油果案例提出以下問題
? ? ?1每年袋裝牛油果中各袋種類的比例/單賣牛油果品類占比
? ? ?2美國(guó)牛油果自2015年以來(lái)的總銷量和袋裝變化情況及袋裝比例變化
? ? ?3美國(guó)傳統(tǒng)牛油果和有機(jī)牛油果銷量和單價(jià)的變化
? ? ?4牛油果各地區(qū)比例變化
2理解數(shù)據(jù)
? ? ?查看原始數(shù)據(jù)集救拉,理解數(shù)據(jù):
? ? ?Date——售賣日期
? ? ?Average Price——每個(gè)牛油果平均價(jià)格
? ? Total Volume——所有形式牛油果總銷售量
? ? Total Bags——總袋數(shù)牛油果的銷量
? ? small bags/large bags/Xlarge Bags——分別為不同袋裝類型(小袋难审、大袋、超大袋)牛油果銷量
? ? types——牛油果種類亿絮,分為傳統(tǒng)和有機(jī)牛油果
? ? year——售賣年份
? ? region——銷售地區(qū)
? ?█理解難點(diǎn):4046/4225/4770——通過查詢?cè)瓟?shù)據(jù)來(lái)源得知均為Product lookup Code告喊,為超市等為產(chǎn)品編制的產(chǎn)品查找代碼,查看數(shù)據(jù)得知這幾列均為單個(gè)售賣個(gè)數(shù)(由于本數(shù)據(jù)集中牛油果僅有單個(gè)售賣和袋裝售賣方式)
3數(shù)據(jù)處理(為保證原數(shù)據(jù)準(zhǔn)確性派昧,新建工作表再?gòu)?fù)制原數(shù)據(jù)操作)
? ?1列名重命名:將數(shù)據(jù)列名轉(zhuǎn)換為易于理解的形式——4046/4225/4770加上PLU-黔姜。
? ?2缺失值:第一列缺乏列名——通過第二列日期時(shí)間可以確定為周,手動(dòng)填寫Week補(bǔ)全
? ?3重復(fù)值蒂萎、異常值:本數(shù)據(jù)不存在重復(fù)值和異常值
? ?4一致化處理:通過檢查數(shù)據(jù)秆吵,發(fā)現(xiàn)region一列既有各個(gè)城市,又有Southwest等區(qū)域五慈,還有total US纳寂,處理極大不方便主穗,應(yīng)該分層次處理
? ? ?具體如下:
? ? ?1在region一列右邊新建country列,將原region列中所有Total US的數(shù)據(jù)復(fù)制到新建的名為“country”的列中——可ctrl +G選中空格然后輸入=IF($N2=”Total US”,$N2,””)毙芜,ctrl+Enter批量填充
? ? ?2同理,在country列右邊新建region列爷肝,將原region列改為city猾浦,選中空格后=IF(OR($N2=”Midsouth”,$N2=”Northeast”,$N2=”SouthCentral”,$N2=”Southeast”,$N2=”West”),$N2,””),CTRL+ENTER批量填充
? ? ?3將現(xiàn)在的region列和country列全選/右鍵復(fù)制/選擇性粘貼/值和數(shù)字形式——避免原region列的數(shù)值變化后這兩列也跟著變化
? ? ?4選中city一列陆错,ctrl+F定位出所有的”Total US”灯抛、”Midsouth”、”Northeast”音瓷、”SouthCentral”对嚼、”Southeast”、”West”后全選绳慎,然后替換為”?“最終得到下表作為“中間數(shù)據(jù)”工作表(其中country列僅有Total US纵竖,region列僅有Southwest等地區(qū),city列為除了Total US和Southwest以外的城市)
4數(shù)據(jù)透視表分析及可視化
根據(jù)具體問題建立數(shù)據(jù)透視表分析杏愤,具體流程如下:
1選中“中間數(shù)據(jù)”工作表任意數(shù)據(jù)/插入菜單——數(shù)據(jù)透視表
2得到彈出窗口/確定
3得到數(shù)據(jù)透視表工作表靡砌,選擇與問題相關(guān)的數(shù)據(jù)字段,即可形成數(shù)據(jù)透視表——此處以各城市牛油果總銷量為例珊楼,要得到每年牛油果銷量最高的十大城市通殃,可選擇city列加入行右鍵值篩選出銷量前十的城市,年加入列厕宗,即可得到下表
4數(shù)據(jù)可視化操作
選中數(shù)據(jù)透視表任意位置——插入數(shù)據(jù)透視圖——選擇合適的圖表即可(為保證圖表按照某一順序排列插入數(shù)據(jù)透視圖前可先對(duì)數(shù)據(jù)排序)
選擇一定數(shù)據(jù)透視圖的樣式画舌,最終得到圖表如下:
5數(shù)據(jù)分析部分及分析報(bào)告制作
根據(jù)上一步得到的圖表,本文主要從城市已慢、總銷量VS 袋裝銷量曲聂、地區(qū)、有機(jī)VS 傳統(tǒng)佑惠、品類等方面分類進(jìn)行分析
城市
1.總體來(lái)看朋腋,美國(guó)各城市牛油果銷量從2015年到2018年價(jià)格均有一定增加
2.California牛油果的銷量近年一直遠(yuǎn)超其他城市,近乎Great Lakes銷量的兩倍膜楷,從New York開始的銷量第六到十的城市銷量差距較小旭咽,均保持在50000000左右
總銷量VS袋裝銷量
1.數(shù)量上,袋裝牛油果的銷量與總銷量相比仍然有很大差距把将,目前單個(gè)牛油果售賣仍占據(jù)主流轻专。
2.2015年到2018年,袋裝牛油果銷量的比例漲幅較大察蹲,由2015年第一季的15%上漲到2018年第一季的近35%请垛,反映出牛油果需求量的逐年增加催训。
地區(qū)-銷量分布
1.West地區(qū)牛油果銷量占美國(guó)各地區(qū)比例最高,從2015開始均維持在近30%宗收。
2.牛油果銷量地區(qū)分布不均漫拭,West和South Central創(chuàng)造了超過50%的美國(guó)牛油果銷量,Northeast等其他三區(qū)銷量占比較低混稽,應(yīng)采取措施提高銷量采驻。
地區(qū)-銷量變化
1.West和South Central銷量最高,其他區(qū)域與之差距較大匈勋。
2.West銷量占據(jù)美國(guó)各區(qū)第一礼旅,但從2017年第二季開始South Central逐漸縮小與West的差距,2018年有望趕超West區(qū)域躍居第一洽洁。
3.各地區(qū)銷量均呈現(xiàn)出明顯的季節(jié)變化痘系,第一二季度銷量較高,三四季度銷量下滑饿自。
有機(jī)VS傳統(tǒng)
1.從銷量來(lái)看汰翠,有機(jī)牛油果銷量與傳統(tǒng)牛油果差異巨大,目前還僅僅是傳統(tǒng)牛油果銷量的零頭昭雌,有機(jī)牛油果銷售還有很大市場(chǎng)發(fā)展空間复唤。
2.有機(jī)牛油果與傳統(tǒng)牛油果價(jià)格變化趨勢(shì)相同,但有機(jī)牛油果的價(jià)格相對(duì)傳統(tǒng)牛油果偏高烛卧,兩者價(jià)格差異維持在0.5美元/個(gè)左右佛纫,這可能導(dǎo)致了有機(jī)牛油果銷量的偏低。
3.有機(jī)牛油果與傳統(tǒng)牛油果銷量變化趨勢(shì)總體相同唱星,但漲幅方面雳旅,有機(jī)牛油果漲幅較傳統(tǒng)牛油果更大,2015年到2018年间聊,從6億左右近乎翻了一倍攒盈,有機(jī)牛油果銷量上尚有很大提升潛力。
品類-袋裝
1.目前哎榴,小袋牛油果銷量仍是袋裝牛油果銷量的主要來(lái)源型豁,超大袋牛油果銷量占比極低。
2.大袋牛油果銷量占比2015-2018年間有一定上漲尚蝌,該類牛油果可能家庭購(gòu)買食用迎变,反映出美國(guó)人民對(duì)牛油果需求增加,但目前超大袋的需求量仍微不足道飘言,可適當(dāng)減少其生產(chǎn)量衣形。
品類-單賣
1.單賣牛油果中服鹅,4225和4046銷量組成了單賣總銷量的90%以上缀拭,其中4046銷量在50%左右波動(dòng)袍暴,4770銷量情況不太樂觀坊萝。
2.可適當(dāng)推出4225和4046的兩個(gè)裝刺激銷量,滿足個(gè)人消費(fèi)者的消費(fèi)需求句狼。
制作數(shù)據(jù)分析報(bào)告(略)
按照總分總的格式制作數(shù)據(jù)分析PPT報(bào)告笋熬,具體文檔分類:背景與目的——美國(guó)牛油果銷量?jī)r(jià)格分析——結(jié)論與總結(jié)