Kaggle案例-美國(guó)牛油果EXCEL數(shù)據(jù)分析思路

注:本人是數(shù)據(jù)分析小白,這是第一篇數(shù)據(jù)分析報(bào)告,分析較膚淺示血,歡迎批評(píng)指正

數(shù)據(jù)來(lái)源:www.kaggle.com/neuromusic/avocado-prices

基本步驟梳理

1 提出問題

??????2 理解數(shù)據(jù)

??????3 數(shù)據(jù)處理

??????4 構(gòu)建模型

??????5 數(shù)據(jù)可視化

1牛油果案例提出以下問題

? ? ?1每年袋裝牛油果中各袋種類的比例/單賣牛油果品類占比

? ? ?2美國(guó)牛油果自2015年以來(lái)的總銷量和袋裝變化情況及袋裝比例變化

? ? ?3美國(guó)傳統(tǒng)牛油果和有機(jī)牛油果銷量和單價(jià)的變化

? ? ?4牛油果各地區(qū)比例變化

2理解數(shù)據(jù)

原始數(shù)據(jù)

? ? ?查看原始數(shù)據(jù)集救拉,理解數(shù)據(jù):

? ? ?Date——售賣日期

? ? ?Average Price——每個(gè)牛油果平均價(jià)格

? ? Total Volume——所有形式牛油果總銷售量

? ? Total Bags——總袋數(shù)牛油果的銷量

? ? small bags/large bags/Xlarge Bags——分別為不同袋裝類型(小袋难审、大袋、超大袋)牛油果銷量

? ? types——牛油果種類亿絮,分為傳統(tǒng)和有機(jī)牛油果

? ? year——售賣年份

? ? region——銷售地區(qū)

? ?█理解難點(diǎn):4046/4225/4770——通過查詢?cè)瓟?shù)據(jù)來(lái)源得知均為Product lookup Code告喊,為超市等為產(chǎn)品編制的產(chǎn)品查找代碼,查看數(shù)據(jù)得知這幾列均為單個(gè)售賣個(gè)數(shù)(由于本數(shù)據(jù)集中牛油果僅有單個(gè)售賣和袋裝售賣方式)

3數(shù)據(jù)處理(為保證原數(shù)據(jù)準(zhǔn)確性派昧,新建工作表再?gòu)?fù)制原數(shù)據(jù)操作)

? ?1列名重命名:將數(shù)據(jù)列名轉(zhuǎn)換為易于理解的形式——4046/4225/4770加上PLU-黔姜。

? ?2缺失值:第一列缺乏列名——通過第二列日期時(shí)間可以確定為周,手動(dòng)填寫Week補(bǔ)全

? ?3重復(fù)值蒂萎、異常值:本數(shù)據(jù)不存在重復(fù)值和異常值

? ?4一致化處理:通過檢查數(shù)據(jù)秆吵,發(fā)現(xiàn)region一列既有各個(gè)城市,又有Southwest等區(qū)域五慈,還有total US纳寂,處理極大不方便主穗,應(yīng)該分層次處理

? ? ?具體如下:

? ? ?1在region一列右邊新建country列,將原region列中所有Total US的數(shù)據(jù)復(fù)制到新建的名為“country”的列中——可ctrl +G選中空格然后輸入=IF($N2=”Total US”,$N2,””)毙芜,ctrl+Enter批量填充

新建country和region列忽媒,將原來(lái)的region列改為city

? ? ?2同理,在country列右邊新建region列爷肝,將原region列改為city猾浦,選中空格后=IF(OR($N2=”Midsouth”,$N2=”Northeast”,$N2=”SouthCentral”,$N2=”Southeast”,$N2=”West”),$N2,””),CTRL+ENTER批量填充

? ? ?3將現(xiàn)在的region列和country列全選/右鍵復(fù)制/選擇性粘貼/值和數(shù)字形式——避免原region列的數(shù)值變化后這兩列也跟著變化

? ? ?4選中city一列陆错,ctrl+F定位出所有的”Total US”灯抛、”Midsouth”、”Northeast”音瓷、”SouthCentral”对嚼、”Southeast”、”West”后全選绳慎,然后替換為”?“最終得到下表作為“中間數(shù)據(jù)”工作表(其中country列僅有Total US纵竖,region列僅有Southwest等地區(qū),city列為除了Total US和Southwest以外的城市)

進(jìn)行一致化處理后的表格(命名為“中間數(shù)據(jù)”)


country列內(nèi)容


region列內(nèi)容——各地區(qū)

4數(shù)據(jù)透視表分析及可視化

根據(jù)具體問題建立數(shù)據(jù)透視表分析杏愤,具體流程如下:

1選中“中間數(shù)據(jù)”工作表任意數(shù)據(jù)/插入菜單——數(shù)據(jù)透視表

插入數(shù)據(jù)透視表

2得到彈出窗口/確定

彈出對(duì)話框

3得到數(shù)據(jù)透視表工作表靡砌,選擇與問題相關(guān)的數(shù)據(jù)字段,即可形成數(shù)據(jù)透視表——此處以各城市牛油果總銷量為例珊楼,要得到每年牛油果銷量最高的十大城市通殃,可選擇city列加入行右鍵值篩選出銷量前十的城市,年加入列厕宗,即可得到下表

數(shù)據(jù)透視表頁(yè)面


美國(guó)牛油果銷量前十?dāng)?shù)據(jù)透視表字段
美國(guó)牛油果銷量前十?dāng)?shù)據(jù)透視表字段

4數(shù)據(jù)可視化操作

選中數(shù)據(jù)透視表任意位置——插入數(shù)據(jù)透視圖——選擇合適的圖表即可(為保證圖表按照某一順序排列插入數(shù)據(jù)透視圖前可先對(duì)數(shù)據(jù)排序)

插入數(shù)據(jù)透視圖


數(shù)據(jù)篩選操作
數(shù)據(jù)排序操作

選擇一定數(shù)據(jù)透視圖的樣式画舌,最終得到圖表如下:

美國(guó)牛油果銷量前十城市

5數(shù)據(jù)分析部分及分析報(bào)告制作

根據(jù)上一步得到的圖表,本文主要從城市已慢、總銷量VS 袋裝銷量曲聂、地區(qū)、有機(jī)VS 傳統(tǒng)佑惠、品類等方面分類進(jìn)行分析

城市

美國(guó)牛油果銷量前十城市

1.總體來(lái)看朋腋,美國(guó)各城市牛油果銷量從2015年到2018年價(jià)格均有一定增加

2.California牛油果的銷量近年一直遠(yuǎn)超其他城市,近乎Great Lakes銷量的兩倍膜楷,從New York開始的銷量第六到十的城市銷量差距較小旭咽,均保持在50000000左右

總銷量VS袋裝銷量


總銷量與袋裝銷量變化

1.數(shù)量上,袋裝牛油果的銷量與總銷量相比仍然有很大差距把将,目前單個(gè)牛油果售賣仍占據(jù)主流轻专。

2.2015年到2018年,袋裝牛油果銷量的比例漲幅較大察蹲,由2015年第一季的15%上漲到2018年第一季的近35%请垛,反映出牛油果需求量的逐年增加催训。

地區(qū)-銷量分布

各地區(qū)牛油果銷量占比

1.West地區(qū)牛油果銷量占美國(guó)各地區(qū)比例最高,從2015開始均維持在近30%宗收。

2.牛油果銷量地區(qū)分布不均漫拭,West和South Central創(chuàng)造了超過50%的美國(guó)牛油果銷量,Northeast等其他三區(qū)銷量占比較低混稽,應(yīng)采取措施提高銷量采驻。

地區(qū)-銷量變化

各地區(qū)銷量變化情況

1.West和South Central銷量最高,其他區(qū)域與之差距較大匈勋。

2.West銷量占據(jù)美國(guó)各區(qū)第一礼旅,但從2017年第二季開始South Central逐漸縮小與West的差距,2018年有望趕超West區(qū)域躍居第一洽洁。

3.各地區(qū)銷量均呈現(xiàn)出明顯的季節(jié)變化痘系,第一二季度銷量較高,三四季度銷量下滑饿自。

有機(jī)VS傳統(tǒng)

有機(jī)與傳統(tǒng)牛油果銷量對(duì)比

1.從銷量來(lái)看汰翠,有機(jī)牛油果銷量與傳統(tǒng)牛油果差異巨大,目前還僅僅是傳統(tǒng)牛油果銷量的零頭昭雌,有機(jī)牛油果銷售還有很大市場(chǎng)發(fā)展空間复唤。

有機(jī)與傳統(tǒng)牛油果價(jià)格變化

2.有機(jī)牛油果與傳統(tǒng)牛油果價(jià)格變化趨勢(shì)相同,但有機(jī)牛油果的價(jià)格相對(duì)傳統(tǒng)牛油果偏高烛卧,兩者價(jià)格差異維持在0.5美元/個(gè)左右佛纫,這可能導(dǎo)致了有機(jī)牛油果銷量的偏低。

有機(jī)與傳統(tǒng)牛油果銷量變化

3.有機(jī)牛油果與傳統(tǒng)牛油果銷量變化趨勢(shì)總體相同唱星,但漲幅方面雳旅,有機(jī)牛油果漲幅較傳統(tǒng)牛油果更大,2015年到2018年间聊,從6億左右近乎翻了一倍攒盈,有機(jī)牛油果銷量上尚有很大提升潛力。

品類-袋裝

袋裝牛油果各品類銷量占比

1.目前哎榴,小袋牛油果銷量仍是袋裝牛油果銷量的主要來(lái)源型豁,超大袋牛油果銷量占比極低。

2.大袋牛油果銷量占比2015-2018年間有一定上漲尚蝌,該類牛油果可能家庭購(gòu)買食用迎变,反映出美國(guó)人民對(duì)牛油果需求增加,但目前超大袋的需求量仍微不足道飘言,可適當(dāng)減少其生產(chǎn)量衣形。

品類-單賣

單賣牛油果各品類銷量占比

1.單賣牛油果中服鹅,4225和4046銷量組成了單賣總銷量的90%以上缀拭,其中4046銷量在50%左右波動(dòng)袍暴,4770銷量情況不太樂觀坊萝。

2.可適當(dāng)推出4225和4046的兩個(gè)裝刺激銷量,滿足個(gè)人消費(fèi)者的消費(fèi)需求句狼。


制作數(shù)據(jù)分析報(bào)告(略)

按照總分總的格式制作數(shù)據(jù)分析PPT報(bào)告笋熬,具體文檔分類:背景與目的——美國(guó)牛油果銷量?jī)r(jià)格分析——結(jié)論與總結(jié)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市腻菇,隨后出現(xiàn)的幾起案子胳螟,更是在濱河造成了極大的恐慌,老刑警劉巖筹吐,帶你破解...
    沈念sama閱讀 211,639評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件糖耸,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡骏令,警方通過查閱死者的電腦和手機(jī)蔬捷,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)榔袋,“玉大人,你說(shuō)我怎么就攤上這事铡俐』硕遥” “怎么了?”我有些...
    開封第一講書人閱讀 157,221評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵审丘,是天一觀的道長(zhǎng)吏够。 經(jīng)常有香客問我,道長(zhǎng)滩报,這世上最難降的妖魔是什么锅知? 我笑而不...
    開封第一講書人閱讀 56,474評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮脓钾,結(jié)果婚禮上售睹,老公的妹妹穿的比我還像新娘。我一直安慰自己可训,他們只是感情好昌妹,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著握截,像睡著了一般飞崖。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上谨胞,一...
    開封第一講書人閱讀 49,816評(píng)論 1 290
  • 那天固歪,我揣著相機(jī)與錄音,去河邊找鬼胯努。 笑死牢裳,一個(gè)胖子當(dāng)著我的面吹牛术瓮,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播贰健,決...
    沈念sama閱讀 38,957評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼胞四,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了伶椿?” 一聲冷哼從身側(cè)響起辜伟,我...
    開封第一講書人閱讀 37,718評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎脊另,沒想到半個(gè)月后导狡,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,176評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡偎痛,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評(píng)論 2 327
  • 正文 我和宋清朗相戀三年旱捧,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片踩麦。...
    茶點(diǎn)故事閱讀 38,646評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡枚赡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出谓谦,到底是詐尸還是另有隱情贫橙,我是刑警寧澤,帶...
    沈念sama閱讀 34,322評(píng)論 4 330
  • 正文 年R本政府宣布反粥,位于F島的核電站卢肃,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏才顿。R本人自食惡果不足惜莫湘,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望郑气。 院中可真熱鬧幅垮,春花似錦、人聲如沸竣贪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)演怎。三九已至匕争,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間爷耀,已是汗流浹背甘桑。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人跑杭。 一個(gè)月前我還...
    沈念sama閱讀 46,358評(píng)論 2 360
  • 正文 我出身青樓铆帽,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親德谅。 傳聞我的和親對(duì)象是個(gè)殘疾皇子爹橱,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容