前言
數(shù)據(jù)分析步驟:
提出問(wèn)題→理解數(shù)據(jù)→數(shù)據(jù)清洗→構(gòu)建模型→數(shù)據(jù)可視化。
一潮针、提出問(wèn)題
1、最好的可可豆種植在哪里倚喂?
2每篷、哪些國(guó)家/地區(qū)生產(chǎn)評(píng)級(jí)最高的酒吧?
3端圈、可可固體百分比和評(píng)級(jí)之間的關(guān)系是什么焦读?
二、理解數(shù)據(jù)
本數(shù)據(jù)來(lái)源于Kaggle:巧克力棒評(píng)級(jí)舱权,
https://www.kaggle.com/rtatman/chocolate-bar-ratings
一共有1795行數(shù)據(jù)矗晃,包含9個(gè)字段,具體為:
1)Company 公司
2)Specific Bean Origin or Bar Name 特定豆類(lèi)起源或酒吧名稱(chēng)
3)REF? (與在數(shù)據(jù)庫(kù)中輸入審閱時(shí)鏈接的值刑巧。更高=更近)
4)Review Date 審核日期
5)Cocoa Percent 可可百分比
6)Company Location 公司位置
7)Rating 評(píng)分
8)Bean Type 豆類(lèi)型
9)Broad Bean Origin 蠶豆起源
三喧兄、數(shù)據(jù)清洗
3.1選擇子集
將第3列 REF? 和 第4列 Review Date 審核日期兩個(gè)子集隱藏:分別選中第3和第4列→右鍵→隱藏无畔。
3.2 列表重命名
將列表的英文名稱(chēng)改為中文名稱(chēng)
3.3 刪除重復(fù)值
選擇數(shù)據(jù)→刪除重復(fù)項(xiàng)→取消全選→選擇 特定豆類(lèi)起源或酒吧名稱(chēng)→確定
3.4缺失值處理
發(fā)現(xiàn)缺失值只有豆類(lèi)型一列,很多都是無(wú)法確定的吠冤,但不影響后續(xù)分析浑彰,因此缺失值不做處理。(人工一次性補(bǔ)全所有缺失值方法:在找到的一個(gè)空白框內(nèi)輸入分析得到的值后拯辙,按住Ctrl+Enter)
3.5 一致化處理
3.5.1復(fù)制列:將特定豆類(lèi)起源或酒吧名稱(chēng)列復(fù)制→最后空白列粘貼郭变。
3.5.2分列
分列完成后將原來(lái)第2列隱藏。
對(duì)評(píng)分列從高到低進(jìn)行排序
3.7 異常值處理
全選表格涯保,將表格中的錯(cuò)誤值刪除诉濒。
四、構(gòu)建模型
1夕春、使用數(shù)據(jù)透視表分析最好的可可豆種植在哪里未荒?
2、使用數(shù)據(jù)透視表分析哪些國(guó)家/地區(qū)生產(chǎn)評(píng)級(jí)最高的酒吧及志?
3片排、使用數(shù)據(jù)透視表分析可可固體百分比和評(píng)級(jí)之間的關(guān)系是什么?
五速侈、總結(jié)
1率寡、根據(jù)評(píng)分最高的排序可知最好的可可豆種植在6個(gè)地方,分別是
1)Guat.,? D.R., Peru, Mad., PNG
2)Venezuela,? Java
3)Ven,? Bolivia, D.R.
4)Dom.? Rep., Madagascar
5)Gre.,? PNG, Haw., Haiti, Mad
6)Peru,? Dom. Rep
2倚搬、根據(jù)評(píng)分最高的排序可知2個(gè)國(guó)家/地區(qū)生產(chǎn)評(píng)級(jí)最高的酒吧:
1)Bolivia? ?
2)Chile?
3冶共、根據(jù)評(píng)分最高的排序可知,可可固體百分比73.50%時(shí)每界,所得的平均評(píng)分最高捅僵。