一、數(shù)據(jù)準(zhǔn)備
爬蟲爬取美團(tuán)網(wǎng)廣州市地區(qū)美食商家信息 1025條严沥,爬蟲工具是八爪魚采集器猜极,主要字段包括:店鋪名稱、店鋪網(wǎng)址消玄、評分跟伏、消費(fèi)評分丢胚、消費(fèi)人數(shù)、類型受扳、店鋪地址携龟、人均價(jià)格、所在城市辞色、關(guān)鍵字骨宠。
二、分析目標(biāo)
針對美團(tuán)網(wǎng)廣州市地區(qū)美食商家
1相满、不同區(qū)域商家的商家數(shù)量、評論數(shù)量桦卒、種類分布立美、價(jià)格和評價(jià)如何?
2方灾、不同種類商家的商家數(shù)量建蹄、評論數(shù)量、區(qū)域分布裕偿、價(jià)格和評價(jià)如何洞慎?
3、連鎖店的門店數(shù)量嘿棘、種類分布劲腿、區(qū)域分布、評論數(shù)量和價(jià)格如何鸟妙?
4焦人、評論人數(shù)最多的10家店?價(jià)格最高的10家店重父?
三花椭、數(shù)據(jù)清洗與處理
下圖為原數(shù)據(jù)
數(shù)據(jù)處理
- 刪除44條重復(fù)記錄
- 刪除字段店鋪網(wǎng)址、所在城市房午、關(guān)鍵字
- 連鎖店店鋪名稱中括號內(nèi)容刪除
- 字段名消費(fèi)評論數(shù)改為消費(fèi)評分矿辽,變量值轉(zhuǎn)換為數(shù)值型
- 從店鋪地址中截取出區(qū)域名,區(qū)域名缺失值根據(jù)地址填充為南沙或從化
- 人均價(jià)格截取價(jià)格郭厌,并轉(zhuǎn)換為數(shù)值類型
清洗數(shù)據(jù)結(jié)果見下圖
四袋倔、分析內(nèi)容
區(qū)域
區(qū)域數(shù)量
SELECT COUNT(DISTINCT area)
FROM food;
目前廣州市轄有11個市轄區(qū),數(shù)據(jù)中有11個區(qū)域沪曙,符合廣州實(shí)際情況奕污。
店鋪數(shù)量
SELECT COUNT(*), COUNT(DISTINCT res)
FROM food;
一共有980條記錄,但店名去重后的數(shù)量是823液走,判斷有部分店鋪是連鎖店碳默。
各區(qū)域商家數(shù)量
SELECT area, COUNT(area)
FROM food
GROUP BY area
ORDER BY COUNT(area) DESC;
天河區(qū)的美食商家數(shù)量遠(yuǎn)大于其他區(qū)域贾陷,其次是番禺、白云嘱根、海珠和越秀髓废,可能是這些區(qū)域人流量比較大,因此商家也比較多该抒。
各區(qū)域評論數(shù)量
SELECT area, SUM(`comment`)
FROM food
GROUP BY area
ORDER BY SUM(`comment`) DESC;
這里用各區(qū)域評論總數(shù)量粗略代表人流量慌洪,可以看到各區(qū)域按評論數(shù)量排序的順序跟按商家數(shù)量排序的順序基本一致,人越多越繁華的地方凑保,商家就越多冈爹。
結(jié)合廣州各行政區(qū)常住人口數(shù)據(jù)(數(shù)據(jù)來源:維基百科)
這里按常住人口數(shù)量排序跟上面兩個排序有出入,但是前5名依然是白云欧引、海珠频伤、天河、番禺和越秀區(qū)芝此。
各區(qū)域商家種類數(shù)量
SELECT area, COUNT(DISTINCT kind)
FROM food
GROUP BY area
ORDER BY COUNT(DISTINCT kind) DESC;
美食種類最多的仍然是天河憋肖、白云、海珠婚苹、番禺和越秀岸更,商家越多,種類就越多膊升,選擇也就更多樣了怎炊。
各區(qū)域平均價(jià)格
SELECT area, ROUND(AVG(price))
FROM food
GROUP BY area
ORDER BY ROUND(AVG(price)) DESC;
天河區(qū)平均價(jià)格最高,畢竟是廣州CBD用僧,緊隨其后的是越秀和海珠區(qū)结胀,白云和番禺區(qū)平均價(jià)格處在中等水平,比較實(shí)惠责循。
各區(qū)域平均評分
SELECT area, ROUND(AVG(score),2)
FROM food
GROUP BY area
ORDER BY ROUND(AVG(score),2) DESC;
每個區(qū)域商家評價(jià)比較好糟港,平均評分都在4以上。
種類
種類數(shù)量
SELECT COUNT(DISTINCT kind)
FROM food;
美食種類一共有122種院仿,可供選擇的類型和口味挺多的秸抚,但是可能有一些種類是從一個大類種拆分出來的。
不同種類商家數(shù)量
SELECT kind, COUNT(kind)
FROM food
GROUP BY kind
ORDER BY COUNT(kind) DESC;
- 奶茶/果汁歹垫、粵菜和蛋糕商家數(shù)量是其他種類商家數(shù)量兩倍以上剥汤,這些類型可能有連鎖店,特別是奶茶/果汁排惨。
- 湘菜吭敢、川菜和火鍋商家數(shù)量挺多,這些菜基本上是辣的暮芭,看來挺多人喜歡吃辣的鹿驼。
- 一些外國菜欲低,日本壽司、披薩畜晰、西餐的商家數(shù)量也挺多的砾莱。
SELECT kind, COUNT(kind)
FROM food
GROUP BY kind
ORDER BY COUNT(kind);
商家數(shù)量最少的種類是一些小類,再次驗(yàn)證了我們的想法凄鼻,有些類型其實(shí)屬于同一大類腊瑟。
不同種類商家區(qū)域分布情況
SELECT kind, COUNT(DISTINCT area)
FROM food
GROUP BY kind
ORDER BY COUNT(DISTINCT area) DESC;
與之前的不同種類商家數(shù)量對比,商家數(shù)量越多块蚌,覆蓋的區(qū)域越廣闰非。
不同種類商家平均價(jià)格
SELECT kind, ROUND(AVG(price))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(price)) DESC;
SELECT kind, ROUND(AVG(price))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(price));
自助餐和外國菜普遍比較貴,新疆菜峭范、杭幫菜河胎、云南菜和重慶火鍋價(jià)格也比較高,但小吃類普遍比較便宜虎敦,比如豆腐花、地方小吃政敢、麻辣燙等等其徙。
不同種類商家平均評分
SELECT kind, ROUND(AVG(score))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(score));
商家平均評分還是挺高的,基本都大于3喷户。
連鎖店
CREATE VIEW chain_stores AS (
SELECT *
FROM food
GROUP BY res
HAVING COUNT(res)>1);
連鎖店數(shù)量
SELECT COUNT(DISTINCT res)
FROM food
WHERE res IN (SELECT res
FROM food
GROUP BY res
HAVING COUNT(res)>1);
爬取數(shù)據(jù)種有65家門店是連鎖店唾那。
連鎖店種類分布
SELECT kind, COUNT(kind)
FROM chain_stores
GROUP BY kind
ORDER BY COUNT(kind) DESC;
奶茶/果汁和蛋糕店連鎖店數(shù)量最多,這兩種類型的連鎖店可能比較容易開設(shè)褪尝。
連鎖店門店數(shù)量分布
SELECT res, COUNT(res)
FROM food
WHERE res IN (SELECT res
FROM chain_stores)
GROUP BY res
ORDER BY COUNT(res) DESC;
快餐店華萊士門店數(shù)量最多闹获,奶茶店的門店數(shù)量也挺多的。
連鎖店區(qū)域分布
SELECT res, COUNT(DISTINCT area)
FROM food
WHERE res IN (SELECT res
FROM chain_stores)
GROUP BY res
ORDER BY COUNT(area) DESC;
SELECT res, COUNT(DISTINCT area)
FROM food
WHERE res IN (SELECT res
FROM chain_stores)
GROUP BY res
ORDER BY COUNT(area) ;
通過與連鎖店門店數(shù)量對比河哑,連鎖店門店數(shù)量越多避诽,所覆蓋的區(qū)域也就越大。
連鎖店評論數(shù)量
SELECT res, SUM(`comment`)
FROM food
WHERE res IN (SELECT res
FROM chain_stores)
GROUP BY res
ORDER BY SUM(`comment`) DESC;
SELECT res, SUM(`comment`)
FROM food
WHERE res IN (SELECT res
FROM chain_stores)
GROUP BY res
ORDER BY SUM(`comment`);
連鎖店之間的評論數(shù)量相差蠻大的璃谨,有的評論數(shù)量上萬沙庐,一部分連鎖店本身門店數(shù)量多,一部分連鎖店吸引的顧客量大佳吞,有的評論數(shù)量只有幾百拱雏。
連鎖店平均評分
SELECT res, AVG(score)
FROM food
WHERE res IN (SELECT res
FROM chain_stores)
GROUP BY res
ORDER BY AVG(score) DESC;
SELECT res, AVG(score)
FROM food
WHERE res IN (SELECT res
FROM chain_stores)
GROUP BY res
ORDER BY AVG(score);
連鎖店平均評分大于3,總體評價(jià)不錯底扳,畢竟口碑不好铸抑,也很難開連鎖店。
Top商家
評論數(shù)量最多的10家店
SELECT res, score, `comment`, kind, area, price
FROM food
ORDER BY `comment` DESC
LIMIT 10;
最受歡迎的商家9家都分布在商家數(shù)量最多的區(qū)域衷模,種類不一鹊汛,價(jià)格沒有明顯的趨勢蒲赂。
價(jià)格最高的10家店
SELECT res, score, `comment`, kind, area, price
FROM food
ORDER BY price DESC
LIMIT 10;
平均消費(fèi)價(jià)格最高的10家店有4家都在天河區(qū),有7家都是自助餐類型的柒昏,集中在最貴的地區(qū)和類型凳宙,平均消費(fèi)價(jià)格都大于200。
五职祷、總結(jié)與不足
總結(jié):
- 人口比較大的五個區(qū)——天河氏涩、番禺、白云有梆、海珠和越秀的商家數(shù)量最多是尖,可選擇的種類也很多,作為CBD的天河區(qū)平均消費(fèi)價(jià)格是最貴的泥耀,商家總體評價(jià)比較好饺汹。
- 奶茶/果汁、粵菜痰催、蛋糕兜辞、湘菜、快餐等商家數(shù)量比其他種類多夸溶,不同種類商家數(shù)越多所覆蓋的區(qū)域越廣逸吵,自助餐和外國菜價(jià)格較高,而小吃類比較便宜缝裁。
- 奶茶/果汁扫皱、蛋糕、小吃快餐和粵菜的連鎖店較多捷绑,連鎖店門店數(shù)量越多韩脑,覆蓋區(qū)域越大,評論數(shù)量也會比較多粹污,連鎖店總體評分還是不錯的段多。
- 將評論數(shù)量作為簡單評判商家受歡迎的標(biāo)準(zhǔn),最受歡迎的10家店集中在商家數(shù)量最多的區(qū)域厕怜,但種類和價(jià)格沒有明顯的趨勢衩匣;平均消費(fèi)價(jià)格最貴的10家店有4家都在天河,7家都是自助餐粥航,平均消費(fèi)在200以上琅捏。
不足:
美團(tuán)廣州地區(qū)美食最多只有32頁,因此只爬取了32頁的數(shù)據(jù)递雀,數(shù)據(jù)與真實(shí)數(shù)據(jù)相比存在偏差柄延。