美團(tuán)網(wǎng)商家數(shù)據(jù)分析

一、數(shù)據(jù)準(zhǔn)備

爬蟲爬取美團(tuán)網(wǎng)廣州市地區(qū)美食商家信息 1025條严沥,爬蟲工具是八爪魚采集器猜极,主要字段包括:店鋪名稱、店鋪網(wǎng)址消玄、評分跟伏、消費(fèi)評分丢胚、消費(fèi)人數(shù)、類型受扳、店鋪地址携龟、人均價(jià)格、所在城市辞色、關(guān)鍵字骨宠。

二、分析目標(biāo)

針對美團(tuán)網(wǎng)廣州市地區(qū)美食商家
1相满、不同區(qū)域商家的商家數(shù)量、評論數(shù)量桦卒、種類分布立美、價(jià)格和評價(jià)如何?
2方灾、不同種類商家的商家數(shù)量建蹄、評論數(shù)量、區(qū)域分布裕偿、價(jià)格和評價(jià)如何洞慎?
3、連鎖店的門店數(shù)量嘿棘、種類分布劲腿、區(qū)域分布、評論數(shù)量和價(jià)格如何鸟妙?
4焦人、評論人數(shù)最多的10家店?價(jià)格最高的10家店重父?

三花椭、數(shù)據(jù)清洗與處理

下圖為原數(shù)據(jù)


原數(shù)據(jù).JPG

數(shù)據(jù)處理

  • 刪除44條重復(fù)記錄
  • 刪除字段店鋪網(wǎng)址、所在城市房午、關(guān)鍵字
  • 連鎖店店鋪名稱中括號內(nèi)容刪除
  • 字段名消費(fèi)評論數(shù)改為消費(fèi)評分矿辽,變量值轉(zhuǎn)換為數(shù)值型
  • 從店鋪地址中截取出區(qū)域名,區(qū)域名缺失值根據(jù)地址填充為南沙或從化
  • 人均價(jià)格截取價(jià)格郭厌,并轉(zhuǎn)換為數(shù)值類型

清洗數(shù)據(jù)結(jié)果見下圖


清洗結(jié)果數(shù)據(jù).JPG

四袋倔、分析內(nèi)容

區(qū)域

區(qū)域數(shù)量

SELECT COUNT(DISTINCT area)
FROM food;
區(qū)域數(shù)量.JPG

目前廣州市轄有11個市轄區(qū),數(shù)據(jù)中有11個區(qū)域沪曙,符合廣州實(shí)際情況奕污。

店鋪數(shù)量

SELECT COUNT(*), COUNT(DISTINCT res)
FROM food;
店鋪總數(shù)量.JPG

一共有980條記錄,但店名去重后的數(shù)量是823液走,判斷有部分店鋪是連鎖店碳默。

各區(qū)域商家數(shù)量

SELECT area, COUNT(area)
FROM food
GROUP BY area
ORDER BY COUNT(area) DESC;
各區(qū)域商家數(shù)量.JPG

天河區(qū)的美食商家數(shù)量遠(yuǎn)大于其他區(qū)域贾陷,其次是番禺、白云嘱根、海珠和越秀髓废,可能是這些區(qū)域人流量比較大,因此商家也比較多该抒。

各區(qū)域評論數(shù)量

SELECT area, SUM(`comment`)
FROM food
GROUP BY area
ORDER BY SUM(`comment`) DESC;
區(qū)域評價(jià)總?cè)藬?shù).JPG

這里用各區(qū)域評論總數(shù)量粗略代表人流量慌洪,可以看到各區(qū)域按評論數(shù)量排序的順序跟按商家數(shù)量排序的順序基本一致,人越多越繁華的地方凑保,商家就越多冈爹。

結(jié)合廣州各行政區(qū)常住人口數(shù)據(jù)(數(shù)據(jù)來源:維基百科)


廣州各行政區(qū)常住人口.JPG

這里按常住人口數(shù)量排序跟上面兩個排序有出入,但是前5名依然是白云欧引、海珠频伤、天河、番禺和越秀區(qū)芝此。

各區(qū)域商家種類數(shù)量

SELECT area, COUNT(DISTINCT kind)
FROM food
GROUP BY area
ORDER BY COUNT(DISTINCT kind) DESC;
各區(qū)域商家種類數(shù)量.JPG

美食種類最多的仍然是天河憋肖、白云、海珠婚苹、番禺和越秀岸更,商家越多,種類就越多膊升,選擇也就更多樣了怎炊。

各區(qū)域平均價(jià)格

SELECT area, ROUND(AVG(price))
FROM food
GROUP BY area
ORDER BY ROUND(AVG(price)) DESC;
區(qū)域平均價(jià)格.JPG

天河區(qū)平均價(jià)格最高,畢竟是廣州CBD用僧,緊隨其后的是越秀和海珠區(qū)结胀,白云和番禺區(qū)平均價(jià)格處在中等水平,比較實(shí)惠责循。

各區(qū)域平均評分

SELECT area, ROUND(AVG(score),2)
FROM food
GROUP BY area
ORDER BY ROUND(AVG(score),2) DESC;
區(qū)域商家平均評分.JPG

每個區(qū)域商家評價(jià)比較好糟港,平均評分都在4以上。

種類

種類數(shù)量

SELECT COUNT(DISTINCT kind)
FROM food;
商家種類數(shù)量.JPG

美食種類一共有122種院仿,可供選擇的類型和口味挺多的秸抚,但是可能有一些種類是從一個大類種拆分出來的。

不同種類商家數(shù)量

SELECT kind, COUNT(kind)
FROM food
GROUP BY kind
ORDER BY COUNT(kind) DESC;
不同種類商家數(shù)量最高部分.JPG
  • 奶茶/果汁歹垫、粵菜和蛋糕商家數(shù)量是其他種類商家數(shù)量兩倍以上剥汤,這些類型可能有連鎖店,特別是奶茶/果汁排惨。
  • 湘菜吭敢、川菜和火鍋商家數(shù)量挺多,這些菜基本上是辣的暮芭,看來挺多人喜歡吃辣的鹿驼。
  • 一些外國菜欲低,日本壽司、披薩畜晰、西餐的商家數(shù)量也挺多的砾莱。
SELECT kind, COUNT(kind)
FROM food
GROUP BY kind
ORDER BY COUNT(kind);
不同種類商家數(shù)量最低部分.JPG

商家數(shù)量最少的種類是一些小類,再次驗(yàn)證了我們的想法凄鼻,有些類型其實(shí)屬于同一大類腊瑟。

不同種類商家區(qū)域分布情況

SELECT kind, COUNT(DISTINCT area)
FROM food
GROUP BY kind
ORDER BY COUNT(DISTINCT area) DESC;
不同種類區(qū)域分布數(shù)量.JPG

與之前的不同種類商家數(shù)量對比,商家數(shù)量越多块蚌,覆蓋的區(qū)域越廣闰非。

不同種類商家平均價(jià)格

SELECT kind, ROUND(AVG(price))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(price)) DESC;
不同種類商家價(jià)格最高部分.JPG
SELECT kind, ROUND(AVG(price))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(price));
不同種類商家價(jià)格最低部分.JPG

自助餐和外國菜普遍比較貴,新疆菜峭范、杭幫菜河胎、云南菜和重慶火鍋價(jià)格也比較高,但小吃類普遍比較便宜虎敦,比如豆腐花、地方小吃政敢、麻辣燙等等其徙。

不同種類商家平均評分

SELECT kind, ROUND(AVG(score))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(score));
不同種類商家評分最低部分.JPG

商家平均評分還是挺高的,基本都大于3喷户。

連鎖店

CREATE VIEW chain_stores AS (
SELECT *
FROM food
GROUP BY res
HAVING COUNT(res)>1);

連鎖店數(shù)量

SELECT COUNT(DISTINCT res)
FROM food
WHERE res IN (SELECT res
              FROM food
              GROUP BY res
              HAVING COUNT(res)>1);
連鎖店數(shù)量.JPG

爬取數(shù)據(jù)種有65家門店是連鎖店唾那。

連鎖店種類分布

SELECT kind, COUNT(kind)
FROM chain_stores
GROUP BY kind
ORDER BY COUNT(kind) DESC;
連鎖店種類數(shù)量.JPG

奶茶/果汁和蛋糕店連鎖店數(shù)量最多,這兩種類型的連鎖店可能比較容易開設(shè)褪尝。

連鎖店門店數(shù)量分布

SELECT res, COUNT(res)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY COUNT(res) DESC;
連鎖店門店數(shù)量最高部分.JPG

快餐店華萊士門店數(shù)量最多闹获,奶茶店的門店數(shù)量也挺多的。

連鎖店區(qū)域分布

SELECT res, COUNT(DISTINCT area)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY COUNT(area) DESC;
連鎖店區(qū)域分布最高部分.JPG
SELECT res, COUNT(DISTINCT area)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY COUNT(area) ;
連鎖店區(qū)域分布最低部分.JPG

通過與連鎖店門店數(shù)量對比河哑,連鎖店門店數(shù)量越多避诽,所覆蓋的區(qū)域也就越大。

連鎖店評論數(shù)量

SELECT res, SUM(`comment`)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY SUM(`comment`)  DESC;
連鎖店評論數(shù)量最高部分.JPG
SELECT res, SUM(`comment`)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY SUM(`comment`);
連鎖店評論數(shù)量最低部分.JPG

連鎖店之間的評論數(shù)量相差蠻大的璃谨,有的評論數(shù)量上萬沙庐,一部分連鎖店本身門店數(shù)量多,一部分連鎖店吸引的顧客量大佳吞,有的評論數(shù)量只有幾百拱雏。

連鎖店平均評分

SELECT res, AVG(score)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY AVG(score) DESC;
連鎖店平均評分最高部分.JPG
SELECT res, AVG(score)
FROM food
WHERE res IN (SELECT res
              FROM chain_stores)
GROUP BY res
ORDER BY AVG(score);
連鎖店平均評分最低部分.JPG

連鎖店平均評分大于3,總體評價(jià)不錯底扳,畢竟口碑不好铸抑,也很難開連鎖店。

Top商家

評論數(shù)量最多的10家店

SELECT res, score, `comment`, kind, area, price
FROM food
ORDER BY `comment` DESC
LIMIT 10;
最受歡迎前10商家.JPG

最受歡迎的商家9家都分布在商家數(shù)量最多的區(qū)域衷模,種類不一鹊汛,價(jià)格沒有明顯的趨勢蒲赂。

價(jià)格最高的10家店

SELECT res, score, `comment`, kind, area, price
FROM food
ORDER BY price DESC
LIMIT 10;
最貴10家商家.JPG

平均消費(fèi)價(jià)格最高的10家店有4家都在天河區(qū),有7家都是自助餐類型的柒昏,集中在最貴的地區(qū)和類型凳宙,平均消費(fèi)價(jià)格都大于200。

五职祷、總結(jié)與不足

總結(jié):

  • 人口比較大的五個區(qū)——天河氏涩、番禺、白云有梆、海珠和越秀的商家數(shù)量最多是尖,可選擇的種類也很多,作為CBD的天河區(qū)平均消費(fèi)價(jià)格是最貴的泥耀,商家總體評價(jià)比較好饺汹。
  • 奶茶/果汁、粵菜痰催、蛋糕兜辞、湘菜、快餐等商家數(shù)量比其他種類多夸溶,不同種類商家數(shù)越多所覆蓋的區(qū)域越廣逸吵,自助餐和外國菜價(jià)格較高,而小吃類比較便宜缝裁。
  • 奶茶/果汁扫皱、蛋糕、小吃快餐和粵菜的連鎖店較多捷绑,連鎖店門店數(shù)量越多韩脑,覆蓋區(qū)域越大,評論數(shù)量也會比較多粹污,連鎖店總體評分還是不錯的段多。
  • 將評論數(shù)量作為簡單評判商家受歡迎的標(biāo)準(zhǔn),最受歡迎的10家店集中在商家數(shù)量最多的區(qū)域厕怜,但種類和價(jià)格沒有明顯的趨勢衩匣;平均消費(fèi)價(jià)格最貴的10家店有4家都在天河,7家都是自助餐粥航,平均消費(fèi)在200以上琅捏。

不足:
美團(tuán)廣州地區(qū)美食最多只有32頁,因此只爬取了32頁的數(shù)據(jù)递雀,數(shù)據(jù)與真實(shí)數(shù)據(jù)相比存在偏差柄延。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子搜吧,更是在濱河造成了極大的恐慌景用,老刑警劉巖肛冶,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件刽宪,死亡現(xiàn)場離奇詭異顿苇,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)蜒程,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進(jìn)店門绅你,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人昭躺,你說我怎么就攤上這事忌锯。” “怎么了领炫?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵偶垮,是天一觀的道長。 經(jīng)常有香客問我帝洪,道長似舵,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任葱峡,我火速辦了婚禮啄枕,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘族沃。我一直安慰自己,他們只是感情好泌参,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布脆淹。 她就那樣靜靜地躺著,像睡著了一般沽一。 火紅的嫁衣襯著肌膚如雪盖溺。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天铣缠,我揣著相機(jī)與錄音,去河邊找鬼蝗蛙。 笑死,一個胖子當(dāng)著我的面吹牛捡硅,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播壮韭,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼北发,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了瞭恰?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤狱庇,失蹤者是張志新(化名)和其女友劉穎惊畏,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體陕截,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡批什,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了乳规。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片合呐。...
    茶點(diǎn)故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖冻辩,靈堂內(nèi)的尸體忽然破棺而出拆祈,到底是詐尸還是另有隱情,我是刑警寧澤放坏,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布淤年,位于F島的核電站,受9級特大地震影響麸粮,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜炊昆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望凤巨。 院中可真熱鬧,春花似錦佑淀、人聲如沸彰檬。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽较雕。三九已至,卻和暖如春亮蒋,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背贮尖。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工湿硝, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留润努,地道東北人。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像例诀,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子拱她,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評論 2 355

推薦閱讀更多精彩內(nèi)容