本人是一名典型的吃貨辣垒,所以今天想研究一下大眾點(diǎn)評(píng)網(wǎng)上海美食的數(shù)據(jù)。
一印蔬、數(shù)據(jù)爬蟲(chóng)
首先是爬蟲(chóng)部分勋桶,由于大眾點(diǎn)評(píng)頁(yè)面最多顯示50頁(yè)數(shù)據(jù),所以要爬取到所有上海美食數(shù)據(jù)的話侥猬,要分行政區(qū)域例驹,然后在每個(gè)區(qū)中再分美食的小類(lèi)型,分別進(jìn)行爬取退唠,這樣就可以獲取到大部分?jǐn)?shù)據(jù)了鹃锈。
爬蟲(chóng)思路:
1、首先分析一下網(wǎng)址瞧预,http://www.dianping.com/search/category/1/10/g101r5 通過(guò)查看幾個(gè)網(wǎng)址后可以發(fā)現(xiàn)屎债,最后的g101和r5這兩個(gè)編碼,分別代表美食類(lèi)型和行政區(qū)垢油,所以先把美食編碼和行政區(qū)編碼爬取下來(lái)盆驹。
2、寫(xiě)兩個(gè)for循環(huán)滩愁,把初始URL躯喇、美食編碼和行政區(qū)編碼拼接到一起。
3硝枉、拼接好后廉丽,對(duì)每一個(gè)拼接好的頁(yè)面翻頁(yè)秸讹,得到所有頁(yè)面。
4雅倒、從所有頁(yè)面中,獲取詳情頁(yè)的URL弧可。
5蔑匣、對(duì)詳情頁(yè)解析,獲取上海美食數(shù)據(jù)的詳細(xì)信息棕诵。
Scrapy代碼:
import scrapy
from dzdpscrapy.items import DzdpscrapyItem
import requests
from bs4 import BeautifulSoup
from lxml import etree
import time
import re
import random
hds=[{'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'},\
{'User-Agent':'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.12 Safari/535.11'},\
{'User-Agent':'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)'},\
{'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:34.0) Gecko/20100101 Firefox/34.0'},\
{'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/44.0.2403.89 Chrome/44.0.2403.89 Safari/537.36'},\
{'User-Agent':'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'},\
{'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'},\
{'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0'},\
{'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'},\
{'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'},\
{'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11'},\
{'User-Agent':'Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11'},\
{'User-Agent':'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11'}]
class DianpingSpider(scrapy.Spider):
#拼接行政區(qū)和美食類(lèi)型的所有URL
name = "dianping"
# location = ['r1','r2','r3','r4','r5','r6','r7','r8','r9','r10','r12', 'r13', 'r5937', 'r5938', 'r5939', 'r8846', 'r8847', 'c3580']
foodtype = ['g111', 'g114', 'g508', 'g109', 'g106', 'g104', 'g248','g219', 'g3243', 'g251', 'g26481', 'g203', 'g107', 'g105', 'g108', 'g215', 'g247', 'g1338', 'g1783','g101', 'g198', 'g25474', 'g199', 'g200', 'g201', 'g202', 'g113', 'g224', 'g226', 'g225', 'g25151', 'g132', 'g24645', 'g24646', 'g24648', 'g24650', 'g24647', 'g24649', 'g24652', 'g112', 'g210', 'g217', 'g221', 'g222', 'g1881', 'g213', 'g1819', 'g223', 'g216', 'g1821', 'g211', 'g212', 'g214', 'g220', 'g117', 'g244', 'g242', 'g241', 'g243', 'g110', 'g32733', 'g3027', 'g208', 'g4477', 'g116', 'g238', 'g24340', 'g232', 'g254', 'g231', 'g233', 'g253', 'g234', 'g103', 'g205', 'g207', 'g1947', 'g206', 'g102', 'g4467', 'g4469', 'g4473', 'g115', 'g227', 'g228', 'g230', 'g229', 'g118', 'g133', 'g134', 'g311', 'g26482', 'g250', 'g26483', 'g2774', 'g249', 'g246', 'g26484', 'g252']
location = ['r1', 'r835', 'r838', 'r836', 'r837', 'r2', 'r865', 'r870', 'r866', 'r872', 'r869', 'r868', 'r867', 'r871', 'r24031', 'r873', 'r3', 'r812', 'r811', 'r814', 'r813', 'r4', 'r842', 'r839', 'r840', 'r843', 'r841', 'r845', 'r844', 'r5', 'r801', 'r802', 'r804', 'r803', 'r806', 'r808', 'r5947', 'r809', 'r810', 'r2869', 'r5948', 'r807', 'r2867', 'r12029', 'r805', 'r22947', 'r2868', 'r8446', 'r9179', 'r24141', 'r24020', 'r22948', 'r8929', 'r24017', 'r24024', 'r70326', 'r24018', 'r70602', 'r67275', 'r70265', 'r70531', 'r6', 'r860', 'r861', 'r859', 'r863', 'r864', 'r862', 'r7', 'r815', 'r818', 'r9177', 'r816', 'r819', 'r2866', 'r817', 'r2865', 'r12038', 'r813', 'r8', 'r828', 'r827', 'r830', 'r829', 'r22949', 'r12026', 'r2864', 'r22950', 'r22951', 'r9', 'r821', 'r822', 'r824', 'r825', 'r823', 'r826', 'r820', 'r22946', 'r10', 'r854', 'r858', 'r855', 'r856', 'r857', 'r8445', 'r12', 'r846', 'r849', 'r848', 'r850', 'r2528', 'r847', 'r852', 'r853', 'r982', 'r8597', 'r8928', 'r851', 'r22952', 'r22953', 'r22957', 'r22955', 'r22956', 'r22958', 'r70507', 'r22954', 'r67276', 'r13', 'r834', 'r831', 'r8441', 'r8440', 'r8442', 'r2527', 'r833', 'r9170', 'r9171', 'r8443', 'r9169', 'r8444', 'r5937', 'r5941', 'r5943', 'r5940', 'r5942', 'r26146', 'r22979', 'r22986', 'r11374', 'r24019', 'r22983', 'r22987', 'r22981', 'r9178', 'r22980', 'r22982', 'r22985', 'r70277', 'r67354', 'r22984', 'r5938', 'r5946', 'r5962', 'r5944', 'r5945', 'r22988', 'r22991', 'r22989', 'r27830', 'r22990', 'r22992', 'r24022', 'r65166', 'r24021', 'r5939', 'r22993', 'r5949', 'r22995', 'r30340', 'r24023', 'r70209', 'r22994', 'r8846', 'r9172', 'r24025', 'r22961', 'r22964', 'r9173', 'r22959', 'r22960', 'r22965', 'r22963', 'r22962', 'r66320', 'r66319', 'r8847', 'r9174', 'r65207', 'r22974', 'r22970', 'r22971', 'r22969', 'r22967', 'r66226', 'r22968', 'r22966', 'r22975', 'r22972', 'r22973', 'c3580', 'r64598', 'r64606', 'r64609', 'r64599', 'r64614', 'r64602', 'r64601', 'r64607', 'r64605', 'r64604', 'r64612', 'r64611', 'r64603', 'r64600', 'r64597', 'r64608', 'r8848']
def start_requests(self):
for lbs in self.location:
for ft in self.foodtype:
url = 'http://www.dianping.com/search/category/1/10/%s%s' % (lbs, ft)
yield scrapy.Request(url=url,callback=self.next_page)
def next_page(self,response):
#翻頁(yè)裁良,得到所有頁(yè)面
url = str(response.url)
pages = response.xpath('//*[@id="top"]/div[6]/div[3]/div[1]/div[2]/a/text()').extract()[-2]
if pages:
for i in range(1,int(pages)):
urls = url + 'p' + str(i)
yield scrapy.Request(url = urls ,callback=self.parse_url)
else:
yield scrapy.Request(url = url ,callback=self.parse_url)
def parse_url(self, response):
#獲取詳情頁(yè)URL
req = requests.get(response.url).text
soup = BeautifulSoup(req,'lxml')
hrefs = soup.select('#shop-all-list > ul > li > div.txt > div.tit > a[data-hippo-type="shop"]')
for i in hrefs:
base_url = 'http://www.dianping.com'
shop_url = base_url + str(i['href'])
yield scrapy.Request(url=shop_url, callback=self.parse_detail)
def parse_detail(self,response):
#解析詳情頁(yè)
item = DzdpscrapyItem()
req = requests.get(url = response.url,headers=hds[random.randint(0,len(hds)-1)]).text
selector = etree.HTML(req)
item['name'] = selector.xpath('//*[@id="basic-info"]/h1/text()')[0].strip() #店名
item['address'] = selector.xpath('//*[@id="basic-info"]/div[2]/span[2]/text()')[0].strip() #地址
item['comment'] = selector.xpath('//*[@id="reviewCount"]/text()')[0] if selector.xpath('//*[@id="reviewCount"]') else None #評(píng)論數(shù)
item['score'] = selector.xpath('//*[@id="basic-info"]/div[1]/span/@title')[0] if selector.xpath('//*[@id="basic-info"]/div[1]/span/@title') else None #星級(jí)
item['price'] = selector.xpath('//*[@id="avgPriceTitle"]/text()')[0][3:] if selector.xpath('//*[@id="avgPriceTitle"]') else None #價(jià)格
item['flavor'] = selector.xpath('//*[@id="comment_score"]/span[1]/text()')[0][3:] if selector.xpath('//*[@id="comment_score"]/span[1]') else None #口味
item['environment'] = selector.xpath('//*[@id="comment_score"]/span[2]/text()')[0][3:] if selector.xpath('//*[@id="comment_score"]/span[2]') else None #環(huán)境
item['service'] = selector.xpath('//*[@id="comment_score"]/span[3]/text()')[0][3:] if selector.xpath('//*[@id="comment_score"]/span[3]') else None #服務(wù)
item['tel'] = selector.xpath('//*[@id="basic-info"]/p/span[2]/text()')[0].strip() if selector.xpath('//*[@id="basic-info"]/p/span[2]')else None #電話
item['time'] = selector.xpath('//*[@id="basic-info"]/div[4]/p[1]/span[2]/text()')[0].strip() if selector.xpath('//*[@id="basic-info"]/div[4]/p[1]/span[2]') else None #營(yíng)業(yè)時(shí)間
item['category1'] = selector.xpath('//*[@id="body"]/div[2]/div[1]/a[2]/text()')[0].strip() if selector.xpath('//*[@id="body"]/div[2]/div[1]/a[2]') else None #分類(lèi)1
item['category2'] = selector.xpath('//*[@id="body"]/div[2]/div[1]/a[3]/text()')[0].strip() if selector.xpath('//*[@id="body"]/div[2]/div[1]/a[3]') else None #分類(lèi)2
item['category3'] = selector.xpath('//*[@id="body"]/div[2]/div[1]/a[4]/text()')[0].strip() if selector.xpath('//*[@id="body"]/div[2]/div[1]/a[4]') else None #分類(lèi)3
pattern = re.compile('shopGlat.*?"(.*?)",.*?shopGlng.*?"(.*?)",.*?cityGlat', re.S)
pois = re.findall(pattern, response.text)
item['poi'] = (pois[0][0]+','+pois[0][1]) #坐標(biāo)
yield item
二、數(shù)據(jù)清洗
1校套、對(duì)所有記錄編號(hào)价脾,方便做數(shù)據(jù)統(tǒng)計(jì)。
2笛匙、新增字段【是否連鎖店】侨把,店名去除分店的名稱(chēng)(去除括號(hào)內(nèi)的名稱(chēng)),然后對(duì)去除分店后的店名進(jìn)行計(jì)數(shù)統(tǒng)計(jì)妹孙,大于1的店名即為連鎖店秋柄。
3、通過(guò)QGIS軟件匹配出個(gè)公司所在的行政區(qū)和街鎮(zhèn)(區(qū)域)蠢正。?
4骇笔、新增字段【評(píng)論數(shù)>100】,后面有些分析評(píng)論數(shù)篩選大于100的嚣崭,評(píng)論數(shù)太少的評(píng)分和價(jià)格可能與實(shí)際不符笨触。
5、新增字段【價(jià)格區(qū)間】雹舀,對(duì)價(jià)格進(jìn)行芦劣。
6、新增字段【菜系分類(lèi)】葱跋,面包甜點(diǎn)持寄、咖啡廳等歸為非正餐,新疆菜娱俺、西北菜等店數(shù)較少的菜系歸類(lèi)為其他菜系稍味。
7、新增字段【評(píng)分】荠卷,星級(jí)轉(zhuǎn)換為分?jǐn)?shù)模庐,五星商戶(hù)轉(zhuǎn)為5分,準(zhǔn)五星商戶(hù)轉(zhuǎn)換為4.5分油宜,以此類(lèi)推掂碱。
8怜姿、新增字段【綜合評(píng)分】,根據(jù)口味疼燥、環(huán)境沧卢、服務(wù)得出綜合評(píng)分,綜合評(píng)分 = 口味*0.5 + 環(huán)境 * 0.25 + 服務(wù) * 0.25?
9醉者、坐標(biāo)轉(zhuǎn)換但狭,大眾點(diǎn)評(píng)網(wǎng)使用的是火星坐標(biāo)系,所以要轉(zhuǎn)換為WGS84地球坐標(biāo)系撬即,方便在QGIS中做分析立磁,這里用到的是別人寫(xiě)好的python代碼,可以在各坐標(biāo)系之間進(jìn)行轉(zhuǎn)換剥槐,地址https://github.com/wandergis/coordTransform_py唱歧。?
10、對(duì)異常數(shù)據(jù)進(jìn)行清洗粒竖,數(shù)據(jù)格式統(tǒng)一颅崩。
11、大眾點(diǎn)評(píng)的行政區(qū)還是按照原先的劃分温圆,這里我按照最新的標(biāo)準(zhǔn)挨摸,閘北和靜安合并為靜安,黃浦和盧灣合并為黃浦岁歉。?清洗之后得运,大概長(zhǎng)這樣:
三、數(shù)據(jù)分析及可視化
1锅移、區(qū)域
①上海各區(qū)店數(shù)和密度
上海各行政區(qū)中熔掺,商戶(hù)密度最高的黃浦區(qū),前7名均為市區(qū)非剃,后9名均為郊區(qū)置逻,商戶(hù)數(shù)最多的是浦東。
②上海各街鎮(zhèn)商戶(hù)密度
上海各街鎮(zhèn)的商戶(hù)密度分布中备绽,商戶(hù)數(shù)最多的是南京東路券坞、淮海中路、南京西路等上海最繁華的商業(yè)區(qū)肺素。
2恨锚、價(jià)格
①上海各區(qū)商戶(hù)的平均價(jià)格
上海各區(qū)商戶(hù)平均價(jià)格最高的是黃浦區(qū)、長(zhǎng)寧區(qū)倍靡、靜安區(qū)和徐匯區(qū)猴伶。
②上海商戶(hù)各星級(jí)商戶(hù)占比
③各價(jià)格區(qū)間商戶(hù)數(shù)分布
上海的商戶(hù)價(jià)格,主要集中在20-50元和50-100元,占比均為30%和32%他挎。
④價(jià)格區(qū)間與商戶(hù)星級(jí)關(guān)系
整體來(lái)看筝尾,價(jià)格越高,商戶(hù)星級(jí)越高办桨,果然還是越貴的東西越好吃筹淫,作為一名吃貨,最大的夢(mèng)想就是隨時(shí)隨地想吃什么就吃什么呢撞,所以要抓緊掙錢(qián)了贸街。
⑤上海價(jià)格TOP20商戶(hù)
接下來(lái)我們就看看人均價(jià)格最高的商戶(hù)都是哪些,作為屌絲的我狸相,聽(tīng)都沒(méi)聽(tīng)過(guò)這些店,這些店主要分布在黃浦捐川、長(zhǎng)寧脓鹃、徐匯、閔行古沥,居然沒(méi)有被網(wǎng)友稱(chēng)為宇宙中心的大靜安瘸右,菜系主要以日本菜和西餐為主,火鍋和海鮮各一個(gè)岩齿。
再看一下這些店的具體坐標(biāo)太颤,用QGIS畫(huà)出坐標(biāo)圖,果然是沒(méi)有大靜安盹沈,而這些店主要集中在外灘和新華路龄章、湖南路等區(qū)域。
3乞封、菜系
①菜系分布
雖然上海是個(gè)包容的國(guó)際大都市做裙,外地人很多,口味方面各有所愛(ài)肃晚,各種菜系應(yīng)有盡有锚贱,但是菜系占比最高的還是江浙滬這邊的本地菜——本幫江浙菜,第二名是我的最?lèi)?ài)——川菜关串,由于本人酷愛(ài)吃辣拧廊,所以川菜和湘菜是我最喜歡吃的菜系,看來(lái)跟我口味一樣重的人還是挺多的晋修。西餐排在第三有點(diǎn)意外吧碾,看了一下數(shù)據(jù)源,很多披薩飞蚓、漢堡等應(yīng)該歸到小吃快餐的小店也歸到西餐了滤港,所以比較多。
②各菜系平均價(jià)格(剔除評(píng)論數(shù)<100)
各菜系的平均價(jià)格前三位的是日本菜、海鮮溅漾、粵菜山叮,正餐中價(jià)格最低的是東北菜,小吃快餐人均28元添履。
③菜系與商戶(hù)星級(jí)關(guān)系
以本人多年使用大眾點(diǎn)評(píng)的經(jīng)驗(yàn)屁倔,四星以上的商戶(hù)大部分還是比較不錯(cuò)的,所以來(lái)看一下各菜系四星以上商戶(hù)的占比排名暮胧,占比最高的是西餐73%锐借,其次是火鍋和韓國(guó)料理,東北菜和本幫江浙菜占比最低往衷,所以在吃這兩個(gè)菜系的時(shí)候要謹(jǐn)慎選擇钞翔。
④各菜系的價(jià)格與綜合評(píng)分的關(guān)系
整體來(lái)看,平均單價(jià)越高的菜系評(píng)分越高席舍,但是有一些菜系跟整體趨勢(shì)有一定差別布轿,韓國(guó)料理、燒烤来颤、火鍋在上置信區(qū)間線之上汰扭,性?xún)r(jià)比相對(duì)較高,而東北菜福铅、本幫江浙菜和粵菜在下置信區(qū)間線之下萝毛,性?xún)r(jià)比相對(duì)較低。