正值火辣的暑假,朋友圈已經(jīng)被大家的旅行足跡刷屏了蛙卤,真的十分驚嘆于那些把全國所有省基本走遍的朋友們狠半。與此同時,也就萌生了寫篇旅行相關(guān)的內(nèi)容颤难,本次數(shù)據(jù)來源于一個對于爬蟲十分友好的旅行攻略類網(wǎng)站:螞蜂窩神年。
01:獲得城市編號
螞蜂窩中的所有城市、景點以及其他的一些信息都有一個專屬的5位數(shù)字編號行嗤,我們第一步要做的就是獲取城市(直轄市+地級市)的編號已日,進行后續(xù)的進一步分析。
以上兩個頁面就是我們的城市編碼來源栅屏。需要首先從目的地頁面獲得各省編碼飘千,之后進入各省城市列表獲得編碼。
過程中需要Selenium進行動態(tài)數(shù)據(jù)爬取栈雳,部分代碼如下:
02:獲得城市信息
城市數(shù)據(jù)分別從以下幾個頁面獲然つ巍:
(a)小吃頁面
(b)景點頁面
(c)標簽頁面
我們將每個城市獲取數(shù)據(jù)的過程封裝成函數(shù),每次傳入之前獲得的城市編碼哥纫,部分代碼如下:
03:數(shù)據(jù)分析
PART1:城市數(shù)據(jù)
首先我們看一下游記數(shù)量最多的TOP10城市:
游記數(shù)量TOP10數(shù)量基本上與我們?nèi)粘K私獾臒衢T城市相符霉旗,我們進一步根據(jù)各個城市游記數(shù)量獲得全國旅行目的地熱力圖:
看到這里,是不是有種似曾相識的感覺蛀骇,如果你在朋友圈曬的足跡圖與這幅圖很相符奖慌,那么說明螞蜂窩的數(shù)據(jù)與你不謀而合。
最后我們看一下大家對于各個城市的印象是如何的松靡,方法就是提取標簽中的屬性,我們將屬性分為了休閑建椰、飲食雕欺、景點三組,分別看一下每一組屬性下大家印象最深的城市:
看來對于螞蜂窩的用戶來說,廈門給大家留下的印象是非常深的屠列,不僅游記數(shù)量充足啦逆,并且能從中提取的有效標簽也非常多。重慶笛洛、西安夏志、成都也無懸念地給吃貨們留下了非常深的印象,部分代碼如下:
PART2:景點數(shù)據(jù)
在學習中有迷茫不知如何學習的朋友小編推薦一個學Python的學習裙[663033228]無論你是大牛還是小白苛让,是想轉(zhuǎn)行還是想入行都可以來了解一起進步一起學習沟蔑!裙內(nèi)有開發(fā)工具,很多干貨和技術(shù)資料分享狱杰!
我們提取了各個景點評論數(shù)瘦材,并與城市游記數(shù)量進行對比,分別得到景點評論的絕對值和相對值仿畸,并據(jù)此計算景點的人氣食棕、代表性兩個分數(shù),最終排名TOP15的景點如下:
螞蜂窩網(wǎng)友對于廈門真的是情有獨鐘错沽,鼓浪嶼也成為了最具人氣的景點簿晓,在城市代表性方面西塘古鎮(zhèn)和羊卓雍措位列前茅。暑假之際千埃,如果擔心上排的景點人太多憔儿,不妨從下排的景點中挖掘那些人少景美的旅游地。
PART3:小吃數(shù)據(jù)
最后我們看一下大家最關(guān)注的的與吃相關(guān)的數(shù)據(jù)镰禾,處理方法與PART2景點數(shù)據(jù)相似皿曲,我們分別看一下最具人氣和最具城市代表性的小吃。
出乎意料吴侦,螞蜂窩網(wǎng)友對廈門果真愛得深沉屋休,讓沙茶面得以超過火鍋、烤鴨备韧、肉夾饃躋身最具人氣的小吃劫樟。
在城市代表性方面,海鮮的出場頻率非常高织堂,這點與大(ben)家(ren)的認知也不謀而合叠艳,PART2與3的部分代碼如下: