想了解一下吃貨身上都有些什么特質(zhì)鸽疾。可以抓取點(diǎn)評(píng)的會(huì)員數(shù)據(jù)進(jìn)行分析测蘑。
一灌危、URL分析
這個(gè)是全國(guó)的會(huì)員榜,TOP300的吃貨都在這里:
http://www.dianping.com/memberlist/0/0
分析一下URL帮寻,要找各城市的會(huì)員榜乍狐,memberlist
后面跟的第一個(gè)數(shù)字即是城市ID,如南京是5固逗,下面URL就南京的會(huì)員榜浅蚪,分頁(yè)即可得到這個(gè)城市前300名的會(huì)員。
http://www.dianping.com/memberlist/5
從列表頁(yè)得到會(huì)員詳情頁(yè)的鏈接烫罩。
二惜傲、分析一下要抓取的會(huì)員信息
在列表頁(yè),首先要獲到會(huì)員的URL贝攒,點(diǎn)評(píng)數(shù)盗誊、第一個(gè)點(diǎn)評(píng)、回應(yīng)數(shù)和鮮花隘弊,這些應(yīng)該是會(huì)員排名的重要數(shù)據(jù)哈踱。
在詳情頁(yè),有比較多有意思的數(shù)據(jù)(隱私數(shù)據(jù)):
- 性別梨熙、地點(diǎn)
- 標(biāo)簽(如 吃貨开镣、購(gòu)物狂、旅行等)
- 社區(qū)活躍數(shù)據(jù)
- 點(diǎn)評(píng)數(shù)咽扇、收藏?cái)?shù)邪财、簽到數(shù)、圖片數(shù)质欲,
- 貢獻(xiàn)值树埠,等級(jí)
- 關(guān)注、粉絲嘶伟、互動(dòng)
- 個(gè)人信息和興趣相關(guān)數(shù)據(jù)
- 注冊(cè)時(shí)間怎憋,最后登錄時(shí)間
- 體型
- 生日、星座九昧、戀愛狀況
- 畢業(yè)大學(xué)
- 愛好
- 喜歡的電影绊袋,書/作者
- 喜歡的菜肴/菜系/餐廳
我抓取的數(shù)據(jù)字段:
class FoodieItem(Item):
url = Field()
nickname = Field()
comment_num = Field()
comment_first = Field()
comment_response = Field()
flower = Field()
level = Field()
location = Field()
gender = Field()
rank = Field()
contribution = Field()
loc_check= Field() # 簽到
collect_num = Field() #收藏?cái)?shù)
pic_num = Field()
note_num = Field()
reg_time = Field()
fans = Field()
interaction = Field()
tags = Field()
shops = Field() # 商戶數(shù)
shape = Field()
love_situation = Field() #戀愛狀況
birthday = Field()
occupation = Field()
college = Field()
hobby = Field()
foodtype = Field()
star_sign = Field() #星座
代碼github
數(shù)據(jù)分據(jù)文章請(qǐng)稍后赠橙。