[Python爬蟲練習(xí)]大眾點(diǎn)評(píng)會(huì)員榜

想了解一下吃貨身上都有些什么特質(zhì)鸽疾。可以抓取點(diǎn)評(píng)的會(huì)員數(shù)據(jù)進(jìn)行分析测蘑。

一灌危、URL分析

這個(gè)是全國(guó)的會(huì)員榜,TOP300的吃貨都在這里:

http://www.dianping.com/memberlist/0/0

分析一下URL帮寻,要找各城市的會(huì)員榜乍狐,memberlist后面跟的第一個(gè)數(shù)字即是城市ID,如南京是5固逗,下面URL就南京的會(huì)員榜浅蚪,分頁(yè)即可得到這個(gè)城市前300名的會(huì)員。

http://www.dianping.com/memberlist/5

從列表頁(yè)得到會(huì)員詳情頁(yè)的鏈接烫罩。

二惜傲、分析一下要抓取的會(huì)員信息

在列表頁(yè),首先要獲到會(huì)員的URL贝攒,點(diǎn)評(píng)數(shù)盗誊、第一個(gè)點(diǎn)評(píng)、回應(yīng)數(shù)和鮮花隘弊,這些應(yīng)該是會(huì)員排名的重要數(shù)據(jù)哈踱。

在詳情頁(yè),有比較多有意思的數(shù)據(jù)(隱私數(shù)據(jù)):

  • 性別梨熙、地點(diǎn)
  • 標(biāo)簽(如 吃貨开镣、購(gòu)物狂、旅行等)
  • 社區(qū)活躍數(shù)據(jù)
    • 點(diǎn)評(píng)數(shù)咽扇、收藏?cái)?shù)邪财、簽到數(shù)、圖片數(shù)质欲,
    • 貢獻(xiàn)值树埠,等級(jí)
    • 關(guān)注、粉絲嘶伟、互動(dòng)
  • 個(gè)人信息和興趣相關(guān)數(shù)據(jù)
    • 注冊(cè)時(shí)間怎憋,最后登錄時(shí)間
    • 體型
    • 生日、星座九昧、戀愛狀況
    • 畢業(yè)大學(xué)
    • 愛好
    • 喜歡的電影绊袋,書/作者
    • 喜歡的菜肴/菜系/餐廳

我抓取的數(shù)據(jù)字段:

class FoodieItem(Item):
    url = Field()
    nickname = Field()
    comment_num = Field()
    comment_first = Field()
    comment_response = Field()
    flower = Field()
    level = Field()
    location = Field()
    gender = Field()
    rank = Field()
    contribution = Field()

    loc_check= Field() # 簽到
    collect_num = Field() #收藏?cái)?shù)
    pic_num = Field()
    note_num = Field()
    reg_time = Field()
    fans = Field()
    interaction = Field()
    tags = Field()
    shops = Field() # 商戶數(shù)

    shape = Field()
    love_situation = Field() #戀愛狀況
    birthday = Field()
    occupation = Field()
    college = Field()
    hobby = Field()

    foodtype = Field()
    star_sign = Field() #星座

代碼github

數(shù)據(jù)分據(jù)文章請(qǐng)稍后赠橙。


數(shù)據(jù)分析文章:[點(diǎn)評(píng)數(shù)據(jù)分析] 吃貨究竟是一群什么樣的人?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末愤炸,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子掉奄,更是在濱河造成了極大的恐慌规个,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件姓建,死亡現(xiàn)場(chǎng)離奇詭異诞仓,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)速兔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門墅拭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人涣狗,你說我怎么就攤上這事谍婉。” “怎么了镀钓?”我有些...
    開封第一講書人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵穗熬,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我丁溅,道長(zhǎng)唤蔗,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任窟赏,我火速辦了婚禮妓柜,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘涯穷。我一直安慰自己棍掐,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開白布求豫。 她就那樣靜靜地躺著塌衰,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蝠嘉。 梳的紋絲不亂的頭發(fā)上最疆,一...
    開封第一講書人閱讀 49,749評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音蚤告,去河邊找鬼努酸。 笑死,一個(gè)胖子當(dāng)著我的面吹牛杜恰,可吹牛的內(nèi)容都是我干的获诈。 我是一名探鬼主播仍源,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼舔涎!你這毒婦竟也來了笼踩?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤亡嫌,失蹤者是張志新(化名)和其女友劉穎嚎于,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體挟冠,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡于购,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了知染。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肋僧。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖控淡,靈堂內(nèi)的尸體忽然破棺而出嫌吠,到底是詐尸還是另有隱情,我是刑警寧澤逸寓,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布居兆,位于F島的核電站,受9級(jí)特大地震影響竹伸,放射性物質(zhì)發(fā)生泄漏泥栖。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一吧享、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧譬嚣,春花似錦钢颂、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)泵督。三九已至,卻和暖如春久窟,著一層夾襖步出監(jiān)牢的瞬間本缠,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來泰國(guó)打工丹锹, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留犹赖,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓卷仑,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親麸折。 傳聞我的和親對(duì)象是個(gè)殘疾皇子锡凝,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • Python學(xué)習(xí)網(wǎng)絡(luò)爬蟲主要分3個(gè)大的版塊:抓取,分析垢啼,存儲(chǔ) 另外窜锯,比較常用的爬蟲框架Scrapy,這里最后也詳細(xì)...
    楚江數(shù)據(jù)閱讀 1,461評(píng)論 0 6
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理芭析,服務(wù)發(fā)現(xiàn)锚扎,斷路器,智...
    卡卡羅2017閱讀 134,628評(píng)論 18 139
  • 之前準(zhǔn)備把大眾點(diǎn)評(píng)商戶和評(píng)價(jià)信息都抓取下來馁启,遇到兩個(gè)問題就擱下來驾孔。 分類(菜系)、地點(diǎn)都不限制惯疙,不能搜到全部信息翠勉,...
    向右奔跑閱讀 29,693評(píng)論 31 34
  • IPtables 常用命令 查看防火墻的狀態(tài) 啟動(dòng)/停止/重啟防火墻 插入規(guī)則 查找一條規(guī)則 一些例子 一個(gè)腳本 ...
    StarShift閱讀 629評(píng)論 0 0
  • 凌晨一點(diǎn), 從夢(mèng)中驚醒霉颠, 癡癡望著窗外对碌, 思緒像打了死結(jié)的線,雜亂無章蒿偎, 而你朽们, 仍舊是那根拴的最牢的 解起來最煩的
    一只走心的90single汪閱讀 172評(píng)論 8 5