python爬蟲-抓取騰訊招聘信息頁面

本爬蟲主要使用了requests缴啡、json阶冈、bs4(BeautifulSoup)等相關(guān)模塊解藻,不完善之處請大家不吝賜教孝治!:)
出處:https://github.com/jingsupo/python-spider/blob/master/day04/04tencent_hr.py

# -*- coding:utf-8 -*-

import requests, json, time
from bs4 import BeautifulSoup


class tencent_hr(object):
    def __init__(self):
        self.base_url = "http://hr.tencent.com/position.php?"
        self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}
        self.item_list = []
        self.page = 0

    # 發(fā)送請求
    def send_request(self, url, params={}):
        time.sleep(2)
        try:
            response = requests.get(url, params=params, headers=self.headers)
            return response.content
        except Exception as e:
            print e

    # 解析數(shù)據(jù)
    def parse_data(self, data):
        # 初始化
        bs = BeautifulSoup(data, 'lxml')

        # 獲取標簽-結(jié)果為列表
        data_list = bs.select('.even, .odd')

        # 將結(jié)果中的每一行數(shù)據(jù)提取出來
        for data in data_list:
            data_dict = {}
            data_dict['work_name'] = data.select('td a')[0].get_text()
            data_dict['work_type'] = data.select('td')[1].get_text()
            data_dict['work_count'] = data.select('td')[2].get_text()
            data_dict['work_place'] = data.select('td')[3].get_text()
            data_dict['work_time'] = data.select('td')[4].get_text()

            # 將每條字典數(shù)據(jù)添加進列表
            self.item_list.append(data_dict)

        # 判斷是否是最后一頁损痰,條件:是否有noactive值
        # 先找到下一頁的標簽
        next_label = bs.select('#next')
        # 根據(jù)標簽獲取屬性class的值-返回結(jié)果為列表
        judge = next_label[0].get('class')

        return judge

    # 寫入文件
    def write_file(self):
        # 將列表轉(zhuǎn)換成字符串
        data_str = json.dumps(self.item_list)

        with open('04tencent_hr.json', 'w') as f:
            f.write(data_str)

    # 調(diào)度運行
    def run(self):
        while True:
            # 拼接參數(shù)
            params = {
                "keywords": "python",
                "tid": "0",
                "lid": "2156",
                "start": self.page,
            }

            # 發(fā)送請求
            data = self.send_request(self.base_url, params=params)

            # 解析數(shù)據(jù)
            judge = self.parse_data(data)

            self.page += 10
            print self.page

            # 如果到了最后一頁福侈,出現(xiàn)noactive,跳出循環(huán)
            if judge:
                break

        self.write_file()


if __name__ == '__main__':
    spider = tencent_hr()
    spider.run()
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末卢未,一起剝皮案震驚了整個濱河市肪凛,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌辽社,老刑警劉巖伟墙,帶你破解...
    沈念sama閱讀 212,383評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機躲株,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拱烁,“玉大人,你說我怎么就攤上這事噩翠∠纷裕” “怎么了?”我有些...
    開封第一講書人閱讀 157,852評論 0 348
  • 文/不壞的土叔 我叫張陵伤锚,是天一觀的道長浦妄。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么剂娄? 我笑而不...
    開封第一講書人閱讀 56,621評論 1 284
  • 正文 為了忘掉前任蠢涝,我火速辦了婚禮,結(jié)果婚禮上阅懦,老公的妹妹穿的比我還像新娘和二。我一直安慰自己,他們只是感情好耳胎,可當我...
    茶點故事閱讀 65,741評論 6 386
  • 文/花漫 我一把揭開白布惯吕。 她就那樣靜靜地躺著,像睡著了一般怕午。 火紅的嫁衣襯著肌膚如雪废登。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,929評論 1 290
  • 那天郁惜,我揣著相機與錄音堡距,去河邊找鬼。 笑死兆蕉,一個胖子當著我的面吹牛羽戒,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播虎韵,決...
    沈念sama閱讀 39,076評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼易稠,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了包蓝?” 一聲冷哼從身側(cè)響起驶社,我...
    開封第一講書人閱讀 37,803評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎测萎,沒想到半個月后亡电,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,265評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡绳泉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,582評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了姆泻。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片零酪。...
    茶點故事閱讀 38,716評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖拇勃,靈堂內(nèi)的尸體忽然破棺而出四苇,到底是詐尸還是另有隱情,我是刑警寧澤方咆,帶...
    沈念sama閱讀 34,395評論 4 333
  • 正文 年R本政府宣布月腋,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏榆骚。R本人自食惡果不足惜片拍,卻給世界環(huán)境...
    茶點故事閱讀 40,039評論 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望妓肢。 院中可真熱鬧捌省,春花似錦、人聲如沸碉钠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽喊废。三九已至祝高,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間污筷,已是汗流浹背工闺。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留颓屑,地道東北人斤寂。 一個月前我還...
    沈念sama閱讀 46,488評論 2 361
  • 正文 我出身青樓,卻偏偏與公主長得像揪惦,于是被迫代替她去往敵國和親遍搞。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,612評論 2 350

推薦閱讀更多精彩內(nèi)容

  • 聲明:本文講解的實戰(zhàn)內(nèi)容器腋,均僅用于學(xué)習交流溪猿,請勿用于任何商業(yè)用途! 一纫塌、前言 強烈建議:請在電腦的陪同下诊县,閱讀本文...
    Bruce_Szh閱讀 12,685評論 6 28
  • 基礎(chǔ)知識 HTTP協(xié)議 我們?yōu)g覽網(wǎng)頁的瀏覽器和手機應(yīng)用客戶端與服務(wù)器通信幾乎都是基于HTTP協(xié)議,而爬蟲可以看作是...
    腩啵兔子閱讀 1,476評論 0 17
  • 什么是爬蟲? 如果是沒有接觸過爬蟲的人可能會有些許疑惑措左,爬蟲是個什么東西呢依痊?其實爬蟲的概念很簡單,在互聯(lián)網(wǎng)時代,萬...
    SylvanasSun閱讀 5,902評論 1 11
  • 前言 南京車站摸胸事件被曝光后怎披,不少公號都寫了這個話題胸嘁,我在這里卻想...
    在水一方含閱讀 256評論 2 4
  • 月光酒杯獨自流淚 留吾傾夜望月獨醉 夢回逢君言吾累 再見未見故人歸 冷冰酒還剩半杯 飲盡呢喃 往后別為君流淚
    枝椏閱讀 210評論 1 2