python爬取58上的招聘信息

爬蟲學(xué)習(xí)記錄

獲取58同城上的招聘信息

爬蟲的意義

我們編寫爬蟲就是把網(wǎng)頁(yè)中的關(guān)鍵信息爬取下來，然后做分析踢涌，現(xiàn)在是數(shù)據(jù)時(shí)代通孽，所以數(shù)據(jù)是很重要的資源。爬蟲可以幫助我們獲取這些資源睁壁。

本文的目的

現(xiàn)在的爬蟲技術(shù)很多背苦，但是以python為主，作為初學(xué)者我建議不要使用太多現(xiàn)成的工具潘明，這樣無法學(xué)習(xí)到里面的技術(shù)行剂，比如你在使用scrapy時(shí)都很難了解它在內(nèi)部調(diào)用了什么，這篇文章也將用urllib2+beautifulSoup+mysql來獲取58同城上的招聘信息钳降，最關(guān)鍵的是分析網(wǎng)頁(yè)源代碼厚宰，找到需要的信息。

獲取網(wǎng)頁(yè)源碼

            url = "http://hz.58.com/tech/" + "pn"+str(start)+"/"
            request = urllib2.Request(url=url,headers=headers)
           
            response = urllib2.urlopen(request,timeout=60)
            html = response.read().decode('utf-8')
        

            soup = BeautifulSoup(html,'lxml')

獲取58的列表信息


            for item in all_dl:

               job =  item.find('dt').find('a')
               info = getdatas.getInfo(job['href'])
               if info != 0:
                   count += insertmysql.insertMysql(info)
                   print "現(xiàn)在的數(shù)據(jù)量為%d"%(count)
               time.sleep(5)
            start = start + 1

其中的每一個(gè)item就是一條招聘信息，然后進(jìn)入這個(gè)二級(jí)地址铲觉，獲取相關(guān)的招聘信息

二級(jí)網(wǎng)址

在這個(gè)部分首先也要獲取網(wǎng)頁(yè)源代碼澈蝙，然后用beautifulSoup來匹配關(guān)鍵信息，beautifulSoup的用法可以在官網(wǎng)看看撵幽。

def getInfo(url):
    headers = {}
    headers["User-Agent"] = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36"

    try:
        # proxies = {'http': proxy_ip}
        request = urllib2.Request(url=url, headers=headers)
        # request.set_proxy(proxy_ip, 'http')
        response = urllib2.urlopen(request)
        html = response.read().decode('utf-8')
        # html = requests.get(url, headers=headers, proxies=proxies)

        html = BeautifulSoup(html, 'lxml')
        info = {}
        info['id'] = uuid.uuid4()
        info['title'] = html.find('div', class_='item_con pos_info').find('span', class_='pos_name').get_text()
        temp  = html.find('div', class_='pos_base_info').find('span', class_='pos_salary').get_text()
        info['salary_min'] = 0+int(re.findall(r"(\d+)\-", temp)[0])
        info['salary_max'] = 0 + int(re.findall(r"\-(\d+)", temp)[0])
        info['company'] = html.find('div', class_='item_con company_baseInfo').find('p',class_='comp_baseInfo_title').find('a', class_='baseInfo_link').get_text()
        temp = html.find('div', class_='item_con company_baseInfo').find('p', class_='comp_baseInfo_scale').get_text()
        info['scale_min'] = 0+int(re.findall(r"(\d+)\-", temp)[0])
        info['scale_max'] = 0+int(re.findall(r"\-(\d+)", temp)[0])
        info['address'] = html.find('div', class_='item_con work_adress').find('p', class_='detail_adress').get_text()
        return info
    except Exception, e:
        return 0

我用uuid作為主鍵灯荧，爬取了招聘信息中的主要內(nèi)容，薪水盐杂，公司規(guī)模逗载，公司地址等信息，但是58里的招聘頁(yè)面有些不是按照這個(gè)標(biāo)準(zhǔn)設(shè)置的链烈，所以如果想要更加完整的信息厉斟，就需要在分類討論一下。

存儲(chǔ)數(shù)據(jù)庫(kù)

這里選擇的數(shù)據(jù)庫(kù)是mysql强衡，python連接mysql也很容易：

 db = MySQLdb.connect(host='localhost', user='root', passwd='123', db='58city', port=3306,charset='utf8')

 cursor = db.cursor()

然后將相關(guān)的信息放到mysql中：


 cursor.execute(
                'insert into jobs(id,title,salary_min,salary_max,company,scale_min,scale_max,address) values(%s,%s,%s,%s,%s,%s,%s,%s)',
                (id,title,salary_min,salary_max,company,scale_min,scale_max,address))


            db.commit()
            db.close()
            cursor.close()

我們?cè)趯懘a的時(shí)候會(huì)肯定會(huì)有bug擦秽，所以使用try catch 的方法最好。

        except Exception, e:
            print e.message+"數(shù)據(jù)庫(kù)報(bào)錯(cuò)"+e.message+e.args[0]
            return 0

反爬的策略

我們可以做個(gè)ip代理食侮，防止地址被封号涯，并且設(shè)置休眠時(shí)間，以免爬取太快
被網(wǎng)站察覺锯七。

這里提供源代碼

# coding:utf8
import random
import urllib2
import time
from bs4 import BeautifulSoup
import getdatas
import insertmysql
import requests

ISOTIMEFORMAT = '%Y-%m-%d %X'
headers = {}
headers["User-Agent"] = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36"
import getip
# 獲取tag


# start

print
"********** START **********"
print
time.strftime(ISOTIMEFORMAT, time.localtime())

try:
    start = 33
    count = 0
    # proxy_list = getip.get_ips()
    while True:
        try:
            
            # proxy_ip = random.choice(proxy_list)
            # proxies = {'http': proxy_ip}
            # 
            url = "http://hz.58.com/tech/" + "pn"+str(start)+"/"
            request = urllib2.Request(url=url,headers=headers)
            # request.set_proxy(proxy_ip,'http')
            response = urllib2.urlopen(request,timeout=60)
            html = response.read().decode('utf-8')
            # html = requests.get(url, headers=headers, proxies=proxies)

            soup = BeautifulSoup(html,'lxml')
            all_dl = soup.find('div',id='infolist').findAll('dl')
            
            if len(all_dl) == 0:
                break

            for item in all_dl:

                job =  item.find('dt').find('a')
                info = getdatas.getInfo(job['href'])
                if info != 0:
                    count += insertmysql.insertMysql(info)
                    print "現(xiàn)在的數(shù)據(jù)量為%d"%(count)
                time.sleep(5)
            start = start + 1
            print start
            time.sleep(5)
            # print info_list['director']
        except Exception, e:
            print e.message + "1"
        


except Exception, e:
    print e.message +'2'

# coding:utf8


import urllib2
import urllib
import json
import time
import re
import random
import uuid
import requests
from bs4 import BeautifulSoup


def getInfo(url):
    headers = {}
    headers["User-Agent"] = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36"

    try:
        # proxies = {'http': proxy_ip}
        request = urllib2.Request(url=url, headers=headers)
        # request.set_proxy(proxy_ip, 'http')
        response = urllib2.urlopen(request)
        html = response.read().decode('utf-8')
        # html = requests.get(url, headers=headers, proxies=proxies)

        html = BeautifulSoup(html, 'lxml')
        info = {}
        info['id'] = uuid.uuid4()
        info['title'] = html.find('div', class_='item_con pos_info').find('span', class_='pos_name').get_text()
        temp  = html.find('div', class_='pos_base_info').find('span', class_='pos_salary').get_text()
        info['salary_min'] = 0+int(re.findall(r"(\d+)\-", temp)[0])
        info['salary_max'] = 0 + int(re.findall(r"\-(\d+)", temp)[0])
        info['company'] = html.find('div', class_='item_con company_baseInfo').find('p',class_='comp_baseInfo_title').find('a', class_='baseInfo_link').get_text()
        temp = html.find('div', class_='item_con company_baseInfo').find('p', class_='comp_baseInfo_scale').get_text()
        info['scale_min'] = 0+int(re.findall(r"(\d+)\-", temp)[0])
        info['scale_max'] = 0+int(re.findall(r"\-(\d+)", temp)[0])
        info['address'] = html.find('div', class_='item_con work_adress').find('p', class_='detail_adress').get_text()
        return info
    except Exception, e:
        return 0

# -*- coding:utf-8 -*-  
import MySQLdb
import MySQLdb.cursors
import getCity

def insertMysql(info):

    if info == None:
        print "there is no infomation"
        return 0
    else:
        try:
            db = MySQLdb.connect(host='localhost', user='root', passwd='123', db='58city', port=3306,charset='utf8')

            cursor = db.cursor()
            id = info['id']
            title = info['title'] 
            salary_min = info['salary_min']
            salary_max = info['salary_max']
            company = info['company']

            scale_min = info['scale_min']
            scale_max = info['scale_max']
            address = info['address']
            cursor.execute(
                'insert into jobs(id,title,salary_min,salary_max,company,scale_min,scale_max,address) values(%s,%s,%s,%s,%s,%s,%s,%s)',
                (id,title,salary_min,salary_max,company,scale_min,scale_max,address))


            db.commit()
            db.close()
            cursor.close()
            return 1
        except Exception, e:
            print e.message+"數(shù)據(jù)庫(kù)報(bào)錯(cuò)"+e.message+e.args[0]
            return 0

最后編輯于：2017.12.06 15:01:42

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末链快，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子眉尸，更是在濱河造成了極大的恐慌域蜗，老刑警劉巖，帶你破解...
沈念sama閱讀 212,454評(píng)論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件噪猾，死亡現(xiàn)場(chǎng)離奇詭異霉祸，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)袱蜡，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,553評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門丝蹭，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人坪蚁，你說我怎么就攤上這事奔穿。” “怎么了敏晤？”我有些...
開封第一講書人閱讀 157,921評(píng)論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵贱田，是天一觀的道長(zhǎng)。經(jīng)常有香客問我嘴脾，道長(zhǎng)男摧，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,648評(píng)論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮耗拓，結(jié)果婚禮上拇颅，老公的妹妹穿的比我還像新娘。我一直安慰自己帆离，他們只是感情好蔬蕊，可當(dāng)我...
茶點(diǎn)故事閱讀 65,770評(píng)論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布结澄。她就那樣靜靜地躺著哥谷，像睡著了一般。火紅的嫁衣襯著肌膚如雪麻献。梳的紋絲不亂的頭發(fā)上们妥，一...
開封第一講書人閱讀 49,950評(píng)論 1贊 291
城市分裂傳說
那天，我揣著相機(jī)與錄音勉吻，去河邊找鬼监婶。笑死，一個(gè)胖子當(dāng)著我的面吹牛齿桃，可吹牛的內(nèi)容都是我干的惑惶。我是一名探鬼主播，決...
沈念sama閱讀 39,090評(píng)論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼短纵，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼带污！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起香到，我...
開封第一講書人閱讀 37,817評(píng)論 0贊 268
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤鱼冀，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后悠就，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體千绪，經(jīng)...
沈念sama閱讀 44,275評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,592評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年梗脾，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了荸型。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,724評(píng)論 1贊 341
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡炸茧，死狀恐怖瑞妇，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情宇立，我是刑警寧澤踪宠，帶...
沈念sama閱讀 34,409評(píng)論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站妈嘹，受9級(jí)特大地震影響柳琢，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 40,052評(píng)論 3贊 316
男人毒藥：我在死后第九天來索命
文/蒙蒙一柬脸、第九天我趴在偏房一處隱蔽的房頂上張望他去。院中可真熱鬧，春花似錦倒堕、人聲如沸灾测。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,815評(píng)論 0贊 21
一樁弒父案垦巴，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)媳搪。三九已至，卻和暖如春骤宣，著一層夾襖步出監(jiān)牢的瞬間秦爆，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,043評(píng)論 1贊 266
情欲美人皮
我被黑心中介騙來泰國(guó)打工憔披，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留等限，地道東北人。一個(gè)月前我還...
沈念sama閱讀 46,503評(píng)論 2贊 361
代替公主和親
正文我出身青樓芬膝，卻偏偏與公主長(zhǎng)得像望门，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子锰霜，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,627評(píng)論 2贊 350