python爬取58上的招聘信息

爬蟲學(xué)習(xí)記錄

獲取58同城上的招聘信息

爬蟲的意義

我們編寫爬蟲就是把網(wǎng)頁(yè)中的關(guān)鍵信息爬取下來,然后做分析踢涌,現(xiàn)在是數(shù)據(jù)時(shí)代通孽,所以數(shù)據(jù)是很重要的資源。爬蟲可以幫助我們獲取這些資源睁壁。

本文的目的

現(xiàn)在的爬蟲技術(shù)很多背苦,但是以python為主,作為初學(xué)者我建議不要使用太多現(xiàn)成的工具潘明,這樣無法學(xué)習(xí)到里面的技術(shù)行剂,比如你在使用scrapy時(shí)都很難了解它在內(nèi)部調(diào)用了什么,這篇文章也將用urllib2+beautifulSoup+mysql來獲取58同城上的招聘信息钳降,最關(guān)鍵的是分析網(wǎng)頁(yè)源代碼厚宰,找到需要的信息。

獲取網(wǎng)頁(yè)源碼

            url = "http://hz.58.com/tech/" + "pn"+str(start)+"/"
            request = urllib2.Request(url=url,headers=headers)
           
            response = urllib2.urlopen(request,timeout=60)
            html = response.read().decode('utf-8')
        

            soup = BeautifulSoup(html,'lxml')
            


獲取58的列表信息


            for item in all_dl:

               job =  item.find('dt').find('a')
               info = getdatas.getInfo(job['href'])
               if info != 0:
                   count += insertmysql.insertMysql(info)
                   print "現(xiàn)在的數(shù)據(jù)量為%d"%(count)
               time.sleep(5)
            start = start + 1

其中的每一個(gè)item就是一條招聘信息,然后進(jìn)入這個(gè)二級(jí)地址铲觉,獲取相關(guān)的招聘信息

二級(jí)網(wǎng)址

在這個(gè)部分首先也要獲取網(wǎng)頁(yè)源代碼澈蝙,然后用beautifulSoup來匹配關(guān)鍵信息,beautifulSoup的用法可以在官網(wǎng)看看撵幽。

def getInfo(url):
    headers = {}
    headers["User-Agent"] = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36"

    try:
        # proxies = {'http': proxy_ip}
        request = urllib2.Request(url=url, headers=headers)
        # request.set_proxy(proxy_ip, 'http')
        response = urllib2.urlopen(request)
        html = response.read().decode('utf-8')
        # html = requests.get(url, headers=headers, proxies=proxies)

        html = BeautifulSoup(html, 'lxml')
        info = {}
        info['id'] = uuid.uuid4()
        info['title'] = html.find('div', class_='item_con pos_info').find('span', class_='pos_name').get_text()
        temp  = html.find('div', class_='pos_base_info').find('span', class_='pos_salary').get_text()
        info['salary_min'] = 0+int(re.findall(r"(\d+)\-", temp)[0])
        info['salary_max'] = 0 + int(re.findall(r"\-(\d+)", temp)[0])
        info['company'] = html.find('div', class_='item_con company_baseInfo').find('p',class_='comp_baseInfo_title').find('a', class_='baseInfo_link').get_text()
        temp = html.find('div', class_='item_con company_baseInfo').find('p', class_='comp_baseInfo_scale').get_text()
        info['scale_min'] = 0+int(re.findall(r"(\d+)\-", temp)[0])
        info['scale_max'] = 0+int(re.findall(r"\-(\d+)", temp)[0])
        info['address'] = html.find('div', class_='item_con work_adress').find('p', class_='detail_adress').get_text()
        return info
    except Exception, e:
        return 0
    

我用uuid作為主鍵灯荧,爬取了招聘信息中的主要內(nèi)容,薪水盐杂,公司規(guī)模逗载,公司地址等信息,但是58里的招聘頁(yè)面有些不是按照這個(gè)標(biāo)準(zhǔn)設(shè)置的链烈,所以如果想要更加完整的信息厉斟,就需要在分類討論一下。

存儲(chǔ)數(shù)據(jù)庫(kù)

這里選擇的數(shù)據(jù)庫(kù)是mysql强衡,python連接mysql也很容易:

 db = MySQLdb.connect(host='localhost', user='root', passwd='123', db='58city', port=3306,charset='utf8')

 cursor = db.cursor()

然后將相關(guān)的信息放到mysql中:


 cursor.execute(
                'insert into jobs(id,title,salary_min,salary_max,company,scale_min,scale_max,address) values(%s,%s,%s,%s,%s,%s,%s,%s)',
                (id,title,salary_min,salary_max,company,scale_min,scale_max,address))


            db.commit()
            db.close()
            cursor.close()

我們?cè)趯懘a的時(shí)候會(huì)肯定會(huì)有bug擦秽,所以使用try catch 的方法最好。

        except Exception, e:
            print e.message+"數(shù)據(jù)庫(kù)報(bào)錯(cuò)"+e.message+e.args[0]
            return 0

反爬的策略

我們可以做個(gè)ip代理食侮,防止地址被封号涯,并且設(shè)置休眠時(shí)間,以免爬取太快
被網(wǎng)站察覺锯七。

這里提供源代碼

# coding:utf8
import random
import urllib2
import time
from bs4 import BeautifulSoup
import getdatas
import insertmysql
import requests

ISOTIMEFORMAT = '%Y-%m-%d %X'
headers = {}
headers["User-Agent"] = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36"
import getip
# 獲取tag


# start

print
"********** START **********"
print
time.strftime(ISOTIMEFORMAT, time.localtime())

try:
    start = 33
    count = 0
    # proxy_list = getip.get_ips()
    while True:
        try:
            
            # proxy_ip = random.choice(proxy_list)
            # proxies = {'http': proxy_ip}
            # 
            url = "http://hz.58.com/tech/" + "pn"+str(start)+"/"
            request = urllib2.Request(url=url,headers=headers)
            # request.set_proxy(proxy_ip,'http')
            response = urllib2.urlopen(request,timeout=60)
            html = response.read().decode('utf-8')
            # html = requests.get(url, headers=headers, proxies=proxies)

            soup = BeautifulSoup(html,'lxml')
            all_dl = soup.find('div',id='infolist').findAll('dl')
            
            if len(all_dl) == 0:
                break

            for item in all_dl:

                job =  item.find('dt').find('a')
                info = getdatas.getInfo(job['href'])
                if info != 0:
                    count += insertmysql.insertMysql(info)
                    print "現(xiàn)在的數(shù)據(jù)量為%d"%(count)
                time.sleep(5)
            start = start + 1
            print start
            time.sleep(5)
            # print info_list['director']
        except Exception, e:
            print e.message + "1"
        


except Exception, e:
    print e.message +'2'

# coding:utf8


import urllib2
import urllib
import json
import time
import re
import random
import uuid
import requests
from bs4 import BeautifulSoup


def getInfo(url):
    headers = {}
    headers["User-Agent"] = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36"

    try:
        # proxies = {'http': proxy_ip}
        request = urllib2.Request(url=url, headers=headers)
        # request.set_proxy(proxy_ip, 'http')
        response = urllib2.urlopen(request)
        html = response.read().decode('utf-8')
        # html = requests.get(url, headers=headers, proxies=proxies)

        html = BeautifulSoup(html, 'lxml')
        info = {}
        info['id'] = uuid.uuid4()
        info['title'] = html.find('div', class_='item_con pos_info').find('span', class_='pos_name').get_text()
        temp  = html.find('div', class_='pos_base_info').find('span', class_='pos_salary').get_text()
        info['salary_min'] = 0+int(re.findall(r"(\d+)\-", temp)[0])
        info['salary_max'] = 0 + int(re.findall(r"\-(\d+)", temp)[0])
        info['company'] = html.find('div', class_='item_con company_baseInfo').find('p',class_='comp_baseInfo_title').find('a', class_='baseInfo_link').get_text()
        temp = html.find('div', class_='item_con company_baseInfo').find('p', class_='comp_baseInfo_scale').get_text()
        info['scale_min'] = 0+int(re.findall(r"(\d+)\-", temp)[0])
        info['scale_max'] = 0+int(re.findall(r"\-(\d+)", temp)[0])
        info['address'] = html.find('div', class_='item_con work_adress').find('p', class_='detail_adress').get_text()
        return info
    except Exception, e:
        return 0

# -*- coding:utf-8 -*-  
import MySQLdb
import MySQLdb.cursors
import getCity

def insertMysql(info):

    if info == None:
        print "there is no infomation"
        return 0
    else:
        try:
            db = MySQLdb.connect(host='localhost', user='root', passwd='123', db='58city', port=3306,charset='utf8')

            cursor = db.cursor()
            id = info['id']
            title = info['title'] 
            salary_min = info['salary_min']
            salary_max = info['salary_max']
            company = info['company']

            scale_min = info['scale_min']
            scale_max = info['scale_max']
            address = info['address']
            cursor.execute(
                'insert into jobs(id,title,salary_min,salary_max,company,scale_min,scale_max,address) values(%s,%s,%s,%s,%s,%s,%s,%s)',
                (id,title,salary_min,salary_max,company,scale_min,scale_max,address))


            db.commit()
            db.close()
            cursor.close()
            return 1
        except Exception, e:
            print e.message+"數(shù)據(jù)庫(kù)報(bào)錯(cuò)"+e.message+e.args[0]
            return 0
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末链快,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子眉尸,更是在濱河造成了極大的恐慌域蜗,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,454評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件噪猾,死亡現(xiàn)場(chǎng)離奇詭異霉祸,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)袱蜡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門丝蹭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人坪蚁,你說我怎么就攤上這事奔穿。” “怎么了敏晤?”我有些...
    開封第一講書人閱讀 157,921評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵贱田,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我嘴脾,道長(zhǎng)男摧,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,648評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮耗拓,結(jié)果婚禮上拇颅,老公的妹妹穿的比我還像新娘。我一直安慰自己帆离,他們只是感情好蔬蕊,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,770評(píng)論 6 386
  • 文/花漫 我一把揭開白布结澄。 她就那樣靜靜地躺著哥谷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪麻献。 梳的紋絲不亂的頭發(fā)上们妥,一...
    開封第一講書人閱讀 49,950評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音勉吻,去河邊找鬼监婶。 笑死,一個(gè)胖子當(dāng)著我的面吹牛齿桃,可吹牛的內(nèi)容都是我干的惑惶。 我是一名探鬼主播,決...
    沈念sama閱讀 39,090評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼短纵,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼带污!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起香到,我...
    開封第一講書人閱讀 37,817評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤鱼冀,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后悠就,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體千绪,經(jīng)...
    沈念sama閱讀 44,275評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,592評(píng)論 2 327
  • 正文 我和宋清朗相戀三年梗脾,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了荸型。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,724評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡炸茧,死狀恐怖瑞妇,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情宇立,我是刑警寧澤踪宠,帶...
    沈念sama閱讀 34,409評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站妈嘹,受9級(jí)特大地震影響柳琢,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,052評(píng)論 3 316
  • 文/蒙蒙 一柬脸、第九天 我趴在偏房一處隱蔽的房頂上張望他去。 院中可真熱鬧,春花似錦倒堕、人聲如沸灾测。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)媳搪。三九已至,卻和暖如春骤宣,著一層夾襖步出監(jiān)牢的瞬間秦爆,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評(píng)論 1 266
  • 我被黑心中介騙來泰國(guó)打工憔披, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留等限,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,503評(píng)論 2 361
  • 正文 我出身青樓芬膝,卻偏偏與公主長(zhǎng)得像望门,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子锰霜,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,627評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容

  • 1 前言 作為一名合格的數(shù)據(jù)分析師筹误,其完整的技術(shù)知識(shí)體系必須貫穿數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)锈遥、數(shù)據(jù)提取纫事、數(shù)據(jù)分析、數(shù)據(jù)挖掘所灸、...
    whenif閱讀 18,064評(píng)論 45 523
  • 爬蟲是一個(gè)比較容易上手的技術(shù)丽惶,也許花5分鐘看一篇文檔就能爬取單個(gè)網(wǎng)頁(yè)上的數(shù)據(jù)。但對(duì)于大規(guī)模爬蟲爬立,完全就是另一回事钾唬,...
    真依然很拉風(fēng)閱讀 9,651評(píng)論 5 114
  • 姥姥離世多年,我再未主動(dòng)提及過這個(gè)稱呼的人侠驯,媽媽聊天說起抡秆,我也只應(yīng)不答。因?yàn)槔牙褜?shí)在不討我喜歡吟策,從沒讓我舒...
    熊啊熊look閱讀 272評(píng)論 0 0
  • 運(yùn)行螢石視頻demo出現(xiàn)如下問題: 解決方法: 直接用真機(jī)運(yùn)行即可H迨俊!檩坚! END.
    明似水閱讀 633評(píng)論 0 0
  • 我靠氓润,我已經(jīng)忘了電影演的什么了,諸位不會(huì)真的在等我的影評(píng)吧薯鳍! 寧宇霄 2014年12月18 1咖气、 寫影評(píng)實(shí)在不是我...
    流噪閱讀 330評(píng)論 0 1