Python爬蟲-拉勾網(wǎng)職位爬取

感覺好久沒寫python了哈哈,最近都在忙工作袄友,所以也是沒有學(xué)習(xí)python殿托。
剛好湊巧朋友正在找工作,也是java的剧蚣,所以我也就順便聯(lián)系下爬蟲支竹,爬下拉勾網(wǎng)的java職位。
以前都是用的bs4鸠按,今天來用一下xpath~

找出請求地址

首先打開拉勾網(wǎng)選擇一個(gè)城市礼搁,然后直接點(diǎn)它的java分類
觀察地址欄可以看到一個(gè)地址

image.png

其實(shí)這個(gè)地址沒什么用,別被它忽悠了目尖,接下來我們到頁面最下方選擇第二頁會(huì)發(fā)現(xiàn)地址欄地址變了

image.png

再選擇第三頁第四頁會(huì)發(fā)現(xiàn)馒吴,好像也就只是Java后面那個(gè)數(shù)字變了,那這個(gè)地址是不是就是我們需要的呢瑟曲,其實(shí)不是饮戳,代碼里請求這個(gè)地址是拿不到我們想要的東西的,所以我們打開開發(fā)者工具洞拨,輸入java點(diǎn)擊搜索

image.png

這個(gè)請求返回了一個(gè)html扯罐,但是往下拉卻會(huì)發(fā)現(xiàn)公司列表是空的,還是沒有數(shù)據(jù)烦衣。那么繼續(xù)往下找

image.png

下面那個(gè)companyAjax這個(gè)看起來是最像的了歹河,但是不是它,是上面這個(gè)position花吟,一開始我以為是下面那個(gè)秸歧,然后用來請求發(fā)現(xiàn)一直提示你訪問過于頻繁。讓我錯(cuò)以為是真的訪問過于頻繁衅澈,然后我用手機(jī)4G網(wǎng)訪問了下發(fā)現(xiàn)也是同樣的結(jié)果键菱。后來點(diǎn)了下上面這個(gè),發(fā)現(xiàn)它就是我們要找的請求地址矾麻,它會(huì)返回給我們json數(shù)據(jù)纱耻“盘荩可以說是相當(dāng)?shù)凝R全了险耀。

image.png

爬取數(shù)據(jù)

  • url :https://www.lagou.com/jobs/positionAjax.json?city=%E6%B7%B1%E5%9C%B3&needAddtionalResult=false&isSchoolJob=0
  • 請求方式: post
  • 請求數(shù)據(jù):
data = {
    'first': False,
    'pn':1,
    'kd': 'java',
}

pn就是頁碼了,kd應(yīng)該就是關(guān)鍵字了
注意要設(shè)置header

data = {
    'first': False,
    'pn':1,
    'kd': 'java',
}
def get_job(data):
    url = 'https://www.lagou.com/jobs/positionAjax.json?city=%E6%B7%B1%E5%9C%B3&needAddtionalResult=false&isSchoolJob=0'
        page = requests.post(url=url, cookies=cookie, headers=headers, data=data)
    page.encoding = 'utf-8'
    result = page.json()
    jobs = result['content']['positionResult']['result']
    for job in jobs:
        companyShortName = job['companyShortName']
        positionId = job['positionId']  # 主頁ID
        companyFullName = job['companyFullName']  # 公司全名

這個(gè)返回的信息是挺全面了玖喘,當(dāng)然如果要獲取更詳細(xì)的信息甩牺,那就需要到詳情頁了,隨便點(diǎn)一個(gè)

image.png

可以看到這串?dāng)?shù)字累奈,它就是公司的id了吧贬派,也就是上面的json中返回的positionId急但,我們只要拼一下url就可以請求了

detail_url = 'https://www.lagou.com/jobs/{}.html'.format(positionId)
        response = requests.get(url=detail_url, headers=headers, cookies=cookies)
        response.encoding = 'utf-8'
        tree = etree.HTML(response.text)
        desc = tree.xpath('//*[@id="job_detail"]/dd[2]/div/p/text()')

不知道為什么,有的公司明明是有職位描述的搞乏,但是卻拿不到波桩,也是有點(diǎn)費(fèi)勁,原諒我是個(gè)菜鳥请敦。誰知道的話煩請告知小弟一下

image.png

完整代碼:

# /usr/bin/env python3
# -*- coding:utf-8 -*-

import requests
from lxml import etree


cookie = {
    'Cookie':'JSESSIONID=ABAAABAAAGGABCBF0273ED764F089FC46DF6B525A6828FC; '
             'user_trace_token=20170901085741-8ea70518-8eb0-11e7-902f-5254005c3644; '
             'LGUID=20170901085741-8ea7093b-8eb0-11e7-902f-5254005c3644; '
             'index_location_city=%E6%B7%B1%E5%9C%B3; '
             'TG-TRACK-CODE=index_navigation; _gat=1; '
             '_gid=GA1.2.807135798.1504227456; _ga=GA1.2.1721572155.1504227456; '
             'LGSID=20170901085741-8ea70793-8eb0-11e7-902f-5254005c3644; '
             'LGRID=20170901095027-ed9ebf87-8eb7-11e7-902f-5254005c3644; '
             'Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1504227456; '
             'Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1504230623;'
             'SEARCH_ID=a274b85f40b54d4da62d5e5740427a0a'
}

headers = {
    'User-Agent': 'User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/60.0.3112.90 Safari/537.36',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Host':'www.lagou.com',
    'Origin':'https://www.lagou.com',
    'Referer':'https://www.lagou.com/jobs/list_java?city=%E6%B7%B1%E5%9C%B3&cl=false&fromSearch=true&labelWords=&suginput=',
}
cookies = {
    'Cookie': 'user_trace_token=20170901085741-8ea70518-8eb0-11e7-902f-5254005c3644;'
              'LGUID=20170901085741-8ea7093b-8eb0-11e7-902f-5254005c3644; '
              'index_location_city=%E6%B7%B1%E5%9C%B3; SEARCH_ID=7277bc08d137413dac2590cea0465e39; '
              'TG-TRACK-CODE=search_code; JSESSIONID=ABAAABAAAGGABCBF0273ED764F089FC46DF6B525A6828FC; '
              'PRE_UTM=; PRE_HOST=; '
              'PRE_SITE=https%3A%2F%2Fwww.lagou.com%2Fjobs%2Flist_java%3Fcity%3D%25E6%25B7%25B1%25E5%259C%25B3%26cl%3Dfalse%26fromSearch%3Dtrue%26labelWords%3D%26suginput%3D; '
              'PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Fjobs%2F3413383.html; _gat=1; _'
              'gid=GA1.2.807135798.1504227456; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1504227456; '
              'Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1504252636; _ga=GA1.2.1721572155.1504227456; '
              'LGSID=20170901153335-dd437749-8ee7-11e7-903c-5254005c3644; '
              'LGRID=20170901155728-336ca29d-8eeb-11e7-9043-5254005c3644',
}
data = {
    'first': False,
    'pn':1,
    'kd': 'java',
}

def get_job(data):
    url = 'https://www.lagou.com/jobs/positionAjax.json?city=%E6%B7%B1%E5%9C%B3&needAddtionalResult=false&isSchoolJob=0'
        page = requests.post(url=url, cookies=cookie, headers=headers, data=data)
    page.encoding = 'utf-8'
    result = page.json()
    jobs = result['content']['positionResult']['result']
    for job in jobs:
        companyShortName = job['companyShortName']
        positionId = job['positionId']  # 主頁ID
        companyFullName = job['companyFullName']  # 公司全名
        companyLabelList = job['companyLabelList']  # 福利待遇
        companySize = job['companySize']  # 公司規(guī)模
        industryField = job['industryField']
        createTime = job['createTime']  # 發(fā)布時(shí)間
        district = job['district']  # 地區(qū)
        education = job['education']  # 學(xué)歷要求
        financeStage = job['financeStage']  # 上市否
        firstType = job['firstType']  # 類型
        secondType = job['secondType']  # 類型
        formatCreateTime = job['formatCreateTime']  # 發(fā)布時(shí)間
        publisherId = job['publisherId']  # 發(fā)布人ID
        salary = job['salary']  # 薪資
        workYear = job['workYear']  # 工作年限
        positionName = job['positionName']  #
        jobNature = job['jobNature']  # 全職
        positionAdvantage = job['positionAdvantage']  # 工作福利
        positionLables = job['positionLables']  # 工種

        detail_url = 'https://www.lagou.com/jobs/{}.html'.format(positionId)
        response = requests.get(url=detail_url, headers=headers, cookies=cookies)
        response.encoding = 'utf-8'
        tree = etree.HTML(response.text)
        desc = tree.xpath('//*[@id="job_detail"]/dd[2]/div/p/text()')

        print(companyFullName)
        print('%s 拉勾網(wǎng)鏈接:-> %s' % (companyShortName, detail_url))

        print('職位:%s' % positionName)
        print('職位類型:%s' % firstType)
        print('薪資待遇:%s' % salary)
        print('職位誘惑:%s' % positionAdvantage)
        print('地區(qū):%s' % district)
        print('類型:%s' % jobNature)
        print('工作經(jīng)驗(yàn):%s' % workYear)
        print('學(xué)歷要求:%s' % education)
        print('發(fā)布時(shí)間:%s' % createTime)
        x = ''
        for label in positionLables:
            x += label + ','
        print('技能標(biāo)簽:%s' % x)
        print('公司類型:%s' % industryField)
        for des in desc:
            print(des)


def url(data):
    for x in range(1,50):
        data['pn'] = x
        get_job(data)

if __name__ == '__main__':
    url(data)

最后的最后镐躲,說來我陸陸續(xù)續(xù)學(xué)習(xí)python 的時(shí)間也有兩個(gè)月了差不多,但是學(xué)的很皮毛侍筛,接下來有時(shí)間還是準(zhǔn)備好好看看cookbook 萤皂,加油

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市匣椰,隨后出現(xiàn)的幾起案子裆熙,更是在濱河造成了極大的恐慌,老刑警劉巖禽笑,帶你破解...
    沈念sama閱讀 206,311評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件入录,死亡現(xiàn)場離奇詭異,居然都是意外死亡蒲每,警方通過查閱死者的電腦和手機(jī)纷跛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來邀杏,“玉大人贫奠,你說我怎么就攤上這事⊥” “怎么了唤崭?”我有些...
    開封第一講書人閱讀 152,671評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長脖律。 經(jīng)常有香客問我谢肾,道長,這世上最難降的妖魔是什么小泉? 我笑而不...
    開封第一講書人閱讀 55,252評論 1 279
  • 正文 為了忘掉前任芦疏,我火速辦了婚禮,結(jié)果婚禮上微姊,老公的妹妹穿的比我還像新娘酸茴。我一直安慰自己,他們只是感情好兢交,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,253評論 5 371
  • 文/花漫 我一把揭開白布薪捍。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪酪穿。 梳的紋絲不亂的頭發(fā)上凳干,一...
    開封第一講書人閱讀 49,031評論 1 285
  • 那天,我揣著相機(jī)與錄音被济,去河邊找鬼救赐。 笑死,一個(gè)胖子當(dāng)著我的面吹牛只磷,可吹牛的內(nèi)容都是我干的净响。 我是一名探鬼主播,決...
    沈念sama閱讀 38,340評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼喳瓣,長吁一口氣:“原來是場噩夢啊……” “哼馋贤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起畏陕,我...
    開封第一講書人閱讀 36,973評論 0 259
  • 序言:老撾萬榮一對情侶失蹤配乓,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后惠毁,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體犹芹,經(jīng)...
    沈念sama閱讀 43,466評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,937評論 2 323
  • 正文 我和宋清朗相戀三年鞠绰,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了腰埂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,039評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蜈膨,死狀恐怖屿笼,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情翁巍,我是刑警寧澤驴一,帶...
    沈念sama閱讀 33,701評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站灶壶,受9級特大地震影響肝断,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜驰凛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,254評論 3 307
  • 文/蒙蒙 一胸懈、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧恰响,春花似錦趣钱、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至间唉,卻和暖如春绞灼,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背呈野。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工低矮, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人被冒。 一個(gè)月前我還...
    沈念sama閱讀 45,497評論 2 354
  • 正文 我出身青樓军掂,卻偏偏與公主長得像,于是被迫代替她去往敵國和親昨悼。 傳聞我的和親對象是個(gè)殘疾皇子蝗锥,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,786評論 2 345

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,506評論 25 707
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)率触,斷路器终议,智...
    卡卡羅2017閱讀 134,599評論 18 139
  • 1. Java基礎(chǔ)部分 基礎(chǔ)部分的順序:基本語法,類相關(guān)的語法葱蝗,內(nèi)部類的語法穴张,繼承相關(guān)的語法,異常的語法两曼,線程的語...
    子非魚_t_閱讀 31,581評論 18 399
  • 郭相麟 思念是風(fēng) 期待是帆 離別時(shí)青春少年 君住長江口 我住黔之山 歲月如梭五十多年 相聚時(shí)古稀老人 兒孫滿堂享天...
    郭相麟閱讀 306評論 0 0
  • RetryAndFollowUpInterceptor攔截器分析 源碼地址:https://github.com/...
    逗哥筆記閱讀 1,609評論 0 4