拉勾網(wǎng)爬蟲-python實(shí)踐

本次爬蟲實(shí)踐抵乓,使用到了cookies這一概念,有興趣的童鞋們可以自行搜索資料阎抒。
這次的代碼并未對(duì)搜索獲得的結(jié)果數(shù)量進(jìn)行邏輯判斷,after all消痛,我們只是為學(xué)習(xí)爬蟲且叁,大家可以發(fā)揮自己的分析能力和編程能力優(yōu)化這段代碼,有興趣的話評(píng)論交流秩伞。
話不多逞带,直接上代碼。

#!/usr/bin/env python
# -*- coding:utf-8
import requests
import pandas as pd
from collections import OrderedDict
from bs4 import BeautifulSoup
import time


def getPosInfo(posList,curSession):
    posinfoList=[]
    if posList['state'] == 1:
        posList = posList['content']['data']['page']
    else:
        print('Something goes wrong with our spider!')
        return ['no job available']
    for pos in posList['result']:
        posinfo = OrderedDict()
        posinfo['公司全稱'] = pos['companyFullName']
        posinfo['公司縮寫'] = pos['companyName'] 
        posinfo['創(chuàng)建時(shí)間'] = pos['createTime']
        posinfo['職位名稱'] = pos['positionName']
        posinfo['薪水'] = pos['salary']
        posinfo['職位編號(hào)'] = str(pos['positionId'])
        getPosDetail(posinfo,curSession)
        posinfoList.append(posinfo)
        time.sleep(0.5)

    return posinfoList


def getPosDetail(posinfo,curSession):
    resp = curSession.get(posDetailurl.format(positionid=posinfo['職位編號(hào)']))
    print(resp.url)
    bsobj = BeautifulSoup(resp.text,'html.parser')
    temptation = bsobj.select('div.temptation')
    if temptation != []:
        posinfo['職位誘惑'] = temptation[0].string.strip().lstrip('職位誘惑:')
    else:
        posinfo['職位誘惑']= '無(wú)'
    desc=''
    for line in bsobj.select('div.content p')[::]:
        if line.string != None:
            desc+=(line.string + '\n')
    posinfo['職位描述'] = desc


cookies={'JESSIONID':'XXX',
         'LGRID':'XXX',
         'LGSID':'XXX',
         'LGUID':'XXX',
         'user_trace_token':'XXX',
         'login':'true',
         }
starturl = 'https://m.lagou.com/search.json'
posDetailurl='https://m.lagou.com/jobs/{positionid}.html'
headers={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Mobile Safari/537.36',
         'X-Requested-With':'XMLHttpRequest',
         'Accept':'application/json',
         'Accept-language':'zh-CN,zh;q=0.8',
         'Accept-Encoding':'gzip, deflate, br'}

params={'city':'上海',
        'positionName':'python 爬蟲',
        'pageNo':1,
        'pageSize':15}

city = input("請(qǐng)輸入職位所在城市: ")
position = input("請(qǐng)輸入搜索職位: ")
params['city']= city
params['positionName'] = position
poslist=[]
with requests.Session() as s:
    s.headers.update(headers)
    s.cookies.update(cookies)
    #請(qǐng)自行調(diào)節(jié)爬取的頁(yè)數(shù)
    for page in range(1,3):
        params['pageNo']=page
        content = s.get(starturl,params=params)
        content.encoding='utf-8'
        poslist.extend(getPosInfo(content.json(),s))

ds = pd.DataFrame(poslist)
ds.to_excel('拉鉤.xlsx')

cookies請(qǐng)自行注冊(cè)拉勾網(wǎng)賬號(hào)然后抓包獲取纱新。
學(xué)海無(wú)涯展氓,擁抱改變,不斷進(jìn)化脸爱。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末遇汞,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子簿废,更是在濱河造成了極大的恐慌空入,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,376評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件捏鱼,死亡現(xiàn)場(chǎng)離奇詭異执庐,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)导梆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門轨淌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人看尼,你說我怎么就攤上這事递鹉。” “怎么了藏斩?”我有些...
    開封第一講書人閱讀 156,966評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵躏结,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我狰域,道長(zhǎng)媳拴,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,432評(píng)論 1 283
  • 正文 為了忘掉前任兆览,我火速辦了婚禮屈溉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘抬探。我一直安慰自己子巾,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,519評(píng)論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著线梗,像睡著了一般椰于。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上仪搔,一...
    開封第一講書人閱讀 49,792評(píng)論 1 290
  • 那天瘾婿,我揣著相機(jī)與錄音,去河邊找鬼僻造。 笑死憋他,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的髓削。 我是一名探鬼主播,決...
    沈念sama閱讀 38,933評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼镀娶,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼立膛!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起梯码,我...
    開封第一講書人閱讀 37,701評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤宝泵,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后轩娶,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體儿奶,經(jīng)...
    沈念sama閱讀 44,143評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,488評(píng)論 2 327
  • 正文 我和宋清朗相戀三年鳄抒,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了闯捎。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,626評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡许溅,死狀恐怖瓤鼻,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情贤重,我是刑警寧澤茬祷,帶...
    沈念sama閱讀 34,292評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站并蝗,受9級(jí)特大地震影響祭犯,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜滚停,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,896評(píng)論 3 313
  • 文/蒙蒙 一沃粗、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧铐刘,春花似錦陪每、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)挂签。三九已至,卻和暖如春盼产,著一層夾襖步出監(jiān)牢的瞬間饵婆,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來泰國(guó)打工戏售, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留侨核,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓灌灾,卻偏偏與公主長(zhǎng)得像搓译,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子锋喜,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,494評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 1 前言 作為一名合格的數(shù)據(jù)分析師些己,其完整的技術(shù)知識(shí)體系必須貫穿數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)嘿般、數(shù)據(jù)提取段标、數(shù)據(jù)分析、數(shù)據(jù)挖掘炉奴、...
    whenif閱讀 18,064評(píng)論 45 523
  • 有時(shí)候 我覺得孤獨(dú)很美 美到孤傲 沉浸在自我世界里 就像一個(gè)人擁有一整片大海 我可以隨心所欲地暢游 不用擔(dān)心和別人...
    心理咨詢師韻韻閱讀 235評(píng)論 4 1
  • 我不是一個(gè)粘人的女生 何時(shí)給你最后一封信逼庞? 假如有一天,你遇見了一個(gè)讓你砰然心動(dòng)的人瞻赶, 微信赛糟,碎片化的交流 上天安...
    北方燕閱讀 261評(píng)論 0 0
  • 總是在后知后覺中驚醒,發(fā)現(xiàn)自己的行為多么愚蠢荒唐共耍,我從不把世故放在眼里虑灰,因?yàn)橛X得虛偽無(wú)聊,但就是自己排斥的東西反而...
    夜白安閱讀 259評(píng)論 0 0