爬蟲—拉鉤網(wǎng)招聘崗位爬取

爬取拉勾網(wǎng)各類招聘崗位恶阴，爬取不同的崗位種類只需要初始化時(shí)候傳入?yún)?shù)不同能耻，爬取成功后會(huì)自動(dòng)寫入同目錄的csv文件中爱谁，本例未使用到多線程楞慈。

"""
__coding__ = 'UTF-8'
__author__ = 'bingo'
__date__ = '2020/12/13'
# code is far away from bugs with the god animal protecting
    I love animals. They taste delicious.
             ┏┓   ┏┓
            ┏┛┻━━━┛┻━━┓
            ┃    ?    ┃
            ┃  ┳┛  ┗┳ ┃
            ┃     ┻   ┃
            ┗━┓     ┏━┛
              ┃     ┗━━━━━┓
              ┃  神獸保佑  ┣┓
              ┃　永無BUG！ ┏┛
              ┗━━━┓┓┏━━┳┓┏┛
                  ┃┫┫  ┃┫┫
                  ┗┻┛  ┗┻┛
"""
import requests
import random
import csv
from urllib.parse import quote
import time

class LaGou(object):

    USER_AGENT = [
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0",
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36",
            "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36 SLBrowser/6.0.1.9171"
        ]
    tasks = []

    def __init__(self, position):
        # 需要搜索的職位
        self.search_position = position

        self.request_url = "https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false"
        self.cookies = None
        self.f = open(f"拉勾{self.search_position}崗位.csv", mode="w+", encoding='gbk', newline='', errors="ignore")
        self.csv = csv.writer(self.f, delimiter=",")

    def get_request_cookie(self):
        """
        由于拉鉤的反爬機(jī)制荆忍，請(qǐng)求時(shí)候必須攜帶上cookie格带，并且cookie有效時(shí)間很短，此函數(shù)用來獲取并刷新全局cookie
        :return:
        """
        url = "https://www.lagou.com/jobs/list_{}?labelWords=&fromSearch=true&suginput="
        headers = {
            "user-agent": random.choice(self.USER_AGENT)
        }
        try:
            session = requests.Session()
            res = session.get(url.format(quote(self.search_position)), headers=headers)
            if res.status_code == 200:
                self.cookies = res.cookies
                print("獲取cookies成功")
            else:
                print("獲取cookies失敗")
        except Exception as e:
            print("獲取cookies失敗")

    def get_page_data(self, i):
        """
        獲取每一頁(yè)的內(nèi)容
        :param i: 頁(yè)碼
        :return:
        """
        j = {
            "first": False,
            "pn": 2,
            "kd": self.search_position
        }
        headers = {
            "Referer": "https://www.lagou.com/jobs/list_{}?labelWords=&fromSearch=true&suginput=".format(quote(self.search_position)),
            'Host': 'www.lagou.com',
            "user-agent": random.choice(self.USER_AGENT)
        }

        # 每獲取5頁(yè)刷新一次cookie
        if i % 5 == 0:
            self.get_request_cookie()

        # 偽造瀏覽器代理
        headers["user-agent"] = random.choice(self.USER_AGENT)

        # 頁(yè)碼變量
        j["pn"] = i

        # 獲取原始數(shù)據(jù)
        for retry_time in range(10):
            res = requests.post(self.request_url, data=j, headers=headers, cookies=self.cookies)
            result = res.json()

            # 如果成功走入該分支刹枉，返回崗位信息
            if result.get("success"):
                position_result = result["content"]["positionResult"]
                print(f"第{i}頁(yè)爬取成功：{position_result}")

                if position_result["resultSize"] == 0:
                    print("所有數(shù)據(jù)爬取完畢")
                    return 0

                all_position = position_result["result"]
                return all_position

            # 如果失敗刷新cookie叽唱，走入循環(huán)重新爬取
            else:
                time.sleep(2)
                self.get_request_cookie()
                continue
        else:
            print(f"第{i}頁(yè)爬取失敗: {res.json()}")
            return None


    def get_all_data(self, page_range=None):
        # 需要爬取的頁(yè)碼范圍，不傳page_range, 默認(rèn)爬取前30頁(yè)數(shù)據(jù)
        if isinstance(page_range, int):
            r_ = range(1, page_range+1)
        elif isinstance(page_range, (tuple, list)):
            r_ = range(page_range[0], page_range[1]+1)
        else:
            r_ = range(1, 31)

        # 第一次獲取cookie
        self.get_request_cookie()
        for i in r_:
            positions = self.get_page_data(i)

            if positions == 0:
                break

            if positions:
                # 寫csv的頭信息
                if i == 1 or i == r_[0]:
                    csv_headers = list(positions[0].keys())
                    self.csv.writerow(csv_headers)

                # 寫入具體內(nèi)容
                for p in positions:
                    self.csv.writerow(list(p.values()))

    def __del__(self):
        self.f.close()


if __name__ == "__main__":
    l = LaGou("數(shù)據(jù)分析")
    l.get_all_data(page_range=20)

運(yùn)行結(jié)果：

效果圖

csv文件：

保存的文件

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末微宝，一起剝皮案震驚了整個(gè)濱河市棺亭，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌蟋软，老刑警劉巖镶摘，帶你破解...
沈念sama閱讀 218,386評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異岳守，居然都是意外死亡凄敢，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,142評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門湿痢，熙熙樓的掌柜王于貴愁眉苦臉地迎上來涝缝，“玉大人，你說我怎么就攤上這事譬重【艽” “怎么了？”我有些...
開封第一講書人閱讀 164,704評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵臀规，是天一觀的道長(zhǎng)滩援。經(jīng)常有香客問我，道長(zhǎng)塔嬉，這世上最難降的妖魔是什么玩徊？我笑而不...
開封第一講書人閱讀 58,702評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任租悄，我火速辦了婚禮，結(jié)果婚禮上佣赖，老公的妹妹穿的比我還像新娘恰矩。我一直安慰自己，他們只是感情好憎蛤，可當(dāng)我...
茶點(diǎn)故事閱讀 67,716評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布外傅。她就那樣靜靜地躺著，像睡著了一般俩檬。火紅的嫁衣襯著肌膚如雪萎胰。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,573評(píng)論 1贊 305
城市分裂傳說
那天棚辽，我揣著相機(jī)與錄音技竟，去河邊找鬼。笑死屈藐，一個(gè)胖子當(dāng)著我的面吹牛榔组，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播联逻，決...
沈念sama閱讀 40,314評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼搓扯，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了包归？” 一聲冷哼從身側(cè)響起锨推，我...
開封第一講書人閱讀 39,230評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎公壤，沒想到半個(gè)月后换可，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,680評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡厦幅，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,873評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年沾鳄，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片确憨。...
茶點(diǎn)故事閱讀 39,991評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡洞渔，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出缚态，到底是詐尸還是另有隱情，我是刑警寧澤堤瘤，帶...
沈念sama閱讀 35,706評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布玫芦，位于F島的核電站，受9級(jí)特大地震影響本辐，放射性物質(zhì)發(fā)生泄漏桥帆。R本人自食惡果不足惜医增，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,329評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望老虫。院中可真熱鬧叶骨，春花似錦、人聲如沸祈匙。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,910評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)夺欲。三九已至跪帝，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間些阅，已是汗流浹背伞剑。一陣腳步聲響...
開封第一講書人閱讀 33,038評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留市埋，地道東北人黎泣。一個(gè)月前我還...
沈念sama閱讀 48,158評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像缤谎，于是被迫代替她去往敵國(guó)和親抒倚。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,941評(píng)論 2贊 355

爬蟲—拉鉤網(wǎng)招聘崗位爬取

推薦閱讀更多精彩內(nèi)容