python.requests實(shí)戰(zhàn)《百度聘全站》

一煌往,先看結(jié)果


image.png

二,思路
1.找到頁面的所有職位糠爬,迭代后進(jìn)行請求
2.找到職位所對應(yīng)的url鏈接寇荧,迭代后,合并職位進(jìn)行請求抓取
3.實(shí)現(xiàn)手動選擇職位执隧,城市
4.實(shí)現(xiàn)一鍵入庫篩查揩抡,排選

三,上代碼

import requests
import json
import pymysql
import time
from bs4 import BeautifulSoup
import re


class Baidujob(object):
    def __init__(self):
        pass

    def mysql(self):


        conn = pymysql.Connect(host='x', user='x', password='x', database='x', port=x,
                               charset='x')
        cursor = conn.cursor()
        sql = "CREATE TABLE IF NOT EXISTS %s(ID INT(10) NOT NULL PRIMARY KEY AUTO_INCREMENT," \
              "A VARCHAR(255)," \
              "B VARCHAR(255)," \
              "C VARCHAR(255))"
        dbname = input('請輸入數(shù)據(jù)庫名:')
        cursor.execute(sql % dbname)
        print('創(chuàng)建數(shù)據(jù)庫%s成功镀琉!' % dbname)


    def get_url(self,post, page, city):
        url = 'http://zhaopin.baidu.com/api/quanzhiasync?query={}&sort_type=1&city={}&detailmode=close&rn=20&pn={}'.format(
            post, city, page)
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3964.2 Safari/537.36'
            ,
            'Referer': 'http://zhaopin.baidu.com/quanzhi?tid=4139&ie=utf8&oe=utf8&query=python&city_sug=%E5%B9%BF%E5%B7%9E'
            , 'Host': 'zhaopin.baidu.com'
            ,
            'Cookie': 'Hm_lvt_dc173081ad0848b7d3e412373bb02119=1493714008; PSTM=1500109449; BIDUPSID=EBA58E2B59F5D325007E6FA067243233; PRY=1; BAIDUID=57829DB7D914A3AB376B0A2A7415FD8C:FG=1; Hm_lvt_da3258e243c3132f66f0f3c247b48473=1509328256; Hm_lvt_24117ca0ed302abec8cd5b93e02d18cd=1509858595; BDUSS=ltQWtHcEYxcEt6eEVkdzBUemo0R1dPZHJxdE9LOE5EbXhYaHpQMWJTVEUta0ZhQVFBQUFBJCQAAAAAAAAAAAEAAABIwC9~eWFuZ2Z1bG9uZ2hvbWUAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAMRtGlrEbRpaOF; MCITY=-%3A; BDRCVFR[VIIOqqdxwZ_]=mk3SLVN4HKm; PSINO=7; H_PS_PSSID=1460_21111_22075; URLTITLESALARY=%20; Hm_lvt_c676f95eebbd4fa8a59418f48090ac4d=1513303313,1514278789,1514336165,1515219239; Hm_lpvt_c676f95eebbd4fa8a59418f48090ac4d=1515219701'

        }
        # pn,0,20
        data = {
            'pn': '{}'.format(page)
            , 'rn': '20'
            , 'detailmode': 'close'
            , 'city_sug': '{}'.format(city)
            , 'sort_type': '1'
            , 'query': '{}'.format(post)

        }

        try:
            response = requests.get(url, headers=headers, params=data).text
            json_dict = json.loads(response)
            json_data = json_dict['data']
            json_main = json_data['main']
            json_datas = json_main['data']

            i = 0
            item = json_datas.get('disp_data')
            for items in item:
                ####A
                city = items.get('city')
                price = items.get('salary')
                title = items.get('title')
                buty = items.get('description_jd')
                terrace = items.get('source')
                times = items.get('lastmod')
                company_data = items.get('officialname'), ':,崗位:{},城市:{},工資:{}\n,{}平臺:{},{}\n'.format(title, city,
                                                                                                      price.split('-')[0],
                                                                                                      terrace, buty, times)
                # print(company_data)
                company = items.get('officialname')
                ###B
                phone1 = items.get('@cts')
                phone2 = items.get('@dts')
                email = items.get('email')
                companyb = items.get('officialname'), '電話:{},電話:{},EMail:{}'.format(phone1, phone2, email)

                i = i + 1
                # 變成str峦嗤,好存入MySQL
                company_str1 = ''.join(tuple(company_data))
                company_str2_phone = ''.join(tuple(companyb))
                print(i)
                print(company_str1, company_str2_phone)

                # print(company,title)
                # print(i)
                ####數(shù)據(jù)庫
            #     sql = "INSERT INTO %s(A,B)VALUES('%s','%s')"
            #     values = (dbname, company_str1, company_str2_phone)
            #     cursor.execute(sql % values)
            #     print('導(dǎo)入成功')
            # conn.commit()
            # time.sleep(0.1)
        except:
            print('response error!!!')
            return None

        else:
            pass


    def main(self):
        urls = 'http://zhaopin.baidu.com/quanzhi?tid=4139&ie=utf8&oe=utf8&query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&city_sug=%E5%B9%BF%E5%B7%9E'
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3964.2 Safari/537.36'
            ,
            'Referer': 'http://zhaopin.baidu.com/quanzhi?tid=4139&ie=utf8&oe=utf8&query=python&city_sug=%E5%B9%BF%E5%B7%9E'
            , 'Host': 'zhaopin.baidu.com'
            ,
            'Cookie': 'Hm_lvt_dc173081ad0848b7d3e412373bb02119=1493714008; PSTM=1500109449; BIDUPSID=EBA58E2B59F5D325007E6FA067243233; PRY=1; BAIDUID=57829DB7D914A3AB376B0A2A7415FD8C:FG=1; Hm_lvt_da3258e243c3132f66f0f3c247b48473=1509328256; Hm_lvt_24117ca0ed302abec8cd5b93e02d18cd=1509858595; BDUSS=ltQWtHcEYxcEt6eEVkdzBUemo0R1dPZHJxdE9LOE5EbXhYaHpQMWJTVEUta0ZhQVFBQUFBJCQAAAAAAAAAAAEAAABIwC9~eWFuZ2Z1bG9uZ2hvbWUAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAMRtGlrEbRpaOF; MCITY=-%3A; BDRCVFR[VIIOqqdxwZ_]=mk3SLVN4HKm; PSINO=7; H_PS_PSSID=1460_21111_22075; URLTITLESALARY=%20; Hm_lvt_c676f95eebbd4fa8a59418f48090ac4d=1513303313,1514278789,1514336165,1515219239; Hm_lpvt_c676f95eebbd4fa8a59418f48090ac4d=1515219701'

        }
        try:
            response = requests.get(urls, headers).text
            soup = BeautifulSoup(response, 'lxml')
            item = soup.find_all('div', attrs={'class': re.compile('all-jobs')})
            city = soup.find_all('div', attrs={'class': 'tabs-body'})
            for citys in city:
                cityss = citys.find_all('dd')
                for g in cityss:
                    city_name = g.get_text()
                    # city_name是城市名字
                    # print(city_name)

                    for items in item:
                        a = items.find_all('a')
                        for b in a:
                            profession = b.get_text()
                            # 職業(yè)

                            for page in range(0, 2000, 20):
                                # page=頁碼

                                self.get_url(post, city=city_name, page=page)
                                print('城市:%s,行業(yè)%s,頁碼%s' % (city_name, profession, page))
        except:
            print('main,error!!!')


if __name__ == '__main__':
    post = input('請輸入職位:')
    l = Baidujob()
    l.main()
    # post = 'Python'
    # city ='天津'
    # for page in range(0,100,20):
    #
    #     get_url(post,page,city)
    #     print(page)

    ####數(shù)據(jù)庫
    # cursor.close()
    # conn.close()

    print('CLOSE DATABASE OK!!!')


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末屋摔,一起剝皮案震驚了整個濱河市烁设,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌钓试,老刑警劉巖装黑,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異弓熏,居然都是意外死亡恋谭,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進(jìn)店門挽鞠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來疚颊,“玉大人狈孔,你說我怎么就攤上這事〔囊澹” “怎么了均抽?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長母截。 經(jīng)常有香客問我到忽,道長,這世上最難降的妖魔是什么清寇? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任喘漏,我火速辦了婚禮,結(jié)果婚禮上华烟,老公的妹妹穿的比我還像新娘翩迈。我一直安慰自己,他們只是感情好盔夜,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布负饲。 她就那樣靜靜地躺著,像睡著了一般喂链。 火紅的嫁衣襯著肌膚如雪返十。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天椭微,我揣著相機(jī)與錄音洞坑,去河邊找鬼。 笑死蝇率,一個胖子當(dāng)著我的面吹牛迟杂,可吹牛的內(nèi)容都是我干的埃儿。 我是一名探鬼主播螺戳,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼缺前!你這毒婦竟也來了锅尘?” 一聲冷哼從身側(cè)響起监氢,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎鉴象,沒想到半個月后忙菠,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡纺弊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年牛欢,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片淆游。...
    茶點(diǎn)故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡傍睹,死狀恐怖隔盛,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情拾稳,我是刑警寧澤吮炕,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站访得,受9級特大地震影響龙亲,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜悍抑,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一鳄炉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧搜骡,春花似錦拂盯、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至摸吠,卻和暖如春空凸,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背寸痢。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工劫恒, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人轿腺。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像丛楚,于是被迫代替她去往敵國和親族壳。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理趣些,服務(wù)發(fā)現(xiàn)仿荆,斷路器,智...
    卡卡羅2017閱讀 134,601評論 18 139
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,522評論 25 707
  • 像讀《明朝那些事兒》時坏平,猛然間發(fā)現(xiàn)拢操,原來歷史可以這樣寫。 今天聽完晨讀推薦的《親愛的臥底經(jīng)濟(jì)學(xué)家》發(fā)現(xiàn)舶替,原來經(jīng)濟(jì)學(xué)...
    濁酒一壺慰風(fēng)塵閱讀 115評論 0 4
  • 我有一個朋友令境,做設(shè)計的。 每天他過的特別壓抑顾瞪,原因:婚后生活不是他想要的舔庶,他過的特別壓抑抛蚁!以至于每天工作狀態(tài)也特別...
    凡心素履W閱讀 187評論 0 0
  • 沉浸于自己的世界里, 慵懶的瞇著貓眼惕橙, 哪里還有什么煩惱瞧甩。
    十月彩筆閱讀 94評論 0 0