Python 爬取拉鉤網(wǎng)異步加載頁面

如下是我簡單的獲取拉鉤網(wǎng)異步加載頁面信息的過程
獲取的是深圳 Python 崗位的所有信息馒索,并保存在Mongo中
(對于異步加載曹体,有的人說是把你要爬頁面的信息整個頁面先爬下來色瘩,保存本地单绑,然后再看有沒有你要的東西嘱函,有不是異步币厕,沒有就是異步列另;這種方式當(dāng)然是沒有任何問題,但是我的判斷方式是旦装,當(dāng)我點擊頁面某個位置時页衙,頁面的鏈接并沒有變化,而內(nèi)容卻發(fā)生了變化阴绢,這種我就說它是異步加載店乐,當(dāng)然,異步加載方式很多呻袭,我們要具體網(wǎng)站具體分析)
這個東西完全可以封裝成類眨八,各司其職(這里就可以延伸到Scrapy框架) 后面會更新一個使用Scrapy框架抓取信息的教程
當(dāng)然還有selenium+phantomjs

直接上代碼

import requests
import json
import pymongo

headers = {
'Referer':'https://www.lagou.com/jobs/list_Python?px=default&city=%E6%B7%B1%E5%9C%B3',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0'}
# headers中的Referer參數(shù)是必須的,左电?號之前都是必須的后面可以省略廉侧,不會對結(jié)果有影響
pagenum = 1
key = 'Python' #這里可以設(shè)置一個列表页响,先抓取頁面所有的技術(shù)名稱,保存起來段誊,然后抓取職位信息的時候循環(huán)嵌套遍歷
first = 'true'#可以不要闰蚕,沒發(fā)現(xiàn)有什么作用
post_data = {'first': first,'kd':key,'pn':pagenum}
#first:代表是不是首頁,kd:代表關(guān)鍵字连舍,pn:代表第幾頁
json_url =  'https://www.lagou.com/jobs/positionAjax.json?px=default&city=%E6%B7%B1%E5%9C%B3&needAddtionalResult=false&isSchoolJob=0'

#獲取json內(nèi)容
def get_content(post_data):
    r = requests.post(json_url,headers=headers,data=post_data)
    datas = json.loads(r.text)
    return datas['content']
#獲取mongo連接
def get_connect():
    client = pymongo.MongoClient('localhost', 27017)
    lagou = client['panpan']
    lagoudt = lagou['lagou']
    return  lagoudt
#數(shù)據(jù)寫入數(shù)據(jù)庫
def to_mongo(results):
    lagou = get_connect()
    for result in results:
        lagou.insert(
        {'positionName' : result['positionName'],
        'positionLibles' : ','.join(result['positionLables']),
        'workYear' : result['workYear'],
        'education': result['education'],
        'salary' : result['salary'],
        'city' :  result['city'],
        'financeStage' : result['financeStage'],
        'industryField' : result['industryField'],
        'createTime' : result['createTime'],
        'positionAdvantage' : result['positionAdvantage'],
        'companySize' : result['companySize'],
        'district' : result['district'],
        'companyShortName' : result['companyShortName'],
        'companyFullName' : result['companyFullName'],
        'firstType' : result['firstType'],
        'secondType' : result['secondType'],
        'subwayline' : result['subwayline'],
        'stationname' : result['stationname'],
        'linestaion' : result['linestaion']})
    

total_page =  get_content(post_data)['pageSize'] #總頁數(shù)
#循環(huán)每一頁的內(nèi)容
for page in range(1,total_page+1):
    first = 'false'
    print(page)#記錄當(dāng)前頁碼
    post_data = {'kd':'Python','pn':page}
    data = get_content(post_data)
    to_mongo(data['positionResult']['result'])

這明細(xì)是一個異步加載的例子没陡,我就不多說了,前面有


圖片.png

這個一看就是通過Ajax 實現(xiàn)的異步加載嗎索赏,而且Response里返回的JSon內(nèi)容就是我們需要的呀盼玄,直接取不就行了,話不多說参滴,直接看上面代碼强岸,有疑問的可以給我留言锻弓,我也是剛開始學(xué)砾赔,有問題的地方,請您指正


圖片.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末青灼,一起剝皮案震驚了整個濱河市暴心,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌杂拨,老刑警劉巖专普,帶你破解...
    沈念sama閱讀 222,681評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異弹沽,居然都是意外死亡檀夹,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,205評論 3 399
  • 文/潘曉璐 我一進店門策橘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來炸渡,“玉大人,你說我怎么就攤上這事丽已“龆拢” “怎么了?”我有些...
    開封第一講書人閱讀 169,421評論 0 362
  • 文/不壞的土叔 我叫張陵沛婴,是天一觀的道長吼畏。 經(jīng)常有香客問我,道長嘁灯,這世上最難降的妖魔是什么泻蚊? 我笑而不...
    開封第一講書人閱讀 60,114評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮丑婿,結(jié)果婚禮上藕夫,老公的妹妹穿的比我還像新娘孽糖。我一直安慰自己,他們只是感情好毅贮,可當(dāng)我...
    茶點故事閱讀 69,116評論 6 398
  • 文/花漫 我一把揭開白布办悟。 她就那樣靜靜地躺著,像睡著了一般滩褥。 火紅的嫁衣襯著肌膚如雪病蛉。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,713評論 1 312
  • 那天瑰煎,我揣著相機與錄音铺然,去河邊找鬼。 笑死酒甸,一個胖子當(dāng)著我的面吹牛魄健,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播插勤,決...
    沈念sama閱讀 41,170評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼沽瘦,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了农尖?” 一聲冷哼從身側(cè)響起析恋,我...
    開封第一講書人閱讀 40,116評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎盛卡,沒想到半個月后助隧,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,651評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡滑沧,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,714評論 3 342
  • 正文 我和宋清朗相戀三年并村,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片滓技。...
    茶點故事閱讀 40,865評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡哩牍,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出殖属,到底是詐尸還是另有隱情姐叁,我是刑警寧澤,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布洗显,位于F島的核電站外潜,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏挠唆。R本人自食惡果不足惜处窥,卻給世界環(huán)境...
    茶點故事閱讀 42,211評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望玄组。 院中可真熱鬧滔驾,春花似錦谒麦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,699評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至摊阀,卻和暖如春耻蛇,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背胞此。 一陣腳步聲響...
    開封第一講書人閱讀 33,814評論 1 274
  • 我被黑心中介騙來泰國打工臣咖, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人漱牵。 一個月前我還...
    沈念sama閱讀 49,299評論 3 379
  • 正文 我出身青樓夺蛇,卻偏偏與公主長得像,于是被迫代替她去往敵國和親酣胀。 傳聞我的和親對象是個殘疾皇子刁赦,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,870評論 2 361

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,327評論 25 707
  • 原文出處: Cer_ml 1.目標(biāo) 這兩天要弄一個大作業(yè),從水木社區(qū)和北大未名社區(qū)的實習(xí)板塊灵临,爬取實習(xí)信息截型,保存在...
    PyChina閱讀 935評論 0 5
  • Selenium的Webdriver爬取動態(tài)網(wǎng)頁效果雖然不錯趴荸,但效率方面并不如人意儒溉。最近一直研究如何提高動態(tài)頁面爬...
    Rabin_xie閱讀 8,652評論 10 43
  • 你是年少的歡喜 也是心頭的朱砂 白玫瑰是你 紅玫瑰也是你 別人眼中的歡喜冤家 我們終究還是錯過了 至此經(jīng)年 我還好...
    最無羨閱讀 422評論 0 3
  • 節(jié)氣馬上就是夏至了。 炎熱的北京比以往多了許多涼爽发钝,空中的云彩也變成了一朵一朵顿涣。在透藍(lán)的天空下映襯的如此綿柔可彈。...
    rainbowchao閱讀 306評論 0 1