爬取過程:
1杖小、獲取數(shù)據(jù):Requests
2肆汹、解析數(shù)據(jù):xpath
3、保存數(shù)據(jù):pandas
在boss中查詢崗位信息采用的是get的方式進行請求予权,頁面崗位數(shù)據(jù)采用非Js的方式進行加載,但是頁面元素經(jīng)常變化浪册。需要時常調(diào)整xpath讀取頁面元素代碼扫腺。本次爬取用于對爬取時不同崗位的薪資狀況的評估,不需要爬取崗位的具體要求村象。
步驟一:分析網(wǎng)頁
爬取boss招聘信息需要先登錄笆环,通過分析,爬取時需要的信息如下:
url ='https://www.zhipin.com/c101280600/'
請求首部:
headers = {
'accept':'application/json, text/javascript, */*; q=0.01',
'accept-encoding':'gzip, deflate, br',
'accept-language':'zh-CN,zh;q=0.8',
'cookie':'……', # 需要填寫
'user-agent':'……',# 需要填寫
'x-requested-with':'XMLHttpRequest',
}
請求方法:get
需要爬取的頁面分析:
二厚者、代碼實現(xiàn)
核心代碼如下圖所示躁劣,不過別忘了添加headers 和導(dǎo)入requests、pandas库菲、time账忘、etree等Python附加模塊。
# 調(diào)用函數(shù)代碼
if __name__ =='__main__':
????get_info(2)# 爬取兩頁數(shù)據(jù)