近日滴滴CEO程維公開宣布過冬,裁員15%恋腕,涉及員工2000人抹锄,在互聯(lián)網(wǎng)行業(yè)引起了廣泛討論。不過馬上到了3月份荠藤,金三銀四的黃金求職季伙单,互聯(lián)網(wǎng)行業(yè)情況或許會(huì)樂觀一些。
轉(zhuǎn)入正題啦哈肖。對(duì)于初學(xué)爬蟲的伙伴來說吻育,爬取拉勾網(wǎng)(為互聯(lián)網(wǎng)從業(yè)者提供工作機(jī)會(huì)的招聘網(wǎng)站)是一個(gè)很適合的練手項(xiàng)目。本篇文章通過爬取拉勾網(wǎng)10萬余條職位數(shù)據(jù)并進(jìn)行分析淤井,希望對(duì)大家有所啟發(fā)布疼。下面讓我們愉快地開始吧!
一币狠、網(wǎng)頁分析
拉勾網(wǎng)表面顯示每頁15條信息游两,共30頁,但實(shí)際爬取時(shí)我們會(huì)發(fā)現(xiàn)遠(yuǎn)不止此(與豆瓣網(wǎng)不同)漩绵,僅北京的python職位就有350頁共5000條左右的信息贱案,因此在分析目標(biāo)網(wǎng)頁時(shí)注意不要被表面迷惑。
(點(diǎn)擊圖片查看大圖)
1.獲取對(duì)象
公司名稱 工資范圍工作經(jīng)驗(yàn)公司類型融資階段公司規(guī)模學(xué)歷要求職位類型公司福利
2.網(wǎng)頁分析
當(dāng)小笨聰從第一頁點(diǎn)擊第二頁時(shí)渐行,發(fā)現(xiàn)信息直接出來而沒有加載網(wǎng)頁轰坊,這里很明顯啦,拉勾網(wǎng)關(guān)于職位的信息是異步加載的祟印。此時(shí)肴沫,打開開發(fā)者工具(F12),點(diǎn)擊Network進(jìn)入網(wǎng)頁分析蕴忆,F(xiàn)5刷新一下出來信息颤芬。
正常情況下,我們可以忽略CSS套鹅、圖片等類型的請(qǐng)求站蝠,關(guān)注點(diǎn)放在XHR這種類型請(qǐng)求上,出現(xiàn)5個(gè)XHR類型卓鹿,逐個(gè)打開對(duì)比菱魔,分別點(diǎn)擊Preview就能看到它們響應(yīng)的內(nèi)容,發(fā)現(xiàn)第一個(gè)包含了我們需要的信息吟孙。
(點(diǎn)擊圖片查看大圖)
點(diǎn)擊其中一個(gè)澜倦,可以看到包含了該職位的所有信息。
(點(diǎn)擊圖片查看大圖)
點(diǎn)擊Headers杰妓,可以看到city是城市藻治,pn是頁數(shù),kd是關(guān)鍵詞巷挥,這樣就可以寫代碼了桩卵。
(點(diǎn)擊圖片查看大圖)
提示一下,拉勾網(wǎng)有兩種獲取數(shù)據(jù)的方式:
方式一:首頁輸入Python倍宾,這時(shí)可以看到獲取數(shù)據(jù)的方式是發(fā)起Post請(qǐng)求雏节,得到j(luò)son數(shù)據(jù)。這種方法會(huì)提示操作太頻繁凿宾,即使設(shè)置了cookies模擬登陸矾屯,爬取的數(shù)據(jù)多了也會(huì)有被封IP的風(fēng)險(xiǎn)。
(點(diǎn)擊圖片查看大圖)
方式二:首頁選擇“技術(shù)”初厚,找到Python模塊件蚕,打開網(wǎng)頁,可以看到發(fā)起的是Get請(qǐng)求产禾,利用Xpath解析字段獲取數(shù)據(jù)排作。這兩種方法獲取的數(shù)據(jù)是一樣的。
微信公眾號(hào)“學(xué)編程的金融客”后臺(tái)回復(fù)“拉勾網(wǎng)1”即可獲得源碼和圖片亚情。
滴滴裁員2000后妄痪,我爬取了拉勾網(wǎng)10萬條數(shù)據(jù)告訴你互聯(lián)網(wǎng)職位現(xiàn)狀?mp.weixin.qq.com
你的關(guān)注和點(diǎn)贊就是對(duì)我繼續(xù)分享的最大的支持!