找工作的時候爬一下招聘網(wǎng)站瞬痘,大致上就可以了解一下目前所在地區(qū)的招聘情況框全,也更有針對性的去投簡歷津辩。在開始之前先要感謝以下這篇文章的作者(點擊可見源碼),在網(wǎng)站上分享了一個python3可用的定向小爬蟲闸度。自己還是一個爬蟲的入門者,正因為有了他們的付出我才能節(jié)省下碰壁的時間去盡快實現(xiàn)想法蚜印。
對源碼的修改
如上所述莺禁,我是直接拿現(xiàn)成的python代碼來使用,但那篇文章作者的代碼有部分字段是舍棄了的窄赋,所以需要修改一下為我所用哟冬。
修改url的目標城市
這里只需要修改"city="后面的部分就可以,提供一個簡單的方法就是用chrome或者firefox打開拉勾忆绰,按f12進入開發(fā)者工具浩峡,點擊Network菜單下的XHR(演示的是chrome)
點選你要了解的城市错敢,如“珠汉旆”,點擊搜索后應該會出來四個文件伐债,我們要的是postitionAjax.json這個文件预侯,點擊打開后會看到Request URL的字樣,后面部分就是我需要的城市的轉(zhuǎn)碼了峰锁。
修改我所需的字段
原來的代碼中只是根據(jù)作者的需要保留著以下字段萎馅,但我想了解的不止這部分的內(nèi)容,于是繼續(xù)向json傳過來的數(shù)據(jù)下手
將json的數(shù)據(jù)用格式化校驗工具整理一下之后發(fā)現(xiàn)幾個感興趣的字段
這兩個分別對應的是職位發(fā)布的時間跟職位的職能分類虹蒋,加上自己需要的類型之后就可以下一步的修改了
更改文件保存路徑
為了省事我改成了項目文件夾的根目錄,而不是原來的桌面路徑魄衅,也可以根據(jù)需要另外設定目錄
去掉輸入類型的提示
代碼本身是為了了解不同編程語言的信息,而我主要是想了解總體的狀況晃虫,因此這一部分我并不需要每次變更皆撩,于是改成了關(guān)鍵字為空,這樣提交過去則是搜索全部的招聘信息
開始抓取
程序運行部分沒有太大的問題,順利運行后會抓取到30頁的招聘信息并且保存成excel的文檔扛吞,打開會有錯誤的提示呻惕,但是繼續(xù)點擊后會發(fā)現(xiàn)數(shù)據(jù)是有的。需要注意的是拉勾做了限制滥比,只能看30頁的信息亚脆,所以在發(fā)布量比較大的城市如果想要獲取完整的信息的話需要再對源碼做修改,如增加定時執(zhí)行之類盲泛,我這里不作展開濒持。
原始數(shù)據(jù)的處理
到手的數(shù)據(jù)是這樣的,主要是將時間部分做格式化寺滚,將多份excel表格合并去重弥喉,最后共獲得共105個企業(yè)發(fā)布的523個崗位招聘信息
數(shù)據(jù)分析
所得數(shù)據(jù)起止時間分布為2016/4/18 9:45:49 - 2016/4/22 18:27:54,由于時間跨度不長玛迄,所得的結(jié)論僅供參考
看來HR們都主要集中在周二由境、周三、周五發(fā)招聘信息(大概周一都要開會蓖议?周四約人面試嗎虏杰?)
至于發(fā)布時間則主要集中于早上上班的9-12點以及下午的15-16點,還有部分敬業(yè)的hr們晚上9點多還在發(fā)信息(真是辛苦了)
在這523個崗位需求中勒虾,技術(shù)類的崗位需求比其他所有類型崗位需求的總和還多纺阔,所以在珠海技術(shù)類工種還是很大的需求缺口
大家都很關(guān)心的薪酬方面,產(chǎn)品的平均起薪達到了10k左右修然,而運營類崗位只有一半笛钝,與市場銷售等崗位持平
105個企業(yè)中,初創(chuàng)型的企業(yè)接近6成愕宋,說明機會還是很多的
果然玻靡,初創(chuàng)型公司的招聘需求占據(jù)了半壁江山(汪半壁作何感想?)
公司的成長階段對職位需求類型的變化中贝,可以看到隨著企業(yè)成長囤捻,對技術(shù)的需求會越來越高,相對的對市場及銷售邻寿、運營等職能的崗位需求則降低蝎土,開來此時企業(yè)更注重提高自身產(chǎn)品的競爭力
除去上市公司誊涯,剩余87個企業(yè)蒜撮,其中59個初創(chuàng)型企業(yè)中,約一半未融資丹壕;而到了成長型企業(yè)中則有一半是不需要融資的菌赖,大概是有了穩(wěn)定的盈利模式以后融資則顯得不是那么重要了
企業(yè)的職位誘惑前十位琉用,帶薪年假占據(jù)了福利榜首(這算哪門子誘惑— —|||)
發(fā)布招聘需求前10位的企業(yè)邑时,果然大魅族在珠海是招聘大戶
運營類的招聘前十位晶丘,看來YY對運營的需求比較大
再看看魅族的招聘浅浮,HR們的發(fā)布也似乎沒有很特別的規(guī)律
還是以技術(shù)類崗位的需求還是遠超其他類型的總和,運營的崗位只有一個QAQ
在找工作的時候淮捆,不妨分析一下當前的總體招聘情況,才更有針對性的了解目前企業(yè)的需求是什么桐腌。
??在后續(xù)針對單個企業(yè)的爬蟲中哩掺,我定位到了單個企業(yè)的招聘信息都是由searchPosition.json返回的嚼吞,但是按照參考文章的代碼去改后蹬碧,請求地址卻返回錯誤恩沽。由于爬蟲方面自己還是入門很多都不懂,目前還在研究中城瞎,如果研究到了我還會繼續(xù)分析下去的疾瓮。