從獵聘網(wǎng)爬取招聘職位信息弓颈,使用pandas對數(shù)據(jù)進行清洗,最后通過pyecharts完成可視化展示。
很早就動了跳槽的念頭卜范,也本打算上半年就離開已經(jīng)待了3年的公司。結果新冠疫情一來鹿榜,經(jīng)濟衰退逐漸從專家的預測變成殘酷的現(xiàn)實。本來就對下一份工作很是迷茫锦爵,現(xiàn)在更不敢輕舉妄動了舱殿。雖然今年的機會可能很少了,但還是可以透過分析招聘信息了解一下當前的形勢险掀。當然沪袭,主要還是想試試pyecharts
這個庫能做出什么效果的數(shù)據(jù)可視化圖表。
本來學的財務專業(yè)樟氢,后來也會一點python冈绊,早就考過了CPA,Excel用的還算6埠啃,想來想去好像除了會整理各類數(shù)據(jù)死宣,也不會做其他的了,所以就以python和財務分析分別作為關鍵詞進行搜索碴开,看看薪酬水平多少毅该,以及如果回老家會是什么情況。
一潦牛、數(shù)據(jù)爬取及清理
具體代碼就不po了眶掌,總結起來大概有幾點:
1、獵聘網(wǎng)不知什么時候也開始有反爬蟲機制了巴碗,所以最好使用requests.session
保持登陸狀態(tài)朴爬,并且完成一次爬取后sleep幾秒,否則直接被網(wǎng)站封號一天橡淆。
2召噩、數(shù)據(jù)清理的一些必要步驟不能省略,包括:去重逸爵,去缺失值蚣常,去異常值,數(shù)值類型轉換痊银。
3抵蚊、pandas
庫處理過的數(shù)值型數(shù)據(jù)不能直接用于pyecharts
庫生成圖表,需要轉換為python默認的int或者float型。
4贞绳、pyecharts
庫的中文文檔對如何使用各類圖表有非常友好且詳細的說明谷醉,比起matplotlib庫實在方便太多。pyecharts示例庫冈闭,pyecharts技術文檔
二俱尼、Python職位分析
上圖只展示了少部分職位統(tǒng)計,因為絕大部分崗位對年齡的要求是“不限年齡”萎攒。不過對明確標注了年齡段的職位進行統(tǒng)計遇八,對于python這類偏技術的工作,與大多數(shù)互聯(lián)網(wǎng)職位相同耍休,35歲仍然是一個主要的年齡門檻刃永,更年長的程序員的確不太好找新工作。
大多數(shù)工作要求3年相關經(jīng)驗羊精,一個人在行業(yè)里工作3年的時間斯够,也基本上可以認為入了門,新公司的培訓成本不會太高喧锦。
可能是因為在搜索職位時沒有輸入更多篩選條件读规,導致搜索結果雖然比較多,但是大部分工作對學歷的要求并沒有達到碩士以上燃少,說明爬取到的結果并不算高端束亏;也可以理解為曾經(jīng)以”高端招聘“為營銷買點的獵聘網(wǎng),發(fā)布的職位信息中也充斥了許多”低端“崗位阵具。
以上是對職位title進行關鍵詞抽取并總結出10類崗位枪汪。平均月薪則是按照年薪除以12計算的。
大多數(shù)職位仍以不太明確的”python開發(fā)“為名進行發(fā)布怔昨,這類職位的職責描述也比較泛化雀久,薪酬水平也處于中間。平均月薪最高的還是算法類崗位趁舀,畢竟對數(shù)學赖捌、計算機等硬科學的要求更高,但即便如此矮烹,年薪也沒超過40w越庇。
多說一句爬蟲
現(xiàn)在網(wǎng)絡上很多python課程都以爬蟲為入門和賣點。我當年也是因為這個入的坑奉狈。但老實講卤唉,爬蟲本身的門檻真的很低,只要會調用成熟的第三方庫仁期,懂一點html語言桑驱,很快就能上手竭恬。而從整個數(shù)據(jù)分析的工作流程來講,數(shù)據(jù)獲取和清理是臟活累活熬的,價值轉換低痊硕。從圖中也可以看出,專門招爬蟲工程師的比例和薪資水平都不高押框。
因為想著可能回老家(從地圖標記應該能知道筆者的籍貫了)岔绸,所以特別把幾個城市的薪資水平標記出來對比。
由于python通常還是會應用在新興行業(yè)橡伞,因此工業(yè)城市對它的需求并不高盒揉,高薪資主要集中在北上廣深,而成都的互聯(lián)網(wǎng)兑徘、金融等行業(yè)的發(fā)展前景還是比較看好的刚盈,需求也會多些。
最后道媚,因為python的主要領域是在大數(shù)據(jù)領域,因此筆者篩選了“數(shù)據(jù)”崗位的職位描述信息并做文本分析翘县。
可以看到最域,對于數(shù)據(jù)崗位的技能要求包括建模、數(shù)據(jù)庫锈麸、系統(tǒng)镀脂,同時也要求能懂產(chǎn)品和業(yè)務,有項目經(jīng)驗忘伞,善于團隊協(xié)作薄翅。
三、財務分析職位分析
不逐一分析了氓奈,直接上圖翘魄,最后總結。
1舀奶、年齡要求上暑竟,財務崗位明顯比python這類技術工種更寬松。所以育勺,公司財務也是一份暮氣沉沉的工作但荤。
2、3-5年工作經(jīng)驗是主流涧至。
3腹躁、由于從樣本中剔除了異常值,所以樣本內(nèi)薪資水平并不太高南蓬。
4纺非、職位分布明顯比python更廣哑了,且東部沿海地區(qū)較為集中。
5铐炫、從職位描述的詞頻來看典奉,獵聘網(wǎng)的搜索結果跟我預想之間存在很大差異失受。我以為分析是側重數(shù)據(jù)挖掘,而查詢結果顯示,企業(yè)更希望招聘有審計經(jīng)驗蒙秒、熟悉國家法規(guī)政策的應聘者。
四拓瞪、寫在最后
對獵聘網(wǎng)的爬蟲代碼溶锭,其實去年這個時候就已經(jīng)寫好了,可能是礙于在python上使用matplotlib
庫實在太麻煩而且效果圖也不好看乘综,所以就一直沒繼續(xù)做憎账。上周陸陸續(xù)續(xù)把pyecharts庫的文檔看了一遍,覺得用起來挺方便卡辰,才有動力把后面的事做完胞皱,也算了解一樁心事。
就像在分析中提到的九妈,就個人項目而言(業(yè)務練手或者偶爾工作需要)反砌,對爬蟲技能要求并不高。我今年重寫了一遍爬蟲也沒花多長時間萌朱,期間還因為被網(wǎng)站封號導致兩天登不上去宴树。后面的數(shù)據(jù)清理和匯總計算,用Excel也能做晶疼,只是相比于寫代碼酒贬,在excel里操作單元格不僅麻煩而且不夠優(yōu)雅。
完成這些費了不少時間翠霍,但好像對現(xiàn)實又沒啥幫助锭吨。就像前兩天CSDN App推送了一篇用python統(tǒng)計京東胸罩銷量對帖子,作者爬取里80w條數(shù)據(jù)寒匙,得出我國女性大部分罩杯是B耐齐。這個,真的需要80w條數(shù)據(jù)來說明嗎蒋情?
所以埠况,如果想跳槽,準備往哪里去呢棵癣?