01 起
大數(shù)據(jù)行業(yè)持續(xù)升溫突勇,越來越多的人才涌進(jìn)這個(gè)行業(yè)射沟。
想知道這個(gè)行業(yè)需要什么樣的人才么?
大數(shù)據(jù)的問題就交給大數(shù)據(jù)去完成吧~~
我們按特定的職位名稱与境,爬取了拉勾網(wǎng)上成都地區(qū)所有大數(shù)據(jù)相關(guān)職位的招聘信息,并對(duì)這份數(shù)據(jù)做了多維度分析猖吴,得到了很多有價(jià)值的信息摔刁,構(gòu)成了一份大數(shù)據(jù)人才市場(chǎng)分析報(bào)告。
本文節(jié)選報(bào)告第四章內(nèi)容海蔽,對(duì)5類大數(shù)據(jù)相關(guān)職位的職位要求進(jìn)行文本分析共屈,給出人才市場(chǎng)上對(duì)這5類職位的能力(ability)要求和技能(skill)要求,供大家餐參考党窜。
一起來看看吧拗引!
02 分析方法
原始數(shù)據(jù)經(jīng)標(biāo)準(zhǔn)化處理后,有11類職位幌衣,發(fā)布的職位數(shù)如下表所示矾削, 我們選取職位數(shù)大于100的職位以及數(shù)據(jù)挖掘職位進(jìn)行分析。數(shù)據(jù)處理流程如下豁护,主要利用python的jieba分詞:
- 加載自定義詞典(提取各類職位的職位描述關(guān)鍵詞n,v詞性TOP100哼凯,人工篩選(組合、刪除詞語)生成一個(gè)詞典)
- 利用dict(zip())和原始數(shù)據(jù)楚里,生成{職位:職位描述}字典
- 利用dictionary.get(key,None)將相同的key對(duì)應(yīng)的value字符串聯(lián)結(jié)
- 利用jieba.analyse.extracr()提取各類職位的職位描述長(zhǎng)文本的名詞断部、動(dòng)詞高頻詞,作為該職位的能力相關(guān)要求
- 利用jieba.posseg.cut()以及flag詞性篩選和dictionary.get(key,0)對(duì)字母單詞計(jì)數(shù)班缎,并降序排列蝴光,作為該職位的技能相關(guān)要求
一波操作之后,我們得到算法工程師达址、數(shù)據(jù)挖掘蔑祟、數(shù)據(jù)分析師、Java工程師沉唠、前端工程師這五類職位的能力要求做瞪。
03 職位能力需求分析
3.1 算法攻城獅
算法工程師能力要求(左圖)主要集中在模型、數(shù)學(xué)右冻、編程等偏理論性的能力上装蓬;技能要求(右圖)主要集中在Matlab、Hadoop纱扭、Java牍帚、Python等偏數(shù)學(xué)統(tǒng)計(jì)、數(shù)據(jù)庫乳蛾、建模等方面的軟件或語言上暗赶。
3.2 數(shù)據(jù)挖掘工
數(shù)據(jù)挖掘能力要求主要集中在建模鄙币、聚類、分類蹂随、統(tǒng)計(jì)十嘿、回歸、文本處理岳锁、標(biāo)簽等偏實(shí)際應(yīng)用的方面绩衷;技能要求主要集中在Python、SQL激率、SAS等偏挖掘咳燕、統(tǒng)計(jì)的工具上,對(duì)于Hadoop等數(shù)據(jù)庫相關(guān)的技能要求沒有算法工程師那么多乒躺。
3.3 數(shù)據(jù)分析獅
數(shù)據(jù)分析師能力要求主要集中在行業(yè)分析招盲、報(bào)表統(tǒng)計(jì)、報(bào)告專項(xiàng)等方面嘉冒,要求具有較高的業(yè)務(wù)思維和對(duì)行業(yè)的深刻理解曹货;技能要求主要集中在Excel、SQL讳推、PPT等偏展示性的工具上控乾,對(duì)于python等技能的要求沒有數(shù)據(jù)挖掘多。
3.4 Java攻城獅
Java工程師能力要求主要集中在編程娜遵、架構(gòu)設(shè)計(jì)蜕衡、數(shù)據(jù)庫、分布式等方面设拟;技能要求主要集中在Java慨仿、Spring、Linux纳胧、Oracle镰吆、HTML等方面,更加偏向于底層語言跑慕。
3.5 前端攻城獅
前端能力要求主要集中在可視化万皿、網(wǎng)頁、瀏覽器核行、工程化等方面牢硅;技能要求主要集中在CSS、Web芝雪、UI减余、HTML、Javascript等方面惩系,與Java工程師的技能要求差異明顯位岔。
04 總結(jié)
以上分析僅分析了幾個(gè)發(fā)布職位數(shù)較多的崗位如筛,對(duì)其職位要求的長(zhǎng)文本進(jìn)行了分析,給出了各崗位的能力要求和技能要求抒抬,作為求職者或是招聘方的參考杨刨,也可以繼續(xù)進(jìn)行時(shí)序分析(需要不同時(shí)間點(diǎn)的數(shù)據(jù)),從而洞察各類崗位人才能力需求的變動(dòng)情況擦剑。
比如可以檢測(cè)數(shù)據(jù)挖掘的技術(shù)動(dòng)向妖胀,如出現(xiàn)越來越多的NLP(自然語言處理)相關(guān)的職位要求。
以上分析較為粗淺抓于,僅供大家參考~
對(duì)了,基于本次成都地區(qū)拉勾網(wǎng)的招聘數(shù)據(jù)浇借,我還做了一個(gè)人才價(jià)格計(jì)算器捉撮,
人才價(jià)格計(jì)算器
輸入你的求職職位、求職公司規(guī)模妇垢、你的工作年限巾遭、學(xué)歷等信息,就可以估算你在成都地區(qū)的市場(chǎng)均價(jià)
感興趣的小伙伴可以參考這段代碼闯估,我上傳到我的github了灼舍。