項(xiàng)目簡介
有人說误算,這個(gè)時(shí)代,只要站在了風(fēng)口迷殿,豬都能飛起來儿礼,尤其互聯(lián)網(wǎng)行業(yè),千變?nèi)f化庆寺,日異月殊蚊夫,一不小心就錯(cuò)過了風(fēng)口,如果沒記錯(cuò)的話止邮,前幾年火的是App開發(fā)这橙,后來是大數(shù)據(jù),再接著是人工智能导披,現(xiàn)在則是區(qū)塊鏈,有人甚至用幣圈一日互聯(lián)網(wǎng)十年來形容虛擬幣和區(qū)塊鏈的火爆埃唯,如果單從熱點(diǎn)看撩匕,大數(shù)據(jù)貌似有點(diǎn)out了,那究竟如何呢?今天就對(duì)拉勾網(wǎng)上的數(shù)據(jù)分析職位的相關(guān)信息來一個(gè)探索性分析墨叛。
數(shù)據(jù)集
之所以采用拉勾網(wǎng)(201712)的數(shù)據(jù)止毕,是由于在互聯(lián)網(wǎng)垂直招聘領(lǐng)域,拉勾網(wǎng)坐第一把交椅漠趁,無論是職位數(shù)量還是職位有效性扁凛,都優(yōu)于其它渠道。
本次采用的數(shù)據(jù)集主要有以下變量:薪酬下限闯传、薪酬上限谨朝、工作地點(diǎn)、經(jīng)驗(yàn)要求甥绿、學(xué)歷要求字币、工作時(shí)間、公司共缕、所處行業(yè)洗出、公司融資情況、投資機(jī)構(gòu)图谷、崗位要求等翩活。
目的
通過實(shí)際數(shù)據(jù)來看看數(shù)據(jù)分析一職的現(xiàn)況如何阱洪,薪資是否還有吸引力等,具體來說菠镇,探索以下幾個(gè)問題:
? 數(shù)據(jù)分析職位在各城市的需求對(duì)比;
? 數(shù)據(jù)分析師的待遇情況;
? 工作經(jīng)驗(yàn)要求;
? 互聯(lián)網(wǎng)熱點(diǎn)城市的待遇情況;
? 工作經(jīng)驗(yàn)對(duì)待遇的影響;
? 學(xué)歷對(duì)待遇的影響;
? 需要掌握的技能;
? 哪些技能更吃香;
? 不同的經(jīng)驗(yàn)要求是否意味著不同的技能要求冗荸。
分析工具
在Jupyter Notebook中以Python3及其pandas、matplotlib辟犀、seaborn 和 wordcloud包為主進(jìn)行分析俏竞。下面開始正式分析。
數(shù)據(jù)整理
前期準(zhǔn)備工作堂竟,由于matplotlib包使用的默認(rèn)字體不支持中文魂毁,所以得修改配置,用文本編輯器打開下面命令得到的路徑中的 matplotlibrc文件出嘹,將以 font.family和 font.sans-serif開頭的兩行前的注釋符(#)刪掉席楚,并在“font.sans-serif:”后加上SimHei,更改后結(jié)果如 font.sans-serif : SimHei, msyh, DejaVu Sans, ......;再將附帶的字體文件放入matplotlib同級(jí)目錄下的onts tf目錄中税稼。
接著刪除下面命令得到的用戶目錄中.matplotlib下的所有帶cache的文件及文件夾后重啟 Jupyter Notebook烦秩。
準(zhǔn)備工作完成,下面正式讀取數(shù)據(jù)并整理郎仆。
經(jīng)過處理后的數(shù)據(jù)有16個(gè)變量只祠,1766個(gè)觀測(cè)值,其中投資機(jī)構(gòu)(investor)缺失值太多扰肌,不過它不是這次分析的重點(diǎn)抛寝,影響不大。
探索數(shù)據(jù)
一曙旭、職位在地域方面的區(qū)別:
分析結(jié)果顯示盗舰,與以往媒體報(bào)道的北京互聯(lián)網(wǎng)發(fā)展遙遙領(lǐng)先不同,上海至少在數(shù)據(jù)分析職位方面的需求超過了北京桂躏,但也只是略超钻趋,同時(shí),深圳與上海和北京相比剂习,需求數(shù)量差距也不是非常大蛮位,其次杭州和廣州的需求比較大,且兩者幾乎無差距进倍,再者就是成都有一定需求土至,其它城市的需求非常少』ィ總體來說與人們對(duì)互聯(lián)網(wǎng)強(qiáng)城市的印象相符陶因。
二、薪資概況:
從分布看垂蜗,薪資差異較大楷扬,有大量五千到兩萬五之間的職位解幽,超過三萬的寥寥無幾,最高有達(dá)到七萬多的烘苹,與人們印象不同躲株,并不是每個(gè)數(shù)據(jù)分析師都能"月薪過萬",低于一萬的也有一定比例镣衡,但最多的還是一萬五到一萬七的霜定,總的來說,待遇非常吸引人廊鸥。
三望浩、工作經(jīng)驗(yàn)要求:
絕大部分崗位都要求有工作經(jīng)驗(yàn),3-5年的最多惰说,其次是1-3年的磨德,5-10年的專家級(jí)也有一定需求,還有一些不限經(jīng)驗(yàn)的吆视,可能是忘記填寫或?qū)嵙?xí)之類的典挑。
四、互聯(lián)網(wǎng)熱點(diǎn)城市薪資概況:
從結(jié)果看啦吧,北京的月薪中位數(shù)最高您觉,在2萬元,其次是上海授滓,在1.75萬左右顾犹,深杭在1.5萬左右,廣州成都只有1萬褒墨,但薪資最高的職位在深圳。
五擎宝、工作經(jīng)驗(yàn)對(duì)薪資的影響:
可見經(jīng)驗(yàn)越久郁妈,待遇越高,有5年經(jīng)驗(yàn)的薪資中位數(shù)最低也有2萬绍申,遠(yuǎn)比傳統(tǒng)行業(yè)高噩咪。
六、學(xué)歷對(duì)薪資的影響:
其中不限學(xué)歷的可能由于招聘者忘記選擇极阅,也可能由于其是新興領(lǐng)域胃碾,更看重實(shí)際能力而非學(xué)歷,對(duì)于有明確要求的筋搏,大專明顯低于本科和碩士仆百,本科和碩士的差距倒不是特別大,只是碩士的起薪要高奔脐。
七俄周、工作技能要求:
可見吁讨,SQL,Office(主要是Excel和PPT)是需求最大的峦朗,是絕大多數(shù)要求必須掌握的;其次建丧,Python,算法和R的需求也很大,另外SAS波势,SPSS翎朱,Hadoop,Hive的需求也不小尺铣。
八拴曲、查看主流技能的薪酬平均中值:
泡泡大小代表了需求量,從結(jié)果看迄埃,會(huì)R的薪資最高疗韵,但這只是高薪的必要條件,而非充分條件侄非,另外算法太低蕉汪,可能是由于大多數(shù)崗位需求里都提到了算法,進(jìn)而拉低了其均值逞怨,如果進(jìn)一步分析者疤,應(yīng)該能得出比較貼合實(shí)際的數(shù)據(jù),或者也可直接將此項(xiàng)剔除叠赦,分析其它崗位如深度學(xué)習(xí)機(jī)器學(xué)習(xí)的薪資來得到算法的薪資均值驹马。Java是走向高級(jí)開發(fā)必不可少的路,Hadoop除秀,Spark糯累,Hive仍然是數(shù)據(jù)分析類職位的高薪必備技能。
九册踩、看看主要工作經(jīng)驗(yàn)對(duì)主流技能的要求是否有差別:
幾乎所有主流技能泳姐,3-5年工作經(jīng)驗(yàn)的需求量都比1-3年的多,但這很大可能是因?yàn)?-5年的招聘數(shù)本身就比1-3年的多100個(gè)左右暂吉,但我注意到胖秒,對(duì)Matlab、MySQL慕的、VBA及Tableau的需求兩者相差無幾阎肝,VBA方面3-5年的甚至低于1-3年的,這說明3-5年經(jīng)驗(yàn)要求的對(duì)這四種技能的需求不如1-3年的多肮街。
結(jié)論匯總
? 對(duì)數(shù)據(jù)分析一職的需求主要集中在北上廣深杭风题,其中北京和上海遙遙領(lǐng)先,深圳需求緊隨其后,廣州和杭州相比上海和北京需求減半俯邓,但比起其它城市依然不少骡楼。
? 大多數(shù)職位提供的薪資中值在5千到2萬5之間,很少有給出3萬的稽鞭,但也有極少數(shù)崗位鸟整,給出了五六萬的高薪。
? 大多數(shù)崗位要求有工作經(jīng)驗(yàn)朦蕴,要求有3-5年經(jīng)驗(yàn)的最多篮条,其次是1-3年的,不要求或只要求不到一年的很少吩抓。
? 互聯(lián)網(wǎng)發(fā)展熱門城市中涉茧,北京給出的薪資的中值最高,達(dá)到了2萬元疹娶,上海緊隨其后伴栓,比北京低一兩千,杭州和深圳基本持平雨饺,基本在1萬5左右钳垮,這有點(diǎn)出人意料,考慮到置業(yè)成本额港,去杭州貌似比深圳更好饺窿,廣州和成都的中值在1萬左右,可見移斩,至少在數(shù)據(jù)方面肚医,杭州的發(fā)展已經(jīng)超過廣州這個(gè)一線城市了。
? 工作經(jīng)驗(yàn)與薪資密切相關(guān)向瓷,1-3年經(jīng)驗(yàn)的薪資中值大部分超過了1萬肠套,3-5年的都在1萬5以上,而5年以上的猖任,薪資中值都在2萬以上糠排。
? 學(xué)歷方面,碩士對(duì)本科的優(yōu)勢(shì)不是很明顯超升,但下限是肯定高于本科的,大專相比本科劣勢(shì)就比較明顯了哺徊,薪資低不少室琢,而博士相對(duì)碩士也有很大優(yōu)勢(shì),但需求少落追。
? 技能方面盈滴,office(主要是excel其次少部分PPT)和SQL需求最多,Python、R巢钓、算法緊隨其后病苗,Hadoop、SPSS症汹、Hive硫朦、SAS、和Spark的需求也不少背镇。
? 對(duì)于拿到高薪的必要條件咬展,R優(yōu)勢(shì)最大,其次是Java瞒斩,Linux等破婆,當(dāng)然這些條件并非單一滿足,一般要同時(shí)會(huì)其它高級(jí)技能才能拿到高薪胸囱,顯然這已經(jīng)不是基礎(chǔ)的數(shù)據(jù)分析需要的技能了祷舀,可能側(cè)重于數(shù)據(jù)挖掘和建模等。
? 要求3-5年經(jīng)驗(yàn)的和要求1-3年經(jīng)驗(yàn)的在技能需求上沒有太大差別烹笔,對(duì)于這條結(jié)論不是很有把握裳扯,不是太符合邏輯,等日后再詳細(xì)分析箕宙。
思考·總結(jié)
通過這次分析嚎朽,深切的感受到了思路的重要性,如果你對(duì)探索數(shù)據(jù)沒有好奇心柬帕,沒有一點(diǎn)自己的想法哟忍,那真可謂無處下手,不知道該分析什么陷寝,正所謂思路為“道”锅很,工具為“術(shù)”,分析之前凤跑,得先給自己提出幾個(gè)想探索的問題爆安,或想驗(yàn)證的假設(shè),當(dāng)然這點(diǎn)不是非得一步到位仔引,也可以循序漸進(jìn)扔仓,隨著分析的不斷進(jìn)行再開展新的探索。
“術(shù)”方面的工具技能也很重要咖耘,有時(shí)候你不知道那個(gè)函數(shù)的用法翘簇,不知道那個(gè)參數(shù)的設(shè)置,可能找很久都找不到儿倒,比如對(duì)柱狀圖添加文字說明版保,起初我按照搜索到的方法添加,可就是不出效果,搜了好幾種方法都不行彻犁,無奈之下我只得把別人的代碼截圖一行一行敲下來運(yùn)行驗(yàn)證叫胁,最后發(fā)現(xiàn)是因?yàn)闆]放在一個(gè)cell里這個(gè)低級(jí)原因,當(dāng)然汞幢,這個(gè)過程中我又學(xué)到了別的知識(shí)驼鹅。術(shù)方面還有一點(diǎn)需要說的是,早期seaborn包會(huì)對(duì)matplotlib的圖自動(dòng)美化急鳄,但新版改了谤民,不會(huì)自動(dòng)美化,得自己設(shè)置疾宏,這方面花了大量時(shí)間搜索张足,主要是不知道對(duì)應(yīng)的術(shù)語叫什么,只能按文字描述搜索坎藐,最后發(fā)現(xiàn)为牍,圖像的灰底不是顏色,是style岩馍,可以用兩種方式設(shè)置碉咆,但兩種都不好用,因?yàn)橹灰獙?duì)一個(gè)圖設(shè)置后蛀恩,那做其它圖時(shí)都會(huì)默認(rèn)采用你設(shè)置的這個(gè)style疫铜,而我希望只針對(duì)單個(gè)圖起作用。
項(xiàng)目之外的双谆,我感到主動(dòng)學(xué)習(xí)非常重要壳咕,對(duì)于自己不會(huì)的,不要畏懼顽馋,也不要偷懶谓厘,要相信自己碰到的問題別人也絕對(duì)碰到過,搜一搜寸谜,看看別人是怎么解決的竟稳,比如對(duì)于技能的提取及詞云的繪制,起初用了結(jié)巴分詞提取熊痴,但提取有疏漏他爸,不過沒有大的問題,但繪制詞云時(shí)果善,出來的都是中文詞讲逛,基本沒有技能名,我只好去找別的方法岭埠,看能不能過濾掉結(jié)巴提取后的中文詞,最后發(fā)現(xiàn)何不采用正則重新提取呢,于是進(jìn)行了重新提取惜论,但繪制詞云時(shí)又碰到重復(fù)顯示的問題许赃,同樣的詞以不同大小和顏色顯示好幾次,但詞并沒有問題馆类。最后用自定義詞典解決了混聊。
另外就是英語非常重要,有些函數(shù)的參數(shù)太多乾巧,以至于官網(wǎng)文檔都沒有詳細(xì)說句喜,它可能是作為一些共用的參數(shù)放在了其它函數(shù)中介紹。最后沟于,對(duì)于崗位描述的探索還能進(jìn)一步采用語義分析咳胃,得出更明確的要求,因?yàn)橛行┮笫潜仨殱M足的旷太,有些是加分項(xiàng)展懈,但水平所限,還不能語義分析供璧,還有就是投資公司存崖,如果數(shù)據(jù)較全也能探索下金融方面這些機(jī)構(gòu)的投資偏好及相互間的裙帶關(guān)系,畢竟睡毒,中國的互聯(lián)網(wǎng)来惧,誰都繞不開阿里騰訊及其背后的資本。