想要從事數(shù)據(jù)分析師這個(gè)崗位恨闪,那自然首先需要對這個(gè)崗位有所了解倘感。最直接放坏、最真實(shí)的方式就是從企業(yè)那里獲得需求訊息,這樣才最能夠指導(dǎo)自己的學(xué)習(xí)方向和簡歷準(zhǔn)備老玛∮倌辏科多大數(shù)據(jù)作為大數(shù)據(jù)行業(yè)的專業(yè)人才培養(yǎng)公司钧敞,必須拿到第一手企業(yè)的用人信息和用人需求,長期合作模式的聯(lián)盟單位了解方式是沒問題的麸粮,當(dāng)然用公司最擅長的大數(shù)據(jù)分析技術(shù)溉苛,利用爬蟲爬取拉勾網(wǎng)上數(shù)據(jù)分析這一崗位的信息,然后進(jìn)行一些探索和分析弄诲,以數(shù)據(jù)分析來了解‘?dāng)?shù)據(jù)分析’愚战。
數(shù)據(jù)來源
本項(xiàng)目所使用的數(shù)據(jù)集全部來自拉勾網(wǎng),是通過集搜客這一網(wǎng)絡(luò)爬蟲工具來爬取的齐遵。之所以選擇拉勾網(wǎng)作為本項(xiàng)目的數(shù)據(jù)源寂玲,主要是因?yàn)橄鄬τ谄渌衅妇W(wǎng)站,拉鉤網(wǎng)上的崗位信息非常完整梗摇、整潔拓哟,極少存在信息的缺漏。并且?guī)缀跛姓宫F(xiàn)出來的信息都是非常規(guī)范化的伶授,極大的減少了前期數(shù)據(jù)清理和數(shù)據(jù)整理的工作量断序。
本次爬取信息的時(shí)候,主要獲得了以下信息:
項(xiàng)目目的
主要是希望通過實(shí)際的數(shù)據(jù)來解答針對數(shù)據(jù)分析崗位的一些疑惑糜烹,具體來說违诗,主要針對以下幾個(gè)問題:
- 數(shù)據(jù)分析師崗位需求的地域性分布;
- 整個(gè)群體中薪酬分布的情況疮蹦;
- 不同城市數(shù)據(jù)分析師的薪酬情況是怎樣的较雕;
- 該崗位對于工作經(jīng)驗(yàn)的要求是怎樣的;
- 根據(jù)工作經(jīng)驗(yàn)的不同挚币,薪酬是怎樣變化的亮蒋;
- 從用人單位的角度看,數(shù)據(jù)分析師應(yīng)當(dāng)具備哪些技能妆毕?
- 掌握不同技能是否會(huì)對薪酬有影響慎玖?影響是怎樣的?
技術(shù)和工具
本項(xiàng)目主要分為兩大部分笛粘,第一部分是數(shù)據(jù)爬取趁怔,采用的是集搜客網(wǎng)絡(luò)爬蟲工具。第二部分是數(shù)據(jù)分析薪前,以python編程語言為基礎(chǔ)润努。數(shù)據(jù)分析部分主要使用pandas作為數(shù)據(jù)整理和統(tǒng)計(jì)分析的工具,matplotlib用于圖形的可視化示括,seaborn庫包用于圖形美化铺浇。在進(jìn)行技能需求分析的時(shí)候,使用了jieba作為分詞工具包垛膝,并使用wordcloud包制作詞云鳍侣。
數(shù)據(jù)整理
加載和清理
可以看到丁稀,經(jīng)過初步清理后,數(shù)據(jù)集中有效變量為13個(gè)倚聚,數(shù)據(jù)記錄575條线衫。除了投資人這一項(xiàng)之外,其他各字段的數(shù)據(jù)完整度非常好惑折,幾乎沒有缺失值授账。這對于后面的分析來說是個(gè)大大的好消息。
數(shù)據(jù)分析
地域性分布
在拉勾網(wǎng)上惨驶,全國有29個(gè)城市的企業(yè)郵數(shù)據(jù)分析師的人才需求矗积,其中將近一半需求產(chǎn)生在北京市,需求量全國第一敞咧。排在前5的分別是:北京棘捣、上海、深圳休建、杭州乍恐、廣州。數(shù)據(jù)分析這一職業(yè)大量集中在北上廣深四大一線城市测砂,以及杭州這個(gè)互聯(lián)網(wǎng)和電子商務(wù)企業(yè)的聚集地茵烈。北京市巨大的需求比重令我稍感意外,不過砌些,考慮到拉勾網(wǎng)是一個(gè)偏重互聯(lián)網(wǎng)相關(guān)行業(yè)的招聘平臺(tái)呜投,而我國大量互聯(lián)網(wǎng)企業(yè)在北京聚集,這個(gè)結(jié)果倒也算合理存璃。以后有時(shí)間仑荐,可以對全國互聯(lián)網(wǎng)行業(yè)分布特點(diǎn)做個(gè)分析。
總而言之纵东,可以得出一個(gè)清晰的結(jié)論:數(shù)據(jù)分析這一崗位粘招,有大量的工作機(jī)會(huì)集中在北上廣深以及杭州,期待往這個(gè)方向發(fā)展的同學(xué)還是要到這些城市去多多嘗試偎球。當(dāng)然洒扎,從另一個(gè)方面說,這些城市也都集中了大量的各行業(yè)人才衰絮,競爭壓力想必也是很大的袍冷。
總體薪酬情況
如同大多數(shù)其他工作一樣,數(shù)據(jù)分析師的薪酬也是一個(gè)右偏分布。大多數(shù)人的收入集中在5k-20k每月猫牡,只有少數(shù)人能夠獲得更高的薪酬胡诗,但有極少數(shù)人薪酬極高,讓人充滿期待。需要說明的是乃戈,拉勾網(wǎng)上的薪酬值是一個(gè)區(qū)間值褂痰,并且相互之間互有重疊亩进,為了便于分析症虑,我取區(qū)間的中值作為代表值進(jìn)行的分析。因此归薛,實(shí)際的薪酬分布情況可能會(huì)比圖中的情況更好一些谍憔。總是有人能夠拿到薪酬的上限主籍。綜合來看习贫,數(shù)據(jù)分析師的薪酬收入整體還是可觀的,從這方面說千元,選擇這個(gè)職業(yè)還是不錯(cuò)的苫昌。
不同城市薪酬分布情況
忽略掉那些人才需求量比較小的城市,我重點(diǎn)關(guān)注排名前六的城市幸海。從圖上看祟身,這六大城市的薪酬分布情況總體來說都比較集中,這和我們前面看到的全國的薪酬總體情況分布是一致的物独。深圳市薪酬分布中位數(shù)大約在15k,居全國首位袜硫。其次是北京,約12.5k挡篓,之后是上海和杭州婉陷。深圳確實(shí)是個(gè)創(chuàng)造奇跡的城市,在這里也給了我一個(gè)小小的驚喜官研。從待遇上看秽澳,數(shù)據(jù)分析師留在深圳發(fā)展是個(gè)不錯(cuò)的選擇。
工作經(jīng)驗(yàn)需求
不出所料的戏羽,工作經(jīng)驗(yàn)的需求分布近似于正態(tài)分布肝集。工作1-3年經(jīng)驗(yàn)的熟手需求量最大,其次是3-5年工作經(jīng)驗(yàn)的資深分析師蛛壳。工作經(jīng)驗(yàn)不足1年的新人杏瞻,市場需求量比較少。另外衙荐,工作經(jīng)驗(yàn)要5-10年的需求量非常稀少捞挥,而10年以上的更是鳳毛麟角。
從這個(gè)分布我們大致可以猜測出:
數(shù)據(jù)分析是個(gè)年輕的職業(yè)方向忧吟,大量的工作經(jīng)驗(yàn)需求集中在1-3年砌函;對于數(shù)據(jù)分析師來說,5年是個(gè)瓶頸期,如果在5年之內(nèi)沒有轉(zhuǎn)型或者質(zhì)的提升讹俊,大概以后的競爭壓力會(huì)比較大垦沉。
不同工作經(jīng)驗(yàn)的薪酬分布
毫無疑問的,隨著經(jīng)驗(yàn)的提升仍劈,數(shù)據(jù)分析師的薪酬也在不斷提高厕倍。另外,從現(xiàn)有數(shù)據(jù)來看贩疙,數(shù)據(jù)分析師似乎是個(gè)常青的職業(yè)方向讹弯,在10年內(nèi)大概不會(huì)因?yàn)槟挲g的增長導(dǎo)致收入下降。
職業(yè)技能關(guān)鍵詞
詞云顯示出的情況这溅,有點(diǎn)超出了我的預(yù)料组民。對于數(shù)據(jù)分析師這一崗位,企業(yè)需求頻率最高的技能并不是Python語言和R語言等如今非常時(shí)髦的數(shù)據(jù)分析語言悲靴,而是傳統(tǒng)的結(jié)構(gòu)化查詢語言SQL和表格神器Excel臭胜。這一點(diǎn)需要各位小伙伴注意,要想從事數(shù)據(jù)分析師崗位癞尚,SQL和Excel看起來是必備技能耸三。 從詞云上看出,數(shù)據(jù)分析師技能需求頻率排在前列的有:SQL否纬,Excel, SAS吕晌,SPSS, Python, Hadoop和MySQL等。另外临燃,Java, PPT, BI軟件等屬于第二梯隊(duì)睛驳。
掌握不同技能對薪酬收入的影響
我對需求頻率最高的前15個(gè)技能進(jìn)行統(tǒng)計(jì)計(jì)算,得出每一個(gè)技能對應(yīng)的平均薪酬水平膜廊,如上圖乏沸。點(diǎn)的大小代表該技能需求量的多少。
在前15項(xiàng)技能中爪瓜,shell蹬跃,Hive, Spark這三者的平均薪酬水平最高铆铆,并且相對其他技能來說有比較大的差異蝶缀。對數(shù)據(jù)分析師工作有所了解的人應(yīng)該都知道,這三個(gè)工具中薄货,Hive和Spark都是應(yīng)用于分布式數(shù)據(jù)處理翁都,而shell腳本則是Linux系統(tǒng)下工作的必須技能。這三者共同指向了一個(gè)方向谅猾,那就是海量數(shù)據(jù)的分布式處理柄慰!
所以鳍悠,想要拿高薪的小伙伴注意了,海量數(shù)據(jù)處理坐搔、分布式處理框架是走向高薪的正確方向藏研。另外值得注意的是,在數(shù)據(jù)分析領(lǐng)域概行,Python語言的平均薪酬水平要高于目前如日中天的Java語言蠢挡。而SQL語言和傳統(tǒng)的SAS,SPSS兩大數(shù)據(jù)分析軟件占锯,則能夠讓你在保證中等收入的條件下袒哥,能夠適應(yīng)更多企業(yè)的要求缩筛,也就意味著更多的工作機(jī)會(huì)消略。
分析結(jié)論
通過上面的分析,我們可以得到的結(jié)論有這些:數(shù)據(jù)分析這一崗位瞎抛,有大量的工作機(jī)會(huì)集中在北上廣深以及杭州艺演。大多數(shù)據(jù)分析師的收入集中在5k-20k每月,只有少數(shù)人能夠獲得更高的薪酬桐臊,但有極少數(shù)人薪酬極高胎撤,讓人充滿期待。
從待遇上看断凶,數(shù)據(jù)分析師留在深圳發(fā)展是個(gè)不錯(cuò)的選擇伤提,其次是北京、上海认烁。數(shù)據(jù)分析是個(gè)年輕的職業(yè)方向肿男,大量的工作經(jīng)驗(yàn)需求集中在1-3年。
對于數(shù)據(jù)分析師來說却嗡,5年似乎是個(gè)瓶頸期舶沛,如果在5年之內(nèi)沒有轉(zhuǎn)型或者質(zhì)的提升,大概以后的競爭壓力會(huì)比較大窗价。 隨著經(jīng)驗(yàn)的提升如庭,數(shù)據(jù)分析師的薪酬也在不斷提高,10年以上工作經(jīng)驗(yàn)的人撼港,能獲得相當(dāng)豐厚的薪酬坪它。
數(shù)據(jù)分析師需求頻率排在前列的技能有:SQL,Excel, SAS帝牡,SPSS, Python, Hadoop和MySQL等往毡,其中SQL和Excel簡直可以說是必備技能。 海量數(shù)據(jù)否灾、分布式處理框架是走向高薪的正確方向卖擅。 SQL語言和傳統(tǒng)的SAS,SPSS兩大數(shù)據(jù)分析軟件,能夠讓你在保證中等收入的條件下惩阶,能夠適應(yīng)更多企業(yè)的要求挎狸,也就意味著更多的工作機(jī)會(huì)。
思考和總結(jié)
對于數(shù)據(jù)分析師技能的分析是比較簡陋的断楷,在本次分析過程中锨匆,僅針對工具型的技能進(jìn)行了分析。但其實(shí)冬筒,數(shù)據(jù)分析師所需要具備的素質(zhì)遠(yuǎn)不止這些恐锣,還需要有扎實(shí)的數(shù)學(xué)、統(tǒng)計(jì)學(xué)基礎(chǔ)舞痰,良好的數(shù)據(jù)敏感度土榴,開拓但嚴(yán)謹(jǐn)?shù)乃季S等。如果要對這些內(nèi)容進(jìn)行深入挖掘的話响牛,應(yīng)該會(huì)更加有趣玷禽。不過,要進(jìn)行這項(xiàng)內(nèi)容的話呀打,需要掌握大量中文分詞矢赁、關(guān)鍵字提取等方面的知識(shí)和技能,難度也會(huì)更高贬丛。時(shí)間所限撩银,在這里不再進(jìn)一步展開了,希望以后有時(shí)間再做一個(gè)專項(xiàng)分析吧豺憔。讓人忍不住吐槽的是额获,Python2.X環(huán)境對中文編碼的支持著實(shí)不夠好,在處理數(shù)據(jù)的時(shí)候消耗了大量的時(shí)間和精力焕阿,也犯了不少錯(cuò)咪啡,走了很多彎路。以后這一塊的內(nèi)容要找時(shí)間專門攻堅(jiān)一下暮屡,也可以考慮換到python3平臺(tái)去撤摸。
特別說明:本次數(shù)據(jù)源完全來自拉勾網(wǎng),但拉勾網(wǎng)本身是專注于互聯(lián)網(wǎng)相關(guān)行業(yè)的招聘平臺(tái)褒纲,所以本次分析出的結(jié)論更加適用于互聯(lián)網(wǎng)行業(yè)的相關(guān)企業(yè)准夷,對于其他行業(yè)的企業(yè),未必合適莺掠。
科多大數(shù)據(jù)依托勤智數(shù)碼在大數(shù)據(jù)行業(yè)的技術(shù)積淀衫嵌,旨在大數(shù)據(jù)行業(yè)的技術(shù)傳播,為業(yè)內(nèi)培養(yǎng)出以就業(yè)崗位為結(jié)果的定制培養(yǎng)彻秆,希望以上分析對大家有所幫助楔绞。
http://www.101test.com/cand/index?paperId=IPBAKU