數(shù)據(jù)分析師薪資有多高拆祈?科多大數(shù)據(jù)爬出真實(shí)結(jié)果

想要從事數(shù)據(jù)分析師這個(gè)崗位恨闪,那自然首先需要對這個(gè)崗位有所了解倘感。最直接放坏、最真實(shí)的方式就是從企業(yè)那里獲得需求訊息,這樣才最能夠指導(dǎo)自己的學(xué)習(xí)方向和簡歷準(zhǔn)備老玛∮倌辏科多大數(shù)據(jù)作為大數(shù)據(jù)行業(yè)的專業(yè)人才培養(yǎng)公司钧敞,必須拿到第一手企業(yè)的用人信息和用人需求,長期合作模式的聯(lián)盟單位了解方式是沒問題的麸粮,當(dāng)然用公司最擅長的大數(shù)據(jù)分析技術(shù)溉苛,利用爬蟲爬取拉勾網(wǎng)上數(shù)據(jù)分析這一崗位的信息,然后進(jìn)行一些探索和分析弄诲,以數(shù)據(jù)分析來了解‘?dāng)?shù)據(jù)分析’愚战。

數(shù)據(jù)來源

本項(xiàng)目所使用的數(shù)據(jù)集全部來自拉勾網(wǎng),是通過集搜客這一網(wǎng)絡(luò)爬蟲工具來爬取的齐遵。之所以選擇拉勾網(wǎng)作為本項(xiàng)目的數(shù)據(jù)源寂玲,主要是因?yàn)橄鄬τ谄渌衅妇W(wǎng)站,拉鉤網(wǎng)上的崗位信息非常完整梗摇、整潔拓哟,極少存在信息的缺漏。并且?guī)缀跛姓宫F(xiàn)出來的信息都是非常規(guī)范化的伶授,極大的減少了前期數(shù)據(jù)清理和數(shù)據(jù)整理的工作量断序。

本次爬取信息的時(shí)候,主要獲得了以下信息:

項(xiàng)目目的

主要是希望通過實(shí)際的數(shù)據(jù)來解答針對數(shù)據(jù)分析崗位的一些疑惑糜烹,具體來說违诗,主要針對以下幾個(gè)問題:

- 數(shù)據(jù)分析師崗位需求的地域性分布;

- 整個(gè)群體中薪酬分布的情況疮蹦;

- 不同城市數(shù)據(jù)分析師的薪酬情況是怎樣的较雕;

- 該崗位對于工作經(jīng)驗(yàn)的要求是怎樣的;

- 根據(jù)工作經(jīng)驗(yàn)的不同挚币,薪酬是怎樣變化的亮蒋;

- 從用人單位的角度看,數(shù)據(jù)分析師應(yīng)當(dāng)具備哪些技能妆毕?

- 掌握不同技能是否會(huì)對薪酬有影響慎玖?影響是怎樣的?

技術(shù)和工具

本項(xiàng)目主要分為兩大部分笛粘,第一部分是數(shù)據(jù)爬取趁怔,采用的是集搜客網(wǎng)絡(luò)爬蟲工具。第二部分是數(shù)據(jù)分析薪前,以python編程語言為基礎(chǔ)润努。數(shù)據(jù)分析部分主要使用pandas作為數(shù)據(jù)整理和統(tǒng)計(jì)分析的工具,matplotlib用于圖形的可視化示括,seaborn庫包用于圖形美化铺浇。在進(jìn)行技能需求分析的時(shí)候,使用了jieba作為分詞工具包垛膝,并使用wordcloud包制作詞云鳍侣。

數(shù)據(jù)整理

加載和清理

可以看到丁稀,經(jīng)過初步清理后,數(shù)據(jù)集中有效變量為13個(gè)倚聚,數(shù)據(jù)記錄575條线衫。除了投資人這一項(xiàng)之外,其他各字段的數(shù)據(jù)完整度非常好惑折,幾乎沒有缺失值授账。這對于后面的分析來說是個(gè)大大的好消息。

數(shù)據(jù)分析

地域性分布

在拉勾網(wǎng)上惨驶,全國有29個(gè)城市的企業(yè)郵數(shù)據(jù)分析師的人才需求矗积,其中將近一半需求產(chǎn)生在北京市,需求量全國第一敞咧。排在前5的分別是:北京棘捣、上海、深圳休建、杭州乍恐、廣州。數(shù)據(jù)分析這一職業(yè)大量集中在北上廣深四大一線城市测砂,以及杭州這個(gè)互聯(lián)網(wǎng)和電子商務(wù)企業(yè)的聚集地茵烈。北京市巨大的需求比重令我稍感意外,不過砌些,考慮到拉勾網(wǎng)是一個(gè)偏重互聯(lián)網(wǎng)相關(guān)行業(yè)的招聘平臺(tái)呜投,而我國大量互聯(lián)網(wǎng)企業(yè)在北京聚集,這個(gè)結(jié)果倒也算合理存璃。以后有時(shí)間仑荐,可以對全國互聯(lián)網(wǎng)行業(yè)分布特點(diǎn)做個(gè)分析。

總而言之纵东,可以得出一個(gè)清晰的結(jié)論:數(shù)據(jù)分析這一崗位粘招,有大量的工作機(jī)會(huì)集中在北上廣深以及杭州,期待往這個(gè)方向發(fā)展的同學(xué)還是要到這些城市去多多嘗試偎球。當(dāng)然洒扎,從另一個(gè)方面說,這些城市也都集中了大量的各行業(yè)人才衰絮,競爭壓力想必也是很大的袍冷。

總體薪酬情況

如同大多數(shù)其他工作一樣,數(shù)據(jù)分析師的薪酬也是一個(gè)右偏分布。大多數(shù)人的收入集中在5k-20k每月猫牡,只有少數(shù)人能夠獲得更高的薪酬胡诗,但有極少數(shù)人薪酬極高,讓人充滿期待。需要說明的是乃戈,拉勾網(wǎng)上的薪酬值是一個(gè)區(qū)間值褂痰,并且相互之間互有重疊亩进,為了便于分析症虑,我取區(qū)間的中值作為代表值進(jìn)行的分析。因此归薛,實(shí)際的薪酬分布情況可能會(huì)比圖中的情況更好一些谍憔。總是有人能夠拿到薪酬的上限主籍。綜合來看习贫,數(shù)據(jù)分析師的薪酬收入整體還是可觀的,從這方面說千元,選擇這個(gè)職業(yè)還是不錯(cuò)的苫昌。

不同城市薪酬分布情況

忽略掉那些人才需求量比較小的城市,我重點(diǎn)關(guān)注排名前六的城市幸海。從圖上看祟身,這六大城市的薪酬分布情況總體來說都比較集中,這和我們前面看到的全國的薪酬總體情況分布是一致的物独。深圳市薪酬分布中位數(shù)大約在15k,居全國首位袜硫。其次是北京,約12.5k挡篓,之后是上海和杭州婉陷。深圳確實(shí)是個(gè)創(chuàng)造奇跡的城市,在這里也給了我一個(gè)小小的驚喜官研。從待遇上看秽澳,數(shù)據(jù)分析師留在深圳發(fā)展是個(gè)不錯(cuò)的選擇。

工作經(jīng)驗(yàn)需求

不出所料的戏羽,工作經(jīng)驗(yàn)的需求分布近似于正態(tài)分布肝集。工作1-3年經(jīng)驗(yàn)的熟手需求量最大,其次是3-5年工作經(jīng)驗(yàn)的資深分析師蛛壳。工作經(jīng)驗(yàn)不足1年的新人杏瞻,市場需求量比較少。另外衙荐,工作經(jīng)驗(yàn)要5-10年的需求量非常稀少捞挥,而10年以上的更是鳳毛麟角。

從這個(gè)分布我們大致可以猜測出:

數(shù)據(jù)分析是個(gè)年輕的職業(yè)方向忧吟,大量的工作經(jīng)驗(yàn)需求集中在1-3年砌函;對于數(shù)據(jù)分析師來說,5年是個(gè)瓶頸期,如果在5年之內(nèi)沒有轉(zhuǎn)型或者質(zhì)的提升讹俊,大概以后的競爭壓力會(huì)比較大垦沉。

不同工作經(jīng)驗(yàn)的薪酬分布

毫無疑問的,隨著經(jīng)驗(yàn)的提升仍劈,數(shù)據(jù)分析師的薪酬也在不斷提高厕倍。另外,從現(xiàn)有數(shù)據(jù)來看贩疙,數(shù)據(jù)分析師似乎是個(gè)常青的職業(yè)方向讹弯,在10年內(nèi)大概不會(huì)因?yàn)槟挲g的增長導(dǎo)致收入下降。

職業(yè)技能關(guān)鍵詞

詞云顯示出的情況这溅,有點(diǎn)超出了我的預(yù)料组民。對于數(shù)據(jù)分析師這一崗位,企業(yè)需求頻率最高的技能并不是Python語言和R語言等如今非常時(shí)髦的數(shù)據(jù)分析語言悲靴,而是傳統(tǒng)的結(jié)構(gòu)化查詢語言SQL和表格神器Excel臭胜。這一點(diǎn)需要各位小伙伴注意,要想從事數(shù)據(jù)分析師崗位癞尚,SQL和Excel看起來是必備技能耸三。 從詞云上看出,數(shù)據(jù)分析師技能需求頻率排在前列的有:SQL否纬,Excel, SAS吕晌,SPSS, Python, Hadoop和MySQL等。另外临燃,Java, PPT, BI軟件等屬于第二梯隊(duì)睛驳。

掌握不同技能對薪酬收入的影響

我對需求頻率最高的前15個(gè)技能進(jìn)行統(tǒng)計(jì)計(jì)算,得出每一個(gè)技能對應(yīng)的平均薪酬水平膜廊,如上圖乏沸。點(diǎn)的大小代表該技能需求量的多少。

在前15項(xiàng)技能中爪瓜,shell蹬跃,Hive, Spark這三者的平均薪酬水平最高铆铆,并且相對其他技能來說有比較大的差異蝶缀。對數(shù)據(jù)分析師工作有所了解的人應(yīng)該都知道,這三個(gè)工具中薄货,Hive和Spark都是應(yīng)用于分布式數(shù)據(jù)處理翁都,而shell腳本則是Linux系統(tǒng)下工作的必須技能。這三者共同指向了一個(gè)方向谅猾,那就是海量數(shù)據(jù)的分布式處理柄慰!

所以鳍悠,想要拿高薪的小伙伴注意了,海量數(shù)據(jù)處理坐搔、分布式處理框架是走向高薪的正確方向藏研。另外值得注意的是,在數(shù)據(jù)分析領(lǐng)域概行,Python語言的平均薪酬水平要高于目前如日中天的Java語言蠢挡。而SQL語言和傳統(tǒng)的SAS,SPSS兩大數(shù)據(jù)分析軟件占锯,則能夠讓你在保證中等收入的條件下袒哥,能夠適應(yīng)更多企業(yè)的要求缩筛,也就意味著更多的工作機(jī)會(huì)消略。

分析結(jié)論

通過上面的分析,我們可以得到的結(jié)論有這些:數(shù)據(jù)分析這一崗位瞎抛,有大量的工作機(jī)會(huì)集中在北上廣深以及杭州艺演。大多數(shù)據(jù)分析師的收入集中在5k-20k每月,只有少數(shù)人能夠獲得更高的薪酬桐臊,但有極少數(shù)人薪酬極高胎撤,讓人充滿期待。

從待遇上看断凶,數(shù)據(jù)分析師留在深圳發(fā)展是個(gè)不錯(cuò)的選擇伤提,其次是北京、上海认烁。數(shù)據(jù)分析是個(gè)年輕的職業(yè)方向肿男,大量的工作經(jīng)驗(yàn)需求集中在1-3年。

對于數(shù)據(jù)分析師來說却嗡,5年似乎是個(gè)瓶頸期舶沛,如果在5年之內(nèi)沒有轉(zhuǎn)型或者質(zhì)的提升,大概以后的競爭壓力會(huì)比較大窗价。 隨著經(jīng)驗(yàn)的提升如庭,數(shù)據(jù)分析師的薪酬也在不斷提高,10年以上工作經(jīng)驗(yàn)的人撼港,能獲得相當(dāng)豐厚的薪酬坪它。

數(shù)據(jù)分析師需求頻率排在前列的技能有:SQL,Excel, SAS帝牡,SPSS, Python, Hadoop和MySQL等往毡,其中SQL和Excel簡直可以說是必備技能。 海量數(shù)據(jù)否灾、分布式處理框架是走向高薪的正確方向卖擅。 SQL語言和傳統(tǒng)的SAS,SPSS兩大數(shù)據(jù)分析軟件,能夠讓你在保證中等收入的條件下惩阶,能夠適應(yīng)更多企業(yè)的要求挎狸,也就意味著更多的工作機(jī)會(huì)。

思考和總結(jié)

對于數(shù)據(jù)分析師技能的分析是比較簡陋的断楷,在本次分析過程中锨匆,僅針對工具型的技能進(jìn)行了分析。但其實(shí)冬筒,數(shù)據(jù)分析師所需要具備的素質(zhì)遠(yuǎn)不止這些恐锣,還需要有扎實(shí)的數(shù)學(xué)、統(tǒng)計(jì)學(xué)基礎(chǔ)舞痰,良好的數(shù)據(jù)敏感度土榴,開拓但嚴(yán)謹(jǐn)?shù)乃季S等。如果要對這些內(nèi)容進(jìn)行深入挖掘的話响牛,應(yīng)該會(huì)更加有趣玷禽。不過,要進(jìn)行這項(xiàng)內(nèi)容的話呀打,需要掌握大量中文分詞矢赁、關(guān)鍵字提取等方面的知識(shí)和技能,難度也會(huì)更高贬丛。時(shí)間所限撩银,在這里不再進(jìn)一步展開了,希望以后有時(shí)間再做一個(gè)專項(xiàng)分析吧豺憔。讓人忍不住吐槽的是额获,Python2.X環(huán)境對中文編碼的支持著實(shí)不夠好,在處理數(shù)據(jù)的時(shí)候消耗了大量的時(shí)間和精力焕阿,也犯了不少錯(cuò)咪啡,走了很多彎路。以后這一塊的內(nèi)容要找時(shí)間專門攻堅(jiān)一下暮屡,也可以考慮換到python3平臺(tái)去撤摸。

特別說明:本次數(shù)據(jù)源完全來自拉勾網(wǎng),但拉勾網(wǎng)本身是專注于互聯(lián)網(wǎng)相關(guān)行業(yè)的招聘平臺(tái)褒纲,所以本次分析出的結(jié)論更加適用于互聯(lián)網(wǎng)行業(yè)的相關(guān)企業(yè)准夷,對于其他行業(yè)的企業(yè),未必合適莺掠。

科多大數(shù)據(jù)依托勤智數(shù)碼在大數(shù)據(jù)行業(yè)的技術(shù)積淀衫嵌,旨在大數(shù)據(jù)行業(yè)的技術(shù)傳播,為業(yè)內(nèi)培養(yǎng)出以就業(yè)崗位為結(jié)果的定制培養(yǎng)彻秆,希望以上分析對大家有所幫助楔绞。


http://www.101test.com/cand/index?paperId=IPBAKU

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末结闸,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子酒朵,更是在濱河造成了極大的恐慌桦锄,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蔫耽,死亡現(xiàn)場離奇詭異结耀,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)匙铡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進(jìn)店門图甜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人鳖眼,你說我怎么就攤上這事黑毅。” “怎么了具帮?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵博肋,是天一觀的道長低斋。 經(jīng)常有香客問我蜂厅,道長,這世上最難降的妖魔是什么膊畴? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任掘猿,我火速辦了婚禮,結(jié)果婚禮上唇跨,老公的妹妹穿的比我還像新娘稠通。我一直安慰自己,他們只是感情好买猖,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布改橘。 她就那樣靜靜地躺著,像睡著了一般玉控。 火紅的嫁衣襯著肌膚如雪飞主。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天高诺,我揣著相機(jī)與錄音碌识,去河邊找鬼。 笑死虱而,一個(gè)胖子當(dāng)著我的面吹牛筏餐,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播牡拇,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼魁瞪,長吁一口氣:“原來是場噩夢啊……” “哼穆律!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起导俘,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤众旗,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后趟畏,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體贡歧,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年赋秀,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了利朵。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,795評論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡猎莲,死狀恐怖绍弟,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情著洼,我是刑警寧澤樟遣,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站身笤,受9級特大地震影響豹悬,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜液荸,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一瞻佛、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧娇钱,春花似錦伤柄、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至煤蹭,卻和暖如春笔喉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背疯兼。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工然遏, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人吧彪。 一個(gè)月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓待侵,卻偏偏與公主長得像,于是被迫代替她去往敵國和親姨裸。 傳聞我的和親對象是個(gè)殘疾皇子秧倾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容