原文作者:Andrew Ste
原文鏈接:How to Become More Marketable as a Data Scientist
這個題目有些莫名其妙曙痘,2019年,隨著數(shù)據(jù)科學(xué)對業(yè)界的影響越來越大立肘,數(shù)據(jù)分析師的市場需求蹭蹭上漲边坤,作為數(shù)據(jù)分析師的你,在市場上已經(jīng)很搶手了赛不。撰寫本文的時候惩嘉,光 LinkedIn 上有關(guān)數(shù)據(jù)科學(xué)的崗位需求就已經(jīng)超過 14 萬個了。
不過踢故,把握業(yè)界的脈搏文黎,關(guān)注最快、最有效的數(shù)據(jù)科學(xué)解決方案殿较,仍會對大家有所幫助耸峭,為此,我們的數(shù)據(jù)驅(qū)動團隊淋纲,CV Compiler劳闹,分析了數(shù)據(jù)科學(xué)市場職位空缺,界定了 2019 年的數(shù)據(jù)科學(xué)招聘趨勢洽瞬。
2019 年最火爆的數(shù)據(jù)科學(xué)技能
下圖展示了 2019 年雇主對數(shù)據(jù)科學(xué)工程師的技能要求:
本圖數(shù)據(jù)引自 Stack Overflow本涕、AngelList 等網(wǎng)站上列出的 300 個數(shù)據(jù)科學(xué)職位空缺。其中一些職位需求里的關(guān)鍵字有重復(fù)伙窃。
注:請大家注意菩颖,本次調(diào)研是從雇主角度出發(fā)的,而非從數(shù)據(jù)科學(xué)工程師的角度为障。
關(guān)鍵點與數(shù)據(jù)科學(xué)趨勢
數(shù)據(jù)科學(xué)雖然對業(yè)務(wù)知識極其重視晦闰,但有關(guān)框架和支持庫的技術(shù)與趨勢仍值得大家關(guān)注放祟。
大數(shù)據(jù)
根據(jù)《 2018 年大數(shù)據(jù)分析市場調(diào)研報告》顯示,大型企業(yè)的大數(shù)據(jù)采用率從 2015 年的 15%呻右,到 2018 年已經(jīng)飆升了 59%跪妥。可以看出大數(shù)據(jù)工具的流行趨勢在不斷增長声滥。如果不考慮 Apache Spark 和 Hadoop(下一段里單獨討論)眉撵,最流行的是 MapReduce(36個)與 Redshift(29個)。
Hadoop
不把 Spark 與云存儲的流行趨勢考慮在內(nèi)的話醒串,Hadoop 的時代還沒有終結(jié)执桌。因此,有些公司仍希望應(yīng)聘者熟練應(yīng)用 Apache Pig(30個)芜赌、HBase(32個)等技術(shù)仰挣,HDFS(20個)仍有崗位需求。
實時數(shù)據(jù)處理
隨著傳感器缠沈、移動設(shè)備膘壶、物聯(lián)網(wǎng)技術(shù)(18個)應(yīng)用的增長,公司對從實時數(shù)據(jù)處理中獲取信息越來越重視洲愤,越來越多的公司需要雇傭流式分析平臺如 Apache Flink(21個)技術(shù)人員颓芭。
特征工程與超參數(shù)調(diào)優(yōu)
準備數(shù)據(jù)與選擇模型參數(shù)是數(shù)據(jù)科學(xué)家的核心任務(wù)。數(shù)據(jù)挖掘(128個)這個詞在公司的 JD 里特別流行柬赐。有些公司非常重視超參數(shù)調(diào)優(yōu)(21個)亡问。不過,數(shù)據(jù)科學(xué)家要特別關(guān)注特征工程肛宋。在模型構(gòu)建早期州藕,選擇模型最適合的特征,是決定模型是否成功的關(guān)鍵酝陈。
數(shù)據(jù)可視化
處理數(shù)據(jù)床玻,并從中提取有價值的信息是非常重要的能力,不過沉帮,數(shù)據(jù)可視化(55個)也是數(shù)據(jù)科學(xué)家要掌握的重要技能锈死,把工作成果展示給團隊成員或客戶對數(shù)據(jù)科學(xué)家來說是至關(guān)重要的能力。說到數(shù)據(jù)可視化工具穆壕,作為雇主的公司傾向于 Tableau(54個)待牵。
總體趨勢
在這些崗位需求里,還包括了 AWS(86個)喇勋、Docker(36個)洲敢、Kubernetes∏羊牵可見压彭,軟件開發(fā)行業(yè)的趨勢對數(shù)據(jù)科學(xué)領(lǐng)域的影響也挺大的。
專家評論
技術(shù)非常重要渗常,但在數(shù)據(jù)科學(xué)領(lǐng)域壮不,有些東西比寫代碼更重要。從“輸出數(shù)據(jù)”中提取信息皱碘,比如询一,生成最終數(shù)據(jù)集、找出趨勢癌椿、數(shù)據(jù)可視化健蕊、基于數(shù)據(jù)進行陳述報告等,這種能力非常重要踢俄。此外缩功,還包括用淺顯易懂的形式展現(xiàn)分析結(jié)果,站在受眾的角度看問題 -- 如果聽報告的是一群博士生都办,陳述的方式是一種形式嫡锌,如果聽報告的是 CXO,陳述的方式就是另一種樣子了琳钉,他們才不關(guān)心編程势木,他們關(guān)心的只有結(jié)果與投資回報率。
Carla Gentry
數(shù)據(jù)科學(xué)家
Analytical Solution 博主
數(shù)據(jù)快照對了解市場現(xiàn)狀很有用歌懒,但并不適于展示發(fā)展趨勢啦桌,只依據(jù)數(shù)據(jù)快照推斷未來很難。我要說的是 R 的使用量在持續(xù)穩(wěn)定地下降(MATLAB 也一樣)及皂,Python 在數(shù)據(jù)科學(xué)家社區(qū)里的應(yīng)用則持續(xù)上揚甫男。Hadoop 與大數(shù)據(jù)榜上有名只不過是因為業(yè)界的慣性:Hadoop 將會消亡(沒人投資了),大數(shù)據(jù)也不再是熱炒的話題躲庄。要不要花時間再去學(xué)習(xí) Scala 現(xiàn)在還不清楚:谷歌官方支持 Kotlin(也是一種 JVM 語言)查剖,但它學(xué)起來比 Scala 更簡單,學(xué)習(xí)曲線也更陡峭噪窘。TensorFlow 的未來也讓人堪憂:學(xué)術(shù)界已經(jīng)把興趣轉(zhuǎn)向了 PyTorch笋庄,要知道,學(xué)術(shù)界對數(shù)據(jù)科學(xué)領(lǐng)域的影響遠超其它行業(yè)倔监。
以上觀點僅代表我個人直砂,不代表高德納咨詢公司。Andriy Burkov
高德納(Gartner)公司 機器學(xué)習(xí)主管
百頁機器學(xué)習(xí)手冊作者
PyTorch 利用 GPU 驅(qū)動強化學(xué)習(xí)的 CUDA 張量運算操作浩习。與 TensorFlow 將每個操作綁定至一個設(shè)備不同静暂,它可以同時在多 GPU 上并行編碼。PyTorch 還可以構(gòu)建動態(tài)圖谱秽,有效地展示遞歸神經(jīng)網(wǎng)絡(luò)洽蛀∧∶裕基于 Theano 的 TensorFlow 與基于 Torch 的 PyTorch 相比,只能生成靜態(tài)圖郊供,而且更難學(xué)峡碉。TensorFlow 對應(yīng)的開發(fā)者與研究人員社區(qū)雖然更大,但 PyTorch 構(gòu)建機器學(xué)習(xí)儀表盤可視化工具比 TensorBoard 更好驮审,也更簡單鲫寄,而且,PyTorch 在調(diào)試與調(diào)用 matplotlib 及 Seaborn 進行數(shù)據(jù)可視化時更 Pythonic疯淫。絕大多數(shù) Python 調(diào)試工具都能調(diào)試 PyTorch地来,TensorFlow 則有自己的調(diào)試工具,tfdbg熙掺。
Ganapathi Pulipaka 博士
Accenture 首席數(shù)據(jù)科學(xué)家
50 位頂級技術(shù)領(lǐng)袖獎得主
數(shù)據(jù)科學(xué)“崗位”與數(shù)據(jù)科學(xué)“職業(yè)”不同未斑。崗位列表闡明了市場所需的技能,但說到職業(yè)适掰,就我所知颂碧,最重要的技能就是學(xué)習(xí)能力。數(shù)據(jù)科學(xué)領(lǐng)域發(fā)展迅速类浪,如果想一直保持成功载城,數(shù)據(jù)科學(xué)家必須能快速學(xué)習(xí)新的技能、工具與專業(yè)知識费就。不斷挑戰(zhàn)自己诉瓦,遠離舒適區(qū),才是數(shù)據(jù)科學(xué)家要干的事情力细。
Lon Riesberg
Data Elixir 創(chuàng)始人
前 NASA 職員
數(shù)據(jù)科學(xué)是一個發(fā)展迅速睬澡、復(fù)雜難解的行業(yè),在這個行業(yè)里眠蚂,業(yè)務(wù)經(jīng)驗與技術(shù)能力同等重要煞聪。希望這篇文章讓您在這兩方面都有所收獲,知道哪些技能更有價值逝慧,助您在 2019 年變得更搶手昔脯!