大數(shù)據(jù)崗位家族解讀

一.前言

最近在知乎堤结、知識星球等網(wǎng)站看到大數(shù)據(jù)的問題和文章非常多的,看到很多問題都是問“我想從事大數(shù)據(jù)逢享,應(yīng)該怎么準(zhǔn)備?”吴藻,“如何入門大數(shù)據(jù)”等類似的問題瞒爬?以前在招聘的時(shí)候包括校招和社招,也經(jīng)常碰到說今后的職業(yè)規(guī)劃想做大數(shù)據(jù)沟堡,面對這樣的回答侧但,我可以判斷候選人對大數(shù)據(jù)還處在一個(gè)相對模糊的階段,我基本就給pass掉了航罗,這也是我為什么要專門寫這篇文章的原因禀横。

從標(biāo)題上可以看出,本人對大數(shù)據(jù)定位成一個(gè)崗位家族粥血,像后端開發(fā)柏锄,人事崗酿箭、營銷崗一樣,其實(shí)背后是有好幾個(gè)細(xì)分崗位劃分的趾娃,在求職的時(shí)候需要有一個(gè)明確的目標(biāo)的缭嫡,目標(biāo)越明確,準(zhǔn)備越充分抬闷,成功率也越高妇蛀。

二.大數(shù)據(jù)概念

按照常規(guī)套路先介紹概念,大數(shù)據(jù)是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉笤成、管理和處理的數(shù)據(jù)集合评架,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量炕泳、高增長率和多樣化的信息資產(chǎn)—百度百科

image.png
  • Volume:海量的數(shù)據(jù)規(guī)模纵诞,數(shù)據(jù)體量達(dá)到PB甚至EB級別,這里的數(shù)據(jù)量主要來源于網(wǎng)絡(luò)日志喊崖,多媒體數(shù)據(jù)等挣磨。
  • Variety:異構(gòu)的數(shù)據(jù)類型雇逞,不僅僅包含結(jié)構(gòu)化的數(shù)據(jù)荤懂、還包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),比如日志文件塘砸、圖像节仿、音視頻等。
  • Velocity:快速的數(shù)據(jù)流轉(zhuǎn)掉蔬,數(shù)據(jù)的產(chǎn)生和處理速度非忱认埽快。
  • Value:價(jià)值密度低女轿,有價(jià)值的數(shù)據(jù)占比很小箭启,需要用到人工智能等方法去挖掘新知識。

三.大數(shù)據(jù)發(fā)展歷程

通過一張圖來簡單看一下發(fā)展歷程蛉迹,可以看出來大數(shù)據(jù)的鼻祖是數(shù)據(jù)倉庫傅寡,所以現(xiàn)在做大數(shù)據(jù)比較資深都是從數(shù)據(jù)倉庫、數(shù)倉架構(gòu)師北救、數(shù)倉模型師轉(zhuǎn)型過來的荐操,隨著計(jì)算機(jī)技術(shù)的發(fā)展,計(jì)算成本珍策、存儲(chǔ)成本大幅降低托启,逐漸產(chǎn)出了數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)這樣的解決方案和概念攘宙。


image.png

從下面大數(shù)據(jù)屯耸、人工智能百度指數(shù)的發(fā)展趨勢圖也看出來大數(shù)據(jù)發(fā)展的潮流拐迁,所以原來的數(shù)據(jù)倉庫工程師轉(zhuǎn)成大數(shù)據(jù)工程師都是正好站在了這個(gè)風(fēng)口給吹起來的。還有一個(gè)崗位是被AI給吹起來的肩民,那就是原來叫算法工程師的同學(xué)唠亚,都自動(dòng)更新成AI工程師了。
所以雷布斯的風(fēng)口理論還是有一定道理的持痰。


image.png

image.png

四.大數(shù)據(jù)崗位家族

這也是本篇文章的重點(diǎn)灶搜,也是能夠解開很多想入門大數(shù)據(jù)行當(dāng)初學(xué)者的關(guān)鍵所在。
大數(shù)據(jù)家族嚴(yán)格來說可以細(xì)分成下面9個(gè)崗位工窍,當(dāng)然這9個(gè)崗位并不是在每個(gè)公司都會(huì)劃分的這么細(xì)割卖,越是重視數(shù)據(jù)、越是財(cái)大氣粗的公司劃分的越細(xì)患雏,很多公司的數(shù)據(jù)人員會(huì)身兼數(shù)職鹏溯,比如大數(shù)據(jù)運(yùn)維和大數(shù)據(jù)平臺(tái)開發(fā),數(shù)據(jù)倉庫與數(shù)據(jù)測試等淹仑,都是同一個(gè)人兼著丙挽。

image

這9個(gè)崗位有什么關(guān)系呢?哪個(gè)更高大上呢匀借?其實(shí)他們也是有生物鏈的颜阐。

image

大數(shù)據(jù)要在業(yè)務(wù)端發(fā)揮價(jià)值,一定要有數(shù)據(jù)產(chǎn)品經(jīng)理(數(shù)據(jù)分析師某種程度上也兼職這個(gè)角色)吓肋、數(shù)據(jù)可視化工程師將數(shù)據(jù)呈現(xiàn)出來給到老板凳怨、業(yè)務(wù)方、用戶是鬼。

但是數(shù)據(jù)產(chǎn)品不像其他業(yè)務(wù)型產(chǎn)品在一定用戶需求基礎(chǔ)上衍生出來肤舞,產(chǎn)品經(jīng)理在能力則決定著產(chǎn)品的受歡迎程度,但是數(shù)據(jù)產(chǎn)品經(jīng)理如果只在用戶的需求基礎(chǔ)衍生是遠(yuǎn)遠(yuǎn)不夠的均蜜,因?yàn)槠胀ㄓ脩舾静恢辣澈筮€有數(shù)據(jù)這回事李剖,里面的價(jià)值是需要有數(shù)學(xué)功底和業(yè)務(wù)功底的才能探索出來的,僅僅靠數(shù)據(jù)產(chǎn)品經(jīng)理就有點(diǎn)力不從心了囤耳,所以這個(gè)時(shí)候數(shù)據(jù)分析師篙顺、算法工程師、數(shù)據(jù)科學(xué)家就登場了紫皇,他們在研究挖掘海量數(shù)據(jù)之后(這里數(shù)據(jù)低價(jià)值密度的特性大幅提高了門檻)慰安,會(huì)提出概率更高的價(jià)值點(diǎn)交給產(chǎn)品經(jīng)理進(jìn)行調(diào)研、設(shè)計(jì)聪铺、上線化焕。估計(jì)這個(gè)時(shí)候會(huì)有很多人不同意我的觀點(diǎn),實(shí)際工作流程大部分不是這樣的铃剔,實(shí)際情況確實(shí)也是這樣撒桨,這是因?yàn)槟壳暗臄?shù)據(jù)產(chǎn)品經(jīng)理大都是從有數(shù)據(jù)經(jīng)驗(yàn)的人轉(zhuǎn)過來的查刻,所以本身已經(jīng)具備了這樣的能力。這也是為什么數(shù)據(jù)產(chǎn)品經(jīng)理比業(yè)務(wù)線產(chǎn)品經(jīng)理更難的原因之一(個(gè)人觀點(diǎn))凤类。

再往前看穗泵,數(shù)據(jù)量這么大,類型又這么多樣谜疤,數(shù)據(jù)分析師佃延、算法工程師、數(shù)據(jù)科學(xué)家每個(gè)人都直接從原始數(shù)據(jù)進(jìn)行計(jì)算夷磕、分析顯然是及其低效的履肃,另外如果數(shù)據(jù)質(zhì)量太差的話,分析或者挖掘出來的價(jià)值點(diǎn)可能是負(fù)面的坐桩,這個(gè)時(shí)候數(shù)據(jù)倉庫工程師尺棋、數(shù)據(jù)測試隆重登場(大部分公司這兩個(gè)角色是二合一的,包括頭部互聯(lián)網(wǎng)公司分開的都不多)绵跷,前面的臟活膘螟、累活我們?nèi)耍銈冎还芡诰騼r(jià)值就好了碾局,價(jià)值出來了荆残,我們也是功勞的,所以數(shù)倉工程師更側(cè)重的是底層數(shù)據(jù)清洗和建模擦俐。

再往前看脊阴,前面說了現(xiàn)在數(shù)據(jù)最大特點(diǎn)BIG握侧,在哪里存儲(chǔ)和計(jì)算呢蚯瞧,并且計(jì)算時(shí)效性比以前還高,各種實(shí)時(shí)大盤數(shù)據(jù)需求品擎,最上游的運(yùn)維和大數(shù)據(jù)開發(fā)工程師終于出場了埋合,帶寬、內(nèi)存萄传、時(shí)效性都不是事甚颂,我們來搞定。這里就要點(diǎn)名一下大數(shù)據(jù)開發(fā)工程師(簡稱大數(shù)據(jù)工程師)了秀菱,是網(wǎng)上被點(diǎn)名最多振诬,也是被崇拜最多的,雖然很多人都不熟悉你衍菱,真是令其他幾位兄弟姐妹羨慕赶么。

下面就每個(gè)崗位都逐一解釋一下,主要是通過工作內(nèi)容來認(rèn)識他們脊串,先說明一下辫呻,這里工作內(nèi)容主要是針對校招JD總結(jié)分析出來清钥,跟社招有一定的區(qū)別。

1. 大數(shù)據(jù)運(yùn)維

  • 負(fù)責(zé)溝通協(xié)調(diào)數(shù)據(jù)開發(fā)團(tuán)隊(duì)放闺,實(shí)時(shí)監(jiān)控調(diào)度腳本的執(zhí)行效率祟昭,確保平臺(tái)資源的高效合理使用
  • 負(fù)責(zé)Hadoop生態(tài)組件的部署升級、擴(kuò)容縮容怖侦、性能和管理優(yōu)化篡悟、問題排查等,包括但不限于CDH、HDFS匾寝、YARN恰力、Hive、HBase旗吁、Spark和Flink等

2. 大數(shù)據(jù)平臺(tái)開發(fā)

  • 參與大數(shù)據(jù)平臺(tái)工具鏈(元數(shù)據(jù)踩萎、開發(fā)平臺(tái)、調(diào)度系統(tǒng)很钓、資源控制等)的設(shè)計(jì)香府、開發(fā)、維護(hù)與優(yōu)化
  • 參與報(bào)表系統(tǒng)码倦、數(shù)據(jù)分析系統(tǒng)企孩、數(shù)據(jù)產(chǎn)品等功能設(shè)計(jì)開發(fā)
  • 典型產(chǎn)出如下圖(業(yè)內(nèi)最有名的是阿里的ODPS)
image

3. 數(shù)據(jù)倉庫工程師

  • 數(shù)據(jù)倉庫離線/實(shí)時(shí)ETL開發(fā)及優(yōu)化
  • 數(shù)據(jù)倉庫模型設(shè)計(jì)
  • 數(shù)據(jù)可視化開發(fā)
  • 推動(dòng)大數(shù)據(jù)應(yīng)用技術(shù)與平臺(tái)
  • 典型產(chǎn)出如下圖
image

4. 數(shù)據(jù)測試

  • 負(fù)責(zé)數(shù)倉計(jì)算邏輯正確性測試
  • 負(fù)責(zé)數(shù)據(jù)產(chǎn)品數(shù)據(jù)的準(zhǔn)確性
  • 保證數(shù)據(jù)埋點(diǎn)的可靠性與準(zhǔn)確性
  • 負(fù)責(zé)數(shù)據(jù)自動(dòng)化測試策略和系統(tǒng)建設(shè)

這個(gè)崗位現(xiàn)在大數(shù)據(jù)領(lǐng)域里面是最被忽視的,數(shù)據(jù)質(zhì)量也是目前大家最頭疼的問題之一袁稽。數(shù)據(jù)的追隨者:大數(shù)據(jù)系列之最冷門崗位-數(shù)據(jù)測試

5. 數(shù)據(jù)分析師

  • 建設(shè)管理報(bào)表體系勿璃,并進(jìn)行報(bào)表的開發(fā)維護(hù)與檢測
  • 搭建業(yè)務(wù)KPI指標(biāo)體系,并進(jìn)行監(jiān)測與分析推汽,為公司產(chǎn)品運(yùn)營優(yōu)化提供建議补疑;
  • 撰寫數(shù)據(jù)分析報(bào)告,為業(yè)務(wù)問題原因排查提供數(shù)據(jù)支持及解決方案歹撒;
  • 給業(yè)務(wù)部門提供運(yùn)營莲组、產(chǎn)品、活動(dòng)數(shù)據(jù)暖夭,根據(jù)數(shù)據(jù)問題锹杈,提出相應(yīng)的解決建議
  • 主要產(chǎn)出
image

數(shù)據(jù)分析師詳解文章 數(shù)據(jù)的追隨者:最實(shí)用數(shù)據(jù)分析師準(zhǔn)備之路

6. 算法工程師/Ai工程師

  • 語音、圖像迈着、自然語言處理竭望、深度學(xué)習(xí)等機(jī)器學(xué)習(xí)算法開發(fā)及優(yōu)化;
  • 推薦裕菠、搜索咬清、廣告系統(tǒng)的算法開發(fā)及優(yōu)化
  • 挖掘并推進(jìn)算法在業(yè)務(wù)中應(yīng)用
  • 機(jī)器學(xué)習(xí)平臺(tái)開發(fā)及優(yōu)化
  • 像知乎給大家“推薦”欄目,包括“關(guān)注”、“熱榜”欄目都是出自算法工程師之手
image

7. 數(shù)據(jù)產(chǎn)品經(jīng)理

  • 負(fù)責(zé)BI產(chǎn)品枫振、數(shù)據(jù)可視化規(guī)劃喻圃、設(shè)計(jì)、迭代工作 粪滤,通過數(shù)據(jù)為業(yè)務(wù)賦能
  • 負(fù)責(zé)協(xié)助公司各業(yè)務(wù)?向?數(shù)據(jù)應(yīng)?產(chǎn)品調(diào)研斧拍、規(guī)劃、執(zhí)?
  • 負(fù)責(zé)梳理業(yè)務(wù)需求杖小,甄別業(yè)務(wù)場景和價(jià)值肆汹,制定研發(fā)優(yōu)先級,跟蹤研發(fā)流程予权,確保價(jià)值交付
  • 負(fù)責(zé)數(shù)據(jù)產(chǎn)品的開發(fā)項(xiàng)目管理工作昂勉,確保項(xiàng)目按照需求如期完成

8. 數(shù)據(jù)可視化

  • 負(fù)責(zé)大數(shù)據(jù)項(xiàng)目/產(chǎn)品前端展示模式規(guī)劃構(gòu)思和創(chuàng)意設(shè)計(jì)
  • 負(fù)責(zé)常規(guī)圖表組件的封裝、地圖組件技術(shù)的迭代與維護(hù)扫腺、頁面元素動(dòng)效的維護(hù)等岗照;
  • 負(fù)責(zé)報(bào)表平臺(tái)輸出可視化顯示及迭代
    數(shù)據(jù)可視化可以分為2種,一種是通過BI工具(Tableau笆环、Cognos攒至、BO等)或者Excel/PPT實(shí)現(xiàn),還有一種是前端開發(fā)工程師實(shí)現(xiàn)躁劣,這塊專門做的同學(xué)相對也比較少迫吐,只是多少都會(huì)一些。

9. 數(shù)據(jù)科學(xué)家

數(shù)據(jù)科學(xué)家之所以放在最后账忘,其實(shí)他是以上崗位相對綜合的職位志膀,基本上數(shù)據(jù)分析、數(shù)據(jù)倉庫鳖擒、數(shù)據(jù)爬蟲清洗溉浙、算法/數(shù)據(jù)挖掘、數(shù)據(jù)產(chǎn)品等5個(gè)領(lǐng)域中的一個(gè)或者多個(gè)專家败去。詳細(xì)的可看這篇文章介紹 數(shù)據(jù)的追隨者:大數(shù)據(jù)系列之?dāng)?shù)據(jù)科學(xué)家

六.一個(gè)數(shù)據(jù)產(chǎn)品生產(chǎn)鏈路

這里給大家說一下一款數(shù)據(jù)產(chǎn)品是如何生產(chǎn)上線的放航,比如下面這個(gè)BI平臺(tái)實(shí)時(shí)數(shù)據(jù)看板烈拒,包含了交易明細(xì)圆裕,各種不同程度的匯總數(shù)據(jù),有離線數(shù)據(jù)荆几,有實(shí)時(shí)數(shù)據(jù)吓妆。

image

他的一般生產(chǎn)流程可以通過下圖來說明,如果需求當(dāng)中包括一些預(yù)測之類的數(shù)據(jù)吨铸,這個(gè)時(shí)候算法工程師也會(huì)介入進(jìn)來行拢。

image

七.結(jié)束語

上面重點(diǎn)從崗位的生物鏈、崗位的主要工作內(nèi)容诞吱,以及典型的數(shù)據(jù)產(chǎn)品生產(chǎn)流程舟奠,詳細(xì)介紹了大數(shù)據(jù)崗位家族中的9個(gè)崗位竭缝,其目的就是希望在校大學(xué)生或者想轉(zhuǎn)入大數(shù)據(jù)行當(dāng)?shù)耐瑢W(xué),對大數(shù)據(jù)有一個(gè)整體和全貌的認(rèn)知沼瘫。

當(dāng)有了這個(gè)認(rèn)知之后抬纸,希望再問問題的時(shí)候或者說跟面試官說自己的規(guī)劃的時(shí)候,不是直接說想做大數(shù)據(jù)耿戚,或者如何準(zhǔn)備大數(shù)據(jù)湿故,而是希望直接問具體的某個(gè)崗位如何準(zhǔn)備或者選擇,當(dāng)有了這樣比較具體的目標(biāo)之后膜蛔,自己準(zhǔn)備起來也會(huì)更加高效和聚焦坛猪,如果能對大家有了這樣的幫助,此篇文章的目的也就達(dá)到了皂股。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末墅茉,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子呜呐,更是在濱河造成了極大的恐慌躁锁,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,430評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件卵史,死亡現(xiàn)場離奇詭異战转,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)以躯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,406評論 3 398
  • 文/潘曉璐 我一進(jìn)店門槐秧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人忧设,你說我怎么就攤上這事刁标。” “怎么了址晕?”我有些...
    開封第一講書人閱讀 167,834評論 0 360
  • 文/不壞的土叔 我叫張陵膀懈,是天一觀的道長。 經(jīng)常有香客問我谨垃,道長启搂,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,543評論 1 296
  • 正文 為了忘掉前任刘陶,我火速辦了婚禮胳赌,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘匙隔。我一直安慰自己疑苫,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,547評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著捍掺,像睡著了一般撼短。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上挺勿,一...
    開封第一講書人閱讀 52,196評論 1 308
  • 那天阔加,我揣著相機(jī)與錄音,去河邊找鬼满钟。 笑死胜榔,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的湃番。 我是一名探鬼主播夭织,決...
    沈念sama閱讀 40,776評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼吠撮!你這毒婦竟也來了尊惰?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,671評論 0 276
  • 序言:老撾萬榮一對情侶失蹤泥兰,失蹤者是張志新(化名)和其女友劉穎弄屡,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鞋诗,經(jīng)...
    沈念sama閱讀 46,221評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡膀捷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,303評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了削彬。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片全庸。...
    茶點(diǎn)故事閱讀 40,444評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖融痛,靈堂內(nèi)的尸體忽然破棺而出壶笼,到底是詐尸還是另有隱情,我是刑警寧澤雁刷,帶...
    沈念sama閱讀 36,134評論 5 350
  • 正文 年R本政府宣布覆劈,位于F島的核電站,受9級特大地震影響沛励,放射性物質(zhì)發(fā)生泄漏责语。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,810評論 3 333
  • 文/蒙蒙 一侯勉、第九天 我趴在偏房一處隱蔽的房頂上張望鹦筹。 院中可真熱鬧,春花似錦址貌、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,285評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽遍蟋。三九已至,卻和暖如春螟凭,著一層夾襖步出監(jiān)牢的瞬間虚青,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,399評論 1 272
  • 我被黑心中介騙來泰國打工螺男, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留棒厘,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,837評論 3 376
  • 正文 我出身青樓下隧,卻偏偏與公主長得像奢人,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子淆院,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,455評論 2 359