一.前言
最近在知乎堤结、知識星球等網(wǎng)站看到大數(shù)據(jù)的問題和文章非常多的,看到很多問題都是問“我想從事大數(shù)據(jù)逢享,應(yīng)該怎么準(zhǔn)備?”吴藻,“如何入門大數(shù)據(jù)”等類似的問題瞒爬?以前在招聘的時(shí)候包括校招和社招,也經(jīng)常碰到說今后的職業(yè)規(guī)劃想做大數(shù)據(jù)沟堡,面對這樣的回答侧但,我可以判斷候選人對大數(shù)據(jù)還處在一個(gè)相對模糊的階段,我基本就給pass掉了航罗,這也是我為什么要專門寫這篇文章的原因禀横。
從標(biāo)題上可以看出,本人對大數(shù)據(jù)定位成一個(gè)崗位家族粥血,像后端開發(fā)柏锄,人事崗酿箭、營銷崗一樣,其實(shí)背后是有好幾個(gè)細(xì)分崗位劃分的趾娃,在求職的時(shí)候需要有一個(gè)明確的目標(biāo)的缭嫡,目標(biāo)越明確,準(zhǔn)備越充分抬闷,成功率也越高妇蛀。
二.大數(shù)據(jù)概念
按照常規(guī)套路先介紹概念,大數(shù)據(jù)是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉笤成、管理和處理的數(shù)據(jù)集合评架,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量炕泳、高增長率和多樣化的信息資產(chǎn)—百度百科
- Volume:海量的數(shù)據(jù)規(guī)模纵诞,數(shù)據(jù)體量達(dá)到PB甚至EB級別,這里的數(shù)據(jù)量主要來源于網(wǎng)絡(luò)日志喊崖,多媒體數(shù)據(jù)等挣磨。
- Variety:異構(gòu)的數(shù)據(jù)類型雇逞,不僅僅包含結(jié)構(gòu)化的數(shù)據(jù)荤懂、還包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),比如日志文件塘砸、圖像节仿、音視頻等。
- Velocity:快速的數(shù)據(jù)流轉(zhuǎn)掉蔬,數(shù)據(jù)的產(chǎn)生和處理速度非忱认埽快。
- Value:價(jià)值密度低女轿,有價(jià)值的數(shù)據(jù)占比很小箭启,需要用到人工智能等方法去挖掘新知識。
三.大數(shù)據(jù)發(fā)展歷程
通過一張圖來簡單看一下發(fā)展歷程蛉迹,可以看出來大數(shù)據(jù)的鼻祖是數(shù)據(jù)倉庫傅寡,所以現(xiàn)在做大數(shù)據(jù)比較資深都是從數(shù)據(jù)倉庫、數(shù)倉架構(gòu)師北救、數(shù)倉模型師轉(zhuǎn)型過來的荐操,隨著計(jì)算機(jī)技術(shù)的發(fā)展,計(jì)算成本珍策、存儲(chǔ)成本大幅降低托启,逐漸產(chǎn)出了數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)這樣的解決方案和概念攘宙。
從下面大數(shù)據(jù)屯耸、人工智能百度指數(shù)的發(fā)展趨勢圖也看出來大數(shù)據(jù)發(fā)展的潮流拐迁,所以原來的數(shù)據(jù)倉庫工程師轉(zhuǎn)成大數(shù)據(jù)工程師都是正好站在了這個(gè)風(fēng)口給吹起來的。還有一個(gè)崗位是被AI給吹起來的肩民,那就是原來叫算法工程師的同學(xué)唠亚,都自動(dòng)更新成AI工程師了。
所以雷布斯的風(fēng)口理論還是有一定道理的持痰。
四.大數(shù)據(jù)崗位家族
這也是本篇文章的重點(diǎn)灶搜,也是能夠解開很多想入門大數(shù)據(jù)行當(dāng)初學(xué)者的關(guān)鍵所在。
大數(shù)據(jù)家族嚴(yán)格來說可以細(xì)分成下面9個(gè)崗位工窍,當(dāng)然這9個(gè)崗位并不是在每個(gè)公司都會(huì)劃分的這么細(xì)割卖,越是重視數(shù)據(jù)、越是財(cái)大氣粗的公司劃分的越細(xì)患雏,很多公司的數(shù)據(jù)人員會(huì)身兼數(shù)職鹏溯,比如大數(shù)據(jù)運(yùn)維和大數(shù)據(jù)平臺(tái)開發(fā),數(shù)據(jù)倉庫與數(shù)據(jù)測試等淹仑,都是同一個(gè)人兼著丙挽。
這9個(gè)崗位有什么關(guān)系呢?哪個(gè)更高大上呢匀借?其實(shí)他們也是有生物鏈的颜阐。
大數(shù)據(jù)要在業(yè)務(wù)端發(fā)揮價(jià)值,一定要有數(shù)據(jù)產(chǎn)品經(jīng)理(數(shù)據(jù)分析師某種程度上也兼職這個(gè)角色)吓肋、數(shù)據(jù)可視化工程師將數(shù)據(jù)呈現(xiàn)出來給到老板凳怨、業(yè)務(wù)方、用戶是鬼。
但是數(shù)據(jù)產(chǎn)品不像其他業(yè)務(wù)型產(chǎn)品在一定用戶需求基礎(chǔ)上衍生出來肤舞,產(chǎn)品經(jīng)理在能力則決定著產(chǎn)品的受歡迎程度,但是數(shù)據(jù)產(chǎn)品經(jīng)理如果只在用戶的需求基礎(chǔ)衍生是遠(yuǎn)遠(yuǎn)不夠的均蜜,因?yàn)槠胀ㄓ脩舾静恢辣澈筮€有數(shù)據(jù)這回事李剖,里面的價(jià)值是需要有數(shù)學(xué)功底和業(yè)務(wù)功底的才能探索出來的,僅僅靠數(shù)據(jù)產(chǎn)品經(jīng)理就有點(diǎn)力不從心了囤耳,所以這個(gè)時(shí)候數(shù)據(jù)分析師篙顺、算法工程師、數(shù)據(jù)科學(xué)家就登場了紫皇,他們在研究挖掘海量數(shù)據(jù)之后(這里數(shù)據(jù)低價(jià)值密度的特性大幅提高了門檻)慰安,會(huì)提出概率更高的價(jià)值點(diǎn)交給產(chǎn)品經(jīng)理進(jìn)行調(diào)研、設(shè)計(jì)聪铺、上線化焕。估計(jì)這個(gè)時(shí)候會(huì)有很多人不同意我的觀點(diǎn),實(shí)際工作流程大部分不是這樣的铃剔,實(shí)際情況確實(shí)也是這樣撒桨,這是因?yàn)槟壳暗臄?shù)據(jù)產(chǎn)品經(jīng)理大都是從有數(shù)據(jù)經(jīng)驗(yàn)的人轉(zhuǎn)過來的查刻,所以本身已經(jīng)具備了這樣的能力。這也是為什么數(shù)據(jù)產(chǎn)品經(jīng)理比業(yè)務(wù)線產(chǎn)品經(jīng)理更難的原因之一(個(gè)人觀點(diǎn))凤类。
再往前看穗泵,數(shù)據(jù)量這么大,類型又這么多樣谜疤,數(shù)據(jù)分析師佃延、算法工程師、數(shù)據(jù)科學(xué)家每個(gè)人都直接從原始數(shù)據(jù)進(jìn)行計(jì)算夷磕、分析顯然是及其低效的履肃,另外如果數(shù)據(jù)質(zhì)量太差的話,分析或者挖掘出來的價(jià)值點(diǎn)可能是負(fù)面的坐桩,這個(gè)時(shí)候數(shù)據(jù)倉庫工程師尺棋、數(shù)據(jù)測試隆重登場(大部分公司這兩個(gè)角色是二合一的,包括頭部互聯(lián)網(wǎng)公司分開的都不多)绵跷,前面的臟活膘螟、累活我們?nèi)耍銈冎还芡诰騼r(jià)值就好了碾局,價(jià)值出來了荆残,我們也是功勞的,所以數(shù)倉工程師更側(cè)重的是底層數(shù)據(jù)清洗和建模擦俐。
再往前看脊阴,前面說了現(xiàn)在數(shù)據(jù)最大特點(diǎn)BIG握侧,在哪里存儲(chǔ)和計(jì)算呢蚯瞧,并且計(jì)算時(shí)效性比以前還高,各種實(shí)時(shí)大盤數(shù)據(jù)需求品擎,最上游的運(yùn)維和大數(shù)據(jù)開發(fā)工程師終于出場了埋合,帶寬、內(nèi)存萄传、時(shí)效性都不是事甚颂,我們來搞定。這里就要點(diǎn)名一下大數(shù)據(jù)開發(fā)工程師(簡稱大數(shù)據(jù)工程師)了秀菱,是網(wǎng)上被點(diǎn)名最多振诬,也是被崇拜最多的,雖然很多人都不熟悉你衍菱,真是令其他幾位兄弟姐妹羨慕赶么。
下面就每個(gè)崗位都逐一解釋一下,主要是通過工作內(nèi)容來認(rèn)識他們脊串,先說明一下辫呻,這里工作內(nèi)容主要是針對校招JD總結(jié)分析出來清钥,跟社招有一定的區(qū)別。
1. 大數(shù)據(jù)運(yùn)維
- 負(fù)責(zé)溝通協(xié)調(diào)數(shù)據(jù)開發(fā)團(tuán)隊(duì)放闺,實(shí)時(shí)監(jiān)控調(diào)度腳本的執(zhí)行效率祟昭,確保平臺(tái)資源的高效合理使用
- 負(fù)責(zé)Hadoop生態(tài)組件的部署升級、擴(kuò)容縮容怖侦、性能和管理優(yōu)化篡悟、問題排查等,包括但不限于CDH、HDFS匾寝、YARN恰力、Hive、HBase旗吁、Spark和Flink等
2. 大數(shù)據(jù)平臺(tái)開發(fā)
- 參與大數(shù)據(jù)平臺(tái)工具鏈(元數(shù)據(jù)踩萎、開發(fā)平臺(tái)、調(diào)度系統(tǒng)很钓、資源控制等)的設(shè)計(jì)香府、開發(fā)、維護(hù)與優(yōu)化
- 參與報(bào)表系統(tǒng)码倦、數(shù)據(jù)分析系統(tǒng)企孩、數(shù)據(jù)產(chǎn)品等功能設(shè)計(jì)開發(fā)
- 典型產(chǎn)出如下圖(業(yè)內(nèi)最有名的是阿里的ODPS)
3. 數(shù)據(jù)倉庫工程師
- 數(shù)據(jù)倉庫離線/實(shí)時(shí)ETL開發(fā)及優(yōu)化
- 數(shù)據(jù)倉庫模型設(shè)計(jì)
- 數(shù)據(jù)可視化開發(fā)
- 推動(dòng)大數(shù)據(jù)應(yīng)用技術(shù)與平臺(tái)
- 典型產(chǎn)出如下圖
4. 數(shù)據(jù)測試
- 負(fù)責(zé)數(shù)倉計(jì)算邏輯正確性測試
- 負(fù)責(zé)數(shù)據(jù)產(chǎn)品數(shù)據(jù)的準(zhǔn)確性
- 保證數(shù)據(jù)埋點(diǎn)的可靠性與準(zhǔn)確性
- 負(fù)責(zé)數(shù)據(jù)自動(dòng)化測試策略和系統(tǒng)建設(shè)
這個(gè)崗位現(xiàn)在大數(shù)據(jù)領(lǐng)域里面是最被忽視的,數(shù)據(jù)質(zhì)量也是目前大家最頭疼的問題之一袁稽。數(shù)據(jù)的追隨者:大數(shù)據(jù)系列之最冷門崗位-數(shù)據(jù)測試
5. 數(shù)據(jù)分析師
- 建設(shè)管理報(bào)表體系勿璃,并進(jìn)行報(bào)表的開發(fā)維護(hù)與檢測
- 搭建業(yè)務(wù)KPI指標(biāo)體系,并進(jìn)行監(jiān)測與分析推汽,為公司產(chǎn)品運(yùn)營優(yōu)化提供建議补疑;
- 撰寫數(shù)據(jù)分析報(bào)告,為業(yè)務(wù)問題原因排查提供數(shù)據(jù)支持及解決方案歹撒;
- 給業(yè)務(wù)部門提供運(yùn)營莲组、產(chǎn)品、活動(dòng)數(shù)據(jù)暖夭,根據(jù)數(shù)據(jù)問題锹杈,提出相應(yīng)的解決建議
- 主要產(chǎn)出
數(shù)據(jù)分析師詳解文章 數(shù)據(jù)的追隨者:最實(shí)用數(shù)據(jù)分析師準(zhǔn)備之路
6. 算法工程師/Ai工程師
- 語音、圖像迈着、自然語言處理竭望、深度學(xué)習(xí)等機(jī)器學(xué)習(xí)算法開發(fā)及優(yōu)化;
- 推薦裕菠、搜索咬清、廣告系統(tǒng)的算法開發(fā)及優(yōu)化
- 挖掘并推進(jìn)算法在業(yè)務(wù)中應(yīng)用
- 機(jī)器學(xué)習(xí)平臺(tái)開發(fā)及優(yōu)化
- 像知乎給大家“推薦”欄目,包括“關(guān)注”、“熱榜”欄目都是出自算法工程師之手
7. 數(shù)據(jù)產(chǎn)品經(jīng)理
- 負(fù)責(zé)BI產(chǎn)品枫振、數(shù)據(jù)可視化規(guī)劃喻圃、設(shè)計(jì)、迭代工作 粪滤,通過數(shù)據(jù)為業(yè)務(wù)賦能
- 負(fù)責(zé)協(xié)助公司各業(yè)務(wù)?向?數(shù)據(jù)應(yīng)?產(chǎn)品調(diào)研斧拍、規(guī)劃、執(zhí)?
- 負(fù)責(zé)梳理業(yè)務(wù)需求杖小,甄別業(yè)務(wù)場景和價(jià)值肆汹,制定研發(fā)優(yōu)先級,跟蹤研發(fā)流程予权,確保價(jià)值交付
- 負(fù)責(zé)數(shù)據(jù)產(chǎn)品的開發(fā)項(xiàng)目管理工作昂勉,確保項(xiàng)目按照需求如期完成
8. 數(shù)據(jù)可視化
- 負(fù)責(zé)大數(shù)據(jù)項(xiàng)目/產(chǎn)品前端展示模式規(guī)劃構(gòu)思和創(chuàng)意設(shè)計(jì)
- 負(fù)責(zé)常規(guī)圖表組件的封裝、地圖組件技術(shù)的迭代與維護(hù)扫腺、頁面元素動(dòng)效的維護(hù)等岗照;
- 負(fù)責(zé)報(bào)表平臺(tái)輸出可視化顯示及迭代
數(shù)據(jù)可視化可以分為2種,一種是通過BI工具(Tableau笆环、Cognos攒至、BO等)或者Excel/PPT實(shí)現(xiàn),還有一種是前端開發(fā)工程師實(shí)現(xiàn)躁劣,這塊專門做的同學(xué)相對也比較少迫吐,只是多少都會(huì)一些。
9. 數(shù)據(jù)科學(xué)家
數(shù)據(jù)科學(xué)家之所以放在最后账忘,其實(shí)他是以上崗位相對綜合的職位志膀,基本上數(shù)據(jù)分析、數(shù)據(jù)倉庫鳖擒、數(shù)據(jù)爬蟲清洗溉浙、算法/數(shù)據(jù)挖掘、數(shù)據(jù)產(chǎn)品等5個(gè)領(lǐng)域中的一個(gè)或者多個(gè)專家败去。詳細(xì)的可看這篇文章介紹 數(shù)據(jù)的追隨者:大數(shù)據(jù)系列之?dāng)?shù)據(jù)科學(xué)家
六.一個(gè)數(shù)據(jù)產(chǎn)品生產(chǎn)鏈路
這里給大家說一下一款數(shù)據(jù)產(chǎn)品是如何生產(chǎn)上線的放航,比如下面這個(gè)BI平臺(tái)實(shí)時(shí)數(shù)據(jù)看板烈拒,包含了交易明細(xì)圆裕,各種不同程度的匯總數(shù)據(jù),有離線數(shù)據(jù)荆几,有實(shí)時(shí)數(shù)據(jù)吓妆。
他的一般生產(chǎn)流程可以通過下圖來說明,如果需求當(dāng)中包括一些預(yù)測之類的數(shù)據(jù)吨铸,這個(gè)時(shí)候算法工程師也會(huì)介入進(jìn)來行拢。
七.結(jié)束語
上面重點(diǎn)從崗位的生物鏈、崗位的主要工作內(nèi)容诞吱,以及典型的數(shù)據(jù)產(chǎn)品生產(chǎn)流程舟奠,詳細(xì)介紹了大數(shù)據(jù)崗位家族中的9個(gè)崗位竭缝,其目的就是希望在校大學(xué)生或者想轉(zhuǎn)入大數(shù)據(jù)行當(dāng)?shù)耐瑢W(xué),對大數(shù)據(jù)有一個(gè)整體和全貌的認(rèn)知沼瘫。
當(dāng)有了這個(gè)認(rèn)知之后抬纸,希望再問問題的時(shí)候或者說跟面試官說自己的規(guī)劃的時(shí)候,不是直接說想做大數(shù)據(jù)耿戚,或者如何準(zhǔn)備大數(shù)據(jù)湿故,而是希望直接問具體的某個(gè)崗位如何準(zhǔn)備或者選擇,當(dāng)有了這樣比較具體的目標(biāo)之后膜蛔,自己準(zhǔn)備起來也會(huì)更加高效和聚焦坛猪,如果能對大家有了這樣的幫助,此篇文章的目的也就達(dá)到了皂股。