大數(shù)據(jù)部門,在各個(gè)IT公司交掏,似乎都有點(diǎn)神秘妆偏?他們究竟都在干啥?
根據(jù)個(gè)人經(jīng)驗(yàn)盅弛,科普一下钱骂,如有偏頗,不夠?qū)I(yè)挪鹏,見諒~
Part 1
在IT公司里见秽,大數(shù)據(jù)部門的成員,一般可分為4種:(以房子為例)
先用一張圖解取,幫助大家理解一下~~
出道題目,我們公司的大數(shù)據(jù)部門返顺,目前有這些崗位禀苦,你能一一推測出他們的所在位置嗎?
【數(shù)據(jù)應(yīng)用工程師】遂鹊、【數(shù)據(jù)可視化工程師】振乏、【數(shù)據(jù)可視化設(shè)計(jì)師】、【數(shù)據(jù)平臺工程師】秉扑、【算法工程師】慧邮、【數(shù)據(jù)分析師】
Part 2
如果還有興趣,接下來舟陆,詳細(xì)聽聽這4類人員的具體工作事項(xiàng)吧赋咽!
建房子地基(埋在地下)的那群人
他們就是平臺組/架構(gòu)組的那群人,他們負(fù)責(zé)搭建一套大數(shù)據(jù)的平臺架構(gòu)體系吨娜。一般你肉眼看不到他們的產(chǎn)出,但是當(dāng)某一堵墻壁歪了的時(shí)候淘钟,或者你進(jìn)屋打水但水龍頭卻流不出來水的時(shí)候宦赠,你就會意識到他們工作的重要性。
平臺組的常見發(fā)展路徑:
平臺初期米母,很多公司會用自己的服務(wù)器搭一個(gè)私有集群勾扭,將數(shù)據(jù)維護(hù)起來,開始構(gòu)建數(shù)據(jù)平臺的第一步铁瞒。這個(gè)妙色,也是原始的大數(shù)據(jù)平臺。(當(dāng)然慧耍,現(xiàn)在有很多公司也是直接上云服務(wù)器)
當(dāng)平臺進(jìn)入高速發(fā)展期身辨,考慮到不斷擴(kuò)充的數(shù)據(jù)量和服務(wù)器的維護(hù)成本上升丐谋,很多公司會遷移平臺到云服務(wù)上,比如阿里云煌珊,華為云号俐。云服務(wù)的選擇要解決的是選擇平臺所提供的服務(wù),成本定庵,數(shù)據(jù)通道的維護(hù)吏饿。【我們公司目前正處于這一階段蔬浙,選擇了云服務(wù)猪落。當(dāng)前,經(jīng)過考量也正在由阿里云遷移到華為云】
還有一個(gè)階段畴博,你發(fā)現(xiàn)云服務(wù)的費(fèi)用太高笨忌,雖然省了你很多事,或者是考慮到敏感數(shù)據(jù)的安全問題(當(dāng)然绎晃,私有集群也不是百分百安全)蜜唾,然后又開始往私有集群遷移。這時(shí)候庶艾,鑒于數(shù)據(jù)規(guī)模袁余,你大概需要一個(gè)靠譜的團(tuán)隊(duì),設(shè)計(jì)網(wǎng)絡(luò)布局咱揍、設(shè)計(jì)運(yùn)維規(guī)范颖榜、架設(shè)監(jiān)控、建立機(jī)房煤裙,值班團(tuán)隊(duì)走起7*24小時(shí)隨時(shí)準(zhǔn)備出臺掩完。
至此,產(chǎn)生了平臺組硼砰,真的大數(shù)據(jù)平臺來了且蓬。
(以下為詳細(xì)的過程講解,如果不想看题翰,可跳過)
一階段
首要是選型恶阴,這個(gè)階段, 配置管理豹障、部署管理 都需要專門的平臺和組件冯事;
接下去你可能需要一些重量的組件幫你做一些事情。比如你的 數(shù)據(jù)接入血公,需要更強(qiáng)壯的解決方案昵仅,比如Flume之類的。
你的業(yè)務(wù)不斷壯大累魔,老板需要看的報(bào)表越來越多摔笤,需要訓(xùn)練的數(shù)據(jù)也需要清洗够滑,你就需要 任務(wù)調(diào)度。
數(shù)據(jù)分析人員的數(shù)據(jù)大概可能漸漸覺得傳統(tǒng)數(shù)據(jù)庫不夠用籍茧,但他們不會寫代碼版述,所以你上馬了 Hive數(shù)據(jù)庫。然后很多用戶用了Hive覺得太慢寞冯,你就又上馬 交互分析系統(tǒng)渴析,比如Presto,Impala或者SparkSQL吮龄。
你的數(shù)據(jù)科學(xué)家需要寫 ML 代碼俭茧,他們跟你說你需要Mahout或者Spark MLLib,于是你也部署了這些漓帚。
至此可能數(shù)據(jù)平臺已經(jīng)是工程師的日常工作場所了母债,大多數(shù)業(yè)務(wù)都會遷移過來。這時(shí)候你可能面臨很多不同的問題尝抖。
二階段:
開始需要做更多的事情:
比如各個(gè)業(yè)務(wù)線數(shù)據(jù)各種數(shù)據(jù)表多的一塌糊涂毡们,不管是你還是寫數(shù)據(jù)的人大概都不知道數(shù)據(jù)從哪兒來,接下去到哪兒去昧辽。你就自己搞了一套 元數(shù)據(jù)管理 的系統(tǒng)衙熔。
你分析性能,發(fā)現(xiàn)你們的數(shù)據(jù)即便壓縮了搅荞,也還是慢的要死红氯。又或者你發(fā)現(xiàn)你們的ETL很長,中間生成好多臨時(shí)數(shù)據(jù)咕痛,于是你下狠心改寫成 Spark分布式計(jì)算了痢甘。
再接下來也許你會想到花時(shí)間去維護(hù)一個(gè) 數(shù)據(jù)門戶,把這些零散的組件都整合到一起茉贡,提供統(tǒng)一的用戶體驗(yàn)塞栅;再點(diǎn)幾下就能設(shè)定一個(gè)定時(shí)任務(wù),每天跑了給老板 自動推送報(bào)表 腔丧;或者界面上寫幾個(gè)Query就能查詢Hbase的數(shù)據(jù)构蹬,這就是 自助提數(shù) 系統(tǒng)。
這時(shí)候你的數(shù)據(jù)平臺算是成型了悔据。
建屋子(砌墻蓋瓦)的那群人
:
應(yīng)用組的那群人,他們負(fù)責(zé)建設(shè)各類系統(tǒng)/應(yīng)用俗壹。他們搬磚砌墻科汗,建好房子,還要鋪設(shè)各類管道線路绷雏,把地基里面的數(shù)據(jù)抽出來头滔,放在房子里怖亭,讓用戶們推開門就可以享用。
應(yīng)用組坤检,有哪些應(yīng)用兴猩?:
這塊不太好講。不過早歇,為了盡量讓大家看懂倾芝,用從大到小的思路嘗試下:
在整個(gè)社會層面,大數(shù)據(jù)已應(yīng)用于各行各業(yè)箭跳,比如:金融行業(yè)/地產(chǎn)行業(yè)/零售行業(yè)/醫(yī)療行業(yè)/農(nóng)業(yè)/物流行業(yè)/城市管理等等……有哪一個(gè)行業(yè)晨另,可以脫離數(shù)據(jù)而生存?有哪一個(gè)行業(yè)可以不依賴數(shù)據(jù)而發(fā)展谱姓?
那么借尿,在一個(gè)企業(yè)中,數(shù)據(jù)必然是無法避免的會應(yīng)用到屉来,不管是1個(gè)員工的皮包公司路翻,還是10萬員工的跨國集團(tuán)。so茄靠,我們來講講具體有哪些應(yīng)用呢茂契?
一般而言,數(shù)據(jù)應(yīng)用分為3類:分別是面向企業(yè)內(nèi)部嘹黔, 面向企業(yè)外部以及面向用戶這三種账嚎。
擴(kuò)展內(nèi)容:
- 企業(yè)內(nèi)部產(chǎn)品是企業(yè)自建自用的數(shù)據(jù)平臺或算法策略,輔助企業(yè)員工做出決策或成為產(chǎn)品邏輯的一部分儡蔓。
- 面向企業(yè)外部產(chǎn)品郭蕉,即由某企業(yè)開發(fā),為其他企業(yè)提供數(shù)據(jù)服務(wù)的產(chǎn)品喂江,SaaS 是其中一種模式召锈。
- 面向用戶的產(chǎn)品則是根據(jù)平臺或網(wǎng)絡(luò)中的公共內(nèi)容,提供某些數(shù)據(jù)給普通用戶分析查看获询。最常見的就是各種常見的指數(shù)涨岁,如淘寶指數(shù),微博的微指數(shù)等吉嚣。
這里梢薪,鑒于今天的主題,我們只講 面向企業(yè)內(nèi)部 的大數(shù)據(jù)應(yīng)用尝哆。
進(jìn)入正題了:
企業(yè)內(nèi)部產(chǎn)品中秉撇,可以從2個(gè)角度來看待具體有哪些應(yīng)用:
-
角度一:按職能范圍劃分,可以分為平臺型和業(yè)務(wù)型。
平臺型主要是建設(shè)底層計(jì)算平臺(即上面提到的琐馆,打地基時(shí)完成那個(gè)大數(shù)據(jù)平臺)和通用工具规阀,業(yè)務(wù)型更多的偏重于結(jié)合業(yè)務(wù)的 BI 系統(tǒng)和報(bào)表工具。 -
角度二:按內(nèi)容劃分瘦麸,則主要可劃分為分析類和策略類谁撼。
分析類主要是商業(yè) BI 方向,報(bào)表相關(guān)滋饲。在我們公司大數(shù)據(jù)部門厉碟,這方面的相關(guān)應(yīng)用有:
應(yīng)用名稱 | 所在系統(tǒng) |
---|---|
【報(bào)表中心】 | - |
【自助提數(shù)】 | - |
【數(shù)據(jù)大屏】 | - |
策略類的方向較多,常見的有:
名稱 | 備注 |
---|---|
【搜索推薦系統(tǒng)】 | - |
【風(fēng)控和反作弊系統(tǒng)】 | - |
【精準(zhǔn)營銷系統(tǒng)】 | - |
【用戶畫像系統(tǒng)】 | - |
【智能客服系統(tǒng)】 | - |
【智能調(diào)度系統(tǒng)】 | - |
【智能XX】 | 等等 |
…… | …… |
這些有時(shí)候會有部分或全部不劃在大數(shù)據(jù)部門下面了赌,但都需要比較規(guī)范的數(shù)據(jù)基礎(chǔ)被盈,以及著重與利用數(shù)據(jù)分析調(diào)整產(chǎn)品策略滔蝉。
做企業(yè)內(nèi)部的大數(shù)據(jù)應(yīng)用產(chǎn)品堰氓,常常有些心酸的地方:
- 受關(guān)注度不高:畢竟數(shù)據(jù)不是實(shí)際業(yè)務(wù)噪生,無法直接對前線數(shù)據(jù)產(chǎn)生影響。在關(guān)注度和資源傾斜力度上逢并,與一線部門肯定有所區(qū)別之剧。
- 臨時(shí)需求繁多紛亂:既然數(shù)據(jù)的價(jià)值體現(xiàn)在使用者手里,則意味著使用者部門(在我們公司砍聊,大數(shù)據(jù)的使用者部門集中在4塊:產(chǎn)品部/市場部/運(yùn)營部/大區(qū))會與你有很多親密接觸的機(jī)會背稼。這些需求大多數(shù)屬于碰到某些情況意外需要馬上了解到某些數(shù)據(jù),這樣一來玻蝌,很多數(shù)據(jù)團(tuán)隊(duì)的工作及規(guī)劃蟹肘,往往會被頻繁打亂。
屋子里面的人
:
產(chǎn)品組的那群人俯树,主要是一群產(chǎn)品經(jīng)理(我們公司帘腹,目前就半個(gè),由一個(gè)分析師兼職著许饿,所以阳欲,我們公司沒有產(chǎn)品組哦)陋率,負(fù)責(zé)數(shù)據(jù)類的應(yīng)用產(chǎn)品設(shè)計(jì)球化。他們和上面建房子的工程師們,是緊密的團(tuán)隊(duì)關(guān)系瓦糟。鑒于上面對數(shù)據(jù)應(yīng)用產(chǎn)品已做了很多闡述筒愚,關(guān)于他們工作產(chǎn)出的應(yīng)用具體有哪些,這里就不再贅述菩浙。
講一講锨能,數(shù)據(jù)產(chǎn)品經(jīng)理的從業(yè)人員得有幾個(gè)素質(zhì):
- 首先是數(shù)據(jù)產(chǎn)品本身具備的專業(yè)能力扯再,如數(shù)據(jù)清洗,數(shù)據(jù)可視化址遇,數(shù)據(jù)分析等。
- 其次是對業(yè)務(wù)的敏感度斋竞。在企業(yè)內(nèi)部倔约,需要靠業(yè)績說話。你界面做的再漂亮坝初,體驗(yàn)做的再完美浸剩,如果對業(yè)務(wù)起不了與投入相匹配的促進(jìn)作用,就不是一個(gè)成功的內(nèi)部產(chǎn)品鳄袍。
- 其次是比較好的需求管理能力绢要,如果這塊沒把控好,很容易就被如滔滔江水的臨時(shí)需求給淹沒拗小。最合適的方法是“長中短結(jié)合”重罪,緊急的需求先滿足,同時(shí)不能忽視數(shù)據(jù)平臺的建設(shè)哀九,抽象出來一個(gè)面能滿足一個(gè)個(gè)散落需求的點(diǎn)剿配。
- 最后,需要有比較好的內(nèi)部公關(guān)能力阅束。 這與數(shù)據(jù)價(jià)值比較隱性呼胚,很多與業(yè)務(wù)表現(xiàn)沒有直接關(guān)聯(lián)有關(guān)。所以一方面你需要將數(shù)據(jù)分析的知識和技能在內(nèi)部推廣息裸,另一方面也需要將數(shù)據(jù)成功案例對外宣傳蝇更,樹立起大家用數(shù)據(jù)說話的習(xí)慣和信心。
屋子外面的人
:
分析組的那群人呼盆,一般會有3類:數(shù)據(jù)分析師年扩、算法工程師(類似數(shù)據(jù)挖掘)、數(shù)據(jù)科學(xué)家(我們公司沒有)宿亡。他們工作的日常:為你提取一份EXCEL數(shù)據(jù)常遂、制作一張報(bào)表數(shù)據(jù)、用算法模型分析一個(gè)問題挽荠、訓(xùn)練出一套算法模型等等工作克胳,但不局限于此。
他們常常需要與各個(gè)部門打交道圈匆,接待很多業(yè)務(wù)的數(shù)據(jù)需求漠另,與業(yè)務(wù)關(guān)系緊密。在一些公司跃赚,分析組不一定都設(shè)置在大數(shù)據(jù)部門下笆搓,他們可能分散在不同的業(yè)務(wù)部門性湿,為各自部門服務(wù)。但是满败,他們終究也是需要從大數(shù)據(jù)平臺來獲取所需的業(yè)務(wù)數(shù)據(jù)肤频,做分析處理,得到相關(guān)結(jié)論~
據(jù)我所知算墨,我們公司的業(yè)務(wù)部門宵荒,(好像)也是有自己的分析人員。
簡單概括一下這些職位的特點(diǎn):
【數(shù)據(jù)分析師】
業(yè)務(wù)線净嘀,負(fù)責(zé)通過數(shù)據(jù)分析手段發(fā)現(xiàn)和分析業(yè)務(wù)問題报咳,為決策作支持。
【算法工程師】/【數(shù)據(jù)挖掘工程師】
偏技術(shù)線挖藏,負(fù)責(zé)通過建立模型暑刃、算法、預(yù)測等提供一些通用的解決方案膜眠,當(dāng)然也有針對某業(yè)務(wù)的岩臣。
【數(shù)據(jù)科學(xué)家】
數(shù)據(jù)科學(xué)家是使用專業(yè)知識構(gòu)建機(jī)器學(xué)習(xí)模型,再以此做出預(yù)測并對關(guān)鍵業(yè)務(wù)問題進(jìn)行解答的專家柴底。數(shù)據(jù)科學(xué)家仍然需要對數(shù)據(jù)進(jìn)行清洗婿脸、分析以及可視化處理,這一點(diǎn)和數(shù)據(jù)分析師是一致的柄驻。不過數(shù)據(jù)科學(xué)家在專業(yè)技能方面有者更深的研究狐树,涉獵范圍也更廣,同時(shí)他們也能夠?qū)C(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練與優(yōu)化鸿脓。
至此抑钟,整篇文章,已經(jīng)講差不多了野哭。
最后總結(jié)下在塔,本質(zhì)上,圍繞房子的這4撥人拨黔,做的是同一件事情:提供數(shù)據(jù)服務(wù)蛔溃。
完結(jié)~
摘抄的一些資料,供閱讀
大數(shù)據(jù)應(yīng)用三段論:
1)大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)階段:
這個(gè)階段的重點(diǎn)是把大數(shù)據(jù)存起來篱蝇,管起來贺待,能用起來,同時(shí)要考慮大數(shù)據(jù)平臺和原有業(yè)務(wù)系統(tǒng)的互通聯(lián)合問題零截。一句話麸塞,做好全局?jǐn)?shù)據(jù)集成解決數(shù)據(jù)孤島問題!要完成大數(shù)據(jù)基礎(chǔ)設(shè)施系統(tǒng)建設(shè)開發(fā)涧衙,需要明確數(shù)據(jù)采集哪工、存儲和分析各層核心組件的選型和使用奥此,搭建穩(wěn)定的大數(shù)據(jù)集群,或選擇私有云方案的服務(wù)集群雁比,與生產(chǎn)系統(tǒng)并線運(yùn)行稚虎,使待分析的歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)得以采集并源源不斷流入大數(shù)據(jù)系統(tǒng)。這個(gè)階段的關(guān)鍵技術(shù)學(xué)習(xí)包括采集爬蟲偎捎、數(shù)據(jù)接口祥绞、分布式存儲、數(shù)據(jù)預(yù)處理ETL鸭限、數(shù)據(jù)集成、數(shù)據(jù)庫和數(shù)據(jù)倉庫管理两踏、云計(jì)算和資源調(diào)度管理等等內(nèi)容败京。
2)大數(shù)據(jù)描述性分析階段:
此階段主要定位于離線或在線對數(shù)據(jù)進(jìn)行基本描述統(tǒng)計(jì)和探索式可視化分析,對管理起來的大數(shù)據(jù)能進(jìn)行海量存儲條件下的交互式查詢梦染、匯總赡麦、統(tǒng)計(jì)和可視化,如果建設(shè)了BI系統(tǒng)的帕识,還需整合傳統(tǒng)BI技術(shù)進(jìn)行OLAP泛粹、KPI、Report肮疗、Chart晶姊、Dashboard等分析和初步的描述型數(shù)據(jù)挖掘分析。這個(gè)基礎(chǔ)分析階段是對數(shù)據(jù)集成質(zhì)量的檢驗(yàn)伪货,也是對海量數(shù)據(jù)條件下的分布式存儲管理技術(shù)應(yīng)用穩(wěn)定性的測試们衙,同時(shí)要能替代或集成傳統(tǒng)BI的各類報(bào)表。這個(gè)階段的關(guān)鍵技術(shù)學(xué)習(xí)包括可視化碱呼、探索式交互式分析蒙挑、多維分析、各類基本報(bào)表和圖表的查詢設(shè)計(jì)等等愚臀。
3)大數(shù)據(jù)高級預(yù)測分析和生產(chǎn)部署階段:
在初步描述分析結(jié)果合理忆蚀,符合預(yù)期目標(biāo),數(shù)據(jù)分布式管理和描述型分析穩(wěn)定成熟的條件下姑裂,可結(jié)合進(jìn)一步智能化分析需求馋袜,采用如深度學(xué)習(xí)等適用海量數(shù)據(jù)處理的機(jī)器學(xué)習(xí)模型,進(jìn)行高級預(yù)測性挖掘分析炭分。并通過逐步迭代優(yōu)化挖掘模型和數(shù)據(jù)質(zhì)量桃焕,形成穩(wěn)定可靠和性能可擴(kuò)展的智能預(yù)測模型,并在企業(yè)相關(guān)業(yè)務(wù)服務(wù)中進(jìn)行分析結(jié)果的決策支持捧毛,進(jìn)行驗(yàn)證观堂、部署让网、評估和反饋。這個(gè)階段的關(guān)鍵技術(shù)包括機(jī)器學(xué)習(xí)建模师痕、決策支持溃睹、可視化、模型部署和運(yùn)維等胰坟。
------來源:點(diǎn)金大數(shù)據(jù) 作者:杜圣東