什么是DataOps
DataOps(數(shù)據(jù)運(yùn)維)是一門(mén)新興學(xué)科犁享,它將DevOps團(tuán)隊(duì)與數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家角色召集在一起况毅,以提供工具晓殊,流程和組織結(jié)構(gòu)來(lái)支持以數(shù)據(jù)為中心的企業(yè)碗短。
DataOps(數(shù)據(jù)操作)是一種敏捷的凤优,面向過(guò)程的方法悦陋,用于開(kāi)發(fā)和交付分析。它匯集了DevOps團(tuán)隊(duì)筑辨,數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家俺驶,以提供工具,流程和組織結(jié)構(gòu)來(lái)支持以數(shù)據(jù)為中心的企業(yè)棍辕。Forrester的副總裁兼首席分析師Michele Goetz將DataOps定義為“具有從基礎(chǔ)設(shè)施到體驗(yàn)的所有技術(shù)層暮现,實(shí)現(xiàn)解決方案,開(kāi)發(fā)數(shù)據(jù)產(chǎn)品以及激活數(shù)據(jù)以實(shí)現(xiàn)商業(yè)價(jià)值的能力楚昭∑艽”
DataOps目標(biāo)
根據(jù)[Dataversity的]說(shuō)法,[DataOps]的目標(biāo)是基于數(shù)據(jù)和數(shù)據(jù)分析來(lái)簡(jiǎn)化應(yīng)用程序的設(shè)計(jì)抚太,開(kāi)發(fā)和維護(hù)塘幅。它試圖改善數(shù)據(jù)管理和產(chǎn)品創(chuàng)建的方式昔案,并將這些改進(jìn)與業(yè)務(wù)目標(biāo)進(jìn)行協(xié)調(diào)。
DataOps與DevOps
DevOps是一種軟件開(kāi)發(fā)方法晌块,通過(guò)將開(kāi)發(fā)團(tuán)隊(duì)和運(yùn)營(yíng)團(tuán)隊(duì)合并為一個(gè)負(fù)責(zé)產(chǎn)品或服務(wù)的單一部門(mén)爱沟,將持續(xù)交付交付到系統(tǒng)開(kāi)發(fā)生命周期。DataOps通過(guò)增加數(shù)據(jù)專(zhuān)家(數(shù)據(jù)分析師匆背,數(shù)據(jù)開(kāi)發(fā)人員呼伸,數(shù)據(jù)工程師和/或數(shù)據(jù)科學(xué)家)建立在該概念的基礎(chǔ)上,以專(zhuān)注于數(shù)據(jù)流的協(xié)作開(kāi)發(fā)和整個(gè)組織中數(shù)據(jù)的連續(xù)使用钝尸。
“您已經(jīng)有了開(kāi)發(fā)運(yùn)維的現(xiàn)代趨勢(shì)括享,但是越來(lái)越多的人正在將某種數(shù)據(jù)科學(xué)能力注入到開(kāi)發(fā)和系統(tǒng)中,因此珍促,您需要在運(yùn)維團(tuán)隊(duì)中擁有一個(gè)具有數(shù)據(jù)心態(tài)的人铃辖。” HPE MapR的CTO Ted Dunning和《[機(jī)器學(xué)習(xí)物流:現(xiàn)實(shí)世界中的模型管理》的]合著者猪叙。
DataOps原則
像DevOps一樣娇斩,DataOps借鑒了敏捷方法。該方法重視以持續(xù)滿(mǎn)足客戶(hù)需求為主要目標(biāo)的分析見(jiàn)解的交付穴翩。
根據(jù)《[DataOps宣言》]犬第,DataOps團(tuán)隊(duì)重視有效的分析,并通過(guò)其提供的見(jiàn)解來(lái)衡量數(shù)據(jù)分析的性能芒帕。DataOps團(tuán)隊(duì)還接受變化歉嗓,并尋求不斷了解不斷變化的客戶(hù)需求。他們圍繞目標(biāo)進(jìn)行自我組織背蟆,并尋求減少“英雄主義”鉴分,而采用可持續(xù)且可擴(kuò)展的團(tuán)隊(duì)和流程。
DataOps團(tuán)隊(duì)還尋求從頭到尾協(xié)調(diào)數(shù)據(jù)带膀,工具志珍,代碼和環(huán)境,以提供可重復(fù)的結(jié)果垛叨。DataOps團(tuán)隊(duì)傾向于將分析管道視為類(lèi)似于精益生產(chǎn)線(xiàn)碴裙,并定期反映客戶(hù),團(tuán)隊(duì)成員和運(yùn)營(yíng)統(tǒng)計(jì)信息所提供的反饋点额。
適用于DataOps的地方
當(dāng)今的企業(yè)越來(lái)越多地將機(jī)器學(xué)習(xí)注入到眾多產(chǎn)品和服務(wù)中舔株,DataOps是一種旨在滿(mǎn)足機(jī)器學(xué)習(xí)的端到端需求的方法。
“例如还棱,這種樣式使數(shù)據(jù)科學(xué)家更容易獲得軟件工程的支持载慈,以提供在部署過(guò)程中將模型移交給運(yùn)營(yíng)時(shí)所需的東西,” Dunning和合著者珍手,HPE首席技術(shù)專(zhuān)家艾倫·弗里德曼(Ellen Friedman)寫(xiě)道办铡。 辞做。
他們補(bǔ)充說(shuō):“ DataOps方法不僅限于機(jī)器學(xué)習(xí)」丫撸” “這種組織風(fēng)格對(duì)于任何面向數(shù)據(jù)的工作都是有用的秤茅,從而使利用全球數(shù)據(jù)結(jié)構(gòu)所帶來(lái)的好處變得更加容易⊥”
他們還指出框喳,DataOps非常適合微服務(wù)架構(gòu)。
實(shí)踐中的DataOps
根據(jù)Dunning和Friedman的說(shuō)法厦坛,為了充分利用DataOps五垮,企業(yè)必須發(fā)展其數(shù)據(jù)管理策略,以大規(guī)模處理數(shù)據(jù)并響應(yīng)發(fā)生的現(xiàn)實(shí)事件杜秸。
他們寫(xiě)道:“傳統(tǒng)上孤立的角色可能過(guò)于僵化和緩慢放仗,無(wú)法很好地適應(yīng)正在進(jìn)行數(shù)字化轉(zhuǎn)型的大數(shù)據(jù)組織∏说” “這就是DataOps風(fēng)格可以提供幫助的地方诞挨。”
由于DataOps建立在DevOps之上呢蛤,因此跨職能團(tuán)隊(duì)跨越諸如運(yùn)營(yíng)亭姥,軟件工程,體系結(jié)構(gòu)和計(jì)劃顾稀,產(chǎn)品管理,數(shù)據(jù)分析坝撑,數(shù)據(jù)開(kāi)發(fā)和數(shù)據(jù)工程之類(lèi)的“技能行會(huì)”是必不可少的静秆,因此應(yīng)在以下位置管理DataOps團(tuán)隊(duì):確保開(kāi)發(fā)人員,運(yùn)營(yíng)專(zhuān)業(yè)人員和數(shù)據(jù)專(zhuān)家之間加強(qiáng)協(xié)作和溝通的方式巡李。
據(jù)Dunning稱(chēng)抚笔,數(shù)據(jù)科學(xué)家也可能是DataOps團(tuán)隊(duì)的重要成員。他說(shuō):“我認(rèn)為侨拦,在這里要做的最重要的事情就是不要堅(jiān)持傳統(tǒng)的象牙塔組織殊橙,在該組織中數(shù)據(jù)科學(xué)家與開(kāi)發(fā)團(tuán)隊(duì)分開(kāi)居住∮樱” “您可以采取的最重要的步驟實(shí)際上是將數(shù)據(jù)科學(xué)家納入DevOps團(tuán)隊(duì)膨蛮。當(dāng)他們住在同一房間,吃相同的飯菜季研,聽(tīng)到相同的抱怨時(shí)敞葛,他們自然會(huì)結(jié)盟∮胛校”
但是Dunning還指出惹谐,數(shù)據(jù)科學(xué)家可能不需要永久地嵌入到DataOps團(tuán)隊(duì)中持偏。
Dunning說(shuō):“通常,團(tuán)隊(duì)中有一段時(shí)間是一位數(shù)據(jù)科學(xué)家氨肌『韪眩” “他們的能力和敏感性開(kāi)始減弱。然后怎囚,團(tuán)隊(duì)中的某個(gè)人擔(dān)當(dāng)了數(shù)據(jù)工程師和某種低預(yù)算數(shù)據(jù)科學(xué)家的角色卿叽。然后,嵌入團(tuán)隊(duì)中的實(shí)際數(shù)據(jù)科學(xué)家就隨波逐流了桩了。這是一個(gè)不穩(wěn)定的情況附帽。”
如何建立一個(gè)DataOps團(tuán)隊(duì)
弗里德曼說(shuō)井誉,大多數(shù)基于DevOps的企業(yè)已經(jīng)掌握了DataOps團(tuán)隊(duì)的核心蕉扮。一旦他們確定了需要數(shù)據(jù)密集型開(kāi)發(fā)的項(xiàng)目,他們只需要向團(tuán)隊(duì)添加經(jīng)過(guò)數(shù)據(jù)培訓(xùn)的人員即可颗圣。該人甚至可能是數(shù)據(jù)工程師喳钟,而不是專(zhuān)職數(shù)據(jù)科學(xué)家。
通常在岂,團(tuán)隊(duì)將由技能重疊的個(gè)人組成奔则,或者根據(jù)專(zhuān)業(yè)知識(shí),個(gè)人可能在DataOps團(tuán)隊(duì)中擔(dān)任多個(gè)角色蔽午。
Dunning和Friedman在他們的書(shū)中寫(xiě)道:“在大型項(xiàng)目中易茬,一個(gè)特定的DataOps角色可能會(huì)由多個(gè)人擔(dān)任,但是有些人會(huì)承擔(dān)多個(gè)角色也很常見(jiàn)及老〕槔常” “操作和軟件工程技能可能會(huì)重疊;具有軟件工程經(jīng)驗(yàn)的團(tuán)隊(duì)成員也可能具有數(shù)據(jù)工程師的資格骄恶。數(shù)據(jù)科學(xué)家通常具有數(shù)據(jù)工程技能食铐。但是,很少看到數(shù)據(jù)科學(xué)與操作之間存在重疊僧鲁∨吧耄”
根據(jù)Forrester的Goetz所說(shuō),DataOps團(tuán)隊(duì)的一些專(zhuān)業(yè)知識(shí)關(guān)鍵領(lǐng)域包括:
- 資料庫(kù)
- 一體化
- 數(shù)據(jù)進(jìn)行業(yè)務(wù)流程編排
- 數(shù)據(jù)策略部署
- 數(shù)據(jù)和模型整合
- 數(shù)據(jù)安全和隱私控制
無(wú)論組成如何寞秃,DataOps團(tuán)隊(duì)都必須有一個(gè)共同的目標(biāo):他們支持的服務(wù)的數(shù)據(jù)驅(qū)動(dòng)需求斟叼。
Dunning說(shuō):“有了工程團(tuán)隊(duì),優(yōu)秀的工程師春寿,您需要做的是設(shè)定好目標(biāo)犁柜。” “一旦有一個(gè)共同的目標(biāo)堂淡,即解決問(wèn)題馋缅,那么團(tuán)隊(duì)通常會(huì)為解決該問(wèn)題而組織起來(lái)扒腕。當(dāng)不同的人看到問(wèn)題的不同方面時(shí),困難就來(lái)了萤悴。運(yùn)維人員將擔(dān)心可靠性瘾腰,您會(huì)得到一個(gè)問(wèn)題。在一定時(shí)間內(nèi)給出答案覆履。數(shù)據(jù)科學(xué)人員傾向于關(guān)注答案的準(zhǔn)確性蹋盆。您已經(jīng)有些分歧了,但是如果他們?cè)噲D解決相同的問(wèn)題并且他們?cè)敢馔讌f(xié)關(guān)于如何解決這個(gè)問(wèn)題硝全,我認(rèn)為這是一個(gè)非常容易建立的社會(huì)結(jié)構(gòu)栖雾。”
DataOps角色
根據(jù)Goetz的說(shuō)法伟众,DataOps團(tuán)隊(duì)成員包括:
- 數(shù)據(jù)專(zhuān)家析藕,他們支持?jǐn)?shù)據(jù)格局和開(kāi)發(fā)最佳實(shí)踐
- 數(shù)據(jù)工程師,為BI凳厢,分析和業(yè)務(wù)應(yīng)用程序提供臨時(shí)和系統(tǒng)支持
- 首席數(shù)據(jù)工程師账胧,他們是從事產(chǎn)品和面向客戶(hù)的交付物的開(kāi)發(fā)人員
DataOps薪水
根據(jù)[PayScale的]數(shù)據(jù),以下是與DataOps相關(guān)的一些最受歡迎的職位以及每個(gè)職位的平均工資 :
- Analytics(分析)經(jīng)理:
127K
- 助理數(shù)據(jù)科學(xué)家:6萬(wàn)至10.2萬(wàn)美元
- 商業(yè)智能分析師:
95K
- 數(shù)據(jù)分析師:
85K
- 數(shù)據(jù)架構(gòu)師:
155K
- 數(shù)據(jù)工程師:
132K
- 數(shù)據(jù)科學(xué)家:
134K
- 數(shù)據(jù)科學(xué)家先紫,IT:6萬(wàn)美元至13.4萬(wàn)美元