在Gartner 2018年發(fā)布的數(shù)據(jù)管理成熟度曲線(圖1)中嗅剖,首次出現(xiàn)了一個(gè)新名詞:DataOps。DataOps看上去和DevOps名字很相似,他們兩者有什么樣的關(guān)系夭谤,又有什么樣的區(qū)別呢傍睹。網(wǎng)絡(luò)上關(guān)于DataOps的介紹并不多隔盛,本文簡(jiǎn)要講述了什么是DataOps犹菱,DataOps的特點(diǎn)以及實(shí)踐案例,并提出筆者對(duì)這項(xiàng)全新技術(shù)趨勢(shì)的一些期望吮炕。
什么是DataOps
DataOps(數(shù)據(jù)操作運(yùn)營(yíng))腊脱,可以認(rèn)為是從另一個(gè)更為有名的概念“DevOps”衍生而來(lái)。 DevOps作為一個(gè)IT方法論龙亲,出現(xiàn)已經(jīng)有好些年陕凹,其目的是整合軟件的開(kāi)發(fā)和運(yùn)營(yíng)工作,提高應(yīng)用程序構(gòu)建和部署過(guò)程中的自動(dòng)化水平鳄炉。實(shí)施DevOps實(shí)踐的企業(yè)認(rèn)為杜耙,如果軟件開(kāi)發(fā)人員和操作運(yùn)營(yíng)人員工作中緊密合作,那么拂盯,應(yīng)用程序的構(gòu)建和部署工作將會(huì)速度更快泥技,成本更低,軟件靈活性更高磕仅,交付時(shí)間更短珊豹。
許多年過(guò)去了,DevOps曾經(jīng)的承諾都實(shí)現(xiàn)了嗎榕订,一個(gè)不容回避的現(xiàn)實(shí)是:DevOps方法似乎對(duì)大數(shù)據(jù)考慮不足店茶。大數(shù)據(jù)和人工智能已經(jīng)成為當(dāng)前大型企業(yè)采用的發(fā)展戰(zhàn)略重要組成,考慮如何管理和部署基于大數(shù)據(jù)的應(yīng)用系統(tǒng)則成為企業(yè)IT部門(mén)的重點(diǎn)工作劫恒。相對(duì)于DevOps方法論重點(diǎn)關(guān)注應(yīng)用程序和軟件工程贩幻,DataOps的提出,則把對(duì)數(shù)據(jù)的考慮放在的最重要位置上两嘴。
維基百科上對(duì)DataOps的定義是丛楚,DataOps是一種面向流程的自動(dòng)化方法,由分析和數(shù)據(jù)團(tuán)隊(duì)使用憔辫,旨在提高質(zhì)量并縮短數(shù)據(jù)分析的周期趣些。對(duì)于DevOps,維基百科上的定義是贰您,DevOps是一組過(guò)程坏平、方法與系統(tǒng)的統(tǒng)稱(chēng),用于促進(jìn)開(kāi)發(fā)锦亦、技術(shù)運(yùn)營(yíng)和質(zhì)量保障(QA)部門(mén)之間的溝通舶替、協(xié)作與整合。
從定義上可以看出杠园,DataOps的目標(biāo)是提高數(shù)據(jù)分析的質(zhì)量顾瞪,縮短數(shù)據(jù)分析周期。而DevOps的目標(biāo)是按時(shí)交付軟件產(chǎn)品和服務(wù),讓開(kāi)發(fā)和運(yùn)營(yíng)工作緊密結(jié)合陈醒√璩龋可見(jiàn),DataOps關(guān)注數(shù)據(jù)和分析孵延,DevOps更重視產(chǎn)品和服務(wù)。
DataOps的特點(diǎn)
與DevOps不同的是亲配,在DataOps實(shí)踐中尘应,數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家成為了重要角色,并和軟件開(kāi)發(fā)吼虎、運(yùn)營(yíng)人員一起合作犬钢,完成以數(shù)據(jù)為中心的應(yīng)用系統(tǒng)或程序的開(kāi)發(fā)和部署。DataOps可以認(rèn)為是DevOps的升級(jí)版思灰,目標(biāo)是在IT實(shí)踐中提高系統(tǒng)或應(yīng)用構(gòu)建的可重復(fù)性玷犹、靈活性、自動(dòng)化洒疚,同時(shí)提高數(shù)據(jù)分析的質(zhì)量歹颓。
企業(yè)運(yùn)用DevOps實(shí)踐,會(huì)有效降低應(yīng)用程序發(fā)布的風(fēng)險(xiǎn)油湖。與傳統(tǒng)的瀑布式開(kāi)發(fā)模型相比巍扛,采用敏捷或迭代式開(kāi)發(fā)意味著更頻繁的發(fā)布和部署,每次發(fā)布的程序包變化更小乏德,有問(wèn)題更容易回滾到上一個(gè)正確版本撤奸。除了繼承以上優(yōu)勢(shì)外,相比DevOps喊括,DataOps方法更重視基于大數(shù)據(jù)的數(shù)據(jù)分析工作胧瓜。以數(shù)據(jù)為中心的應(yīng)用程序一個(gè)最典型特征就是對(duì)機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用,DataOps實(shí)踐則需要充分考慮對(duì)機(jī)器學(xué)習(xí)類(lèi)應(yīng)用需求的支持郑什。
DevOps重視開(kāi)發(fā)與運(yùn)營(yíng)人員的協(xié)作府喳,使開(kāi)發(fā)工作與業(yè)務(wù)目標(biāo)更加一致,并且利用一些自動(dòng)化部署工具來(lái)確保交付工作的高效率和可管理性蘑拯。它更強(qiáng)調(diào)具有一個(gè)跨職能團(tuán)隊(duì)劫拢,能夠跨越技能領(lǐng)域如運(yùn)營(yíng)、軟件工程强胰、架構(gòu)舱沧、規(guī)劃以及產(chǎn)品管理等。而DataOps將數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師角色增加進(jìn)來(lái)偶洋,讓?xiě)?yīng)用開(kāi)發(fā)人員熟吏、運(yùn)營(yíng)人員和數(shù)據(jù)專(zhuān)家之間的協(xié)作和溝通更順暢。
DataOps應(yīng)用實(shí)踐
DataOps作為一個(gè)新生概念,網(wǎng)絡(luò)上該方面應(yīng)用案例還很少牵寺。2018年5月第九屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì)(DTCC)上悍引,阿里公司專(zhuān)家介紹了其海量大數(shù)據(jù)平臺(tái)的運(yùn)維智能化實(shí)踐,他將DataOps歸為DevOps和AIOps中間的一個(gè)階段帽氓,認(rèn)為DataOps中最核心的過(guò)程就是運(yùn)維感知趣斤、決策和執(zhí)行,而終極的AIOps則是無(wú)人運(yùn)維黎休。
在案例中浓领,阿里對(duì)DataOps的定義是:把所有系統(tǒng)的運(yùn)維數(shù)據(jù)全部采集起來(lái)、真正打通势腮,深度挖掘這些數(shù)據(jù)的價(jià)值联贩,為運(yùn)維提供數(shù)據(jù)決策基礎(chǔ)和依賴(lài)。從系統(tǒng)“穩(wěn)定性捎拯、成本泪幌、效率、安全”多個(gè)維度去驅(qū)動(dòng)自動(dòng)化署照、智能化的運(yùn)維運(yùn)營(yíng)祸泪,從而助力實(shí)現(xiàn)真正的AIOps。
阿里案例中的DataOps實(shí)踐建芙,更側(cè)重于運(yùn)維階段工作浴滴,目標(biāo)是用數(shù)據(jù)驅(qū)動(dòng)運(yùn)維工作,相比于傳統(tǒng)運(yùn)維岁钓,此處所講的DataOps主要是指將傳統(tǒng)使用命令升略、人工決策的運(yùn)維過(guò)程轉(zhuǎn)變成數(shù)據(jù)加算法的自動(dòng)化運(yùn)維模式。
對(duì)DataOps的期望
DataOps概念提出時(shí)間并不長(zhǎng)屡限,但已經(jīng)引起一些行業(yè)關(guān)注品嚣,既然企業(yè)運(yùn)用DataOps實(shí)踐的目的在于提高數(shù)據(jù)分析質(zhì)量,縮短數(shù)據(jù)分析周期钧大。 因此翰撑,我們提出以下一些對(duì)DataOps的期望。
一是支持大數(shù)據(jù)應(yīng)用快速部署啊央。包括底層基礎(chǔ)數(shù)據(jù)平臺(tái)和上層應(yīng)用程序眶诈,部署新的系統(tǒng)或功能模塊都應(yīng)該保持類(lèi)似DevOps方法論中的敏捷性。在工程實(shí)現(xiàn)階段瓜饥,應(yīng)該能快速將訓(xùn)練好的算法模型部署到應(yīng)用程序中逝撬。此外,基于大數(shù)據(jù)的各類(lèi)基礎(chǔ)設(shè)施和算法框架應(yīng)能支持整合到系統(tǒng)中乓土,為上層數(shù)據(jù)分析和智能化應(yīng)用程序提供算力和算法支持宪潮。
二是實(shí)現(xiàn)用數(shù)據(jù)驅(qū)動(dòng)運(yùn)維工作溯警。從數(shù)據(jù)中可以挖掘出大量有價(jià)值信息,在DevOps階段里狡相,只是實(shí)現(xiàn)了手工運(yùn)維和自動(dòng)化運(yùn)維梯轻,在新的DataOps階段,基于大量數(shù)據(jù)尽棕,完全有能力通過(guò)對(duì)數(shù)據(jù)的挖掘分析喳挑,用數(shù)據(jù)來(lái)驅(qū)動(dòng)運(yùn)維工作的自動(dòng)化、智能化執(zhí)行滔悉。在下一個(gè)階段伊诵,也許真正能實(shí)現(xiàn)以AI驅(qū)動(dòng)的人工智能運(yùn)維,即AIOps氧敢。
三是數(shù)據(jù)安全和質(zhì)量可控日戈。對(duì)數(shù)據(jù)給予極大關(guān)注是DataOps最典型區(qū)別于DevOps之處询张,在DataOps實(shí)踐中孙乖,數(shù)據(jù)應(yīng)當(dāng)?shù)玫接行У闹卫恚瑪?shù)據(jù)的安全性份氧,質(zhì)量和完整性應(yīng)該得以保障唯袄,所有數(shù)據(jù)都能夠在安全環(huán)境下以受控的方式進(jìn)行管理。畢竟蜗帜,掌握高質(zhì)量和安全可控的數(shù)據(jù)才是開(kāi)展大數(shù)據(jù)分析的前提恋拷。
簡(jiǎn)而言之,我們期望通過(guò)DataOps實(shí)踐厅缺,在應(yīng)用開(kāi)發(fā)蔬顾、數(shù)據(jù)分析到生產(chǎn)環(huán)境部署全流程中,開(kāi)發(fā)湘捎、運(yùn)營(yíng)诀豁、質(zhì)量、數(shù)據(jù)分析人員通力協(xié)作窥妇,實(shí)現(xiàn)快速部署交付的目標(biāo)舷胜,同時(shí)在這個(gè)過(guò)程中,能夠?qū)崿F(xiàn)基于數(shù)據(jù)驅(qū)動(dòng)的運(yùn)維自動(dòng)化活翩,數(shù)據(jù)質(zhì)量和安全性得到有效管控烹骨。
結(jié)語(yǔ)
數(shù)字化轉(zhuǎn)型大潮下,挖掘數(shù)據(jù)價(jià)值越發(fā)重要材泄,大數(shù)據(jù)成為企業(yè)的寶藏沮焕,DataOps作為一種新的數(shù)據(jù)管理趨勢(shì),還屬于沒(méi)有任何標(biāo)準(zhǔn)或框架的新概念拉宗,唯一明確的是遇汞,它更側(cè)重于對(duì)數(shù)據(jù)的關(guān)注。與DevOps相似,DataOps不應(yīng)該是一種教條的理論空入,而應(yīng)該是一種基于原則的實(shí)踐络它。不久的將來(lái),業(yè)界成熟的DataOps實(shí)踐歪赢,可能會(huì)成為企業(yè)在制定信息化戰(zhàn)略過(guò)程中的重要參考化戳。
來(lái)源:中國(guó)信息產(chǎn)業(yè)網(wǎng)