數(shù)據(jù)治理的意義
在過去的幾年中,隨著中臺戰(zhàn)略被阿里提出管行。所有的公司都相應的緊跟步伐厨埋,建立了各種中臺。而其中數(shù)據(jù)中臺是最為津津樂道捐顷,也是被放在最核心的中臺建設(shè)荡陷。在我看來數(shù)據(jù)中臺并非對應著新的數(shù)據(jù)技術(shù),而是一改之前以技術(shù)為主要推動力的數(shù)據(jù)管理方式迅涮,轉(zhuǎn)而改為由業(yè)務賦能的為主要推動力的管理方式废赞。是一個從重視數(shù)據(jù)收集與計算到重視數(shù)據(jù)應用的轉(zhuǎn)變。
隨著越來越多的數(shù)據(jù)被存儲下來叮姑,管理數(shù)據(jù)的成本變得越來越高唉地,如何高效的使用這些數(shù)據(jù),如何為自己的數(shù)據(jù)資產(chǎn)定價都是現(xiàn)在應用數(shù)據(jù)時所面臨的難題传透。以此為出發(fā)點耘沼,對現(xiàn)有的大數(shù)據(jù)工具做一份整體的研究與分析。希望對于剛剛接觸這個行業(yè)的人朱盐,有所裨益群嗤。
產(chǎn)業(yè)地圖
首先我們先來看看現(xiàn)在整體大數(shù)據(jù)技術(shù)的產(chǎn)品的版圖。在之后的文章中兵琳,我們會對不同的產(chǎn)品進行測評與分析狂秘。由于筆者自身的理解有限骇径,不足之處希望大家可以指正。大數(shù)據(jù)的技術(shù)發(fā)展至今者春,各個方面的開源工具已經(jīng)趨于完善破衔,并且隨著新的技術(shù)的出現(xiàn)圍繞新的技術(shù)而展開的升級換代也催生出了一系列的大型公司。在筆者看來钱烟,有三個原動力在推進這個方面的變革 :
- 云計算
云計算的出現(xiàn)使得構(gòu)建一個大數(shù)據(jù)的服務變得簡單运敢,同時由于維護一個分布式系統(tǒng)的難度,使得將大數(shù)據(jù)的服務托管于云服務上的選擇變得越來越為主流忠售。也正因為如此,云計算廠商不斷推出自己的云服務來滿足企業(yè)對于大數(shù)據(jù)的需求迄沫。這其中最為著名的便是AWS的S3的服務稻扬。一定程度上在AWS的使用場景里,幾乎都會選擇用S3來替代HDFS的存儲羊瘩。 - 大規(guī)模異構(gòu)場景的出現(xiàn)
自從Hadoop出現(xiàn)之后泰佳,新的計算與存儲的項目便如雨后春筍般的崛起。比如用于搜索的Elasticsearch, OLAP場景的Greenplum, AWS的S3尘吗。而因為為了不同場景所建立的不同的項目逝她,使得大部分現(xiàn)在大數(shù)據(jù)平臺在存儲與計算中都存在異構(gòu)的問題。所以原來在RDBMS場景中需要的工具睬捶,又需要在新的異構(gòu)場景下重新的實現(xiàn)一遍黔宛。最直接的例子就是基于SQL的一整套工具,比如Hive, Presto等擒贸。 - 人工智能的使用更加的頻繁
AI的廣泛使用也催生了大數(shù)據(jù)工具的完善臀晃,因為絕大部分的算法任務都對于數(shù)據(jù)有著較強的依賴,尤其是在準備訓練數(shù)據(jù)的時候介劫。同時算法也緊密的結(jié)合在了現(xiàn)在新的ETL的過程當中徽惋,這就對于原有的數(shù)據(jù)開發(fā)工具也提出了新的改造的需求。
在這三方面的共同推動下座韵,如今圍繞大數(shù)據(jù)的工具已經(jīng)越加趨于穩(wěn)定险绘。隨著底層應用的穩(wěn)定,以及越來越多的數(shù)據(jù)被收集誉碴,數(shù)據(jù)治理的問題被提到越來越高的位置宦棺。而數(shù)據(jù)中臺的建設(shè),也可以被理解為是數(shù)據(jù)治理的貫徹翔烁。數(shù)據(jù)治理需要配合公司自身的戰(zhàn)略進行渺氧,同時也需要有技術(shù)的工具作為支持。當前數(shù)據(jù)治理的工具要么來自于商業(yè)公司蹬屹,比如informatica, Oracle侣背,要么來自于云服務商AWS, 阿里云等白华。對于大部分的小型公司來說,要么需要找到對于大數(shù)據(jù)產(chǎn)品非常熟悉的專家自己拼裝一個數(shù)據(jù)治理系統(tǒng)贩耐,要么就需要與云服務商強綁定弧腥。所以筆者認為未來在這個版圖中會繼續(xù)崛起新的開源數(shù)據(jù)治理的方案。
功能對比
對于現(xiàn)有的數(shù)據(jù)治理產(chǎn)品做一個梳理潮太,我們可以得到上圖所示的功能的對比管搪。在之后的介紹中,我們會優(yōu)先介紹數(shù)據(jù)治理包含的內(nèi)容铡买,之后再選取對應的技術(shù)與工具進行分析更鲁。因為很多數(shù)據(jù)治理的工具是商業(yè)產(chǎn)品,并不對外開放奇钞,因此我們會將更多的精力放在開源項目中澡为。