數(shù)據(jù)治理101.1

數(shù)據(jù)治理的意義

在過去的幾年中,隨著中臺戰(zhàn)略被阿里提出管行。所有的公司都相應的緊跟步伐厨埋,建立了各種中臺。而其中數(shù)據(jù)中臺是最為津津樂道捐顷,也是被放在最核心的中臺建設(shè)荡陷。在我看來數(shù)據(jù)中臺并非對應著新的數(shù)據(jù)技術(shù),而是一改之前以技術(shù)為主要推動力的數(shù)據(jù)管理方式迅涮,轉(zhuǎn)而改為由業(yè)務賦能的為主要推動力的管理方式废赞。是一個從重視數(shù)據(jù)收集與計算到重視數(shù)據(jù)應用的轉(zhuǎn)變。
隨著越來越多的數(shù)據(jù)被存儲下來叮姑,管理數(shù)據(jù)的成本變得越來越高唉地,如何高效的使用這些數(shù)據(jù),如何為自己的數(shù)據(jù)資產(chǎn)定價都是現(xiàn)在應用數(shù)據(jù)時所面臨的難題传透。以此為出發(fā)點耘沼,對現(xiàn)有的大數(shù)據(jù)工具做一份整體的研究與分析。希望對于剛剛接觸這個行業(yè)的人朱盐,有所裨益群嗤。

產(chǎn)業(yè)地圖

產(chǎn)業(yè)地圖.png

首先我們先來看看現(xiàn)在整體大數(shù)據(jù)技術(shù)的產(chǎn)品的版圖。在之后的文章中兵琳,我們會對不同的產(chǎn)品進行測評與分析狂秘。由于筆者自身的理解有限骇径,不足之處希望大家可以指正。大數(shù)據(jù)的技術(shù)發(fā)展至今者春,各個方面的開源工具已經(jīng)趨于完善破衔,并且隨著新的技術(shù)的出現(xiàn)圍繞新的技術(shù)而展開的升級換代也催生出了一系列的大型公司。在筆者看來钱烟,有三個原動力在推進這個方面的變革 :

  1. 云計算
    云計算的出現(xiàn)使得構(gòu)建一個大數(shù)據(jù)的服務變得簡單运敢,同時由于維護一個分布式系統(tǒng)的難度,使得將大數(shù)據(jù)的服務托管于云服務上的選擇變得越來越為主流忠售。也正因為如此,云計算廠商不斷推出自己的云服務來滿足企業(yè)對于大數(shù)據(jù)的需求迄沫。這其中最為著名的便是AWS的S3的服務稻扬。一定程度上在AWS的使用場景里,幾乎都會選擇用S3來替代HDFS的存儲羊瘩。
  2. 大規(guī)模異構(gòu)場景的出現(xiàn)
    自從Hadoop出現(xiàn)之后泰佳,新的計算與存儲的項目便如雨后春筍般的崛起。比如用于搜索的Elasticsearch, OLAP場景的Greenplum, AWS的S3尘吗。而因為為了不同場景所建立的不同的項目逝她,使得大部分現(xiàn)在大數(shù)據(jù)平臺在存儲與計算中都存在異構(gòu)的問題。所以原來在RDBMS場景中需要的工具睬捶,又需要在新的異構(gòu)場景下重新的實現(xiàn)一遍黔宛。最直接的例子就是基于SQL的一整套工具,比如Hive, Presto等擒贸。
  3. 人工智能的使用更加的頻繁
    AI的廣泛使用也催生了大數(shù)據(jù)工具的完善臀晃,因為絕大部分的算法任務都對于數(shù)據(jù)有著較強的依賴,尤其是在準備訓練數(shù)據(jù)的時候介劫。同時算法也緊密的結(jié)合在了現(xiàn)在新的ETL的過程當中徽惋,這就對于原有的數(shù)據(jù)開發(fā)工具也提出了新的改造的需求。

在這三方面的共同推動下座韵,如今圍繞大數(shù)據(jù)的工具已經(jīng)越加趨于穩(wěn)定险绘。隨著底層應用的穩(wěn)定,以及越來越多的數(shù)據(jù)被收集誉碴,數(shù)據(jù)治理的問題被提到越來越高的位置宦棺。而數(shù)據(jù)中臺的建設(shè),也可以被理解為是數(shù)據(jù)治理的貫徹翔烁。數(shù)據(jù)治理需要配合公司自身的戰(zhàn)略進行渺氧,同時也需要有技術(shù)的工具作為支持。當前數(shù)據(jù)治理的工具要么來自于商業(yè)公司蹬屹,比如informatica, Oracle侣背,要么來自于云服務商AWS, 阿里云等白华。對于大部分的小型公司來說,要么需要找到對于大數(shù)據(jù)產(chǎn)品非常熟悉的專家自己拼裝一個數(shù)據(jù)治理系統(tǒng)贩耐,要么就需要與云服務商強綁定弧腥。所以筆者認為未來在這個版圖中會繼續(xù)崛起新的開源數(shù)據(jù)治理的方案。

功能對比

Screen Shot 2020-05-27 at 11.56.13 AM.png

對于現(xiàn)有的數(shù)據(jù)治理產(chǎn)品做一個梳理潮太,我們可以得到上圖所示的功能的對比管搪。在之后的介紹中,我們會優(yōu)先介紹數(shù)據(jù)治理包含的內(nèi)容铡买,之后再選取對應的技術(shù)與工具進行分析更鲁。因為很多數(shù)據(jù)治理的工具是商業(yè)產(chǎn)品,并不對外開放奇钞,因此我們會將更多的精力放在開源項目中澡为。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市景埃,隨后出現(xiàn)的幾起案子媒至,更是在濱河造成了極大的恐慌,老刑警劉巖谷徙,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拒啰,死亡現(xiàn)場離奇詭異,居然都是意外死亡完慧,警方通過查閱死者的電腦和手機谋旦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來骗随,“玉大人蛤织,你說我怎么就攤上這事『枞荆” “怎么了指蚜?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長涨椒。 經(jīng)常有香客問我摊鸡,道長,這世上最難降的妖魔是什么蚕冬? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任免猾,我火速辦了婚禮,結(jié)果婚禮上囤热,老公的妹妹穿的比我還像新娘猎提。我一直安慰自己,他們只是感情好旁蔼,可當我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布锨苏。 她就那樣靜靜地躺著疙教,像睡著了一般。 火紅的嫁衣襯著肌膚如雪伞租。 梳的紋絲不亂的頭發(fā)上贞谓,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天,我揣著相機與錄音葵诈,去河邊找鬼裸弦。 笑死,一個胖子當著我的面吹牛作喘,可吹牛的內(nèi)容都是我干的理疙。 我是一名探鬼主播,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼泞坦,長吁一口氣:“原來是場噩夢啊……” “哼沪斟!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起暇矫,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎择吊,沒想到半個月后李根,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡几睛,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年房轿,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片所森。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡囱持,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出焕济,到底是詐尸還是另有隱情纷妆,我是刑警寧澤,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布晴弃,位于F島的核電站掩幢,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏上鞠。R本人自食惡果不足惜际邻,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望芍阎。 院中可真熱鬧世曾,春花似錦、人聲如沸谴咸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蕊程,卻和暖如春椒袍,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背藻茂。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工驹暑, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人辨赐。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓优俘,卻偏偏與公主長得像,于是被迫代替她去往敵國和親掀序。 傳聞我的和親對象是個殘疾皇子帆焕,可洞房花燭夜當晚...
    茶點故事閱讀 44,927評論 2 355