數(shù)據(jù)湖(01)——什么是數(shù)據(jù)湖 Data Lake?

數(shù)據(jù)湖(01)——什么是數(shù)據(jù)湖 Data Lake 笆呆?

背景:隨著近幾年機器學(xué)習(xí)的興起對數(shù)據(jù)的需求更加靈活请琳,如果從數(shù)據(jù)倉庫中提數(shù)會有一些問題。比如:數(shù)據(jù)都是結(jié)構(gòu)化的(做算法的經(jīng)常要理解數(shù)倉模型赠幕,甚至要深入到做了什么業(yè)務(wù)處理俄精,很多處理都不是他們想要的);數(shù)據(jù)是經(jīng)過處理的可能并不是算法想要的結(jié)果榕堰;算法同學(xué)與數(shù)倉開發(fā)同學(xué)溝通成本較大等竖慧。


數(shù)據(jù)湖定義:

是一個以原始格式(通常是對象塊或文件)存儲數(shù)據(jù)的系統(tǒng)或存儲庫。數(shù)據(jù)湖通常是所有企業(yè)數(shù)據(jù)的單一存儲逆屡。用于報告圾旨、可視化、高級分析和機器學(xué)習(xí)等任務(wù)康二。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)(行和列)碳胳、半結(jié)構(gòu)化數(shù)據(jù)(CSV、日志沫勿、XML、JSON)味混、非結(jié)構(gòu)化數(shù)據(jù)(電子郵件产雹、文檔、pdf)和二進(jìn)制數(shù)據(jù)(圖像翁锡、音頻蔓挖、視頻)。

數(shù)據(jù)湖的特點

1馆衔、原始格式

數(shù)據(jù)倉庫里是瓶裝的水——清潔的瘟判、打包好的、擺放整齊方便取用的角溃;數(shù)據(jù)湖是原生態(tài)的水——它是未經(jīng)處理的拷获,原汁原味的。

2减细、單一存儲

存儲庫中會匯總多種數(shù)據(jù)源匆瓜,是一個單一庫。是由多個數(shù)據(jù)湖填充而成的水上花園(Water Garden)多個系統(tǒng)的數(shù)據(jù)進(jìn)行關(guān)聯(lián)不是數(shù)據(jù)湖未蝌。

3驮吱、多用途

用于報告、可視化萧吠、高級分析和機器學(xué)習(xí)左冬。數(shù)據(jù)湖中的水從源頭流入湖中,各種用戶都可以來湖里獲取纸型、蒸餾提純這些水(數(shù)據(jù))

數(shù)據(jù)湖的優(yōu)勢

1拇砰、輕松地收集數(shù)據(jù):Schema On Read

2九昧、從數(shù)據(jù)中發(fā)掘更多價值,更適用于機器學(xué)習(xí)

3毕匀、消除數(shù)據(jù)孤島

4铸鹰、具有更好的擴(kuò)展性和敏捷性

數(shù)據(jù)湖和數(shù)據(jù)倉庫的對比


綜述:

數(shù)據(jù)倉庫是一個優(yōu)化的數(shù)據(jù)庫,用于分析來自事務(wù)系統(tǒng)和業(yè)務(wù)線應(yīng)用程序的關(guān)系數(shù)據(jù)皂岔。事先定義數(shù)據(jù)結(jié)構(gòu)和 Schema 以優(yōu)化快速 SQL 查詢蹋笼,其中結(jié)果通常用于操作報告和分析。數(shù)據(jù)經(jīng)過了清理躁垛、豐富和轉(zhuǎn)換剖毯,因此可以充當(dāng)用戶可信任的“單一信息源”。

數(shù)據(jù)湖有所不同教馆,因為它存儲來自業(yè)務(wù)線應(yīng)用程序的關(guān)系數(shù)據(jù)逊谋,以及來自移動應(yīng)用程序、IoT 設(shè)備和社交媒體的非關(guān)系數(shù)據(jù)土铺。捕獲數(shù)據(jù)時胶滋,未定義數(shù)據(jù)結(jié)構(gòu)或 Schema。這意味著您可以存儲所有數(shù)據(jù)悲敷,而不需要精心設(shè)計也無需知道將來您可能需要哪些問題的答案究恤。您可以對數(shù)據(jù)使用不同類型的分析(如 SQL 查詢、大數(shù)據(jù)分析后德、全文搜索部宿、實時分析和機器學(xué)習(xí))來獲得見解。

數(shù)據(jù)湖并不能替代數(shù)據(jù)倉庫瓢湃,數(shù)據(jù)倉庫在高效的報表和可視化分析中仍有優(yōu)勢理张。

說明:圖片和文字部分來自亞馬遜和網(wǎng)絡(luò),由作者整理绵患。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末雾叭,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子藏雏,更是在濱河造成了極大的恐慌拷况,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,311評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件掘殴,死亡現(xiàn)場離奇詭異赚瘦,居然都是意外死亡,警方通過查閱死者的電腦和手機奏寨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評論 2 382
  • 文/潘曉璐 我一進(jìn)店門起意,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人病瞳,你說我怎么就攤上這事揽咕”幔” “怎么了?”我有些...
    開封第一講書人閱讀 152,671評論 0 342
  • 文/不壞的土叔 我叫張陵亲善,是天一觀的道長设易。 經(jīng)常有香客問我,道長蛹头,這世上最難降的妖魔是什么顿肺? 我笑而不...
    開封第一講書人閱讀 55,252評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮渣蜗,結(jié)果婚禮上屠尊,老公的妹妹穿的比我還像新娘。我一直安慰自己耕拷,他們只是感情好讼昆,可當(dāng)我...
    茶點故事閱讀 64,253評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著骚烧,像睡著了一般浸赫。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上止潘,一...
    開封第一講書人閱讀 49,031評論 1 285
  • 那天掺炭,我揣著相機與錄音,去河邊找鬼凭戴。 笑死,一個胖子當(dāng)著我的面吹牛炕矮,可吹牛的內(nèi)容都是我干的么夫。 我是一名探鬼主播,決...
    沈念sama閱讀 38,340評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼肤视,長吁一口氣:“原來是場噩夢啊……” “哼档痪!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起邢滑,我...
    開封第一講書人閱讀 36,973評論 0 259
  • 序言:老撾萬榮一對情侶失蹤腐螟,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后困后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體乐纸,經(jīng)...
    沈念sama閱讀 43,466評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,937評論 2 323
  • 正文 我和宋清朗相戀三年摇予,在試婚紗的時候發(fā)現(xiàn)自己被綠了汽绢。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,039評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡侧戴,死狀恐怖宁昭,靈堂內(nèi)的尸體忽然破棺而出跌宛,到底是詐尸還是另有隱情,我是刑警寧澤积仗,帶...
    沈念sama閱讀 33,701評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站哎迄,受9級特大地震影響芬失,放射性物質(zhì)發(fā)生泄漏棱烂。R本人自食惡果不足惜颊糜,卻給世界環(huán)境...
    茶點故事閱讀 39,254評論 3 307
  • 文/蒙蒙 一衬鱼、第九天 我趴在偏房一處隱蔽的房頂上張望鸟赫。 院中可真熱鬧抛蚤,春花似錦寻狂、人聲如沸蛇券。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽啤誊。三九已至,卻和暖如春稚瘾,著一層夾襖步出監(jiān)牢的瞬間摊欠,已是汗流浹背柱宦。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工免糕, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留忧侧,地道東北人蚓炬。 一個月前我還...
    沈念sama閱讀 45,497評論 2 354
  • 正文 我出身青樓经宏,卻偏偏與公主長得像驯击,于是被迫代替她去往敵國和親余耽。 傳聞我的和親對象是個殘疾皇子苹熏,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,786評論 2 345

推薦閱讀更多精彩內(nèi)容