數(shù)據(jù)湖(01)——什么是數(shù)據(jù)湖 Data Lake 笆呆?
背景:隨著近幾年機器學(xué)習(xí)的興起對數(shù)據(jù)的需求更加靈活请琳,如果從數(shù)據(jù)倉庫中提數(shù)會有一些問題。比如:數(shù)據(jù)都是結(jié)構(gòu)化的(做算法的經(jīng)常要理解數(shù)倉模型赠幕,甚至要深入到做了什么業(yè)務(wù)處理俄精,很多處理都不是他們想要的);數(shù)據(jù)是經(jīng)過處理的可能并不是算法想要的結(jié)果榕堰;算法同學(xué)與數(shù)倉開發(fā)同學(xué)溝通成本較大等竖慧。
數(shù)據(jù)湖定義:
是一個以原始格式(通常是對象塊或文件)存儲數(shù)據(jù)的系統(tǒng)或存儲庫。數(shù)據(jù)湖通常是所有企業(yè)數(shù)據(jù)的單一存儲逆屡。用于報告圾旨、可視化、高級分析和機器學(xué)習(xí)等任務(wù)康二。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)(行和列)碳胳、半結(jié)構(gòu)化數(shù)據(jù)(CSV、日志沫勿、XML、JSON)味混、非結(jié)構(gòu)化數(shù)據(jù)(電子郵件产雹、文檔、pdf)和二進(jìn)制數(shù)據(jù)(圖像翁锡、音頻蔓挖、視頻)。
數(shù)據(jù)湖的特點
1馆衔、原始格式
數(shù)據(jù)倉庫里是瓶裝的水——清潔的瘟判、打包好的、擺放整齊方便取用的角溃;數(shù)據(jù)湖是原生態(tài)的水——它是未經(jīng)處理的拷获,原汁原味的。
2减细、單一存儲
存儲庫中會匯總多種數(shù)據(jù)源匆瓜,是一個單一庫。是由多個數(shù)據(jù)湖填充而成的水上花園(Water Garden)多個系統(tǒng)的數(shù)據(jù)進(jìn)行關(guān)聯(lián)不是數(shù)據(jù)湖未蝌。
3驮吱、多用途
用于報告、可視化萧吠、高級分析和機器學(xué)習(xí)左冬。數(shù)據(jù)湖中的水從源頭流入湖中,各種用戶都可以來湖里獲取纸型、蒸餾提純這些水(數(shù)據(jù))
數(shù)據(jù)湖的優(yōu)勢
1拇砰、輕松地收集數(shù)據(jù):Schema On Read
2九昧、從數(shù)據(jù)中發(fā)掘更多價值,更適用于機器學(xué)習(xí)
3毕匀、消除數(shù)據(jù)孤島
4铸鹰、具有更好的擴(kuò)展性和敏捷性
數(shù)據(jù)湖和數(shù)據(jù)倉庫的對比
綜述:
數(shù)據(jù)倉庫是一個優(yōu)化的數(shù)據(jù)庫,用于分析來自事務(wù)系統(tǒng)和業(yè)務(wù)線應(yīng)用程序的關(guān)系數(shù)據(jù)皂岔。事先定義數(shù)據(jù)結(jié)構(gòu)和 Schema 以優(yōu)化快速 SQL 查詢蹋笼,其中結(jié)果通常用于操作報告和分析。數(shù)據(jù)經(jīng)過了清理躁垛、豐富和轉(zhuǎn)換剖毯,因此可以充當(dāng)用戶可信任的“單一信息源”。
數(shù)據(jù)湖有所不同教馆,因為它存儲來自業(yè)務(wù)線應(yīng)用程序的關(guān)系數(shù)據(jù)逊谋,以及來自移動應(yīng)用程序、IoT 設(shè)備和社交媒體的非關(guān)系數(shù)據(jù)土铺。捕獲數(shù)據(jù)時胶滋,未定義數(shù)據(jù)結(jié)構(gòu)或 Schema。這意味著您可以存儲所有數(shù)據(jù)悲敷,而不需要精心設(shè)計也無需知道將來您可能需要哪些問題的答案究恤。您可以對數(shù)據(jù)使用不同類型的分析(如 SQL 查詢、大數(shù)據(jù)分析后德、全文搜索部宿、實時分析和機器學(xué)習(xí))來獲得見解。
數(shù)據(jù)湖并不能替代數(shù)據(jù)倉庫瓢湃,數(shù)據(jù)倉庫在高效的報表和可視化分析中仍有優(yōu)勢理张。
說明:圖片和文字部分來自亞馬遜和網(wǎng)絡(luò),由作者整理绵患。