數(shù)據(jù)湖需要具備的基本特性:
1宪肖、 數(shù)據(jù)湖需要提供足夠用的數(shù)據(jù)存儲(chǔ)能力,這個(gè)存儲(chǔ)保存了一個(gè)企業(yè)/組織中的所有數(shù)據(jù)濒生。
2埋泵、 數(shù)據(jù)湖可以存儲(chǔ)海量的任意類型的數(shù)據(jù),包括結(jié)構(gòu)化罪治、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)秋泄。
3琐馆、 數(shù)據(jù)湖中的數(shù)據(jù)是原始數(shù)據(jù),是業(yè)務(wù)數(shù)據(jù)的完整副本恒序。數(shù)據(jù)湖中的數(shù)據(jù)保持了他們?cè)跇I(yè)務(wù)系統(tǒng)中原來的樣子瘦麸。
4、 數(shù)據(jù)湖需要具備完善的數(shù)據(jù)管理能力(完善的元數(shù)據(jù))歧胁,可以管理各類數(shù)據(jù)相關(guān)的要素滋饲,包括數(shù)據(jù)源、數(shù)據(jù)格式喊巍、連接信息屠缭、數(shù)據(jù)schema、權(quán)限管理等崭参。
5呵曹、 數(shù)據(jù)湖需要具備多樣化的分析能力,包括但不限于批處理何暮、流式計(jì)算奄喂、交互式分析以及機(jī)器學(xué)習(xí);同時(shí)海洼,還需要提供一定的任務(wù)調(diào)度和管理能力跨新。
6、 數(shù)據(jù)湖需要具備完善的數(shù)據(jù)生命周期管理能力坏逢。不光需要存儲(chǔ)原始數(shù)據(jù)域帐,還需要能夠保存各類分析處理的中間結(jié)果,并完整的記錄數(shù)據(jù)的分析處理過程是整,能幫助用戶完整詳細(xì)追溯任意一條數(shù)據(jù)的產(chǎn)生過程肖揣。
7、 數(shù)據(jù)湖需要具備完善的數(shù)據(jù)獲取和數(shù)據(jù)發(fā)布能力浮入。數(shù)據(jù)湖需要能支撐各種各樣的數(shù)據(jù)源许饿,并能從相關(guān)的數(shù)據(jù)源中獲取全量/增量數(shù)據(jù);然后規(guī)范存儲(chǔ)舵盈。數(shù)據(jù)湖能將數(shù)據(jù)分析處理的結(jié)果推送到合適的存儲(chǔ)引擎中陋率,滿足不同的應(yīng)用訪問需求。
8秽晚、 對(duì)于大數(shù)據(jù)的支持瓦糟,包括超大規(guī)模存儲(chǔ)以及可擴(kuò)展的大規(guī)模數(shù)據(jù)處理能力。
數(shù)據(jù)湖是一種不斷演進(jìn)中赴蝇、可擴(kuò)展的大數(shù)據(jù)存儲(chǔ)菩浙、處理、分析的基礎(chǔ)設(shè)施;以數(shù)據(jù)為導(dǎo)向劲蜻,實(shí)現(xiàn)任意來源陆淀、任意速度、任意規(guī)模先嬉、任意類型數(shù)據(jù)的全量獲取轧苫、全量存儲(chǔ)、多模式處理與全生命周期管理疫蔓;并通過與各類外部異構(gòu)數(shù)據(jù)源的交互集成含懊,支持各類企業(yè)級(jí)應(yīng)用。
1)可擴(kuò)展是指規(guī)模的可擴(kuò)展和能力的可擴(kuò)展衅胀,即數(shù)據(jù)湖不但要能夠隨著數(shù)據(jù)量的增大岔乔,提供“足夠”的存儲(chǔ)和計(jì)算能力;還需要根據(jù)需要不斷提供新的數(shù)據(jù)處理模式滚躯,例如可能一開始業(yè)務(wù)只需要批處理能力雏门,但隨著業(yè)務(wù)的發(fā)展,可能需要交互式的即席分析能力掸掏;又隨著業(yè)務(wù)的實(shí)效性要求不斷提升茁影,可能需要支持實(shí)時(shí)分析和機(jī)器學(xué)習(xí)等豐富的能力。
2)以數(shù)據(jù)為導(dǎo)向阅束,是指數(shù)據(jù)湖對(duì)于用戶來說要足夠的簡單、易用茄唐,幫助用戶從復(fù)雜的IT基礎(chǔ)設(shè)施運(yùn)維工作中解脫出來息裸,關(guān)注業(yè)務(wù)、關(guān)注模型沪编、關(guān)注算法呼盆、關(guān)注數(shù)據(jù)。數(shù)據(jù)湖面向的是數(shù)據(jù)科學(xué)家蚁廓、分析師访圃。目前來看,云原生應(yīng)該是構(gòu)建數(shù)據(jù)湖的一種比較理想的構(gòu)建方式相嵌。