華為數(shù)據(jù)之道"數(shù)據(jù)谷解讀"之五 數(shù)據(jù)湖

書籍:華為公司數(shù)據(jù)管理部
文字來源:大數(shù)據(jù)DT
解讀: 數(shù)據(jù)智能谷

【解讀:業(yè)內(nèi)對數(shù)據(jù)整合存儲有很多稱呼羊异,比如數(shù)據(jù)倉庫、數(shù)據(jù)中臺捉撮、大數(shù)據(jù)怕品、數(shù)據(jù)中心等等。華為數(shù)據(jù)湖是個邏輯術(shù)語巾遭,也是存儲匯聚的企業(yè)數(shù)據(jù)肉康,表示數(shù)據(jù)自業(yè)務(wù)系統(tǒng)原始獲取未作轉(zhuǎn)換的保存】

01 華為數(shù)據(jù)湖的3個特點華為數(shù)據(jù)湖(如圖5-2所示)是邏輯上對內(nèi)外部的結(jié)構(gòu)化、非結(jié)構(gòu)化的原始數(shù)據(jù)的邏輯匯聚灼舍。數(shù)據(jù)入湖要遵從6項入湖標(biāo)準(zhǔn)吼和,基于6項標(biāo)準(zhǔn)保證入湖的質(zhì)量,同時面向不同的消費場景提供兩種入湖方式片仿,滿足數(shù)據(jù)消費的要求纹安。

圖5-2

▲圖5-2 數(shù)據(jù)湖總體視圖經(jīng)過近兩年的數(shù)據(jù)湖建設(shè),目前已經(jīng)完成1.2萬個邏輯數(shù)據(jù)實體砂豌、28萬個業(yè)務(wù)屬性的入湖厢岂,同時數(shù)據(jù)入湖在華為公司也形成了標(biāo)準(zhǔn)的流程規(guī)范,每個數(shù)據(jù)資產(chǎn)都要入湖成為數(shù)據(jù)工作的重要標(biāo)準(zhǔn)阳距。華為數(shù)據(jù)湖主要有以下幾個特點塔粒。
1. 邏輯統(tǒng)一
華為數(shù)據(jù)湖不是一個單一的物理存儲,而是根據(jù)數(shù)據(jù)類型筐摘、業(yè)務(wù)區(qū)域等由多個不同的物理存儲構(gòu)成卒茬,并通過統(tǒng)一的元數(shù)據(jù)語義層進(jìn)行定義、拉通和管理咖熟。
2. 類型多樣數(shù)據(jù)湖存放所有不同類型的數(shù)據(jù)圃酵,包括企業(yè)內(nèi)部IT系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)、業(yè)務(wù)交易和內(nèi)部管理的非結(jié)構(gòu)化的文本數(shù)據(jù)馍管、公司內(nèi)部園區(qū)各種傳感器檢測到的設(shè)備運行數(shù)據(jù)郭赐,以及外部的媒體數(shù)據(jù)等。
3. 原始記錄華為數(shù)據(jù)湖是對原始數(shù)據(jù)的匯聚确沸,不對數(shù)據(jù)做任何的轉(zhuǎn)換捌锭、清洗、加工等處理,保留數(shù)據(jù)最原始特征,為數(shù)據(jù)的加工和消費提供豐富的可能疫剃。

02 數(shù)據(jù)入湖的6個標(biāo)準(zhǔn)數(shù)據(jù)入湖是數(shù)據(jù)消費的基礎(chǔ),需要嚴(yán)格滿足入湖的6項標(biāo)準(zhǔn)豁状,包括明確數(shù)據(jù)Owner捉偏、發(fā)布數(shù)據(jù)標(biāo)準(zhǔn)、定義數(shù)據(jù)密級泻红、明確數(shù)據(jù)源告私、數(shù)據(jù)質(zhì)量評估、元數(shù)據(jù)注冊承桥。**通過這6項標(biāo)準(zhǔn)保證入湖的數(shù)據(jù)都有明確的業(yè)務(wù)責(zé)任人驻粟,各項數(shù)據(jù)都可理解,同時都能在相應(yīng)的信息安全保障下進(jìn)行消費凶异。

1. 明確數(shù)據(jù)Owner數(shù)據(jù)Owner由數(shù)據(jù)產(chǎn)生對應(yīng)的流程Owner擔(dān)任蜀撑,是所轄數(shù)據(jù)端到端管理的責(zé)任人,負(fù)責(zé)對入湖的數(shù)據(jù)定義數(shù)據(jù)標(biāo)準(zhǔn)和密級剩彬,承接數(shù)據(jù)消費中的數(shù)據(jù)質(zhì)量問題酷麦,并制定數(shù)據(jù)管理工作路標(biāo),持續(xù)提升數(shù)據(jù)質(zhì)量喉恋。
2. 發(fā)布數(shù)據(jù)標(biāo)準(zhǔn)入湖數(shù)據(jù)要有相應(yīng)的業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)沃饶。業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)描述公司層面需共同遵守的“屬性層”數(shù)據(jù)的含義和業(yè)務(wù)規(guī)則,是公司層面對某個數(shù)據(jù)的共同理解轻黑,這些理解一旦明確并發(fā)布糊肤,就需要作為標(biāo)準(zhǔn)在企業(yè)內(nèi)被共同遵守。數(shù)據(jù)標(biāo)準(zhǔn)的信息如表5-1所示氓鄙。▼表5-1 數(shù)據(jù)標(biāo)準(zhǔn)說明

表5-1

3. 認(rèn)證數(shù)據(jù)源通過認(rèn)證數(shù)據(jù)源馆揉,能夠確保數(shù)據(jù)從正確的數(shù)據(jù)源頭入湖。認(rèn)證數(shù)據(jù)源應(yīng)遵循公司數(shù)據(jù)源管理的要求抖拦,一般數(shù)據(jù)源是指業(yè)務(wù)上首次正式發(fā)布某項數(shù)據(jù)的應(yīng)用系統(tǒng)升酣,并經(jīng)過數(shù)據(jù)管理專業(yè)組織認(rèn)證。認(rèn)證過的數(shù)據(jù)源作為唯一數(shù)據(jù)源頭被數(shù)據(jù)湖調(diào)用态罪。當(dāng)承載數(shù)據(jù)源的應(yīng)用系統(tǒng)出現(xiàn)合并噩茄、分拆、下線情況時复颈,應(yīng)及時對數(shù)據(jù)源進(jìn)行失效處理绩聘,并啟動新數(shù)據(jù)源認(rèn)證。
4. 定義數(shù)據(jù)密級定義數(shù)據(jù)密級是數(shù)據(jù)入湖的必要條件券膀,為了確保數(shù)據(jù)湖中的數(shù)據(jù)能充分地共享君纫,同時又不發(fā)生信息安全問題驯遇,入湖的數(shù)據(jù)必須要定密芹彬。數(shù)據(jù)定密的責(zé)任主體是數(shù)據(jù)Owner,數(shù)據(jù)管家有責(zé)任審視入湖數(shù)據(jù)密級的完整性叉庐,并推動舒帮、協(xié)調(diào)數(shù)據(jù)定密工作。數(shù)據(jù)定級密度在屬性層級,根據(jù)資產(chǎn)的重要程度玩郊,定義不同等級肢执。不同密級的數(shù)據(jù)有相應(yīng)的數(shù)據(jù)消費要求,為了促進(jìn)公司數(shù)據(jù)的消費译红,數(shù)據(jù)湖中的數(shù)據(jù)有相應(yīng)的降密機制预茄,到降密期或滿足降密條件的數(shù)據(jù)應(yīng)及時降密,并刷新密級信息侦厚。
5. 數(shù)據(jù)質(zhì)量評估數(shù)據(jù)質(zhì)量是數(shù)據(jù)消費結(jié)果的保證耻陕,數(shù)據(jù)入湖不需要對數(shù)據(jù)進(jìn)行清洗,但需要對數(shù)據(jù)質(zhì)量進(jìn)行評估刨沦,讓數(shù)據(jù)的消費人員了解數(shù)據(jù)的質(zhì)量情況诗宣,并了解消費該數(shù)據(jù)的質(zhì)量風(fēng)險。同時數(shù)據(jù)Owner和數(shù)據(jù)管家可以根據(jù)數(shù)據(jù)質(zhì)量評估的情況想诅,推動源頭數(shù)據(jù)質(zhì)量的提升召庞,滿足數(shù)據(jù)質(zhì)量的消費要求。
6. 元數(shù)據(jù)注冊元數(shù)據(jù)注冊是指將入湖數(shù)據(jù)的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)進(jìn)行關(guān)聯(lián)来破,包括邏輯實體與物理表的對應(yīng)關(guān)系篮灼,以及業(yè)務(wù)屬性和表字段的對應(yīng)關(guān)系。通過聯(lián)接業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)的關(guān)系徘禁,能夠支撐數(shù)據(jù)消費人員通過業(yè)務(wù)語義快速地搜索到數(shù)據(jù)湖中的數(shù)據(jù)穿稳,降低數(shù)據(jù)湖中數(shù)據(jù)消費的門檻,能讓更多的業(yè)務(wù)分析人員理解和消費數(shù)據(jù)晌坤。

03 數(shù)據(jù)入湖方式數(shù)據(jù)入湖遵循華為信息架構(gòu)逢艘,以邏輯數(shù)據(jù)實體為粒度入湖,邏輯數(shù)據(jù)實體在首次入湖時應(yīng)該考慮信息的完整性骤菠。原則上它改,一個邏輯數(shù)據(jù)實體的所有屬性應(yīng)該一次性進(jìn)湖,避免一個邏輯實體多次入湖商乎,增加入湖工作量央拖。數(shù)據(jù)入湖的方式主要有物理入湖虛擬入湖兩種,根據(jù)數(shù)據(jù)消費的場景和需求鹉戚,一個邏輯實體可以有不同的入湖方式鲜戒。兩種入湖方式相互協(xié)同,共同滿足數(shù)據(jù)聯(lián)接和用戶數(shù)據(jù)消費的需求抹凳,數(shù)據(jù)管家有責(zé)任根據(jù)消費場景的不同遏餐,提供相應(yīng)方式的入湖數(shù)據(jù)。

  • 物理入湖是指將原始數(shù)據(jù)復(fù)制到數(shù)據(jù)湖中赢底,包括批量處理失都、數(shù)據(jù)復(fù)制同步柏蘑、消息和流集成等方式。
  • 虛擬入湖是指原始數(shù)據(jù)不在數(shù)據(jù)湖中進(jìn)行物理存儲粹庞,而是通過建立對應(yīng)虛擬表的集成方式實現(xiàn)入湖咳焚,實時性強,一般面向小數(shù)據(jù)量應(yīng)用庞溜,大批量的數(shù)據(jù)操作可能會影響源系統(tǒng)革半。

數(shù)據(jù)入湖有以下5種主要技術(shù)手段
1. 批量集成(Bulk/Batch Data Movement)對于需要進(jìn)行復(fù)雜數(shù)據(jù)清理和轉(zhuǎn)換且數(shù)據(jù)量較大的場景流码,批量集成是首選督惰。通常,調(diào)度作業(yè)每小時或每天執(zhí)行旅掂,主要包含ETL赏胚、ELT和FTP等工具。批量集成不適合低數(shù)據(jù)延遲和高靈活性的場景商虐。
2. 數(shù)據(jù)復(fù)制同步(Data Replication/Data Synchronization)適用于需要高可用性和對數(shù)據(jù)源影響小的場景觉阅。使用基于日志的CDC捕獲數(shù)據(jù)變更,實時獲取數(shù)據(jù)秘车。數(shù)據(jù)復(fù)制同步不適合處理各種數(shù)據(jù)結(jié)構(gòu)以及需要清理和轉(zhuǎn)換復(fù)雜數(shù)據(jù)的場景典勇。
3. 消息集成(Message-Oriented Movement of Data)通常通過API捕獲或提取數(shù)據(jù),適用于處理不同數(shù)據(jù)結(jié)構(gòu)以及需要高可靠性和復(fù)雜轉(zhuǎn)換的場景叮趴。尤其對于許多遺留系統(tǒng)割笙、ERP和SaaS來說,消息集成是唯一的選擇眯亦。消息集成不適合處理大量數(shù)據(jù)的場景伤溉。
4. 流集成(Stream Data Integration)主要關(guān)注流數(shù)據(jù)的采集和處理,滿足數(shù)據(jù)實時集成需求妻率,處理每秒數(shù)萬甚至數(shù)十萬個事件流乱顾,有時甚至數(shù)以百萬計的事件流。流集成不適合需要復(fù)雜數(shù)據(jù)清理和轉(zhuǎn)換的場景宫静。
5. 數(shù)據(jù)虛擬化(Data Virtualization)對于需要低數(shù)據(jù)延遲走净、高靈活性和臨時模式(不斷變化下的模式)的消費場景,數(shù)據(jù)虛擬化是一個很好的選擇孤里。在數(shù)據(jù)虛擬化的基礎(chǔ)上伏伯,通過共享數(shù)據(jù)訪問層,分離數(shù)據(jù)源和數(shù)據(jù)湖捌袜,減少數(shù)據(jù)源變更帶來的影響说搅,同時支持?jǐn)?shù)據(jù)實時消費。數(shù)據(jù)虛擬化不適合需要處理大量數(shù)據(jù)的場景琢蛤。5種數(shù)據(jù)入湖方式的對比可以參考表5-2蜓堕。▼表5-2 數(shù)據(jù)入湖方式對比

表5-2

可以通過數(shù)據(jù)湖主動從數(shù)據(jù)源PULL(拉)的方式入湖,也可以通過數(shù)據(jù)源主動向數(shù)據(jù)湖PUSH(推)的方式入湖博其。數(shù)據(jù)復(fù)制同步套才、數(shù)據(jù)虛擬化以及傳統(tǒng)ETL批量集成都屬于數(shù)據(jù)湖主動拉的方式;流集成慕淡、消息集成屬于數(shù)據(jù)源主動推送的方式(如表5-3所示)背伴。在特定的批量集成場景下,數(shù)據(jù)會以CSV峰髓、XML等格式傻寂,通過FTP推送給數(shù)據(jù)湖。▼表5-3 PULL(拉)& PUSH(推)方式入湖

表5-3

04 結(jié)構(gòu)化數(shù)據(jù)入湖結(jié)構(gòu)化數(shù)據(jù)是指由二維表結(jié)構(gòu)來邏輯表達(dá)和實現(xiàn)的數(shù)據(jù)携兵,嚴(yán)格遵循數(shù)據(jù)格式與長度規(guī)范疾掰,主要通過關(guān)系型數(shù)據(jù)庫進(jìn)行存儲和管理。觸發(fā)結(jié)構(gòu)化數(shù)據(jù)入湖的場景有兩種:

  • 第一徐紧,企業(yè)數(shù)據(jù)管理組織基于業(yè)務(wù)需求主動規(guī)劃和統(tǒng)籌静檬;
  • 第二,響應(yīng)數(shù)據(jù)消費方的需求并级。

結(jié)構(gòu)化數(shù)據(jù)入湖過程包括:數(shù)據(jù)入湖需求分析及管理拂檩、檢查數(shù)據(jù)入湖條件和評估入湖標(biāo)準(zhǔn)、實施數(shù)據(jù)入湖嘲碧、注冊元數(shù)據(jù)(如圖5-3所示)稻励。
圖5-3

▲圖5-3 結(jié)構(gòu)化數(shù)據(jù)入湖流程
1. 數(shù)據(jù)入湖需求分析及管理對于規(guī)劃驅(qū)動入湖場景而言,由對應(yīng)的數(shù)據(jù)代表基于數(shù)據(jù)湖的建設(shè)規(guī)劃愈涩,輸出入湖規(guī)劃清單望抽,清單包含主題域分組、主題域履婉、業(yè)務(wù)對象糠聪、邏輯實體、業(yè)務(wù)屬性谐鼎、源系統(tǒng)物理表和物理字段等信息舰蟆。對于需求驅(qū)動入湖場景而言,由數(shù)據(jù)消費方的業(yè)務(wù)代表提出入湖需求狸棍,并提供數(shù)據(jù)需求的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)的信息身害,包括業(yè)務(wù)對象、邏輯實體草戈、業(yè)務(wù)屬性對應(yīng)界面的截圖塌鸯。無論是主動規(guī)劃還是被動響應(yīng)需求,入湖需求清單必須通過業(yè)務(wù)代表和數(shù)據(jù)代表的聯(lián)合評審唐片。當(dāng)業(yè)務(wù)代表和數(shù)據(jù)代表就評審結(jié)論發(fā)生爭議時丙猬,可到專業(yè)評審組織申請仲裁涨颜。
2. 檢查數(shù)據(jù)入湖條件和評估入湖標(biāo)準(zhǔn)在數(shù)據(jù)入湖前要檢查數(shù)據(jù)源準(zhǔn)備度和評估數(shù)據(jù)入湖標(biāo)準(zhǔn)。
1)檢查數(shù)據(jù)源準(zhǔn)備度數(shù)據(jù)有源是數(shù)據(jù)入湖的基本前提茧球,數(shù)據(jù)源準(zhǔn)備度檢查不僅需要源系統(tǒng)的IT團(tuán)隊提供源系統(tǒng)的數(shù)據(jù)字典和數(shù)據(jù)模型并檢查源系統(tǒng)的物理表規(guī)范度庭瑰,而且需要數(shù)據(jù)代表評估源系統(tǒng)的數(shù)據(jù)質(zhì)量。
2)評估入湖標(biāo)準(zhǔn)入湖標(biāo)準(zhǔn)包括以下幾點抢埋。

  • 明確數(shù)據(jù)Owner:為保證入湖數(shù)據(jù)的管理責(zé)任清晰弹灭,在數(shù)據(jù)入湖前應(yīng)明確數(shù)據(jù)Owner。
  • 發(fā)布數(shù)據(jù)標(biāo)準(zhǔn):入湖數(shù)據(jù)應(yīng)有數(shù)據(jù)標(biāo)準(zhǔn)揪垄,數(shù)據(jù)標(biāo)準(zhǔn)定義了數(shù)據(jù)屬性的業(yè)務(wù)含義穷吮、業(yè)務(wù)規(guī)則等,是正確理解和使用數(shù)據(jù)的重要依據(jù)饥努,也是業(yè)務(wù)元數(shù)據(jù)的重要組成部分捡鱼。
  • 認(rèn)證數(shù)據(jù)源:原則上以初始源進(jìn)湖,數(shù)據(jù)源認(rèn)證是保證數(shù)據(jù)湖數(shù)據(jù)一致性和唯一性的重要措施酷愧。
  • 定義數(shù)據(jù)密級:定義完整堰汉、明確的數(shù)據(jù)密級是數(shù)據(jù)湖數(shù)據(jù)共享、權(quán)限控制等的關(guān)鍵依據(jù)伟墙。信息安全管理專員向業(yè)務(wù)Owner提出定密需求翘鸭,并與業(yè)務(wù)Owner確定定密規(guī)則,確定數(shù)據(jù)密級戳葵、定密時間就乓、降密期/降密條件等,然后由信息安全管理專員在信息架構(gòu)管理平臺注冊密級信息拱烁。
  • 評估入湖數(shù)據(jù)質(zhì)量:對入湖數(shù)據(jù)做質(zhì)量評估生蚁,給入湖數(shù)據(jù)打質(zhì)量標(biāo)簽。

如果不滿足上述任意一條入湖標(biāo)準(zhǔn)戏自,就應(yīng)推動源系統(tǒng)數(shù)據(jù)代表完成整改邦投,滿足要求后方可實施數(shù)據(jù)入湖。
3. 實施數(shù)據(jù)入湖數(shù)據(jù)代表依據(jù)消費場景合理選擇入湖方式擅笔,在不要求歷史數(shù)據(jù)志衣、小批量數(shù)據(jù)且實時性要求高的場景,建議虛擬入湖猛们;在要求歷史數(shù)據(jù)念脯、大批量數(shù)據(jù)且實時性要求不高的場景,可以物理入湖弯淘。

  • 虛擬入湖由數(shù)據(jù)代表實施绿店,數(shù)據(jù)代表負(fù)責(zé)設(shè)計和部署虛擬表。
  • 物理入湖由對應(yīng)數(shù)據(jù)湖的IT代表承接IT實施需求,設(shè)計集成方案和數(shù)據(jù)質(zhì)量監(jiān)測方案假勿,實施數(shù)據(jù)入湖借嗽。數(shù)據(jù)代表組織UAT測試、上線驗證转培。

4. 注冊元數(shù)據(jù)元數(shù)據(jù)是公司的重要資產(chǎn)恶导,是數(shù)據(jù)共享和消費的前提,為數(shù)據(jù)導(dǎo)航和數(shù)據(jù)地圖建設(shè)提供關(guān)鍵輸入堡距。對元數(shù)據(jù)進(jìn)行有效注冊是實現(xiàn)上述目的的前提甲锡。虛擬表部署完成后或IT實施完成后兆蕉,由數(shù)據(jù)代表檢查并注冊元數(shù)據(jù)羽戒,元數(shù)據(jù)注冊應(yīng)遵循企業(yè)元數(shù)據(jù)注冊規(guī)范。

05 非結(jié)構(gòu)化數(shù)據(jù)入湖
1. 非結(jié)構(gòu)化數(shù)據(jù)管理的范圍非結(jié)構(gòu)化數(shù)據(jù)包括無格式的文本虎韵、各類格式的文檔易稠、圖像、音頻包蓝、視頻等多樣異構(gòu)的格式文件驶社。相較于結(jié)構(gòu)化數(shù)據(jù),
非結(jié)構(gòu)化數(shù)據(jù)更難以標(biāo)準(zhǔn)化和理解**测萎,因而非結(jié)構(gòu)化數(shù)據(jù)的管理不僅包括文件本身亡电,而且包括對文件的描述屬性,也就是非結(jié)構(gòu)化的元數(shù)據(jù)信息硅瞧。這些元數(shù)據(jù)信息包括文件對象的標(biāo)題份乒、格式、Owner等基本特征腕唧,還包括對數(shù)據(jù)內(nèi)容的客觀理解信息或辖,如標(biāo)簽、相似性檢索枣接、相似性連接等颂暇。這些元數(shù)據(jù)信息便于用戶對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行搜索和消費。非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)實體如圖5-4所示但惶。

圖5-4

▲圖5-4 非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)實體都柏林核心元數(shù)據(jù)是一個致力于規(guī)范Web資源體系結(jié)構(gòu)的國際性元數(shù)據(jù)解決方案耳鸯,它定義了一個所有Web資源都應(yīng)遵循的通用核心標(biāo)準(zhǔn)“蛟基本特征類屬性由公司進(jìn)行統(tǒng)一管理片拍,內(nèi)容增強類屬性由承擔(dān)數(shù)據(jù)分析工作的項目組自行設(shè)計,但其分析結(jié)果都應(yīng)由公司元數(shù)據(jù)管理平臺自動采集后進(jìn)行統(tǒng)一存儲妓肢。

2. 非結(jié)構(gòu)化數(shù)據(jù)入湖的4種方式非結(jié)構(gòu)化數(shù)據(jù)入湖包括基本特征元數(shù)據(jù)入湖捌省、文件解析內(nèi)容入湖、文件關(guān)系入湖和原始文件入湖4種方式碉钠,其中基本特征元數(shù)據(jù)入湖是必選內(nèi)容纲缓,后面三項內(nèi)容可以根據(jù)分析訴求選擇性入湖和延后入湖卷拘,如圖5-5所示。

圖5-5

▲圖5-5 非結(jié)構(gòu)化數(shù)據(jù)入湖
1)基本特征元數(shù)據(jù)入湖主要通過從源端集成的文檔本身的基本信息入湖祝高。入湖的過程中栗弟,數(shù)據(jù)內(nèi)容仍存儲在源系統(tǒng),數(shù)據(jù)湖中僅存儲非結(jié)構(gòu)化數(shù)據(jù)的基本特征元數(shù)據(jù)工闺。基本特征元數(shù)據(jù)入湖需同時滿足如下條件乍赫。

  • 已經(jīng)設(shè)計了包含基本特征元數(shù)據(jù)的索引表。
  • 已經(jīng)設(shè)計了信息架構(gòu)陆蟆,如業(yè)務(wù)對象和邏輯實體雷厂。
  • 已經(jīng)定義了索引表中每筆記錄對應(yīng)文件的Owner、標(biāo)準(zhǔn)叠殷、密級改鲫,認(rèn)證了數(shù)據(jù)源并滿足質(zhì)量要求。

參考都柏林核心元數(shù)據(jù)林束,非結(jié)構(gòu)化數(shù)據(jù)的基本特征類屬性元數(shù)據(jù)規(guī)范如表5-4所示像棘。▼表5-4 非結(jié)構(gòu)化數(shù)據(jù)的基本特征類屬性
表5-4

2)文件解析內(nèi)容入湖對數(shù)據(jù)源的文件內(nèi)容進(jìn)行文本解析、拆分后入湖壶冒。入湖的過程中缕题,原始文件仍存儲在源系統(tǒng),數(shù)據(jù)湖中僅存儲解析后的內(nèi)容增強元數(shù)據(jù)胖腾。內(nèi)容解析入湖需同時滿足如下條件烟零。

  • 已經(jīng)確定解析后的內(nèi)容對應(yīng)的Owner、密級和使用的范圍胸嘁。
  • 已經(jīng)獲取了解析前對應(yīng)原始文件的基本特征元數(shù)據(jù)瓶摆。
  • 已經(jīng)確定了內(nèi)容解析后的存儲位置,并保證至少一年內(nèi)不會遷移性宏。

3)文件關(guān)系入湖根據(jù)知識圖譜等應(yīng)用案例在源端提取的文件上下文關(guān)系入湖群井。入湖的過程中,原始文件仍存儲在源系統(tǒng)毫胜,數(shù)據(jù)湖中僅存儲文件的關(guān)系等內(nèi)容增強元數(shù)據(jù)书斜。文件關(guān)系入湖需同時滿足如下條件:

  • 已經(jīng)確定文件對應(yīng)的Owner、密級和使用的范圍酵使。
  • 已經(jīng)獲取了文件的基本特征元數(shù)據(jù)荐吉。
  • 已經(jīng)確定了關(guān)系實體的存儲位置,并保證至少一年內(nèi)不會遷移口渔。

4)原始文件入湖根據(jù)消費應(yīng)用案例從源端把原始文件搬入湖样屠。數(shù)據(jù)湖中存儲原始文件并進(jìn)行全生命周期管理。原始文件入湖需同時滿足如下條件。

  • 已經(jīng)確定原始文件對應(yīng)的Owner痪欲、密級和使用的范圍悦穿。
  • 已經(jīng)獲取了基本特征元數(shù)據(jù)。
  • 已經(jīng)確定了存儲位置业踢,并保證至少一年內(nèi)不會遷移栗柒。

關(guān)于作者:華為公司數(shù)據(jù)管理部,作為集團(tuán)層面的數(shù)據(jù)管理組織知举,主要負(fù)責(zé)公司數(shù)據(jù)工作的戰(zhàn)略規(guī)劃瞬沦、路標(biāo)舉措以及實施落地;數(shù)據(jù)從產(chǎn)生到消費全生命周期管理的治理框架雇锡、流程規(guī)范逛钻、方法和IT工具的制定與推行;公司級信息架構(gòu)的設(shè)計和數(shù)據(jù)資產(chǎn)的治理維護(hù)遮糖;主持集團(tuán)層面數(shù)據(jù)相關(guān)項目绣的,推動以數(shù)據(jù)為核心的數(shù)字化轉(zhuǎn)型等工作叠赐。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末欲账,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子芭概,更是在濱河造成了極大的恐慌赛不,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件罢洲,死亡現(xiàn)場離奇詭異踢故,居然都是意外死亡,警方通過查閱死者的電腦和手機惹苗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進(jìn)店門殿较,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人桩蓉,你說我怎么就攤上這事淋纲。” “怎么了院究?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵洽瞬,是天一觀的道長。 經(jīng)常有香客問我业汰,道長伙窃,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任样漆,我火速辦了婚禮为障,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己鳍怨,他們只是感情好鹅髓,可當(dāng)我...
    茶點故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著京景,像睡著了一般窿冯。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上确徙,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天醒串,我揣著相機與錄音,去河邊找鬼鄙皇。 笑死芜赌,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的伴逸。 我是一名探鬼主播缠沈,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼错蝴!你這毒婦竟也來了洲愤?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤顷锰,失蹤者是張志新(化名)和其女友劉穎柬赐,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體官紫,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡肛宋,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了束世。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片酝陈。...
    茶點故事閱讀 38,650評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖毁涉,靈堂內(nèi)的尸體忽然破棺而出沉帮,到底是詐尸還是另有隱情,我是刑警寧澤薪丁,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布遇西,位于F島的核電站,受9級特大地震影響严嗜,放射性物質(zhì)發(fā)生泄漏粱檀。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一漫玄、第九天 我趴在偏房一處隱蔽的房頂上張望茄蚯。 院中可真熱鬧压彭,春花似錦、人聲如沸渗常。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽皱碘。三九已至询一,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間癌椿,已是汗流浹背健蕊。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留踢俄,地道東北人缩功。 一個月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像都办,于是被迫代替她去往敵國和親嫡锌。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,527評論 2 349

推薦閱讀更多精彩內(nèi)容