1 總體思路
新環(huán)境下的數(shù)據(jù)應(yīng)用特征
關(guān)鍵詞
安全蝇完、透明
大數(shù)據(jù)平臺(tái)特征
- 更強(qiáng)大的計(jì)算和存儲(chǔ)能力
- 多樣的編程接口和框架
- 豐富的數(shù)據(jù)采集通道
- 各種安全和管理措施
倉庫架構(gòu)設(shè)計(jì)原則
- 自下而上+自上而下阳惹;
- 高容錯(cuò)性封孙;
- 數(shù)據(jù)質(zhì)量監(jiān)控貫穿整個(gè)數(shù)據(jù)流程旦棉;
- 不怕數(shù)據(jù)冗余护姆,利用存儲(chǔ)換應(yīng)用和二;
2 模型設(shè)計(jì)
維度建模 OR 實(shí)體關(guān)系建模
- 維度建模
簡單幅虑,事實(shí)事務(wù)分析文兑,適合業(yè)務(wù)報(bào)表和BI盒刚。 - 實(shí)體關(guān)系建模
復(fù)雜,打散數(shù)據(jù)绿贞,適合復(fù)雜數(shù)據(jù)內(nèi)容(實(shí)體)的深度挖掘因块。
星型模型 AND 雪花模型
企業(yè)中二者并存,轉(zhuǎn)化為星型模型可以減少計(jì)算和存儲(chǔ)籍铁。
數(shù)據(jù)分層
上下分三層:
- 集市層(用)
- 中間層(通)
- 基礎(chǔ)數(shù)據(jù)層(存)
流式數(shù)據(jù)以保證時(shí)效性涡上。
基礎(chǔ)數(shù)據(jù)層
數(shù)據(jù)采集、數(shù)據(jù)清洗拒名、數(shù)據(jù)歸類吩愧、數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)規(guī)范化增显。
中間層
- 圍繞實(shí)體打通行為(join)
- 從行為抽象關(guān)系
- 冗余是個(gè)好手段(事實(shí)表冗余部分維度信息來提高計(jì)算)
集市層
集市之間垂直構(gòu)建雁佳。
集市層深度挖掘數(shù)據(jù)價(jià)值,集市層能夠快速試錯(cuò)同云。
流式數(shù)據(jù)集
- 需求驅(qū)動(dòng)
- 包含事實(shí)和維度
- 結(jié)構(gòu)更扁平(介于成本糖权,不會(huì)涉及中間層)
3 數(shù)據(jù)架構(gòu)
數(shù)據(jù)采集
結(jié)構(gòu)化數(shù)據(jù)采集
全量采集
增量采集(CDC)
實(shí)時(shí)采集
日志結(jié)構(gòu)化
UDF、SerDes炸站、
非結(jié)構(gòu)化數(shù)據(jù)特征提取
視頻圖片語音文本標(biāo)簽(一般在數(shù)倉體系之外)星澳。
數(shù)據(jù)服務(wù)
數(shù)據(jù)服務(wù)化
統(tǒng)計(jì)服務(wù)(sum銷售總值)、分析服務(wù)(分析流式幾率)旱易、標(biāo)簽服務(wù)(有車禁偎、有孩標(biāo)簽)。
架構(gòu)設(shè)計(jì)中一些實(shí)用的點(diǎn)
- 巧用虛擬節(jié)點(diǎn)
- 強(qiáng)制分區(qū)
- 計(jì)算框架應(yīng)用
- 優(yōu)化關(guān)鍵路徑
4 數(shù)據(jù)治理
內(nèi)容建設(shè)
管理(元數(shù)據(jù)阀坏、保障)
保障
數(shù)據(jù)質(zhì)量(事前如暖、事中、時(shí)候)
數(shù)據(jù)生命周期管理