歷史文章:
#42 淺談數(shù)據(jù)倉庫(DW &BI)(一):數(shù)據(jù)倉庫發(fā)展起源及概述
#43 淺談數(shù)據(jù)倉庫(DW &BI)(二):粒度、存儲矢沿、3NF栗菜、星型模型、雪花模型
#44 淺談數(shù)據(jù)倉庫(DW &BI)(三):企業(yè)數(shù)據(jù)倉庫架構(gòu)像棘、數(shù)據(jù)集市簡介
最近一段時間稽亏,頻繁聽到數(shù)據(jù)中臺的概念,尤其是阿里巴巴的數(shù)據(jù)中臺缕题,不太了解數(shù)據(jù)中臺是什么截歉,這幾天在網(wǎng)上學(xué)習(xí)了一下,發(fā)現(xiàn)似乎與企業(yè)數(shù)據(jù)倉庫差別不大烟零?(求指教)我理解的主要區(qū)別在于數(shù)據(jù)中臺做全域數(shù)據(jù)接入瘪松,還有很多非業(yè)務(wù)系統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù),另外數(shù)據(jù)開放锨阿、外部應(yīng)用更多宵睦,對業(yè)務(wù)支撐的接口更多,也提供了更多平臺能力墅诡。
做為數(shù)倉的重要工具壳嚎,今天主要聊一下數(shù)倉的OLAP(Online Analytical Processing)吧~
OLAP不同于操作型數(shù)據(jù)庫的OLTP(Analytical?Transaction),OLTP主要做事務(wù)處理末早,OLAP主要做數(shù)據(jù)分析和展示烟馅,提供直觀的查詢結(jié)果。
OLAP核心建立于數(shù)據(jù)立方體上(Data Cube)之上然磷,那么什么是數(shù)據(jù)立方體呢郑趁?從網(wǎng)上找了一張圖,見下:
其實就是不同維度上(可以是一維姿搜、二維寡润、三維甚至N維)的各類度量的一個立方體。
維度(Dimension):觀察數(shù)據(jù)的角度舅柜,是一個用來過濾梭纹、分類的描述性事實,例如銷售的產(chǎn)品业踢、銷售的區(qū)域栗柒、銷售的時間。
度量(Measure):具體的統(tǒng)計量,例如總銷售額瞬沦、總銷售量太伊、平均銷售額等。
維度又有不同的層次(Level)逛钻,比如銷售時間可以是日層次僚焦、月層次、季度層次曙痘、年層次芳悲。
維的具體成員(Member),是指某一維內(nèi)的具體取值,比如性別中包含男边坤、女名扛、不詳三個成員。茧痒。
然后OLAP其實在把玩這個數(shù)據(jù)立方體肮韧,通過各種操作,將預(yù)設(shè)的立方體翻來覆去旺订,以達到分析數(shù)據(jù)的效果弄企,有點類似獲取數(shù)據(jù)之后,在excel中通過行列轉(zhuǎn)換区拳、篩選器(切片器)的方式做數(shù)據(jù)透視表砾肺。具體的方法有:
1叉信、鉆壬统佟(Drill-down)& 上卷(Roll-up):鉆取是從高維的維度向下鉆洽故,例如看2018年的銷售情況,向下變成看2018年1月至2018年12月各月的銷售情況笆凌。上卷反之业汰,例如將桌子和椅子劃為一個新整體來觀察。
2菩颖、切片(Slice):選擇特定維成員看具體數(shù)據(jù)。
3为障、切塊(Dice):選擇特定范圍內(nèi)的維成員看具體數(shù)據(jù)晦闰。
4、旋轉(zhuǎn)(Pivot):行列轉(zhuǎn)換鳍怨。
然后OLAP根據(jù)數(shù)據(jù)存儲的架構(gòu)呻右,分為這么幾種:
MOLAP(Multidimensional):多維OLAP架構(gòu)是實際生成了一張存放數(shù)據(jù)立方體的表,所有的信息和維度都已經(jīng)在這張表內(nèi)被設(shè)計鞋喇、計算好声滥,速度比較快,存儲上會耗費多一點。
ROLAP(Relational):關(guān)系型OLAP實際后臺存儲的是事實表和維表(一般是星型模型)落塑,前臺的查詢會直接轉(zhuǎn)化為SQL纽疟,后臺訪問相關(guān)表做join處理,速度比較慢憾赁。
HOLAP(Hybrid) :混合OLAP污朽,靈活部署,使用頻率多的應(yīng)用采用MOLAP模式龙考,使用頻率低蟆肆、數(shù)據(jù)量小一點的應(yīng)用采用ROLAP模式。
OLAP如果按照處理方式劃分的話晦款,則可以分為Server OLAP與Client Olap炎功,Server OLAP比較常見,在服務(wù)器端進行分析處理缓溅,然后將結(jié)果返還給用戶蛇损。ClientOLAP則是用戶端下載數(shù)據(jù)到本地,在本地做數(shù)據(jù)處理肛宋。
目前的一些OLAP工具:Congos州藕、Mondrian、Superset酝陈、Druid床玻、Flink等。