數(shù)據(jù)倉庫由比爾·恩門(Bill Inmon缩滨,數(shù)據(jù)倉庫之父)于1990年提出,主要功能是將企業(yè)系統(tǒng)聯(lián)機(jī)事務(wù)處理(OLTP)長期累積的大量數(shù)據(jù),通過數(shù)倉理論所特有的數(shù)據(jù)儲存架構(gòu)怕轿,做有系統(tǒng)的分析整理 咆贬。
數(shù)據(jù)倉庫的作用
1. 提供集成的結(jié)構(gòu)化數(shù)據(jù)環(huán)境:
① 集成:例如一個企業(yè)會有多個系統(tǒng)败徊,多個系統(tǒng)之間,會存在系統(tǒng)不兼容的情況掏缎。如何把多個系統(tǒng)中數(shù)據(jù)整合在一起皱蹦,就是集成的過程煤杀;
② 結(jié)構(gòu)化:大部分線上產(chǎn)生的數(shù)據(jù)都是非結(jié)構(gòu)化和半結(jié)構(gòu)化的(圖片、日志沪哺、音頻等)沈自,需要轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)供上游分析使用;
2. 解決從數(shù)據(jù)庫中獲取信息的問題:
① 從線上數(shù)據(jù)庫中取數(shù)據(jù)可能會面臨數(shù)據(jù)不全(不在一個系統(tǒng)中)辜妓;
② 線上數(shù)據(jù)庫產(chǎn)生的數(shù)據(jù)不是結(jié)構(gòu)化的枯途,比如產(chǎn)生的日志數(shù)據(jù),難以理解嫌拣;
③ 在線上數(shù)據(jù)庫去數(shù)據(jù)柔袁,當(dāng)達(dá)到一定量時,影響系統(tǒng)性能异逐;
(把從線上數(shù)據(jù)庫中取數(shù)捶索,轉(zhuǎn)為從數(shù)據(jù)倉庫中取數(shù),來解決這些問題)
數(shù)據(jù)倉庫的特點
1. 面向主題的:數(shù)據(jù)倉庫是用來分析特定主題域的灰瞻,所以說數(shù)據(jù)倉庫是面向主題的腥例,例如“財務(wù)”就是一個主題域。面向主題其實是一個分類的概念酝润。
① 電商業(yè)務(wù)-主題域劃分:交易域燎竖、商品域、用戶域要销、財務(wù)域......
② 社交業(yè)務(wù)-主題域劃分:內(nèi)容域构回、會員域、互動域疏咐、交易域......
2. 集成的:數(shù)據(jù)倉庫會對接多個數(shù)據(jù)源纤掸,同一主題或產(chǎn)品相關(guān)數(shù)據(jù)可能來自不同系統(tǒng)不同類型的數(shù)據(jù)庫、日志文件等浑塞。
3. 穩(wěn)定的:數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉庫借跪,則不可被改變(數(shù)據(jù)倉庫是記錄事實的唯一版本)。數(shù)據(jù)倉里的歷史數(shù)據(jù)是不應(yīng)該被更新的酌壕,同時存儲的穩(wěn)定性較強(qiáng)掏愁。
4. 反映歷史變化的:數(shù)據(jù)倉庫保存了長期的歷史數(shù)據(jù)(從系統(tǒng)有數(shù)據(jù)開始一直到當(dāng)前,從始至今)卵牍,這點是相對OLTP的數(shù)據(jù)庫(線上實時在線數(shù)據(jù)庫)而言果港。因為性能考慮后者通常保存近期的熱數(shù)據(jù)。
數(shù)據(jù)倉庫的目的
構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境糊昙,為企業(yè)提供決策支持京腥。
OLTP(聯(lián)機(jī)事務(wù)處理過程)
1.?事務(wù):人機(jī)交互的過程中發(fā)成的行為,就稱為一個事務(wù)溅蛉;
2.?OLTP:也稱為實時系統(tǒng)(Real Time System)公浪,是人機(jī)交互的一個應(yīng)用系統(tǒng);
3.??OLTP的特點:對用戶操作需要快速響應(yīng)船侧。
4.?快速響應(yīng) 需要面臨的問題:
(1)系統(tǒng)請求響應(yīng)的性能
(2)數(shù)據(jù)總是保持在最新的狀態(tài)
(3)數(shù)量級星菲(OLTP的數(shù)量級越小,查詢的性能就越好)
OLAP(聯(lián)機(jī)分析處理過程)
1. OLAP的特點
(1)從用戶的思考角度出發(fā)镜撩,仿照用戶思考模式預(yù)先為構(gòu)建多維的數(shù)據(jù)模型预柒;
(2)用戶可以快速查詢分析各個維度數(shù)據(jù)
(3)能動態(tài)的在各個維度之間切換或者進(jìn)行多維度綜合分析,具有極大的分析靈活性袁梗。
2. OLAP和數(shù)倉的關(guān)系
關(guān)系:互補(bǔ)
一般以數(shù)據(jù)倉庫作為基礎(chǔ)宜鸯,即從數(shù)據(jù)倉庫中抽取詳細(xì)數(shù)據(jù)的一個子集并經(jīng)過必要的聚集存儲到OLAP存儲中供數(shù)據(jù)分析工具讀取。(OLAP是建立在數(shù)倉之上的一個多維查詢的操作)
OLAP和OLTP的區(qū)別
DATACube數(shù)據(jù)魔方
面向分析的多維查詢操作:鉆取遮怜、上卷淋袖、切片、切塊锯梁、旋轉(zhuǎn)
Tips: 數(shù)據(jù)立方體只是多維模型的一個形象的說法即碗,立方體自身只有三維,而實際會有更多維度陌凳。