數(shù)據(jù)倉庫的基本架構(gòu)

作者:hooly

微信公眾號:一口袋星光

數(shù)據(jù)倉庫

數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境劲藐,為企業(yè)提供決策支持(Decision Support)邀杏。數(shù)據(jù)倉庫本身并不“生產(chǎn)”任何數(shù)據(jù)隅很,同時自身也不需要“消費”任何的數(shù)據(jù)秤茅,數(shù)據(jù)來源于外部百侧,并且開放給外部應(yīng)用讨韭,這也是為什么叫“倉庫”,而不叫“工廠”的原因迟郎。

數(shù)據(jù)倉庫的特點:

1.面向主題的剥险,按照一定的主題進行組織,主題是指用戶使用數(shù)據(jù)倉庫進行決策時所關(guān)心的重點方面宪肖,后面會重點舉例說明表制。

2.數(shù)據(jù)倉庫是集成的,數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù)控乾,將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來么介,進行加工和集成之后,進入數(shù)據(jù)倉庫蜕衡。

3.數(shù)據(jù)倉庫是不可更新的壤短,數(shù)據(jù)倉庫主要是為決策分析供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢;

數(shù)據(jù)倉庫有如下要求:

1.效率足夠高:數(shù)據(jù)倉庫的分析數(shù)據(jù)一般分為日久脯、周纳胧、月、季帘撰、年等跑慕,可以看出,日為周期的數(shù)據(jù)要求的效率最高骡和。

2.數(shù)據(jù)質(zhì)量:由于數(shù)據(jù)倉庫流程通常分為多個步驟相赁,包括數(shù)據(jù)清洗,轉(zhuǎn)換慰于,裝載等钮科,那么由于臟數(shù)據(jù)會導(dǎo)致數(shù)據(jù)失真,就可能導(dǎo)致做出錯誤的決策婆赠。

3.可擴展性:主要體現(xiàn)在數(shù)據(jù)建模的合理性绵脯。

數(shù)據(jù)倉庫的基本架構(gòu)主要包含的是數(shù)據(jù)流入流出的過程,可以分為三層——數(shù)據(jù)獲取休里、數(shù)據(jù)倉庫蛆挫、數(shù)據(jù)應(yīng)用:

數(shù)據(jù)倉庫的結(jié)構(gòu)

數(shù)據(jù)倉庫從各數(shù)據(jù)源獲取數(shù)據(jù)及在數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)轉(zhuǎn)換和流動都可以認為是ETL(抽取Extra, 轉(zhuǎn)化Transfer, 裝載Load)的過程。ETL是數(shù)據(jù)倉庫的流水線妙黍,也可以認為是數(shù)據(jù)倉庫的血液悴侵,它維系著數(shù)據(jù)倉庫中數(shù)據(jù)的新陳代謝,而數(shù)據(jù)倉庫日常的管理和維護工作的大部分精力就是保持ETL的正常和穩(wěn)定拭嫁。

數(shù)據(jù)倉庫:

1.數(shù)據(jù)獲瓤擅狻:

對于網(wǎng)站數(shù)據(jù)倉庫而言,點擊流日志是一塊主要的數(shù)據(jù)來源做粤,它是網(wǎng)站分析的基礎(chǔ)數(shù)據(jù)浇借;當(dāng)然網(wǎng)站的數(shù)據(jù)庫數(shù)據(jù)也并不可少,其記錄這網(wǎng)站運營的數(shù)據(jù)及各種用戶操作的結(jié)果怕品,其他是網(wǎng)站內(nèi)外部可能其它各類對于公司決策有用的數(shù)據(jù)妇垢。

2.數(shù)據(jù)倉庫:

2.1數(shù)據(jù)模型:

數(shù)據(jù)模型是抽象描述現(xiàn)實世界的一種工具和方法,是通過抽象的實體及實體之間聯(lián)系的形式肉康,來表示現(xiàn)實世界中事務(wù)的相互關(guān)系的一種映射闯估。在這里,數(shù)據(jù)模型表現(xiàn)的抽象的是實體和實體之間的關(guān)系吼和,通過對實體和實體之間關(guān)系的定義和描述涨薪,來表達實際的業(yè)務(wù)中具體的業(yè)務(wù)關(guān)系。

數(shù)據(jù)倉庫模型是數(shù)據(jù)模型中針對特定的數(shù)據(jù)倉庫應(yīng)用系統(tǒng)的一種特定的數(shù)據(jù)模型

數(shù)據(jù)模型的層次劃分

通過上圖纹安,我們能夠很容易的看出在整個數(shù)據(jù)倉庫的建模過程中尤辱,我們需要經(jīng)歷一般四個過程:

業(yè)務(wù)建模,生成業(yè)務(wù)模型厢岂,主要解決業(yè)務(wù)層面的分解和程序化光督。

領(lǐng)域建模,生成領(lǐng)域模型塔粒,主要是對業(yè)務(wù)模型進行抽象處理结借,生成領(lǐng)域概念模型。

邏輯建模卒茬,生成邏輯模型船老,主要是將領(lǐng)域模型的概念實體以及實體之間的關(guān)系進行數(shù)據(jù)庫層次的邏輯化。

物理建模圃酵,生成物理模型柳畔,主要解決,邏輯模型針對不同關(guān)系型數(shù)據(jù)庫的物理化以及性能等一些具體的技術(shù)問題郭赐。

因此薪韩,在整個數(shù)據(jù)倉庫的模型的設(shè)計和架構(gòu)中,既涉及到業(yè)務(wù)知識捌锭,也涉及到了具體的技術(shù)俘陷,我們既需要了解豐富的行業(yè)經(jīng)驗,同時观谦,也需要一定的信息技術(shù)來幫助我們實現(xiàn)我們的數(shù)據(jù)模型拉盾,最重要的是,我們還需要一個非常適用的方法論豁状,來指導(dǎo)我們自己針對我們的業(yè)務(wù)進行抽象捉偏,處理,生成各個階段的模型替蔬。

2.2數(shù)據(jù)主題:

數(shù)據(jù)主題

數(shù)據(jù)模型的建設(shè)告私,維度的選擇,是為了滿足數(shù)據(jù)主題的需求承桥。數(shù)據(jù)主題通常就是業(yè)務(wù)需求的提煉驻粟。

2.3數(shù)據(jù)報表:

報表幾乎是每個數(shù)據(jù)倉庫的必不可少的一類數(shù)據(jù)應(yīng)用,將聚合數(shù)據(jù)和多維分析數(shù)據(jù)展示到報表凶异,提供了最為簡單和直觀的數(shù)據(jù)蜀撑。

這里的數(shù)據(jù)匯總指的是基于特定需求的簡單匯總(基于多維數(shù)據(jù)的聚合體現(xiàn)在多維數(shù)據(jù)模型中),簡單匯總可以是網(wǎng)站的總Pageviews剩彬、Visits酷麦、Unique Visitors等匯總數(shù)據(jù),也可以是Avg. time on page喉恋、Avg. time on site等平均數(shù)據(jù)沃饶,這些數(shù)據(jù)可以直接地展示于報表上母廷。

數(shù)據(jù)報表示例

2.4數(shù)據(jù)集市和開放API

數(shù)據(jù)集市(Data Mart) ,也叫數(shù)據(jù)市場糊肤,可以理解為字段非常多的寬表琴昆,比如銷售表,除了包含訂單和金額等必需的字段馆揉,還包含可能使用的產(chǎn)品信息集合业舍、用戶信息集合、甚至銷售人員的信息升酣,是數(shù)據(jù)倉庫的核心組成部分舷暮。

1、提升數(shù)據(jù)準確性:因為建立面向主題的數(shù)據(jù)表之后噩茄,不用再根據(jù)需求的不同下面,建立不同的結(jié)果表,自然發(fā)生錯誤的幾率會大大降低

2绩聘、提升效率:由于是面向主題的诸狭,所以需要的任何數(shù)據(jù)都可以從數(shù)據(jù)集市表直接簡單獲取。

開放API君纫,指對外開放的查詢等接口驯遇。

數(shù)據(jù)質(zhì)量中心:

1.元數(shù)據(jù)管理

元數(shù)據(jù)(Meta Date),其實應(yīng)該叫做解釋性數(shù)據(jù)蓄髓,或者數(shù)據(jù)字典叉庐,即數(shù)據(jù)的數(shù)據(jù)。主要記錄數(shù)據(jù)倉庫中模型的定義会喝、各層級間的映射關(guān)系陡叠、監(jiān)控數(shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及ETL的任務(wù)運行狀態(tài)。一般會通過元數(shù)據(jù)資料庫(Metadata Repository)來統(tǒng)一地存儲和管理元數(shù)據(jù)肢执,其主要目的是使數(shù)據(jù)倉庫的設(shè)計枉阵、部署、操作和管理能達成協(xié)同和一致预茄。

作者:hooly

微信公眾號:一口袋星光

我會在微信公號上持續(xù)更新我的文章兴溜,你來討論我很歡迎。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末耻陕,一起剝皮案震驚了整個濱河市拙徽,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌诗宣,老刑警劉巖膘怕,帶你破解...
    沈念sama閱讀 207,248評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異召庞,居然都是意外死亡岛心,警方通過查閱死者的電腦和手機来破,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評論 2 381
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來忘古,“玉大人讳癌,你說我怎么就攤上這事〈嬖恚” “怎么了?”我有些...
    開封第一講書人閱讀 153,443評論 0 344
  • 文/不壞的土叔 我叫張陵逢艘,是天一觀的道長旦袋。 經(jīng)常有香客問我,道長它改,這世上最難降的妖魔是什么疤孕? 我笑而不...
    開封第一講書人閱讀 55,475評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮央拖,結(jié)果婚禮上祭阀,老公的妹妹穿的比我還像新娘。我一直安慰自己鲜戒,他們只是感情好专控,可當(dāng)我...
    茶點故事閱讀 64,458評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著遏餐,像睡著了一般伦腐。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上失都,一...
    開封第一講書人閱讀 49,185評論 1 284
  • 那天柏蘑,我揣著相機與錄音,去河邊找鬼粹庞。 笑死咳焚,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的庞溜。 我是一名探鬼主播革半,決...
    沈念sama閱讀 38,451評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼流码!你這毒婦竟也來了督惰?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,112評論 0 261
  • 序言:老撾萬榮一對情侶失蹤旅掂,失蹤者是張志新(化名)和其女友劉穎赏胚,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體商虐,經(jīng)...
    沈念sama閱讀 43,609評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡觉阅,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,083評論 2 325
  • 正文 我和宋清朗相戀三年崖疤,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片典勇。...
    茶點故事閱讀 38,163評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡劫哼,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出割笙,到底是詐尸還是另有隱情权烧,我是刑警寧澤,帶...
    沈念sama閱讀 33,803評論 4 323
  • 正文 年R本政府宣布伤溉,位于F島的核電站般码,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏乱顾。R本人自食惡果不足惜板祝,卻給世界環(huán)境...
    茶點故事閱讀 39,357評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望走净。 院中可真熱鬧券时,春花似錦、人聲如沸伏伯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽说搅。三九已至震檩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蜓堕,已是汗流浹背抛虏。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留套才,地道東北人迂猴。 一個月前我還...
    沈念sama閱讀 45,636評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像背伴,于是被迫代替她去往敵國和親沸毁。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,925評論 2 344

推薦閱讀更多精彩內(nèi)容