數(shù)倉(cāng)入門(mén)基礎(chǔ)-1-漫談數(shù)倉(cāng)

百度百科的定義:

????????數(shù)據(jù)倉(cāng)庫(kù)强衡,英文名稱(chēng)為Data Warehouse合蔽,可簡(jiǎn)寫(xiě)為DW或DWH料皇。數(shù)據(jù)倉(cāng)庫(kù),是為企業(yè)所有級(jí)別的決策制定過(guò)程涡匀,提供所有類(lèi)型數(shù)據(jù)支持的戰(zhàn)略集合盯腌。它是單個(gè)數(shù)據(jù)存儲(chǔ),出于分析性報(bào)告和決策支持目的而創(chuàng)建陨瘩。 為需要業(yè)務(wù)智能的企業(yè)腕够,提供指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時(shí)間舌劳、成本帚湘、質(zhì)量以及控制。數(shù)據(jù)倉(cāng)庫(kù)的特征在于面向主題甚淡、集成性大诸、穩(wěn)定性和時(shí)變性。

? ? ? ? 從傳統(tǒng)數(shù)倉(cāng)到互聯(lián)網(wǎng)數(shù)倉(cāng)贯卦,有很多相似點(diǎn)也有很多不同點(diǎn)资柔,有大佬曾在InfoQ寫(xiě)到他的一些經(jīng)歷,以下是鏈接:

我所經(jīng)歷的大數(shù)據(jù)平臺(tái)發(fā)展史(一):非互聯(lián)網(wǎng)時(shí)代 ? 上篇

我所經(jīng)歷的大數(shù)據(jù)平臺(tái)發(fā)展史(二):非互聯(lián)網(wǎng)時(shí)代 ? 下篇

我所經(jīng)歷的大數(shù)據(jù)平臺(tái)發(fā)展史(三):互聯(lián)網(wǎng)時(shí)代? 上篇

我所經(jīng)歷的大數(shù)據(jù)平臺(tái)發(fā)展史(四):互聯(lián)網(wǎng)時(shí)代? 下篇

互聯(lián)網(wǎng)數(shù)倉(cāng)的發(fā)展比較有代表性的是阿里撵割,以下是《阿里大數(shù)據(jù)之路》中的數(shù)據(jù)體系架構(gòu)圖建邓。

阿里數(shù)據(jù)體系架構(gòu)圖

從上面的阿里體系架構(gòu)圖中可以看出,數(shù)倉(cāng)建模的主要工作在數(shù)據(jù)計(jì)算層睁枕,經(jīng)過(guò)計(jì)算和整合后的數(shù)據(jù)才有價(jià)值,這個(gè)是數(shù)倉(cāng)工作中的主要部分沸手。對(duì)數(shù)據(jù)進(jìn)行有序和有結(jié)構(gòu)地分類(lèi)組織和存儲(chǔ)外遇,避免重復(fù)建設(shè)和數(shù)據(jù)不一致性,保證數(shù)據(jù)的規(guī)范性契吉,讓數(shù)據(jù)發(fā)揮它的價(jià)值跳仿。

在數(shù)據(jù)倉(cāng)庫(kù)技術(shù)出現(xiàn)前,有很多數(shù)據(jù)分析的先驅(qū)者已經(jīng)發(fā)現(xiàn)捐晶,簡(jiǎn)單的“直接訪(fǎng)問(wèn)”方式很難良好工作菲语,這樣做的失敗案例數(shù)不勝數(shù)。下面列舉一些直接訪(fǎng)問(wèn)業(yè)務(wù)系統(tǒng)無(wú)法工作的原因:

1.某些業(yè)務(wù)數(shù)據(jù)由于安全或其他因素不能直接訪(fǎng)問(wèn)惑灵。

2.業(yè)務(wù)系統(tǒng)的版本變更很頻繁山上,每次變更都需要重寫(xiě)分析系統(tǒng)并重新測(cè)試。

3.很難建立和維護(hù)匯總數(shù)據(jù)來(lái)源于多個(gè)業(yè)務(wù)系統(tǒng)版本的報(bào)表英支。

4.業(yè)務(wù)系統(tǒng)的列名通常是硬編碼佩憾,有時(shí)僅僅是無(wú)意義的字符串,這讓編寫(xiě)分析系統(tǒng)更加困難。

5.業(yè)務(wù)系統(tǒng)的數(shù)據(jù)格式妄帘,如日期楞黄、數(shù)字的格式不統(tǒng)一。

6.業(yè)務(wù)系統(tǒng)的表結(jié)構(gòu)為事務(wù)處理性能而優(yōu)化抡驼,有時(shí)并不適合查詢(xún)與分析鬼廓。

7.沒(méi)有適當(dāng)?shù)姆绞綄⒂袃r(jià)值的數(shù)據(jù)合并進(jìn)特定應(yīng)用的數(shù)據(jù)庫(kù)。

8.沒(méi)有適當(dāng)?shù)奈恢么鎯?chǔ)元數(shù)據(jù)致盟。

9.用戶(hù)需要看到的顯示數(shù)據(jù)字段碎税,有時(shí)在數(shù)據(jù)庫(kù)中并不存在。

10.通常事務(wù)處理的優(yōu)先級(jí)比分析系統(tǒng)高勾邦,所以如果分析系統(tǒng)和事務(wù)處理運(yùn)行在同一硬件之上蚣录,分析系統(tǒng)往往性能很差。

11.有誤用業(yè)務(wù)數(shù)據(jù)的風(fēng)險(xiǎn)眷篇。

12.極有可能影響業(yè)務(wù)系統(tǒng)的性能萎河。

數(shù)倉(cāng)的存在性:

????1.相比操作型系統(tǒng)保存數(shù)據(jù),dw使用數(shù)據(jù)蕉饼,操作型系統(tǒng)反映最新數(shù)據(jù)狀態(tài)虐杯,dw需收集海量歷史數(shù)據(jù)進(jìn)行分析;

????2.dw可以讓業(yè)務(wù)人員方便的獲得數(shù)據(jù),有很強(qiáng)的數(shù)據(jù)服務(wù)能力;

????3.dw統(tǒng)一口徑昧港,以一致的形式展現(xiàn)信息擎椰,避免出現(xiàn)指標(biāo)正確性的爭(zhēng)論;????

????4.dw有良好的擴(kuò)展性,業(yè)務(wù)發(fā)生變化创肥,需要與歷史數(shù)據(jù)進(jìn)行完美融合;

????5.dw是提高決策制定能力的權(quán)威和可信的基礎(chǔ)达舒,數(shù)據(jù)質(zhì)量是生命線(xiàn),有質(zhì)量的數(shù)據(jù)才有說(shuō)服力

數(shù)倉(cāng)的特性:

????1.面向主題的叹侄,按照一定的主題進(jìn)行組織巩搏,主題是指用戶(hù)使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,后面會(huì)重點(diǎn)舉例說(shuō)明趾代。

????2.數(shù)據(jù)倉(cāng)庫(kù)是集成的贯底,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)有來(lái)自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來(lái)的數(shù)據(jù)中抽取出來(lái)撒强,進(jìn)行加工和集成之后禽捆,進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)。

????3.數(shù)據(jù)倉(cāng)庫(kù)是不可更新的飘哨,數(shù)據(jù)倉(cāng)庫(kù)主要是為決策分析供數(shù)據(jù)胚想,所涉及的操作主要是數(shù)據(jù)的查詢(xún)。

? ? 4.數(shù)據(jù)倉(cāng)庫(kù)是隨時(shí)間而變化的杖玲,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)比較適合處理格式化的數(shù)據(jù)顿仇,能夠較好的滿(mǎn)足商業(yè)商務(wù)處理的需求淘正。穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時(shí)間改變臼闻。

? ? 5.匯總的鸿吆。操作性數(shù)據(jù)映射成決策可用的格式。

????6.大容量述呐。時(shí)間序列數(shù)據(jù)集合通常都非常大惩淳。

????7.非規(guī)范化的。Dw數(shù)據(jù)可以是而且經(jīng)常是冗余的乓搬。

????8.元數(shù)據(jù)思犁。將描述數(shù)據(jù)的數(shù)據(jù)保存起來(lái)。

????9.數(shù)據(jù)源进肯。數(shù)據(jù)來(lái)自?xún)?nèi)部的和外部的非集成操作系統(tǒng)激蹲。

數(shù)倉(cāng)為什么要分層建模?江掩?学辱?

? ? 隨著DT時(shí)代的到來(lái),數(shù)據(jù)爆發(fā)性增長(zhǎng)环形,如何將數(shù)據(jù)進(jìn)行有序策泣、結(jié)構(gòu)化的分類(lèi)組織和存儲(chǔ)是面臨的很大的一個(gè)挑戰(zhàn)。多而雜的數(shù)據(jù)抬吟,會(huì)讓取數(shù)效率低下萨咕、口徑不一、質(zhì)量無(wú)保障等問(wèn)題火本,所以數(shù)倉(cāng)的建模主要解決以下幾個(gè)問(wèn)題:

? ? 1.性能:良好的數(shù)據(jù)模型能幫助我們快速查詢(xún)所需要的數(shù)據(jù)危队,減少數(shù)據(jù)的I/O吞吐。

? ? 2.成本:良好的數(shù)據(jù)模型能極大地減少不必要的數(shù)據(jù)冗余钙畔,也能實(shí)現(xiàn)計(jì)算結(jié)果的復(fù)用交掏,極大地降低大數(shù)據(jù)系統(tǒng)中的存儲(chǔ)和計(jì)算成本。

? ? 3.效率:良好的數(shù)據(jù)模型能極大的改善用戶(hù)使用數(shù)據(jù)的體驗(yàn)刃鳄,提高使用數(shù)據(jù)的效率。

? ? 4.質(zhì)量:良好的數(shù)據(jù)模型能改善數(shù)據(jù)統(tǒng)計(jì)口徑的不一致性钱骂,減少數(shù)據(jù)計(jì)算錯(cuò)誤的可能性叔锐。

這四個(gè)方面在真正構(gòu)思模型時(shí)還需考慮權(quán)衡,可能不能全都達(dá)到極致见秽,需利弊對(duì)比愉烙,采用最合理的方案。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末解取,一起剝皮案震驚了整個(gè)濱河市步责,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖蔓肯,帶你破解...
    沈念sama閱讀 218,122評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件遂鹊,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡蔗包,警方通過(guò)查閱死者的電腦和手機(jī)秉扑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)调限,“玉大人舟陆,你說(shuō)我怎么就攤上這事〕馨” “怎么了秦躯?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,491評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)裆装。 經(jīng)常有香客問(wèn)我踱承,道長(zhǎng),這世上最難降的妖魔是什么米母? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,636評(píng)論 1 293
  • 正文 為了忘掉前任勾扭,我火速辦了婚禮,結(jié)果婚禮上铁瞒,老公的妹妹穿的比我還像新娘妙色。我一直安慰自己,他們只是感情好慧耍,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布身辨。 她就那樣靜靜地躺著,像睡著了一般芍碧。 火紅的嫁衣襯著肌膚如雪煌珊。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,541評(píng)論 1 305
  • 那天泌豆,我揣著相機(jī)與錄音定庵,去河邊找鬼。 笑死踪危,一個(gè)胖子當(dāng)著我的面吹牛蔬浙,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播贞远,決...
    沈念sama閱讀 40,292評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼畴博,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了蓝仲?” 一聲冷哼從身側(cè)響起俱病,我...
    開(kāi)封第一講書(shū)人閱讀 39,211評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤官疲,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后亮隙,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體途凫,經(jīng)...
    沈念sama閱讀 45,655評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評(píng)論 3 336
  • 正文 我和宋清朗相戀三年咱揍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了颖榜。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,965評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡煤裙,死狀恐怖掩完,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情硼砰,我是刑警寧澤且蓬,帶...
    沈念sama閱讀 35,684評(píng)論 5 347
  • 正文 年R本政府宣布,位于F島的核電站题翰,受9級(jí)特大地震影響恶阴,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜豹障,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評(píng)論 3 329
  • 文/蒙蒙 一冯事、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧血公,春花似錦昵仅、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,894評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至垦写,卻和暖如春吕世,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背梯投。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,012評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工命辖, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人分蓖。 一個(gè)月前我還...
    沈念sama閱讀 48,126評(píng)論 3 370
  • 正文 我出身青樓吮龄,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親咆疗。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容