數(shù)據(jù)倉庫

系統(tǒng)角度上锄贼,影響建設(shè)數(shù)據(jù)倉庫的解決方案的因素

? ? 1.操作出現(xiàn)的頻率宅荤,即業(yè)務(wù)部門每隔多長(zhǎng)時(shí)間做一次查詢分析。

? ? 2.在系統(tǒng)中需要保存多久的數(shù)據(jù)惹盼,是一年琼了、兩年還是五年夫晌、十年。

? ? 3.用戶查詢數(shù)據(jù)的主要方式所袁,如在時(shí)間維度上是按照自然年凶掰,還是財(cái)政年蜈亩。

? ? 4.用戶所能接受的響應(yīng)時(shí)間是多長(zhǎng)前翎、是幾秒鐘,還是幾小時(shí)道川。



數(shù)據(jù)采集

????通過ETL工具采集數(shù)據(jù)源數(shù)據(jù)

數(shù)據(jù)存儲(chǔ)與分析

? ??HDFS是大數(shù)據(jù)環(huán)境下數(shù)據(jù)倉庫/數(shù)據(jù)平臺(tái)最完美的數(shù)據(jù)存儲(chǔ)解決方案。離線數(shù)據(jù)分析與計(jì)算橙数,也就是對(duì)實(shí)時(shí)性要求不高的部分,Hive是不錯(cuò)的選擇崖技。

數(shù)據(jù)共享

? ??這里的數(shù)據(jù)共享响疚,其實(shí)指的是前面數(shù)據(jù)分析與計(jì)算后的結(jié)果存放的地方瞪醋,其實(shí)就是關(guān)系型數(shù)據(jù)庫和NOSQL數(shù)據(jù)庫银受。

數(shù)據(jù)應(yīng)用

? ??報(bào)表、接口咕幻、即席查詢

流程圖:


流程圖


Hive的歷史由來

????Hive適用于海量結(jié)構(gòu)化數(shù)據(jù)的離線分析顶霞,如果有需求是需要統(tǒng)計(jì)計(jì)算大數(shù)據(jù)量而且對(duì)于時(shí)效性沒有過高要求的情況下肄程,建議采用Hive來做處理。不適用于復(fù)雜的機(jī)器學(xué)習(xí)算法选浑,因?yàn)闄C(jī)器學(xué)習(xí)算法大多涉及大量的迭代計(jì)算,而hive默認(rèn)情況下底層封裝的計(jì)算框架是MapReduce古徒,計(jì)算效率比較低下不適合復(fù)雜的計(jì)算拓提,(Hive on Spark另議)隧膘,因?yàn)榈讓拥挠?jì)算框架是MapReduce代态, 所以也不適合交互式實(shí)時(shí)查詢寺惫,有交互式實(shí)時(shí)查詢建議使用Impala蹦疑。

某公司數(shù)據(jù)倉庫架構(gòu)圖


數(shù)據(jù)倉庫設(shè)計(jì)步驟

1西雀、確定主題

????主題與業(yè)務(wù)密切相關(guān),所以設(shè)計(jì)數(shù)倉之前應(yīng)當(dāng)充分了解業(yè)務(wù)有哪些方面的需求必尼,據(jù)此確定主題

2、確定量度

????在確定了主題以后判莉,我們將考慮要分析的技術(shù)指標(biāo)豆挽,諸如年銷售額之類帮哈。量度是要統(tǒng)計(jì)的指標(biāo)娘侍,必須事先選擇恰當(dāng)憾筏,基于不同的量度將直接產(chǎn)生不同的決策結(jié)果。

3氧腰、確定數(shù)據(jù)粒度

????考慮到量度的聚合程度不同古拴,我們將采用“最小粒度原則”,即將量度的粒度設(shè)置到最小真友。例如如果知道某些數(shù)據(jù)細(xì)分到天就好了黄痪,那么設(shè)置其粒度到天;但是如果不確定的話盔然,就將粒度設(shè)置為最小桅打,即毫秒級(jí)別的。

4愈案、確定維度

????設(shè)計(jì)各個(gè)維度的主鍵挺尾、層次、層級(jí)刻帚,盡量減少冗余潦嘶。

5涩嚣、創(chuàng)建事實(shí)表

????事實(shí)表中將存在維度代理鍵和各量度崇众,而不應(yīng)該存在描述性信息掂僵,即符合“瘦高原則”,即要求事實(shí)表數(shù)據(jù)條數(shù)盡量多(粒度最小)顷歌,而描述性信息盡量少锰蓬。

星形/雪花形/事實(shí)星座,這三者就是數(shù)據(jù)倉庫多維數(shù)據(jù)模型建模的模式

下圖所示就是一個(gè)標(biāo)準(zhǔn)的星形模型眯漩,事實(shí)表和維表通過ID相關(guān)聯(lián):


星型模型

技術(shù)點(diǎn):

1芹扭、ETL工具的使用

2、Hadoop赦抖、Hive

3舱卡、數(shù)據(jù)的導(dǎo)入與導(dǎo)出

4、數(shù)據(jù)展現(xiàn)(即席查詢)工具

5队萤、什么時(shí)候進(jìn)行數(shù)據(jù)采集轮锥?什么時(shí)候進(jìn)行數(shù)據(jù)統(tǒng)計(jì)與計(jì)算?什么方式觸發(fā)要尔?crontab舍杜?

Ending

????數(shù)據(jù)倉庫本身既不生產(chǎn)數(shù)據(jù)也不消費(fèi)數(shù)據(jù),只是作為一個(gè)中間平臺(tái)集成化地存儲(chǔ)數(shù)據(jù)赵辕;數(shù)據(jù)倉庫實(shí)現(xiàn)的難度在于整體架構(gòu)的構(gòu)建及ETL的設(shè)計(jì)既绩,這也是日常管理維護(hù)中的重頭;而數(shù)據(jù)倉庫的真正價(jià)值體現(xiàn)在基于其的數(shù)據(jù)應(yīng)用上还惠,如果沒有有效的數(shù)據(jù)應(yīng)用也就失去了構(gòu)建數(shù)據(jù)倉庫的意義

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末饲握,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子吸重,更是在濱河造成了極大的恐慌互拾,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,402評(píng)論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嚎幸,死亡現(xiàn)場(chǎng)離奇詭異颜矿,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)嫉晶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門骑疆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人替废,你說我怎么就攤上這事箍铭。” “怎么了椎镣?”我有些...
    開封第一講書人閱讀 162,483評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵诈火,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我状答,道長(zhǎng)冷守,這世上最難降的妖魔是什么刀崖? 我笑而不...
    開封第一講書人閱讀 58,165評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮拍摇,結(jié)果婚禮上亮钦,老公的妹妹穿的比我還像新娘。我一直安慰自己充活,他們只是感情好蜂莉,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評(píng)論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著混卵,像睡著了一般映穗。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上幕随,一...
    開封第一講書人閱讀 51,146評(píng)論 1 297
  • 那天男公,我揣著相機(jī)與錄音,去河邊找鬼合陵。 笑死枢赔,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的拥知。 我是一名探鬼主播踏拜,決...
    沈念sama閱讀 40,032評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼低剔!你這毒婦竟也來了速梗?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,896評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤襟齿,失蹤者是張志新(化名)和其女友劉穎姻锁,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體猜欺,經(jīng)...
    沈念sama閱讀 45,311評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡位隶,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了开皿。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片涧黄。...
    茶點(diǎn)故事閱讀 39,696評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖赋荆,靈堂內(nèi)的尸體忽然破棺而出笋妥,到底是詐尸還是另有隱情,我是刑警寧澤窄潭,帶...
    沈念sama閱讀 35,413評(píng)論 5 343
  • 正文 年R本政府宣布春宣,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏月帝。R本人自食惡果不足惜材义,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望嫁赏。 院中可真熱鬧,春花似錦油挥、人聲如沸潦蝇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽攘乒。三九已至,卻和暖如春惋鹅,著一層夾襖步出監(jiān)牢的瞬間则酝,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評(píng)論 1 269
  • 我被黑心中介騙來泰國打工闰集, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留沽讹,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,698評(píng)論 2 368
  • 正文 我出身青樓武鲁,卻偏偏與公主長(zhǎng)得像爽雄,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子沐鼠,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容