數(shù)據(jù)倉庫:基礎(chǔ)

什么是數(shù)據(jù)倉庫地回?

面向主題的,集成的俊鱼,相對穩(wěn)定的刻像,反映歷史變化的數(shù)據(jù)集合,用于支持管理決策并闲。


數(shù)據(jù)倉庫细睡,英文名稱Data Warehouse,簡寫為DW帝火。數(shù)據(jù)倉庫顧名思義溜徙,是一個很大的數(shù)據(jù)存儲集合,出于企業(yè)的分析性報告和決策支持目的而創(chuàng)建犀填,對多樣的業(yè)務(wù)數(shù)據(jù)進行篩選與整合蠢壹。它為企業(yè)提供一定的BI(商業(yè)智能)能力,指導(dǎo)業(yè)務(wù)流程改進九巡、監(jiān)視時間知残、成本、質(zhì)量以及控制比庄。

數(shù)據(jù)倉庫的輸入方是各種各樣的數(shù)據(jù)源求妹,最終的輸出用于企業(yè)的數(shù)據(jù)分析、數(shù)據(jù)挖掘佳窑、數(shù)據(jù)報表等方向制恍。

數(shù)據(jù)倉庫都有什么特點呢?

1.主題性

不同于傳統(tǒng)數(shù)據(jù)庫對應(yīng)于某一個或多個項目神凑,數(shù)據(jù)倉庫根據(jù)使用者實際需求净神,將不同數(shù)據(jù)源的數(shù)據(jù)在一個較高的抽象層次上做整合,所有數(shù)據(jù)都圍繞某一主題來組織溉委。
這里的主題怎么來理解呢鹃唯?比如對于滴滴出行,“司機行為分析”就是一個主題瓣喊,對于鏈家網(wǎng)坡慌,“成交分析”就是一個主題。

2.集成性

數(shù)據(jù)倉庫中存儲的數(shù)據(jù)是來源于多個數(shù)據(jù)源的集成藻三,原始數(shù)據(jù)來自不同的數(shù)據(jù)源洪橘,存儲方式各不相同跪者。要整合成為最終的數(shù)據(jù)集合,需要從數(shù)據(jù)源經(jīng)過一系列抽取熄求、清洗渣玲、轉(zhuǎn)換的過程。

3.穩(wěn)定性

數(shù)據(jù)倉庫中保存的數(shù)據(jù)是一系列歷史快照弟晚,不允許被修改忘衍。用戶只能通過分析工具進行查詢和分析。

4.時變性

數(shù)據(jù)倉庫會定期接收新的集成數(shù)據(jù)卿城,反應(yīng)出最新的數(shù)據(jù)變化枚钓。這和特點并不矛盾。



什么是ETL藻雪?

ETL的英文全稱是 Extract-Transform-Load 的縮寫秘噪,用來描述將數(shù)據(jù)從來源遷移到目標的幾個過程:

1.Extract狸吞,數(shù)據(jù)抽取勉耀,也就是把數(shù)據(jù)從數(shù)據(jù)源讀出來。

2.Transform蹋偏,數(shù)據(jù)轉(zhuǎn)換便斥,把原始數(shù)據(jù)轉(zhuǎn)換成期望的格式和維度。如果用在數(shù)據(jù)倉庫的場景下威始,Transform也包含數(shù)據(jù)清洗枢纠,清洗掉噪音數(shù)據(jù)。

3.Load 數(shù)據(jù)加載黎棠,把處理后的數(shù)據(jù)加載到目標處晋渺,比如數(shù)據(jù)倉庫。

Hadoop?

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)脓斩。

Hadoop的框架最核心的設(shè)計就是:HDFS和MapReduce木西。HDFS為海量的數(shù)據(jù)提供了存儲,而MapReduce則為海量的數(shù)據(jù)提供了計算随静。

  • MapReduce:它是一種并行編程模型在大型集群普通硬件可用于處理大型結(jié)構(gòu)化八千,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
  • HDFS:Hadoop分布式文件系統(tǒng)是Hadoop的框架的一部分燎猛,用于存儲和處理數(shù)據(jù)集恋捆。它提供了一個容錯文件系統(tǒng)在普通硬件上運行。

Hadoop生態(tài)系統(tǒng)包含了用于協(xié)助Hadoop的不同的子項目(工具)模塊重绷,如Sqoop, Pig 和 Hive沸停。

  • Sqoop: 它是用來在HDFS和RDBMS之間來回導(dǎo)入和導(dǎo)出數(shù)據(jù)。
  • Pig: 它是用于開發(fā)MapReduce操作的腳本程序語言的平臺昭卓。
  • Hive: 它是用來開發(fā)SQL類型腳本星立,用于做MapReduce操作的平臺爽茴。

Pig是接近腳本方式去描述MapReduce,Hive則用的是SQL绰垂。

注:有多種方法來執(zhí)行MapReduce作業(yè):

  • 傳統(tǒng)的方法是使用Java MapReduce程序結(jié)構(gòu)化室奏,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
  • 針對MapReduce的腳本的方式劲装,使用Pig來處理結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)胧沫。
  • Hive查詢語言(HiveQL或HQL)采用Hive為MapReduce的處理結(jié)構(gòu)化數(shù)據(jù)。

Hive占业?

1.HDFS

Hadoop的分布式文件系統(tǒng)绒怨,在這里作為數(shù)據(jù)倉庫的存儲層。圖中的Data Node就是HDFS的眾多工作節(jié)點谦疾。

2.MapReduce

一種針對海量數(shù)據(jù)的并行計算模型南蹂,可以簡單理解為對多個數(shù)據(jù)分片的數(shù)據(jù)轉(zhuǎn)換和合并。

Hive的主要優(yōu)勢是:免費念恍!

Hive是什么

Hive是一個基于Hadoop的數(shù)據(jù)倉庫基礎(chǔ)工具六剥,在Hadoop中用來處理結(jié)構(gòu)化數(shù)據(jù),可以對存儲在HDFS上的文件數(shù)據(jù)集進行查詢和分析處理峰伙。它架構(gòu)在Hadoop之上疗疟,Hive對外提供了類似于SQL語言的查詢語言 HiveQL,在做查詢時將HQL語句轉(zhuǎn)換成MapReduce任務(wù)瞳氓,在Hadoop層進行執(zhí)行策彤。

最初,Hive是由Facebook開發(fā)匣摘,后來由Apache軟件基金會開發(fā)店诗,并作為進一步將它作為名義下Apache Hive為一個開源項目。它用在好多不同的公司音榜。例如庞瘸,亞馬遜使用它在 Amazon Elastic MapReduce。

Hive 不是

* 一個關(guān)系數(shù)據(jù)庫 
* 一個設(shè)計用于聯(lián)機事務(wù)處理(OLTP) 
* 實時查詢和行級更新的語言 

Hiver特點

* 它存儲架構(gòu)在一個數(shù)據(jù)庫中并處理數(shù)據(jù)到HDFS囊咏。
* 它是專為OLAP設(shè)計恕洲。 
* 它提供SQL類型語言查詢叫HiveQL或HQL。 
* 它是熟知梅割,快速霜第,可擴展和可擴展的。 

Hive架構(gòu)

Hive的組件總體上可以分為以下幾個部分:用戶接口(UI)户辞、驅(qū)動泌类、編譯器、元數(shù)據(jù)(Hive系統(tǒng)參數(shù)數(shù)據(jù))和執(zhí)行引擎。

  1. 對外的接口UI包括以下幾種:命令行CLI刃榨,Web界面弹砚、JDBC/ODBC接口;
  2. 驅(qū)動:接收用戶提交的查詢HQL枢希;
  3. 編譯器:解析查詢語句桌吃,執(zhí)行語法分析,生成執(zhí)行計劃苞轿;
  4. 元數(shù)據(jù)Metadata:存放系統(tǒng)的表茅诱、分區(qū)、列搬卒、列類型等所有信息瑟俭,以及對應(yīng)的HDFS文件信息等;
  5. 執(zhí)行引擎:執(zhí)行執(zhí)行計劃契邀,執(zhí)行計劃是一個有向無環(huán)圖摆寄,執(zhí)行引擎按照各個任務(wù)的依賴關(guān)系選擇執(zhí)行任務(wù)(Job)。
    Hive編譯器將HQL代碼轉(zhuǎn)換成一組操作符(operator)坯门,操作符是Hive的最小操作單元微饥,每個操作符代表了一種HDFS操作或者MapReduce作業(yè)。

下面的組件圖描繪了Hive的結(jié)構(gòu):

流程如下:
1 Execute Query Hive接口田盈,如命令行或Web UI發(fā)送查詢驅(qū)動程序(任何數(shù)據(jù)庫驅(qū)動程序畜号,如JDBC缴阎,ODBC等)來執(zhí)行允瞧。
2 Get Plan 在驅(qū)動程序幫助下查詢編譯器,分析查詢檢查語法和查詢計劃或查詢的要求蛮拔。
3 Get Metadata 編譯器發(fā)送元數(shù)據(jù)請求到Metastore(任何數(shù)據(jù)庫)述暂。
4 Send Metadata Metastore發(fā)送元數(shù)據(jù),以編譯器的響應(yīng)建炫。
5 Send Plan 編譯器檢查要求畦韭,并重新發(fā)送計劃給驅(qū)動程序。到此為止肛跌,查詢解析和編譯完成艺配。
6 Execute Plan 驅(qū)動程序發(fā)送的執(zhí)行計劃到執(zhí)行引擎。
7 Execute Job 在內(nèi)部衍慎,執(zhí)行作業(yè)的過程是一個MapReduce工作转唉。執(zhí)行引擎發(fā)送作業(yè)給JobTracker,在名稱節(jié)點并把它分配作業(yè)到TaskTracker稳捆,這是在數(shù)據(jù)節(jié)點赠法。在這里,查詢執(zhí)行MapReduce工作乔夯。
7.1 Metadata Ops 與此同時砖织,在執(zhí)行時款侵,執(zhí)行引擎可以通過Metastore執(zhí)行元數(shù)據(jù)操作。
8 Fetch Result 執(zhí)行引擎接收來自數(shù)據(jù)節(jié)點的結(jié)果侧纯。
9 Send Results 執(zhí)行引擎發(fā)送這些結(jié)果值給驅(qū)動程序新锈。
10 Send Results 驅(qū)動程序?qū)⒔Y(jié)果發(fā)送給Hive接口。

Teradata眶熬?

Teradata數(shù)據(jù)倉庫配備性能最高壕鹉、最可靠的大規(guī)模并行處理 (MPP) 平臺,能夠高速處理海量數(shù)據(jù)聋涨,其性能遠遠高于Hive晾浴。

它使得企業(yè)可以專注于業(yè)務(wù),無需花費大量精力管理技術(shù)牍白,因而可以更加快速地做出明智的決策脊凰,實現(xiàn) ROI(投資回報率) 最大化。

【參考】
https://blog.csdn.net/dajiangtai007/article/details/80238539

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末茂腥,一起剝皮案震驚了整個濱河市狸涌,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌最岗,老刑警劉巖帕胆,帶你破解...
    沈念sama閱讀 210,978評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異般渡,居然都是意外死亡懒豹,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評論 2 384
  • 文/潘曉璐 我一進店門驯用,熙熙樓的掌柜王于貴愁眉苦臉地迎上來脸秽,“玉大人,你說我怎么就攤上這事蝴乔〖遣停” “怎么了?”我有些...
    開封第一講書人閱讀 156,623評論 0 345
  • 文/不壞的土叔 我叫張陵薇正,是天一觀的道長片酝。 經(jīng)常有香客問我,道長挖腰,這世上最難降的妖魔是什么雕沿? 我笑而不...
    開封第一講書人閱讀 56,324評論 1 282
  • 正文 為了忘掉前任,我火速辦了婚禮曙聂,結(jié)果婚禮上晦炊,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好断国,可當我...
    茶點故事閱讀 65,390評論 5 384
  • 文/花漫 我一把揭開白布贤姆。 她就那樣靜靜地躺著,像睡著了一般稳衬。 火紅的嫁衣襯著肌膚如雪霞捡。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,741評論 1 289
  • 那天薄疚,我揣著相機與錄音碧信,去河邊找鬼。 笑死街夭,一個胖子當著我的面吹牛砰碴,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播板丽,決...
    沈念sama閱讀 38,892評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼呈枉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了埃碱?” 一聲冷哼從身側(cè)響起猖辫,我...
    開封第一講書人閱讀 37,655評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎砚殿,沒想到半個月后啃憎,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,104評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡似炎,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年辛萍,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片名党。...
    茶點故事閱讀 38,569評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡叹阔,死狀恐怖挠轴,靈堂內(nèi)的尸體忽然破棺而出传睹,到底是詐尸還是另有隱情,我是刑警寧澤岸晦,帶...
    沈念sama閱讀 34,254評論 4 328
  • 正文 年R本政府宣布欧啤,位于F島的核電站,受9級特大地震影響启上,放射性物質(zhì)發(fā)生泄漏邢隧。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,834評論 3 312
  • 文/蒙蒙 一冈在、第九天 我趴在偏房一處隱蔽的房頂上張望倒慧。 院中可真熱鬧,春花似錦、人聲如沸纫谅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽付秕。三九已至兰珍,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間询吴,已是汗流浹背掠河。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留猛计,地道東北人唠摹。 一個月前我還...
    沈念sama閱讀 46,260評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像奉瘤,于是被迫代替她去往敵國和親跃闹。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,446評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 數(shù)據(jù)倉庫 什么時候需要用到數(shù)據(jù)倉庫毛好? 一個公司里面不同項目可能用到不同的數(shù)據(jù)源望艺,有的存在MySQL里面,又的存在M...
    dy2903閱讀 1,107評論 0 1
  • 什么時候需要用到數(shù)據(jù)倉庫? 一個公司里面不同項目可能用到不同的數(shù)據(jù)源吼驶,有的存在MySQL里面惩激,又的存在MongoD...
    dy2903閱讀 19,987評論 0 8
  • iOS 11以前,可使用下面方法進行設(shè)置 - (void)setBackButtonTitlePositionAd...
    回眸月閱讀 1,061評論 0 1
  • 我只是我!我極度自卑蟹演,傷感风钻,害怕別人注視著我,我膽小酒请,我內(nèi)向骡技,我很容易受傷,如果愛我羞反,請好好對我布朦,珍惜我,如果不愛...
    楊_288c閱讀 188評論 0 1
  • 原兄難追憶昼窗,非我知者誰是趴? 若可早華年,稱兄并進退澄惊。 此局無容處唆途,但愿生死隨富雅。 少友黑白面,獸禽無可竄肛搬。
    沐梵晟閱讀 166評論 0 2