學習目標
Hive是構建在Hadoop之上的數(shù)據(jù)倉庫癌幕,它的本質(zhì)是就是一個數(shù)據(jù)庫
① Hive和一般意義上的數(shù)據(jù)庫有什么區(qū)別
② 如何搭建數(shù)據(jù)庫
③ 創(chuàng)建的過程是什么
④ 如何把數(shù)據(jù)導入到數(shù)據(jù)庫
⑤ 什么是Hive,Hive的體系結構是什么
⑥ Hive如何與hadoop HDFS進行相互操作
⑦ Hive數(shù)據(jù)與Hadoop中的文件之間的關系
一 數(shù)據(jù)倉庫
1.基本概念
概念:數(shù)據(jù)倉庫是一個面向主題的,集成的昧穿,不可更新的序芦,隨時間不變化的數(shù)據(jù)集合,它用于支持企業(yè)或組織的決策分析處理
面向主題:按主題組織(商品推薦系統(tǒng))
集成:數(shù)據(jù)倉庫中的數(shù)據(jù)來自于分散的操作型的數(shù)據(jù)(oracle,mysql)
不可更新:只做數(shù)據(jù)查詢粤咪,一般不做數(shù)據(jù)更新谚中,刪除
2.數(shù)據(jù)倉庫的結構和建立過程
ETL
抽取Extract:提取不同數(shù)據(jù)源的數(shù)據(jù)
轉(zhuǎn)化Transform:轉(zhuǎn)化格式,不同數(shù)據(jù)源的數(shù)據(jù)格式可能不一致
裝載Load:將滿足數(shù)據(jù)格式的數(shù)據(jù)裝載到數(shù)據(jù)倉庫
OLTP:聯(lián)機事務處理(銀行轉(zhuǎn)賬,扣錢和加錢的動作應該同時完成,不能只有扣錢沒有加錢,或者只有加錢捐友,沒有扣錢)操作頻率很高
OLAP:聯(lián)機分析處理(商品推薦系統(tǒng)阅虫,一般只做查詢,不做更新插入操作)
3.數(shù)據(jù)倉庫中的數(shù)據(jù)模型
星型模型募判,雪花模型
以商品信息為核心構建的星型模型
二、Hive
1.基本概念
- Hive是建立在Hadoop HDFS上的數(shù)據(jù)倉庫基礎架構
- Hive是SQL解析引擎,它將SQL語句轉(zhuǎn)化成Map身诺、Reduce Job 然后在Hadoop執(zhí)行
- Hive允許熟悉MapReduce的開發(fā)者開發(fā)自定義的mapper和reducer來處理內(nèi)建的mapper和reducer無法完成的復雜的分析工作
- Hive的表其實就是HDFS的目錄/文件
2.Hive的體系結構
- Hive的元數(shù)據(jù)
-Hive將元數(shù)據(jù)存儲在數(shù)據(jù)庫中(metastore),支持mysql,derby等數(shù)據(jù)庫抄囚。