前言:
- 好久沒有整理筆記了乱灵,都不記得上次更新簡書是什么時候了泡躯,是時候整理下最近接觸的技能了岛宦;
- 這篇文章是為了以后個人方便復習和查閱抵皱;
- 人不知不覺就會變得懶散,只能這樣逼迫自己再學習點東西缚柏;
- 工作中在前輩的指導下摸索著一知半解的使用著苹熏,自己還是太菜啊,不懂的東西太多
1.Hive是什么币喧?
其實柜裸,我也不知道hive到底是什么,查找資料粱锐,總結就下面幾點:
Apache Hive數(shù)據(jù)倉庫軟件提供對存儲在分布式中的大型數(shù)據(jù)集的查詢和管理疙挺,它本身是建立在Apache Hadoop之上,主要提供以下功能:
(1)它提供了一系列的工具怜浅,可用來對數(shù)據(jù)進行提取/轉化/加載(ETL)铐然;
(2)是一種可以存儲、查詢和分析存儲在HDFS(或者HBase)中的大規(guī)模數(shù)據(jù)的機制恶座;
(3)查詢是通過MapReduce來完成的(并不是所有的查詢都需要MapReduce來完成搀暑,比如select * from XXX就不需要;
(4)在Hive0.11對類似select a,b from XXX的查詢通過配置也可以不通過MapReduce來完成
總結下就是
hive是基于hadoop的數(shù)據(jù)倉庫跨琳。
Hive安裝指導
HIVE完全分布式集群安裝過程(元數(shù)據(jù)庫: MySQL)
有一點需要說明下自点,Hive默認元數(shù)據(jù)庫不是Mysql存在局限,所以最好使用mysql
允許我盜個圖
2.Hive基本操作
Hive sql 語法和sql語法非常相似脉让,我們先看看Hql的基本語法吧
下面是網上大牛整理的資料
Hadoop Hive sql語法詳解1-認識hive及DDL操作
Hadoop Hive sql語法詳解2-修改表結構
Hadoop Hive sql語法詳解3--DML 操作:元數(shù)據(jù)存儲
Hadoop Hive sql語法詳解4--DQL 操作:數(shù)據(jù)查詢SQL
Hadoop Hive sql語法詳解5--HiveQL與SQL區(qū)別
復雜操作
Hive快捷查詢:不啟用Mapreduce job啟用Fetch task三種方式介紹
Hive如何執(zhí)行文件中的sql語句
Hive四種數(shù)據(jù)導入方式介紹
Hive中的三種不同的數(shù)據(jù)導出方式介紹
Hive如何創(chuàng)建索引
3.高級進階(2017/08/13 更新)
(1) hive與hadoop的關系
(2) hive與傳統(tǒng)數(shù)據(jù)庫作對比
方面 | Hive | RDBMS |
---|---|---|
查詢語言 | HQL | SQL |
數(shù)據(jù)存儲 | HDFS | Raw Device or Local FS |
數(shù)據(jù)格式 | 用戶定義 | 系統(tǒng)決定 |
數(shù)據(jù)更新 | 不支持 | 支持 |
執(zhí)行 | MapReduce | Excutor |
執(zhí)行延遲 | 高 | 低 |
可擴展性 | 高 | 低 |
處理數(shù)據(jù)規(guī)模 | 大 | 小 |
索引 | 0.8版本后加入位圖索引 | 有復雜索引 |
(3) 需要全面了解Hive還是需要大牛的總結--全面了解Hive
- Hive體系結構介紹
- hive實現(xiàn)原理
- hive內部表與外部表區(qū)別詳細介紹
- HIVE中Join的專題---Join詳解
- 讓你徹底明白hive數(shù)據(jù)存儲各種模式
- Hive配置文件中配置項的含義詳解(收藏版)
- HIVE與傳統(tǒng)數(shù)據(jù)庫對比
方便查閱
hive 配置參數(shù)說明(收藏版)
支持sql大全(收藏版)
hive 創(chuàng)建/刪除/截斷 表
hive如何結合hadoop,hbase發(fā)揮作用桂敛,該如何發(fā)揮它的實際意義?
我們來看看下面的問題:
hive為什么與hbase整合
Hive與HBase整合完整指導
hadoop、hbase溅潜、hive版本對應關系
上面是與hbase結合使用术唬,那么我們該如何與編程語言向結合,可以參考下面內容:
通過JDBC驅動連接Hive操作實例
Hive:用Java代碼通過JDBC連接Hiveserver介紹
4.Hive實戰(zhàn)分析(更新于2017-08-20)
從 MapReduce 到 Hive 實戰(zhàn)分析
Hive實戰(zhàn)開發(fā)
你可能會遇到的問題:
hive找不到創(chuàng)建的表了
Hive on Spark解析
hive面試題目:表大概有2T左右滚澜,對表數(shù)據(jù)轉換
在使用Hive的過程中粗仓,難免會遇到各種錯誤,這個時候设捐,學會定位錯誤就顯得至關重要了:
hive如何通過設置日志定位錯誤
大牛分享:hive在騰訊分布式數(shù)據(jù)庫實踐分享
最近輸出太多借浊,是時候讀點書了!