Hive-初識HIVE（一）

轉(zhuǎn)載自：https://www.cnblogs.com/qingyunzong/p/8707885.html

Hive簡介

什么是hive？

1、Hive 由 Facebook 實(shí)現(xiàn)并開源

2田晚、是基于 Hadoop 的一個(gè)數(shù)據(jù)倉庫工具

3衫生、可以將結(jié)構(gòu)化的數(shù)據(jù)映射為一張數(shù)據(jù)庫表

4掀泳、并提供 HQL(Hive SQL)查詢功能

5况既、底層數(shù)據(jù)是存儲(chǔ)在 HDFS 上

6、Hive的本質(zhì)是將 SQL 語句轉(zhuǎn)換為 MapReduce 任務(wù)運(yùn)行

7属瓣、使不熟悉 MapReduce 的用戶很方便地利用 HQL 處理和計(jì)算 HDFS 上的結(jié)構(gòu)化的數(shù)據(jù)载迄，適用于離線的批量數(shù)據(jù)計(jì)算讯柔。

????????數(shù)據(jù)倉庫之父比爾·恩門（Bill Inmon）在 1991 年出版的“Building the Data Warehouse”（《建立數(shù)據(jù)倉庫》）一書中所提出的定義被廣泛接受——數(shù)據(jù)倉庫（Data Warehouse）是一個(gè)面向主題的（Subject Oriented）、集成的（Integrated）护昧、相對穩(wěn)定的（Non-Volatile）魂迄、反映歷史變化（Time Variant）的數(shù)據(jù)集合，用于支持管理決策(Decision Making Support)捏卓。

　　Hive 依賴于 HDFS 存儲(chǔ)數(shù)據(jù)极祸，Hive 將 HQL 轉(zhuǎn)換成 MapReduce 執(zhí)行，所以說 Hive 是基于 Hadoop 的一個(gè)數(shù)據(jù)倉庫工具怠晴，實(shí)質(zhì)就是一款基于 HDFS 的 MapReduce 計(jì)算框架，對存儲(chǔ)在 HDFS 中的數(shù)據(jù)進(jìn)行分析和管理

為什么要使用hive?

直接使用 MapReduce 所面臨的問題：

　　1浴捆、人員學(xué)習(xí)成本太高

　　2蒜田、項(xiàng)目周期要求太短

　　3、MapReduce實(shí)現(xiàn)復(fù)雜查詢邏輯開發(fā)難度太大

為什么要使用 Hive：

　　1选泻、更友好的接口：操作接口采用類 SQL 的語法冲粤，提供快速開發(fā)的能力

　　2、更低的學(xué)習(xí)成本：避免了寫 MapReduce页眯，減少開發(fā)人員的學(xué)習(xí)成本

　　3梯捕、更好的擴(kuò)展性：可自由擴(kuò)展集群規(guī)模而無需重啟服務(wù)，還支持用戶自定義函數(shù)

HIVE特點(diǎn)窝撵？

優(yōu)點(diǎn)：

1傀顾、可擴(kuò)展性,橫向擴(kuò)展，Hive 可以自由的擴(kuò)展集群的規(guī)模碌奉，一般情況下不需要重啟服務(wù) 橫向擴(kuò)展：通過分擔(dān)壓力的方式擴(kuò)展集群的規(guī)模縱向擴(kuò)展：一臺服務(wù)器cpu i7-6700k 4核心8線程短曾，8核心16線程，內(nèi)存64G => 128G

2赐劣、延展性嫉拐，Hive 支持自定義函數(shù)，用戶可以根據(jù)自己的需求來實(shí)現(xiàn)自己的函數(shù)

3魁兼、良好的容錯(cuò)性婉徘，可以保障即使有節(jié)點(diǎn)出現(xiàn)問題，SQL 語句仍可完成執(zhí)行

缺點(diǎn)：

1咐汞、Hive 不支持記錄級別的增刪改操作盖呼，但是用戶可以通過查詢生成新表或者將查詢結(jié) 果導(dǎo)入到文件中（當(dāng)前選擇的 hive-2.3.2 的版本支持記錄級別的插入操作）

2、Hive 的查詢延時(shí)很嚴(yán)重碉考，因?yàn)?MapReduce Job 的啟動(dòng)過程消耗很長時(shí)間塌计，所以不能用在交互查詢系統(tǒng)中。

3侯谁、Hive 不支持事務(wù)（因?yàn)椴粵]有增刪改锌仅，所以主要用來做 OLAP（聯(lián)機(jī)分析處理）章钾，而不是 OLTP（聯(lián)機(jī)事務(wù)處理），這就是數(shù)據(jù)處理的兩大級別）热芹。

Hive 和 RDBMS 的對比

總結(jié)：

????????Hive 具有 SQL 數(shù)據(jù)庫的外表贱傀，但應(yīng)用場景完全不同，Hive 只適合用來做海量離線數(shù) 據(jù)統(tǒng)計(jì)分析伊脓，也就是數(shù)據(jù)倉庫府寒。

Hive架構(gòu)

1、用戶接口: shell/CLI, jdbc/odbc, webui Command Line Interface

????????CLI报腔，Shell 終端命令行（Command Line Interface）株搔，采用交互形式使用 Hive 命令行與 Hive 進(jìn)行交互，最常用（學(xué)習(xí)纯蛾，調(diào)試纤房，生產(chǎn)）

　　JDBC/ODBC，是 Hive 的基于 JDBC 操作提供的客戶端翻诉，用戶（開發(fā)員炮姨，運(yùn)維人員）通過這連接至 Hive server 服務(wù)

　　Web UI，通過瀏覽器訪問 Hive

2碰煌、跨語言服務(wù)?： thrift server 提供了一種能力舒岸，讓用戶可以使用多種不同的語言來操縱hive

Thrift 是 Facebook 開發(fā)的一個(gè)軟件框架，可以用來進(jìn)行可擴(kuò)展且跨語言的服務(wù)的開發(fā)芦圾， Hive 集成了該服務(wù)蛾派，能讓不同的編程語言調(diào)用 Hive 的接口

3、底層的Driver：驅(qū)動(dòng)器Driver堕扶，編譯器Compiler碍脏，優(yōu)化器Optimizer，執(zhí)行器Executor

????????Driver 組件完成 HQL 查詢語句從詞法分析稍算，語法分析典尾，編譯，優(yōu)化糊探，以及生成邏輯執(zhí)行計(jì)劃的生成钾埂。生成的邏輯執(zhí)行計(jì)劃存儲(chǔ)在 HDFS 中，并隨后由 MapReduce 調(diào)用執(zhí)行

　　Hive 的核心是驅(qū)動(dòng)引擎科平，驅(qū)動(dòng)引擎由四部分組成：

　　　　(1) 解釋器：解釋器的作用是將 HiveSQL 語句轉(zhuǎn)換為抽象語法樹（AST）

　　　　(2) 編譯器：編譯器是將語法樹編譯為邏輯執(zhí)行計(jì)劃

　　　　(3) 優(yōu)化器：優(yōu)化器是對邏輯執(zhí)行計(jì)劃進(jìn)行優(yōu)化

　　　　(4) 執(zhí)行器：執(zhí)行器是調(diào)用底層的運(yùn)行框架執(zhí)行邏輯執(zhí)行計(jì)劃

4褥紫、元數(shù)據(jù)存儲(chǔ)系統(tǒng)?： RDBMS MySQL

? ?????元數(shù)據(jù)，通俗的講瞪慧，就是存儲(chǔ)在 Hive 中的數(shù)據(jù)的描述信息髓考。

　　Hive 中的元數(shù)據(jù)通常包括：表的名字，表的列和分區(qū)及其屬性弃酌，表的屬性（內(nèi)部表和外部表）氨菇，表的數(shù)據(jù)所在目錄

　　Metastore 默認(rèn)存在自帶的 Derby 數(shù)據(jù)庫中儡炼。缺點(diǎn)就是不適合多用戶操作，并且數(shù)據(jù)存儲(chǔ)目錄不固定查蓉。數(shù)據(jù)庫跟著 Hive 走乌询，極度不方便管理

　　解決方案：通常存我們自己創(chuàng)建的 MySQL 庫（本地或遠(yuǎn)程）

　　Hive 和 MySQL 之間通過 MetaStore 服務(wù)交互

執(zhí)行流程

　　HiveQL 通過命令行或者客戶端提交，經(jīng)過 Compiler 編譯器豌研，運(yùn)用 MetaStore 中的元數(shù) 據(jù)進(jìn)行類型檢測和語法分析妹田，生成一個(gè)邏輯方案(Logical Plan)，然后通過的優(yōu)化處理鹃共，產(chǎn)生一個(gè) MapReduce 任務(wù)鬼佣。

Hive的數(shù)據(jù)組織

1、Hive 的存儲(chǔ)結(jié)構(gòu)包括數(shù)據(jù)庫霜浴、表沮趣、視圖、分區(qū)和表數(shù)據(jù)等坷随。數(shù)據(jù)庫，表驻龟，分區(qū)等等都對應(yīng)HDFS 上的一個(gè)目錄温眉。表數(shù)據(jù)對應(yīng) HDFS 對應(yīng)目錄下的文件。

2翁狐、Hive 中所有的數(shù)據(jù)都存儲(chǔ)在 HDFS 中类溢，沒有專門的數(shù)據(jù)存儲(chǔ)格式，因?yàn)?b>?Hive 是讀模式?（Schema On Read）露懒，可支持 TextFile闯冷，SequenceFile，RCFile 或者自定義格式等

3懈词、只需要在創(chuàng)建表的時(shí)候告訴 Hive 數(shù)據(jù)中的列分隔符和行分隔符蛇耀，Hive 就可以解析數(shù)據(jù)

Hive 的默認(rèn)列分隔符：控制符?Ctrl + A，\x01

Hive 的默認(rèn)行分隔符：換行符?\n

4坎弯、Hive 中包含以下數(shù)據(jù)模型：

database：在 HDFS 中表現(xiàn)為${hive.metastore.warehouse.dir}目錄下一個(gè)文件夾

table：在 HDFS 中表現(xiàn)所屬 database 目錄下一個(gè)文件夾

external table：與 table 類似纺涤，不過其數(shù)據(jù)存放位置可以指定任意 HDFS 目錄路徑

partition：在 HDFS 中表現(xiàn)為 table 目錄下的子目錄

bucket：在 HDFS 中表現(xiàn)為同一個(gè)表目錄或者分區(qū)目錄下根據(jù)某個(gè)字段的值進(jìn)行 hash 散列之后的多個(gè)文件

view：與傳統(tǒng)數(shù)據(jù)庫類似，只讀抠忘，基于基本表創(chuàng)建

5撩炊、Hive 的元數(shù)據(jù)存儲(chǔ)在 RDBMS 中，除元數(shù)據(jù)外的其它所有數(shù)據(jù)都基于 HDFS 存儲(chǔ)崎脉。默認(rèn)情況下拧咳，Hive 元數(shù)據(jù)保存在內(nèi)嵌的 Derby 數(shù)據(jù)庫中，只能允許一個(gè)會(huì)話連接囚灼，只適合簡單的測試骆膝。實(shí)際生產(chǎn)環(huán)境中不適用祭衩，為了支持多用戶會(huì)話，則需要一個(gè)獨(dú)立的元數(shù)據(jù)庫谭网，使用 MySQL 作為元數(shù)據(jù)庫汪厨，Hive 內(nèi)部對 MySQL 提供了很好的支持。

6愉择、Hive 中的表分為內(nèi)部表劫乱、外部表、分區(qū)表和 Bucket 表

內(nèi)部表和外部表的區(qū)別：

　　刪除內(nèi)部表锥涕，刪除表元數(shù)據(jù)和數(shù)據(jù)

　　刪除外部表衷戈，刪除元數(shù)據(jù)，不刪除數(shù)據(jù)

內(nèi)部表和外部表的使用選擇：

　　大多數(shù)情況层坠，他們的區(qū)別不明顯殖妇，如果數(shù)據(jù)的所有處理都在 Hive 中進(jìn)行，那么傾向于選擇內(nèi)部表破花，但是如果 Hive 和其他工具要針對相同的數(shù)據(jù)集進(jìn)行處理谦趣，外部表更合適。

　　使用外部表訪問存儲(chǔ)在 HDFS 上的初始數(shù)據(jù)座每，然后通過 Hive 轉(zhuǎn)換數(shù)據(jù)并存到內(nèi)部表中

　　使用外部表的場景是針對一個(gè)數(shù)據(jù)集有多個(gè)不同的 Schema

　　通過外部表和內(nèi)部表的區(qū)別和使用選擇的對比可以看出來前鹅，hive 其實(shí)僅僅只是對存儲(chǔ)在 HDFS 上的數(shù)據(jù)提供了一種新的抽象。而不是管理存儲(chǔ)在 HDFS 上的數(shù)據(jù)峭梳。所以不管創(chuàng)建內(nèi)部表還是外部表舰绘，都可以對 hive 表的數(shù)據(jù)存儲(chǔ)目錄中的數(shù)據(jù)進(jìn)行增刪操作。

分區(qū)表和分桶表的區(qū)別：?

　　Hive 數(shù)據(jù)表可以根據(jù)某些字段進(jìn)行分區(qū)操作葱椭，細(xì)化數(shù)據(jù)管理捂寿，可以讓部分查詢更快。同時(shí)表和分區(qū)也可以進(jìn)一步被劃分為 Buckets孵运，分桶表的原理和 MapReduce 編程中的 HashPartitioner 的原理類似秦陋。

　　分區(qū)和分桶都是細(xì)化數(shù)據(jù)管理，但是分區(qū)表是手動(dòng)添加區(qū)分掐松，由于 Hive 是讀模式踱侣，所以對添加進(jìn)分區(qū)的數(shù)據(jù)不做模式校驗(yàn)，分桶表中的數(shù)據(jù)是按照某些分桶字段進(jìn)行 hash 散列形成的多個(gè)文件大磺，所以數(shù)據(jù)的準(zhǔn)確性也高很多

最后編輯于：2018.10.05 12:51:02

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末抡句，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子杠愧，更是在濱河造成了極大的恐慌待榔，老刑警劉巖，帶你破解...
沈念sama閱讀 217,509評論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異锐锣，居然都是意外死亡腌闯，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,806評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門雕憔，熙熙樓的掌柜王于貴愁眉苦臉地迎上來姿骏，“玉大人，你說我怎么就攤上這事斤彼》质荩” “怎么了？”我有些...
開封第一講書人閱讀 163,875評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵琉苇，是天一觀的道長嘲玫。經(jīng)常有香客問我，道長并扇，這世上最難降的妖魔是什么去团？我笑而不...
開封第一講書人閱讀 58,441評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮穷蛹，結(jié)果婚禮上土陪，老公的妹妹穿的比我還像新娘。我一直安慰自己肴熏，他們只是感情好旺坠，可當(dāng)我...
茶點(diǎn)故事閱讀 67,488評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著扮超，像睡著了一般。火紅的嫁衣襯著肌膚如雪蹋肮。梳的紋絲不亂的頭發(fā)上出刷，一...
開封第一講書人閱讀 51,365評論 1贊 302
城市分裂傳說
那天，我揣著相機(jī)與錄音坯辩，去河邊找鬼馁龟。笑死，一個(gè)胖子當(dāng)著我的面吹牛漆魔，可吹牛的內(nèi)容都是我干的坷檩。我是一名探鬼主播，決...
沈念sama閱讀 40,190評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼改抡，長吁一口氣：“原來是場噩夢啊……” “哼矢炼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起阿纤，我...
開封第一講書人閱讀 39,062評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤句灌，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體胰锌，經(jīng)...
沈念sama閱讀 45,500評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡骗绕，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,706評論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了资昧。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片酬土。...
茶點(diǎn)故事閱讀 39,834評論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖格带，靈堂內(nèi)的尸體忽然破棺而出撤缴，到底是詐尸還是另有隱情，我是刑警寧澤践惑，帶...
沈念sama閱讀 35,559評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布腹泌，位于F島的核電站，受9級特大地震影響尔觉，放射性物質(zhì)發(fā)生泄漏凉袱。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,167評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一侦铜、第九天我趴在偏房一處隱蔽的房頂上張望专甩。院中可真熱鬧，春花似錦钉稍、人聲如沸涤躲。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,779評論 0贊 22
一樁弒父案贡未，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽种樱。三九已至，卻和暖如春俊卤，著一層夾襖步出監(jiān)牢的瞬間嫩挤，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,912評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工消恍，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留岂昭，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,958評論 2贊 370
代替公主和親
正文我出身青樓狠怨，卻偏偏與公主長得像约啊，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子佣赖，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,779評論 2贊 354