Hive(一)

  1. Hive產(chǎn)生背景

(1) 從開(kāi)發(fā)、測(cè)試、需求變更角度來(lái)看,MapReduce編程不方便

(2) 傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)人員的需要

希望使用sql一樣的方式來(lái)處理分析大數(shù)據(jù)

(3) 如果數(shù)據(jù)在HDFS上芽世,如果想要使用SQL來(lái)處理,需要什么前提

文件映射成表格(結(jié)構(gòu)化) ==> schema: 元數(shù)據(jù)信息(metastore)
  1. Hive是什么

2.1 Hive官方網(wǎng)址

[hive.apache.org](http://hive.apache.org)

2.2 官網(wǎng)Hive介紹

The Apache Hive ? data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL

apache hive是數(shù)據(jù)倉(cāng)庫(kù)軟件
如果數(shù)據(jù)集是存儲(chǔ)在分布式存儲(chǔ)上
就可以使用sql來(lái)進(jìn)行讀诡壁、寫(xiě)和管理操作

Structure can be projected onto data already in storage

Structure能夠映射成已經(jīng)在存儲(chǔ)中的數(shù)據(jù)

2.3 Hive來(lái)源

(1) Facebook開(kāi)源的, 一開(kāi)始為解決海量結(jié)構(gòu)化日志的統(tǒng)計(jì)(pv or uv), 構(gòu)建在hadoop之上的數(shù)據(jù)倉(cāng)庫(kù)济瓢,通常用于離線處理

寫(xiě)完sql提交給hive之后,將sql翻譯成mapReduce作業(yè)提交到y(tǒng)arn上執(zhí)行

2.4 HQL

HIVE定義了SQL語(yǔ)言(HQL), 是一種類(lèi)SQL

2.5 為什么hive on mapreduce效率低

(1) MapReduce執(zhí)行效率就低

因?yàn)樗蠱ap Task和Reduce Task全部都是以進(jìn)程的方式執(zhí)行的妹卿,
需要啟動(dòng)進(jìn)程旺矾,銷(xiāo)毀進(jìn)程,即使能開(kāi)啟JVM重用夺克,也是用時(shí)開(kāi)啟箕宙,
結(jié)束時(shí)關(guān)閉,成本很高

(2) 怎樣解決

  后來(lái)出現(xiàn)了Hive on spark 和Hive on Tez

2.6 Hive底層支持引擎

MapReduce
Spark
Tez
  1. Hive發(fā)展

3.1 2007.08 起源于Facebook

3.2 2013.05

0.11版本-Stringer phase 1
  提出ORC
  引入Hive Server2

3.3 2013.10

0.12版本-Stringer phase 2
  ORC性能改進(jìn)

3.4 2014.04

0.13版本-Stringer phase 3
  引入tez
  加入Vectorized query engine

3.5 2014.11

0.14 Stinger.next計(jì)劃 phase 1
  CBO(cost-based optimizer)

3.6 目前是3.11版本

  1. 為什么要使用Hive

4.1 SQL

使用方便懊直,可以用sql形式管理大數(shù)據(jù)集

4.2 Hadoop

Hive可以操作大規(guī)模數(shù)據(jù)集
Hive可以作為大數(shù)據(jù)執(zhí)行引擎來(lái)使用

4.3 MetaStore

Pig/Impala/presto/SparkSQL都是共享元數(shù)據(jù)的
也就是說(shuō)在SparkSQL創(chuàng)建的表在Pig/Impala/presto中都能用
  1. Hive和RDBMS的關(guān)系

(1) 實(shí)時(shí)性

RDBMS快,因?yàn)閔ive底層使用hadoop或Spark火鼻,速度慢

(2) 事務(wù)

Hive事務(wù)沒(méi)有多大作用

(3) 分布式

RDBMS集群規(guī)模小室囊,Hive支持的集群規(guī)模大

(4) 數(shù)據(jù)量

Hive處理數(shù)據(jù)量大,RDBMS差

(5) Hive QL 與 SQL之間的關(guān)系

除了語(yǔ)法類(lèi)似魁索,外觀像融撞,但是這兩個(gè)之間無(wú)任何聯(lián)系
  1. 常用分布式存儲(chǔ)

(1) HDFS
(2) Amazon S3
(3) OSS(其實(shí)是對(duì)S3的實(shí)現(xiàn))

  1. Hive部署架構(gòu)圖


    Hive部署架構(gòu).png

7.1 注意

Hive只是客戶(hù)端工具,即便集群上有多個(gè)Hive粗蔚,也不能說(shuō)是Hive集群
MetaStore一般是RDBMS

7.2 為什么需要兩個(gè)Mysql

因?yàn)橹挥幸粋€(gè)MySQL的話會(huì)出現(xiàn)單點(diǎn)故障問(wèn)題尝偎,也就是當(dāng)MySQL發(fā)生故障時(shí)
Hive無(wú)法獲取元數(shù)據(jù),也就無(wú)法與Hadoop上的文件關(guān)聯(lián)起來(lái)
所以在生產(chǎn)上部署兩個(gè)MySQL

7.3 為什么不使用Hive自帶的數(shù)據(jù)庫(kù)

Hive自帶的數(shù)據(jù)庫(kù)是Derby鹏控,但是其不支持多用戶(hù)操作
所以使用RDBMS作為MetaStore致扯,通常為MySQL
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市当辐,隨后出現(xiàn)的幾起案子抖僵,更是在濱河造成了極大的恐慌,老刑警劉巖缘揪,帶你破解...
    沈念sama閱讀 216,651評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件耍群,死亡現(xiàn)場(chǎng)離奇詭異义桂,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)蹈垢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)慷吊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人曹抬,你說(shuō)我怎么就攤上這事溉瓶。” “怎么了沐祷?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,931評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵嚷闭,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我赖临,道長(zhǎng)胞锰,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,218評(píng)論 1 292
  • 正文 為了忘掉前任兢榨,我火速辦了婚禮嗅榕,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘吵聪。我一直安慰自己凌那,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布吟逝。 她就那樣靜靜地躺著帽蝶,像睡著了一般。 火紅的嫁衣襯著肌膚如雪块攒。 梳的紋絲不亂的頭發(fā)上励稳,一...
    開(kāi)封第一講書(shū)人閱讀 51,198評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音囱井,去河邊找鬼驹尼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛庞呕,可吹牛的內(nèi)容都是我干的新翎。 我是一名探鬼主播,決...
    沈念sama閱讀 40,084評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼住练,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼地啰!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起讲逛,我...
    開(kāi)封第一講書(shū)人閱讀 38,926評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤髓绽,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后妆绞,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體顺呕,經(jīng)...
    沈念sama閱讀 45,341評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡枫攀,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了株茶。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片来涨。...
    茶點(diǎn)故事閱讀 39,731評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖启盛,靈堂內(nèi)的尸體忽然破棺而出蹦掐,到底是詐尸還是另有隱情,我是刑警寧澤僵闯,帶...
    沈念sama閱讀 35,430評(píng)論 5 343
  • 正文 年R本政府宣布卧抗,位于F島的核電站,受9級(jí)特大地震影響鳖粟,放射性物質(zhì)發(fā)生泄漏社裆。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評(píng)論 3 326
  • 文/蒙蒙 一向图、第九天 我趴在偏房一處隱蔽的房頂上張望泳秀。 院中可真熱鬧,春花似錦榄攀、人聲如沸嗜傅。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,676評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)吕嘀。三九已至,卻和暖如春贞瞒,著一層夾襖步出監(jiān)牢的瞬間偶房,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,829評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工憔狞, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蝴悉,地道東北人彰阴。 一個(gè)月前我還...
    沈念sama閱讀 47,743評(píng)論 2 368
  • 正文 我出身青樓瘾敢,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親尿这。 傳聞我的和親對(duì)象是個(gè)殘疾皇子簇抵,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 前言: Hadoop的課程已經(jīng)告一段落,基本上在零基礎(chǔ)課程里不會(huì)再出現(xiàn)了射众,接下來(lái)的課程由若總來(lái)上碟摆,第一講Have。...
    ly稻草閱讀 3,614評(píng)論 1 9
  • 一叨橱、產(chǎn)生背景 1.MapReduce編程十分不方便 2.傳統(tǒng)RDBMS【關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(Relational ...
    白面葫蘆娃92閱讀 169評(píng)論 0 0
  • Hive最初是應(yīng)Facebook每天產(chǎn)生的海量新興社會(huì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行管理和機(jī)器學(xué)習(xí)的需求而產(chǎn)生和發(fā)展的典蜕。那么断盛,到底什...
    NeeYoo閱讀 1,377評(píng)論 0 11
  • Hive介紹 什么是數(shù)據(jù)倉(cāng)庫(kù)? 數(shù)據(jù)倉(cāng)庫(kù)之父比爾?恩門(mén)(Bill Inmon)在1991年出版的"Building...
    蠟筆小虎_007閱讀 501評(píng)論 0 1
  • 一愉舔、Hive概述 HIve是什么钢猛?為什么要使用hive?對(duì)于一個(gè)初步接觸hive的初學(xué)者轩缤,這些都是迷惑的命迈,因此本文...
    不清不慎閱讀 801評(píng)論 0 4