1.4.3Hive(理論)

總目錄:http://www.reibang.com/p/e406a9bc93a9

Hadoop - 子目錄:http://www.reibang.com/p/9428e443b7fd

什么是HIVE

HIVE是由Facebook開源(目前移交Apache)用于解決海量結(jié)構(gòu)化日志的數(shù)據(jù)統(tǒng)計(jì)彤敛。
他是一個(gè)基于Hadoop的數(shù)據(jù)倉庫工具印衔,可以將結(jié)構(gòu)化數(shù)據(jù)映射成一張表璧眠,并提供類SQL的查詢服務(wù)逗堵。
HIVE原理本質(zhì)上是一個(gè)將HQL語句轉(zhuǎn)換為MapReduce的轉(zhuǎn)換器韧拒。

原理

  • HIVE處理的數(shù)據(jù)保存在HDFS上
  • HIVE默認(rèn)的底層實(shí)現(xiàn)是MapReduce(慢玉控,吞吐量大)
  • 程序運(yùn)行在YARN上

HIVE可以理解為Hadoop的客戶端剃盾,讓人更方便的操作內(nèi)部存儲(chǔ)的數(shù)據(jù)蛆挫。也是Hadoop生態(tài)圈中少有的不是分布式框架的組件。畢竟沒有聽說過誰的chrome瀏覽器還是分布式的玻蝌。

HIVE的優(yōu)缺點(diǎn)

HIVE的優(yōu)點(diǎn)

  • 接口是類SQL語言蟹肘,提高開發(fā)能力澈魄,降低學(xué)習(xí)成本递沪。
  • HIVE的延遲高榛泛,因此HIVE做數(shù)據(jù)分析的場景對(duì)實(shí)時(shí)性要求不高。
  • HIVE的優(yōu)勢在于處理海量數(shù)據(jù)许饿,對(duì)小數(shù)據(jù)沒有優(yōu)勢,畢竟延遲高舵盈,底層還是MR陋率。
  • HIVE支持自定義函數(shù),用戶可以按照自己的需求自定義函數(shù)秽晚。

HIVE的缺點(diǎn)

  • HQL表達(dá)能力有限瓦糟,這是SQL的通病,例如無法表示迭代式算法赴蝇。
  • 不擅長數(shù)據(jù)挖掘
  • 效率低菩浙,底層是MR。
  • 調(diào)優(yōu)比較困難句伶,是粗粒度處理劲蜻。

HIVE的架構(gòu)原理

架構(gòu)圖

HIVE本質(zhì)是一個(gè)客戶端,所以在這個(gè)框架里面很多東西并不在HIVE中考余,元數(shù)據(jù)存放在關(guān)系型數(shù)據(jù)庫中先嬉,上端是用戶的操作,下端是MR楚堤。
之后中間四個(gè)器是HIVE的疫蔓,這四個(gè)器的運(yùn)行順序是解析器-->編譯器-->優(yōu)化器-->執(zhí)行器。

  • 解析器
    將SQL字符串轉(zhuǎn)化為抽象語法樹AST身冬,這一步使用第三方工具完成衅胀,例如antlr。
    之后對(duì)AST進(jìn)行語法分析吏恭,例如表是否存在拗小,語法是否錯(cuò)誤。

  • 編譯器
    將AST編譯生成邏輯執(zhí)行計(jì)劃樱哼。

  • 優(yōu)化器
    對(duì)邏輯執(zhí)行計(jì)劃進(jìn)行優(yōu)化哀九。

  • 執(zhí)行器
    將邏輯執(zhí)行計(jì)劃轉(zhuǎn)換成可執(zhí)行的物理計(jì)劃剿配,既MapReduce。

ANTLR解析階段
ANTER

HIVE運(yùn)行原理

運(yùn)行原理

HIVE和數(shù)據(jù)庫的區(qū)別

查詢語言的區(qū)別

因?yàn)镾QL被廣泛用于數(shù)據(jù)倉庫方面阅束,因此專門針對(duì)HIVE的特性設(shè)計(jì)了類SQL語言--HQL呼胚。
這使得熟悉SQL的開發(fā)者可以方便使用HIVE進(jìn)行開發(fā)。

數(shù)據(jù)存放位置的區(qū)別

HIVE是建立在Hadoop之上息裸,所以數(shù)據(jù)存儲(chǔ)在HDFS中蝇更。
數(shù)據(jù)庫則是存儲(chǔ)在本地文件系統(tǒng)中。

數(shù)據(jù)更新

由于HIVE是針對(duì)數(shù)據(jù)倉庫應(yīng)用設(shè)計(jì)的呼盆,而數(shù)據(jù)倉庫的內(nèi)容是讀多寫少年扩。因此,HIVE不建議對(duì)數(shù)據(jù)倉庫進(jìn)行頻繁讀寫访圃,所有的數(shù)據(jù)再存入時(shí)就要確定好厨幻。
而數(shù)據(jù)庫的數(shù)據(jù)是要頻繁讀寫的,因此可以使用語句來添加修改數(shù)據(jù)腿时。

索引

HIVE沒有索引况脆,也不需要索引。他讀取數(shù)據(jù)就是暴力掃描所有數(shù)據(jù)批糟。
而數(shù)據(jù)庫需要根據(jù)實(shí)際應(yīng)用對(duì)一個(gè)或多個(gè)建立索引格了,方便讀取和檢索。

執(zhí)行

HIVE的查詢時(shí)基于MapReduce實(shí)現(xiàn)的徽鼎,數(shù)據(jù)庫則是有自己的執(zhí)行引擎盛末。

執(zhí)行延遲

HIVE的讀取是直接暴力掃描所有數(shù)據(jù),而且底層還是MR纬傲,雙重延遲满败,導(dǎo)致HIVE延遲很高,但是這個(gè)高是相對(duì)的叹括,HIVE可以處理海量數(shù)據(jù)還保持一個(gè)可以接收的延遲算墨。
在和數(shù)據(jù)庫比較時(shí),HIVE的并行處理能力優(yōu)勢就得到的體現(xiàn)汁雷。

可擴(kuò)展性

HIVE的存儲(chǔ)是基于Hadoop的HDFS净嘀,世界上最大的hadoop集群是Yahoo的集群(4W臺(tái)服務(wù)器,600PB數(shù)據(jù)侠讯,19個(gè)集群挖藏。)
而oracle最多也不過百臺(tái)服務(wù)器。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末厢漩,一起剝皮案震驚了整個(gè)濱河市膜眠,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖宵膨,帶你破解...
    沈念sama閱讀 219,039評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件架谎,死亡現(xiàn)場離奇詭異,居然都是意外死亡辟躏,警方通過查閱死者的電腦和手機(jī)谷扣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來捎琐,“玉大人会涎,你說我怎么就攤上這事∪鸫眨” “怎么了末秃?”我有些...
    開封第一講書人閱讀 165,417評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長拨黔。 經(jīng)常有香客問我蛔溃,道長,這世上最難降的妖魔是什么篱蝇? 我笑而不...
    開封第一講書人閱讀 58,868評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮徽曲,結(jié)果婚禮上零截,老公的妹妹穿的比我還像新娘。我一直安慰自己秃臣,他們只是感情好涧衙,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,892評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著奥此,像睡著了一般弧哎。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上稚虎,一...
    開封第一講書人閱讀 51,692評(píng)論 1 305
  • 那天撤嫩,我揣著相機(jī)與錄音,去河邊找鬼蠢终。 笑死序攘,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的寻拂。 我是一名探鬼主播程奠,決...
    沈念sama閱讀 40,416評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼祭钉!你這毒婦竟也來了瞄沙?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,326評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎距境,沒想到半個(gè)月后泛粹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,782評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡肮疗,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,957評(píng)論 3 337
  • 正文 我和宋清朗相戀三年晶姊,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片伪货。...
    茶點(diǎn)故事閱讀 40,102評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡们衙,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出碱呼,到底是詐尸還是另有隱情蒙挑,我是刑警寧澤,帶...
    沈念sama閱讀 35,790評(píng)論 5 346
  • 正文 年R本政府宣布愚臀,位于F島的核電站忆蚀,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏姑裂。R本人自食惡果不足惜馋袜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,442評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望舶斧。 院中可真熱鬧欣鳖,春花似錦、人聲如沸茴厉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽矾缓。三九已至怀酷,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間嗜闻,已是汗流浹背蜕依。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評(píng)論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留泞辐,地道東北人笔横。 一個(gè)月前我還...
    沈念sama閱讀 48,332評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像咐吼,于是被迫代替她去往敵國和親吹缔。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,044評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容