Hive-數(shù)據(jù)分析系統(tǒng)

背景

為了降低大數(shù)據(jù)領(lǐng)域使用mepreduce的使用門檻，提高分析效率，大數(shù)據(jù)引用了對(duì)sql的支持

mepreduce對(duì)應(yīng)hive
spark對(duì)應(yīng)spark sql

sql on hadoop

目的：

基于計(jì)算引擎
基于mpp架構(gòu)

hive架構(gòu)

hive 對(duì)外訪問

hive對(duì)外提供了三種訪問方式褂萧，包括web ui 据悔、cli 床绪、thrift協(xié)議

hive 后端主要由三個(gè)服務(wù)組成

driver(驅(qū)動(dòng)器) ：與傳統(tǒng)數(shù)據(jù)庫的查詢引擎類似婆廊，在這里指的是mepreduce或者spark等
metastore：hive metastore是管理和儲(chǔ)存元信息的，在hive中默認(rèn)用的是derby,但是一般用的mysql
hadoop：hive依賴于hadoop 儲(chǔ)存用的是hdfs,分析用的mepreduce溺森，資源用的是yarn等

metastore分為三種部署模式

嵌入式模式：metestore和數(shù)據(jù)庫嵌入到driver中（一般用于測試）
本地模式：driver和metastore運(yùn)行在本地慕爬，而數(shù)據(jù)庫啟動(dòng)在一個(gè)共享節(jié)點(diǎn)上
遠(yuǎn)程模式：metastore運(yùn)行在單獨(dú)的一個(gè)節(jié)點(diǎn)上窑眯，由其他所有服務(wù)共享使用beeline，jdbc等方式訪問（這是一種常用的生產(chǎn)環(huán)境下的部署模式）
（hive 的metastore里面的元數(shù)據(jù)可以直接被presto,impala等sql直接訪問）

hive查詢引擎(dag相比于mepreduce的優(yōu)點(diǎn)：)

dag避免了記住分布式文件系統(tǒng)交換數(shù)據(jù)帶來的不必要的網(wǎng)絡(luò)和磁盤的io
將重復(fù)使用的數(shù)據(jù)放在內(nèi)存中加速讀取效率
服用資源直到sql執(zhí)行完畢

hive表操作

傳統(tǒng)型數(shù)據(jù)庫是插入時(shí)校驗(yàn)医窿，而hive是計(jì)算式校驗(yàn)（數(shù)據(jù)合法的校驗(yàn)）
hive數(shù)據(jù)表是分層的
hive數(shù)據(jù)表的類型（臨時(shí)表（只對(duì)當(dāng)前session有效磅甩，如果當(dāng)前session退出，則消失）姥卢、外部表（刪除數(shù)據(jù)庫時(shí)卷要，只是刪除了元數(shù)據(jù)）、受管理表（與元數(shù)據(jù)的生命周期是一致的独榴，如果刪除則都刪除了））
分區(qū)表：
數(shù)據(jù)表可以按照某一個(gè)或者幾個(gè)字段進(jìn)一步劃分多個(gè)數(shù)據(jù)分區(qū)（使用語句：partitioned by col_name）,不同的分區(qū)其實(shí)在不同的目錄中僧叉，這樣在查詢時(shí)候不同的分區(qū)會(huì)直接跳過，大大減少了不必要的磁盤io
分桶表：
數(shù)據(jù)表或者數(shù)據(jù)分區(qū)可以按照某個(gè)字段進(jìn)一步分成若干個(gè)桶棺榔，（不如語句：clustered by(userid) into 32 buckets 瓶堕，這一語句將數(shù)據(jù)表按照userid 分成32個(gè)數(shù)據(jù)桶）

hive執(zhí)行引擎

image.png

hive 分區(qū)表

查詢時(shí)為了減少不必要的掃描可以采用分區(qū)表
為了避免產(chǎn)生過多的小文件，建議只對(duì)離散字段進(jìn)行分區(qū)

hive實(shí)用優(yōu)化

分區(qū)表-提高查詢(partition)
列式存儲(chǔ)(parquet和orc)
表連接優(yōu)化（將大表放后面）
盡早的過濾數(shù)據(jù)
盡量原子化操作(避免復(fù)雜的語句症歇，建議使用臨時(shí)表來過渡)
如果要用到union into 替換成insert into(性能能提上50%)
order by 改為 sort by (全局排序改為局部排序)
數(shù)據(jù)傾斜

hive的事務(wù)

最后編輯于：2018.09.25 11:11:22

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末郎笆，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子忘晤，更是在濱河造成了極大的恐慌题画，老刑警劉巖，帶你破解...
沈念sama閱讀 218,386評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件德频，死亡現(xiàn)場離奇詭異，居然都是意外死亡缩幸，警方通過查閱死者的電腦和手機(jī)壹置，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,142評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來表谊，“玉大人钞护，你說我怎么就攤上這事”欤” “怎么了难咕？”我有些...
開封第一講書人閱讀 164,704評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長距辆。經(jīng)常有香客問我余佃，道長，這世上最難降的妖魔是什么跨算？我笑而不...
開封第一講書人閱讀 58,702評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任爆土，我火速辦了婚禮，結(jié)果婚禮上诸蚕，老公的妹妹穿的比我還像新娘步势。我一直安慰自己氧猬，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,716評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布坏瘩。她就那樣靜靜地躺著盅抚，像睡著了一般。火紅的嫁衣襯著肌膚如雪倔矾。梳的紋絲不亂的頭發(fā)上妄均，一...
開封第一講書人閱讀 51,573評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音破讨，去河邊找鬼丛晦。笑死，一個(gè)胖子當(dāng)著我的面吹牛提陶，可吹牛的內(nèi)容都是我干的烫沙。我是一名探鬼主播，決...
沈念sama閱讀 40,314評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼隙笆，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼锌蓄！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起撑柔，我...
開封第一講書人閱讀 39,230評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤瘸爽，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后铅忿，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體剪决，經(jīng)...
沈念sama閱讀 45,680評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,873評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年檀训，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了柑潦。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,991評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡峻凫，死狀恐怖渗鬼，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情荧琼，我是刑警寧澤譬胎，帶...
沈念sama閱讀 35,706評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站命锄，受9級(jí)特大地震影響堰乔，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜累舷，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,329評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一浩考、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧被盈，春花似錦析孽、人聲如沸搭伤。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,910評(píng)論 0贊 22
一樁弒父案袜瞬，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽怜俐。三九已至，卻和暖如春邓尤，著一層夾襖步出監(jiān)牢的瞬間拍鲤，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,038評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工汞扎，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留季稳，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,158評(píng)論 3贊 370
代替公主和親
正文我出身青樓澈魄，卻偏偏與公主長得像景鼠，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子痹扇，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,941評(píng)論 2贊 355

Hive-數(shù)據(jù)分析系統(tǒng)

背景

sql on hadoop

hive架構(gòu)

hive 對(duì)外訪問

hive 后端主要由三個(gè)服務(wù)組成

metastore分為三種 部署模式

hive查詢引擎(dag相比于mepreduce的優(yōu)點(diǎn)：)

hive表操作

hive執(zhí)行引擎

hive 分區(qū)表

hive實(shí)用優(yōu)化

hive的事務(wù)

推薦閱讀更多精彩內(nèi)容

metastore分為三種部署模式