Hive系列之分區(qū)表和桶

為提升hive數(shù)據(jù)的查詢和寫入性能告嘲， hive提供了分區(qū)表機制涤垫。hive每個表格可以指定多個分區(qū)key, 這些分區(qū)key決定數(shù)據(jù)的存儲方式篡诽，比如表格T有個日期型分區(qū)列ds, 表格的數(shù)據(jù)會存儲在：表在hdfs路徑/ds=<date>目錄下路星，查詢語句中ds='2008-09-01'類似過濾條件，可以直接查詢表在hdfs路徑/ds=<date>目錄下數(shù)據(jù)评腺，達到提升性能的目的帘瞭。
hive提供兩種分區(qū)表：靜態(tài)分區(qū)和動態(tài)分區(qū)。兩者主要的差別在于：加載數(shù)據(jù)的時候蒿讥，動態(tài)分區(qū)不需要指定分區(qū)key的值蝶念，會根據(jù)key對應列的值自動分區(qū)寫入，如果該列值對應的分區(qū)目錄還沒有創(chuàng)建芋绸，會自動創(chuàng)建并寫入數(shù)據(jù)媒殉。下面實踐演示：

1.靜態(tài)分區(qū)
創(chuàng)建分區(qū)表

hive >create table teacher(id INT, name string, tno string)
partitioned by (work_date string)
clustered by (id) sorted by (name) into 2 buckets
row format delimited fields terminated by ',' stored as textfile;

靜態(tài)分區(qū)加載數(shù)據(jù)

hive>load data local inpath '/home/warehouse/user.txt' overwrite into table teacher partition(work_date="2016-07-12");

其中user.txt內(nèi)容：
1, t1, 01
2, t2, 02
3, t3, 03
4, t4, 04

分區(qū)創(chuàng)建完成后查看hdfs目錄

hive>dfs -ls /user/hive/warehouse/crwal_db.db/teacher/
drwxrwxrwx - warehouse supergroup 0 2016-07-12 09:03 /user/hive/warehouse/crawl_db.db/teacher/work_date=2016-07-12

可以看出創(chuàng)建的分區(qū)目錄

2.動態(tài)分區(qū)

首先需要設置參數(shù): 動態(tài)分區(qū)相關參數(shù)設置如下

set hive.exec.dynamic.partition=true;(可通過這個語句查看：set hive.exec.dynamic.partition;)
set hive.exec.dynamic.partition.mode=nonstrict; （strict要求至少有一個靜態(tài)分區(qū)， nonstrict可以都是動態(tài)分區(qū)）
set hive.exec.max.dynamic.partitions=100000;(如果自動分區(qū)數(shù)大于這個參數(shù)摔敛，將會報錯)
set hive.exec.max.dynamic.partitions.pernode=100000;

創(chuàng)建一個臨時表格适袜，用于加載數(shù)據(jù)，然后把臨時表格的數(shù)據(jù)插入到分區(qū)表舷夺。

hive>create table tmp (
id int, name string, tno string, work_date string)
row format delimited fields terminated by ',' stored as textfile;

本地文件數(shù)據(jù)

$ cat user1.txt
1,root,01,2016-07-11
2,sys,02,2016-07-11
3,user01,03,2016-07-11
4,user02,04,2016-07-11
5,user03,05,2016-07-11
6,user04,06,2016-06-11
7,user05,07,2016-06-11
8,user06,08,2016-06-11
9,user07,09,2016-06-11
10,user08,10,2016-05-11
11,user09,11,2016-05-11
12,user10,12,2016-05-11

加載數(shù)據(jù)到臨時表

load data local inpath "/home/warehouse/user1.txt" overwrite into table tmp;

從臨時表加載數(shù)據(jù)到分區(qū)表

hive>insert into table teacher partition(work_date) select id, name, tno, work_date from tmp;

再次查看hdfs中數(shù)據(jù)分區(qū)

hive>dfs -ls /user/hive/warehouse/crwal_db.db/teacher/
drwxrwxrwx - warehouse supergroup 0 2016-07-12 16:43 /user/hive/warehouse/crawl_db.db/teacher/work_date=2016-05-11
drwxrwxrwx - warehouse supergroup 0 2016-07-12 16:43 /user/hive/warehouse/crawl_db.db/teacher/work_date=2016-06-11
drwxrwxrwx - warehouse supergroup 0 2016-07-12 16:43 /user/hive/warehouse/crawl_db.db/teacher/work_date=2016-07-11

上面的臨時表work_date包括三個數(shù)據(jù)：2016-05-11， 2016-06-11售貌， 2016-07-11，插入到以workdate為分區(qū)key的teacher表時，會自動識別出這三種值次洼，分別創(chuàng)建三個目錄犬缨。而不需要像靜態(tài)分區(qū)一樣每插入一個分區(qū)key的數(shù)據(jù)都要一條如下插入語句:

insert into table teacher partition(work_date="2016-05-11") select id, name, tno, work_date from tmp where work_date="2016-05-11";

需要注意的是：

在一個表同時使用動態(tài)和靜態(tài)分區(qū)表時，靜態(tài)分區(qū)值必須在動態(tài)分區(qū)值的前面恒削。
選擇分區(qū)key時池颈，要防止數(shù)據(jù)傾斜，數(shù)據(jù)嚴重分布不均衡钓丰。
使用動態(tài)分區(qū)躯砰，作為分區(qū)列的值要可以預測和枚舉，不能目錄過多而每個目錄數(shù)據(jù)又很少携丁，會嚴重影響性能琢歇。

3.桶
對于每一個表（table）或者分區(qū)，Hive可以進一步組織成桶。Hive也是針對某一列進行桶的組織李茫。Hive采用對列值哈希揭保，然后除以桶的個數(shù)求余的方式?jīng)Q定該條記錄存放在哪個桶當中。采用桶好處有兩個：

數(shù)據(jù)sampling2. 提升某些查詢操作效率魄宏，例如mapside join
JOIN操作兩個表有一個相同的列秸侣，如果對這兩個表都進行了桶操作。那么將保存相同列值的桶進行JOIN操作就可以宠互，可以大大較少JOIN的數(shù)據(jù)量味榛。

hive中table可以拆分成partition，table和partition可以通過‘CLUSTERED BY ’進一步分bucket名秀，bucket中的數(shù)據(jù)可以通過‘SORT BY’排序励负。如上語句所示，通過id列把數(shù)據(jù)分成2個桶匕得，桶中數(shù)據(jù)通過name排序继榆。

可以看下分區(qū)表里面分成桶以后的文件存儲格式：

hive>dfs -ls /user/hive/warehouse/crawl_db.db/teacher/work_date=2016-06-11;
-rwxrwxrwx 3 warehouse supergroup 24 2016-07-12 16:43 /user/hive/warehouse/crawl_db.db/teacher/work_date=2016-06-11/000000_0
-rwxrwxrwx 3 warehouse supergroup 24 2016-07-12 16:43 /user/hive/warehouse/crawl_db.db/teacher/work_date=2016-06-11/000001_0

可見每個分區(qū)數(shù)據(jù)被劃分到了兩個桶里面。

下面看下桶在數(shù)據(jù)采樣里面的應用：
tablesample是抽樣語句汁掠，語法：TABLESAMPLE(BUCKET x OUT OF y)

select * from teacher tablesample(bucket 1 out of 2 on id);

最后編輯于：2017.12.03 14:14:43

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末略吨，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子考阱，更是在濱河造成了極大的恐慌翠忠，老刑警劉巖，帶你破解...
沈念sama閱讀 216,843評論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件乞榨，死亡現(xiàn)場離奇詭異秽之，居然都是意外死亡，警方通過查閱死者的電腦和手機吃既，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,538評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門考榨，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人鹦倚，你說我怎么就攤上這事河质。” “怎么了震叙？”我有些...
開封第一講書人閱讀 163,187評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵掀鹅，是天一觀的道長。經(jīng)常有香客問我媒楼，道長乐尊，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,264評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任划址，我火速辦了婚禮科吭，結果婚禮上昏滴，老公的妹妹穿的比我還像新娘。我一直安慰自己对人，他們只是感情好谣殊，可當我...
茶點故事閱讀 67,289評論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著牺弄，像睡著了一般姻几。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上势告，一...
開封第一講書人閱讀 51,231評論 1贊 299
城市分裂傳說
那天蛇捌，我揣著相機與錄音，去河邊找鬼咱台。笑死络拌，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的回溺。我是一名探鬼主播春贸，決...
沈念sama閱讀 40,116評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼遗遵！你這毒婦竟也來了萍恕？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 38,945評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤车要，失蹤者是張志新（化名）和其女友劉穎允粤，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體翼岁，經(jīng)...
沈念sama閱讀 45,367評論 1贊 313
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡类垫，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,581評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了琅坡。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片悉患。...
茶點故事閱讀 39,754評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖脑蠕，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情跪削，我是刑警寧澤谴仙，帶...
沈念sama閱讀 35,458評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站碾盐，受9級特大地震影響晃跺，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜毫玖，卻給世界環(huán)境...
茶點故事閱讀 41,068評論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一掀虎、第九天我趴在偏房一處隱蔽的房頂上張望凌盯。院中可真熱鬧，春花似錦烹玉、人聲如沸驰怎。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,692評論 0贊 22
一樁弒父案二打，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽县忌。三九已至，卻和暖如春继效，著一層夾襖步出監(jiān)牢的瞬間症杏，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,842評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工瑞信，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留厉颤，地道東北人。一個月前我還...
沈念sama閱讀 47,797評論 2贊 369
代替公主和親
正文我出身青樓凡简，卻偏偏與公主長得像逼友，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子潘鲫，可洞房花燭夜當晚...
茶點故事閱讀 44,654評論 2贊 354

Hive系列之分區(qū)表和桶

推薦閱讀更多精彩內(nèi)容