Hive系列之分區(qū)表和桶

為提升hive數(shù)據(jù)的查詢和寫入性能告嘲, hive提供了分區(qū)表機制涤垫。hive每個表格可以指定多個分區(qū)key, 這些分區(qū)key決定數(shù)據(jù)的存儲方式篡诽,比如表格T有個日期型分區(qū)列ds, 表格的數(shù)據(jù)會存儲在:表在hdfs路徑/ds=<date>目錄下路星,查詢語句中ds='2008-09-01'類似過濾條件,可以直接查詢表在hdfs路徑/ds=<date>目錄下數(shù)據(jù)评腺, 達到提升性能的目的帘瞭。
hive提供兩種分區(qū)表:靜態(tài)分區(qū)和動態(tài)分區(qū)。兩者主要的差別在于:加載數(shù)據(jù)的時候蒿讥,動態(tài)分區(qū)不需要指定分區(qū)key的值蝶念, 會根據(jù)key對應列的值自動分區(qū)寫入,如果該列值對應的分區(qū)目錄還沒有創(chuàng)建芋绸, 會自動創(chuàng)建并寫入數(shù)據(jù)媒殉。下面實踐演示:

1.靜態(tài)分區(qū)
創(chuàng)建分區(qū)表

hive >create table teacher(id INT, name string, tno string)
partitioned by (work_date string)
clustered by (id) sorted by (name) into 2 buckets
row format delimited fields terminated by ',' stored as textfile;

靜態(tài)分區(qū)加載數(shù)據(jù)

hive>load data local inpath '/home/warehouse/user.txt' overwrite into table teacher partition(work_date="2016-07-12");

其中user.txt內(nèi)容:
1, t1, 01
2, t2, 02
3, t3, 03
4, t4, 04

分區(qū)創(chuàng)建完成后查看hdfs目錄

hive>dfs -ls /user/hive/warehouse/crwal_db.db/teacher/
drwxrwxrwx - warehouse supergroup 0 2016-07-12 09:03 /user/hive/warehouse/crawl_db.db/teacher/work_date=2016-07-12

可以看出創(chuàng)建的分區(qū)目錄

2.動態(tài)分區(qū)

首先需要設置參數(shù): 動態(tài)分區(qū)相關參數(shù)設置如下

set hive.exec.dynamic.partition=true;(可通過這個語句查看:set hive.exec.dynamic.partition;)
set hive.exec.dynamic.partition.mode=nonstrict; (strict要求至少有一個靜態(tài)分區(qū), nonstrict可以都是動態(tài)分區(qū))
set hive.exec.max.dynamic.partitions=100000;(如果自動分區(qū)數(shù)大于這個參數(shù)摔敛,將會報錯)
set hive.exec.max.dynamic.partitions.pernode=100000;

創(chuàng)建一個臨時表格适袜, 用于加載數(shù)據(jù), 然后把臨時表格的數(shù)據(jù)插入到分區(qū)表舷夺。

hive>create table tmp (
id int, name string, tno string, work_date string)
row format delimited fields terminated by ',' stored as textfile;

本地文件數(shù)據(jù)

$ cat user1.txt
1,root,01,2016-07-11
2,sys,02,2016-07-11
3,user01,03,2016-07-11
4,user02,04,2016-07-11
5,user03,05,2016-07-11
6,user04,06,2016-06-11
7,user05,07,2016-06-11
8,user06,08,2016-06-11
9,user07,09,2016-06-11
10,user08,10,2016-05-11
11,user09,11,2016-05-11
12,user10,12,2016-05-11

加載數(shù)據(jù)到臨時表

load data local inpath "/home/warehouse/user1.txt" overwrite into table tmp;

從臨時表加載數(shù)據(jù)到分區(qū)表

hive>insert into table teacher partition(work_date) select id, name, tno, work_date from tmp;

再次查看hdfs中數(shù)據(jù)分區(qū)

hive>dfs -ls /user/hive/warehouse/crwal_db.db/teacher/
drwxrwxrwx - warehouse supergroup 0 2016-07-12 16:43 /user/hive/warehouse/crawl_db.db/teacher/work_date=2016-05-11
drwxrwxrwx - warehouse supergroup 0 2016-07-12 16:43 /user/hive/warehouse/crawl_db.db/teacher/work_date=2016-06-11
drwxrwxrwx - warehouse supergroup 0 2016-07-12 16:43 /user/hive/warehouse/crawl_db.db/teacher/work_date=2016-07-11

上面的臨時表work_date包括三個數(shù)據(jù):2016-05-11, 2016-06-11售貌, 2016-07-11,插入到以workdate為分區(qū)key的teacher表時, 會自動識別出這三種值次洼,分別創(chuàng)建三個目錄犬缨。而不需要像靜態(tài)分區(qū)一樣每插入一個分區(qū)key的數(shù)據(jù)都要一條如下插入語句:

insert into table teacher partition(work_date="2016-05-11") select id, name, tno, work_date from tmp where work_date="2016-05-11";

需要注意的是:

在一個表同時使用動態(tài)和靜態(tài)分區(qū)表時, 靜態(tài)分區(qū)值必須在動態(tài)分區(qū)值的前面恒削。
選擇分區(qū)key時池颈,要防止數(shù)據(jù)傾斜, 數(shù)據(jù)嚴重分布不均衡钓丰。
使用動態(tài)分區(qū)躯砰, 作為分區(qū)列的值要可以預測和枚舉, 不能目錄過多而每個目錄數(shù)據(jù)又很少携丁,會嚴重影響性能琢歇。

3.桶
對于每一個表(table)或者分區(qū),Hive可以進一步組織成桶。Hive也是針對某一列進行桶的組織李茫。Hive采用對列值哈希揭保,然后除以桶的個數(shù)求余的方式?jīng)Q定該條記錄存放在哪個桶當中。采用桶好處有兩個:

  1. 數(shù)據(jù)sampling2. 提升某些查詢操作效率魄宏,例如mapside join
    JOIN操作兩個表有一個相同的列秸侣,如果對這兩個表都進行了桶操作。那么將保存相同列值的桶進行JOIN操作就可以宠互,可以大大較少JOIN的數(shù)據(jù)量味榛。

hive >create table teacher(id INT, name string, tno string)
partitioned by (work_date string)
clustered by (id) sorted by (name) into 2 buckets
row format delimited fields terminated by ',' stored as textfile;

hive中table可以拆分成partition,table和partition可以通過‘CLUSTERED BY ’進一步分bucket名秀,bucket中的數(shù)據(jù)可以通過‘SORT BY’排序励负。如上語句所示, 通過id列把數(shù)據(jù)分成2個桶匕得, 桶中數(shù)據(jù)通過name排序继榆。

可以看下分區(qū)表里面分成桶以后的文件存儲格式:

hive>dfs -ls /user/hive/warehouse/crawl_db.db/teacher/work_date=2016-06-11;
-rwxrwxrwx 3 warehouse supergroup 24 2016-07-12 16:43 /user/hive/warehouse/crawl_db.db/teacher/work_date=2016-06-11/000000_0
-rwxrwxrwx 3 warehouse supergroup 24 2016-07-12 16:43 /user/hive/warehouse/crawl_db.db/teacher/work_date=2016-06-11/000001_0

可見每個分區(qū)數(shù)據(jù)被劃分到了兩個桶里面。

下面看下桶在數(shù)據(jù)采樣里面的應用:
tablesample是抽樣語句汁掠,語法:TABLESAMPLE(BUCKET x OUT OF y)

select * from teacher tablesample(bucket 1 out of 2 on id);

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末略吨,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子考阱,更是在濱河造成了極大的恐慌翠忠,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,843評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件乞榨,死亡現(xiàn)場離奇詭異秽之,居然都是意外死亡,警方通過查閱死者的電腦和手機吃既,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評論 3 392
  • 文/潘曉璐 我一進店門考榨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人鹦倚,你說我怎么就攤上這事河质。” “怎么了震叙?”我有些...
    開封第一講書人閱讀 163,187評論 0 353
  • 文/不壞的土叔 我叫張陵掀鹅,是天一觀的道長。 經(jīng)常有香客問我媒楼,道長乐尊,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,264評論 1 292
  • 正文 為了忘掉前任划址,我火速辦了婚禮科吭,結果婚禮上昏滴,老公的妹妹穿的比我還像新娘。我一直安慰自己对人,他們只是感情好谣殊,可當我...
    茶點故事閱讀 67,289評論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著牺弄,像睡著了一般姻几。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上势告,一...
    開封第一講書人閱讀 51,231評論 1 299
  • 那天蛇捌,我揣著相機與錄音,去河邊找鬼咱台。 笑死络拌,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的回溺。 我是一名探鬼主播春贸,決...
    沈念sama閱讀 40,116評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼遗遵!你這毒婦竟也來了萍恕?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 38,945評論 0 275
  • 序言:老撾萬榮一對情侶失蹤车要,失蹤者是張志新(化名)和其女友劉穎允粤,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體翼岁,經(jīng)...
    沈念sama閱讀 45,367評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡类垫,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,581評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了琅坡。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片悉患。...
    茶點故事閱讀 39,754評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖脑蠕,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情跪削,我是刑警寧澤谴仙,帶...
    沈念sama閱讀 35,458評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站碾盐,受9級特大地震影響晃跺,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜毫玖,卻給世界環(huán)境...
    茶點故事閱讀 41,068評論 3 327
  • 文/蒙蒙 一掀虎、第九天 我趴在偏房一處隱蔽的房頂上張望凌盯。 院中可真熱鬧,春花似錦烹玉、人聲如沸驰怎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,692評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽县忌。三九已至,卻和暖如春继效,著一層夾襖步出監(jiān)牢的瞬間症杏,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,842評論 1 269
  • 我被黑心中介騙來泰國打工瑞信, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留厉颤,地道東北人。 一個月前我還...
    沈念sama閱讀 47,797評論 2 369
  • 正文 我出身青樓凡简,卻偏偏與公主長得像逼友,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子潘鲫,可洞房花燭夜當晚...
    茶點故事閱讀 44,654評論 2 354

推薦閱讀更多精彩內(nèi)容