Hive桶表

分桶及抽樣查詢

分桶表數(shù)據(jù)存儲類似與MR分區(qū)
分區(qū)針對的是數(shù)據(jù)的存儲路徑芳室;分桶針對的是數(shù)據(jù)文件。
分區(qū)提供一個隔離數(shù)據(jù)和優(yōu)化查詢的便利方式刹勃。不過堪侯,并非所有的數(shù)據(jù)集都可形成合理的分區(qū),
特別是之前所提到過的要確定合適的劃分大小這個疑慮荔仁。
分桶是將數(shù)據(jù)集分解成更容易管理的若干部分的另一個技術(shù)伍宦。

建表:

create table stu_buck(id int, name string) 
clustered by(id) into 4 buckets
row format delimited fields terminated by '\t';

desc formatted stu_buck; 

![Snipaste_2020-06-09_11-08-30.png](https://upload-images.jianshu.io/upload_images/6334897-6de72852ab6f5d66.png?imageMogr2/auto-[圖片上傳中...(Snipaste_2020-06-09_11-12-11.png-464c67-1591688110841-0)]
orient/strip%7CimageView2/2/w/1240)

load導(dǎo)入數(shù)據(jù),發(fā)現(xiàn)未生產(chǎn)四個桶

load data local inpath '/home/data/stu.txt' into table stu_buck;
Snipaste_2020-06-09_11-12-11.png

清空桶表
truncate table stu_buck;

導(dǎo)入數(shù)據(jù)之前乏梁,需要先設(shè)置參數(shù)

set hive.enforce.bucketing=true; 
set mapreduce.job.reduces=-1; //自動根據(jù)桶的個數(shù)決定業(yè)務(wù)的個數(shù)
insert into table stu_buck 
select id, name from stu;
Snipaste_2020-06-09_11-19-08.png

Snipaste_2020-06-09_11-19-18.png

分桶抽樣查詢

對于非常大的數(shù)據(jù)集次洼,有時用戶需要使用的是一個具有代表性的查詢結(jié)果而不是全部結(jié)果。Hive 可以通過對表進行抽樣來滿足這個需求遇骑。

select * from stu_buck tablesample(bucket 1 out of 4 on id);

注:tablesample 是抽樣語句卖毁,語法:TABLESAMPLE(BUCKET x OUT OF y) 。

y 必須是 table 總 bucket 數(shù)的倍數(shù)或者因子落萎。hive 根據(jù) y 的大小亥啦,決定抽樣的比例。
例如练链,table 總共分了 4 份翔脱,當(dāng) y=2 時,抽取(4/2=)2 個bucket 的數(shù)據(jù)媒鼓,當(dāng) y=8 時届吁,抽取(4/8=)1/2 個 bucket 的數(shù)據(jù)。

x 表示從哪個 bucket 開始抽取绿鸣,如果需要取多個分區(qū)瓷产,以后的分區(qū)號為當(dāng)前分區(qū)號加上y。
例如枚驻,table 總 bucket 數(shù)為 4,tablesample(bucket 1 out of 2)株旷,表示總共抽仍俚恰(4/2=)2 個bucket 的數(shù)據(jù)尔邓,抽取第 1(x)個和第 3(x+y)個 bucket 的數(shù)據(jù)

注意:x 的值必須小于等于 y 的值,否會報錯

Snipaste_2020-06-09_15-28-05.png

Snipaste_2020-06-09_15-28-14.png

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末锉矢,一起剝皮案震驚了整個濱河市梯嗽,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌沽损,老刑警劉巖灯节,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異绵估,居然都是意外死亡炎疆,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門国裳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來形入,“玉大人,你說我怎么就攤上這事缝左∫谒欤” “怎么了?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵渺杉,是天一觀的道長蛇数。 經(jīng)常有香客問我,道長是越,這世上最難降的妖魔是什么耳舅? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮英妓,結(jié)果婚禮上挽放,老公的妹妹穿的比我還像新娘。我一直安慰自己蔓纠,他們只是感情好辑畦,可當(dāng)我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著腿倚,像睡著了一般纯出。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上敷燎,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天暂筝,我揣著相機與錄音,去河邊找鬼硬贯。 笑死焕襟,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的饭豹。 我是一名探鬼主播鸵赖,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼务漩,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了它褪?” 一聲冷哼從身側(cè)響起饵骨,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎茫打,沒想到半個月后居触,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡老赤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年轮洋,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片诗越。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡砖瞧,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出嚷狞,到底是詐尸還是另有隱情块促,我是刑警寧澤,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布床未,位于F島的核電站竭翠,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏薇搁。R本人自食惡果不足惜斋扰,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望啃洋。 院中可真熱鬧传货,春花似錦、人聲如沸宏娄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽孵坚。三九已至粮宛,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間卖宠,已是汗流浹背巍杈。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留扛伍,地道東北人筷畦。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像刺洒,于是被迫代替她去往敵國和親汁咏。 傳聞我的和親對象是個殘疾皇子亚斋,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,092評論 2 355