Hive中partition如何使用

一七婴、背景

1官还、在Hive Select查詢中一般會掃描整個表內(nèi)容,會消耗很多時間做沒必要的工作讥耗。有時候只需要掃描表中關(guān)心的一部分?jǐn)?shù)據(jù)有勾,因此建表時引入了partition概念。

2古程、分區(qū)表指的是在創(chuàng)建表時指定的partition的分區(qū)空間蔼卡。

3、如果需要創(chuàng)建有分區(qū)的表挣磨,需要在create表的時候調(diào)用可選參數(shù)partitioned by雇逞,詳見表創(chuàng)建的語法結(jié)構(gòu)。

二茁裙、技術(shù)細(xì)節(jié)

1塘砸、一個表可以擁有一個或者多個分區(qū),每個分區(qū)以文件夾的形式單獨存在表文件夾的目錄下呜达。

2谣蠢、表和列名不區(qū)分大小寫。

3查近、分區(qū)是以字段的形式在表結(jié)構(gòu)中存在眉踱,通過describe table命令可以查看到字段存在,但是該字段不存放實際的數(shù)據(jù)內(nèi)容霜威,僅僅是分區(qū)的表示谈喳。

4、建表的語法(建分區(qū)可參見PARTITIONED BY參數(shù)):

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [ROW FORMAT row_format] [STORED AS file_format] [LOCATION hdfs_path]

5戈泼、分區(qū)建表分為2種婿禽,一種是單分區(qū),也就是說在表文件夾目錄下只有一級文件夾目錄大猛。另外一種是多分區(qū)扭倾,表文件夾下出現(xiàn)多文件夾嵌套模式。

a挽绩、單分區(qū)建表語句:create table day_table (id int, content string) partitioned by (dt string);單分區(qū)表膛壹,按天分區(qū),在表結(jié)構(gòu)中存在id唉堪,content模聋,dt三列。

b唠亚、雙分區(qū)建表語句:create table day_hour_table (id int, content string) partitioned by (dt string, hour string);雙分區(qū)表链方,按天和小時分區(qū),在表結(jié)構(gòu)中新增加了dt和hour兩列灶搜。

表文件夾目錄示意圖(多分區(qū)表):


6祟蚀、添加分區(qū)表語法(表已創(chuàng)建,在此基礎(chǔ)上添加分區(qū)):

ALTER TABLE table_name ADD partition_spec [ LOCATION 'location1' ] partition_spec [ LOCATION 'location2' ] ... partition_spec: : PARTITION (partition_col = partition_col_value, partition_col = partiton_col_value, ...)

用戶可以用?ALTER TABLE ADD PARTITION?來向一個表中增加分區(qū)割卖。當(dāng)分區(qū)名是字符串時加引號前酿。例:

ALTER TABLE day_table ADD PARTITION (dt='2008-08-08', hour='08') location '/path/pv1.txt' PARTITION (dt='2008-08-08', hour='09') location '/path/pv2.txt';

7、刪除分區(qū)語法:

ALTER TABLE table_name DROP partition_spec, partition_spec,...

用戶可以用?ALTER TABLE DROP PARTITION?來刪除分區(qū)究珊。分區(qū)的元數(shù)據(jù)和數(shù)據(jù)將被一并刪除薪者。例:

ALTER TABLE day_hour_table DROP PARTITION (dt='2008-08-08', hour='09');

8、數(shù)據(jù)加載進(jìn)分區(qū)表中語法:

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

例:

LOAD DATA INPATH '/user/pv.txt' INTO TABLE day_hour_table PARTITION(dt='2008-08- 08', hour='08'); LOAD DATA local INPATH '/user/hua/*' INTO TABLE day_hour partition(dt='2010-07- 07');

當(dāng)數(shù)據(jù)被加載至表中時剿涮,不會對數(shù)據(jù)進(jìn)行任何轉(zhuǎn)換言津。Load操作只是將數(shù)據(jù)復(fù)制至Hive表對應(yīng)的位置。數(shù)據(jù)加載時在表下自動創(chuàng)建一個目錄取试,文件存放在該分區(qū)下悬槽。

9、基于分區(qū)的查詢的語句:

SELECT day_table.* FROM day_table WHERE day_table.dt>= '2008-08-08';

10瞬浓、查看分區(qū)語句:

hive> show partitions day_hour_table; OK dt=2008-08-08/hour=08 dt=2008-08-08/hour=09 dt=2008-08-09/hour=09

三初婆、總結(jié)

1、在?Hive?中,表中的一個?Partition?對應(yīng)于表下的一個目錄磅叛,所有的?Partition?的數(shù)據(jù)都存儲在最字集的目錄中屑咳。

2、總的說來partition就是輔助查詢弊琴,縮小查詢范圍兆龙,加快數(shù)據(jù)的檢索速度和對數(shù)據(jù)按照一定的規(guī)格和條件進(jìn)行管理。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末敲董,一起剝皮案震驚了整個濱河市紫皇,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌腋寨,老刑警劉巖聪铺,帶你破解...
    沈念sama閱讀 218,386評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異萄窜,居然都是意外死亡铃剔,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評論 3 394
  • 文/潘曉璐 我一進(jìn)店門脂倦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來番宁,“玉大人,你說我怎么就攤上這事赖阻〉海” “怎么了?”我有些...
    開封第一講書人閱讀 164,704評論 0 353
  • 文/不壞的土叔 我叫張陵火欧,是天一觀的道長棋电。 經(jīng)常有香客問我,道長苇侵,這世上最難降的妖魔是什么赶盔? 我笑而不...
    開封第一講書人閱讀 58,702評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮榆浓,結(jié)果婚禮上于未,老公的妹妹穿的比我還像新娘。我一直安慰自己陡鹃,他們只是感情好烘浦,可當(dāng)我...
    茶點故事閱讀 67,716評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著萍鲸,像睡著了一般闷叉。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上脊阴,一...
    開封第一講書人閱讀 51,573評論 1 305
  • 那天握侧,我揣著相機(jī)與錄音蚯瞧,去河邊找鬼。 笑死品擎,一個胖子當(dāng)著我的面吹牛埋合,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播孽查,決...
    沈念sama閱讀 40,314評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼饥悴,長吁一口氣:“原來是場噩夢啊……” “哼坦喘!你這毒婦竟也來了盲再?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,230評論 0 276
  • 序言:老撾萬榮一對情侶失蹤瓣铣,失蹤者是張志新(化名)和其女友劉穎答朋,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體棠笑,經(jīng)...
    沈念sama閱讀 45,680評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡梦碗,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,873評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了蓖救。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片洪规。...
    茶點故事閱讀 39,991評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖循捺,靈堂內(nèi)的尸體忽然破棺而出斩例,到底是詐尸還是另有隱情,我是刑警寧澤从橘,帶...
    沈念sama閱讀 35,706評論 5 346
  • 正文 年R本政府宣布念赶,位于F島的核電站,受9級特大地震影響恰力,放射性物質(zhì)發(fā)生泄漏叉谜。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,329評論 3 330
  • 文/蒙蒙 一踩萎、第九天 我趴在偏房一處隱蔽的房頂上張望停局。 院中可真熱鬧,春花似錦香府、人聲如沸董栽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽裆泳。三九已至,卻和暖如春柠硕,著一層夾襖步出監(jiān)牢的瞬間工禾,已是汗流浹背运提。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留闻葵,地道東北人民泵。 一個月前我還...
    沈念sama閱讀 48,158評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像槽畔,于是被迫代替她去往敵國和親栈妆。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,941評論 2 355

推薦閱讀更多精彩內(nèi)容

  • pyspark.sql模塊 模塊上下文 Spark SQL和DataFrames的重要類: pyspark.sql...
    mpro閱讀 9,456評論 0 13
  • 一厢钧、背景 在Hive Select查詢中一般會掃描整個表內(nèi)容鳞尔,會消耗很多時間做沒必要的工作。有時候只需要掃描表中關(guān)...
    Albert陳凱閱讀 29,698評論 0 6
  • 1.1Hive SQL 1.1.1Hive的數(shù)據(jù)類型 primitive_type array_type //數(shù)...
    南宮蕭言閱讀 779評論 0 0
  • 眼淚是啥早直? 為啥 沒了它就有眼干寥假? . 在健康的眼睛中,能夠起到潤滑作用的眼淚叫基本眼淚霞扬,它能給與角膜持久的沖洗糕韧,...
    尚霞閱讀 201評論 0 0
  • 幾周前發(fā)現(xiàn)了簡書APP,我就像發(fā)現(xiàn)了新大陸喻圃,隔幾天就要寫一篇文章練練手萤彩。興奮勁兒還沒過,上周就病倒了斧拍,可能是因為在...
    養(yǎng)生仙女靜香閱讀 800評論 2 5