Hive性能優(yōu)化之ORC索引–Row Group Index vs Bloom Filter Index

Row Group Index

一個(gè)ORC文件包含一個(gè)或多個(gè)stripes(groups of row data)伞租,每個(gè)stripe中包含了每個(gè)columnmin/max值的索引數(shù)據(jù)法挨,當(dāng)查詢中有<,>,=的操作時(shí),會(huì)根據(jù)min/max值墨叛,跳過掃描不包含的stripes震放。

而其中為每個(gè)stripe建立的包含min/max值的索引夫椭,就稱為Row Group Index,也叫min-max Index锭碳,或者Storage Index戏蔑。在建立ORC格式表時(shí)蹋凝,指定表參數(shù)’orc.create.index’=’true’之后,便會(huì)建立Row Group Index总棵,需要注意的是鳍寂,為了使Row Group Index有效利用,向表中加載數(shù)據(jù)時(shí)情龄,必須對(duì)需要使用索引的字段進(jìn)行排序迄汛,否則,min/max會(huì)失去意義骤视。另外鞍爱,這種索引通常用于數(shù)值型字段的查詢過濾優(yōu)化上。

SET hive.optimize.index.filter=true;

SELECT COUNT(1)FROM lxw1234_orc1 WHERE id>=0AND id<=1000

AND pcid IN('0005E26F0DCCDB56F9041C','A');

Bloom Filter Index

在建表時(shí)候专酗,通過表參數(shù)”orc.bloom.filter.columns”=”pcid”來指定為那些字段建立BloomFilter索引睹逃,這樣,在生成數(shù)據(jù)的時(shí)候祷肯,會(huì)在每個(gè)stripe中沉填,為該字段建立BloomFilter的數(shù)據(jù)結(jié)構(gòu),當(dāng)查詢條件中包含對(duì)該字段的=號(hào)過濾時(shí)候佑笋,先從BloomFilter中獲取以下是否包含該值翼闹,如果不包含,則跳過該stripe.

看下面的建表語句蒋纬,為pcid字段建立BloomFilter索引:

CREATE TABLE lxw1234_orc2 stored AS ORC

TBLPROPERTIES

('orc.compress'='SNAPPY',

'orc.create.index'='true',

"orc.bloom.filter.columns"="pcid",

'orc.bloom.filter.fpp'='0.05',

'orc.stripe.size'='10485760',

'orc.row.index.stride'='10000')

AS

SELECT CAST(siteid AS INT)AS id,

pcid

FROM lxw1234_text

DISTRIBUTE BY id sort BY id;

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末猎荠,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子蜀备,更是在濱河造成了極大的恐慌关摇,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,639評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件碾阁,死亡現(xiàn)場(chǎng)離奇詭異输虱,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)瓷蛙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門悼瓮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來戈毒,“玉大人,你說我怎么就攤上這事横堡÷袷校” “怎么了?”我有些...
    開封第一講書人閱讀 157,221評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵命贴,是天一觀的道長(zhǎng)道宅。 經(jīng)常有香客問我,道長(zhǎng)胸蛛,這世上最難降的妖魔是什么污茵? 我笑而不...
    開封第一講書人閱讀 56,474評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮葬项,結(jié)果婚禮上泞当,老公的妹妹穿的比我還像新娘。我一直安慰自己民珍,他們只是感情好襟士,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著嚷量,像睡著了一般陋桂。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蝶溶,一...
    開封第一講書人閱讀 49,816評(píng)論 1 290
  • 那天嗜历,我揣著相機(jī)與錄音,去河邊找鬼抖所。 笑死梨州,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的部蛇。 我是一名探鬼主播摊唇,決...
    沈念sama閱讀 38,957評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼咐蝇,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼涯鲁!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起有序,我...
    開封第一講書人閱讀 37,718評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤抹腿,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后旭寿,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體警绩,經(jīng)...
    沈念sama閱讀 44,176評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評(píng)論 2 327
  • 正文 我和宋清朗相戀三年盅称,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了肩祥。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片后室。...
    茶點(diǎn)故事閱讀 38,646評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖混狠,靈堂內(nèi)的尸體忽然破棺而出岸霹,到底是詐尸還是另有隱情,我是刑警寧澤将饺,帶...
    沈念sama閱讀 34,322評(píng)論 4 330
  • 正文 年R本政府宣布贡避,位于F島的核電站,受9級(jí)特大地震影響予弧,放射性物質(zhì)發(fā)生泄漏刮吧。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評(píng)論 3 313
  • 文/蒙蒙 一掖蛤、第九天 我趴在偏房一處隱蔽的房頂上張望杀捻。 院中可真熱鬧,春花似錦蚓庭、人聲如沸水醋。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拄踪。三九已至,卻和暖如春拳魁,著一層夾襖步出監(jiān)牢的瞬間惶桐,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評(píng)論 1 266
  • 我被黑心中介騙來泰國(guó)打工潘懊, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留姚糊,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,358評(píng)論 2 360
  • 正文 我出身青樓授舟,卻偏偏與公主長(zhǎng)得像救恨,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子释树,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容