Phoenix 索引

查詢條件對查詢性能的影響

下面是一張存有商品的編號懒棉、日期、價格该抒、銷量慌洪、庫存的數(shù)據(jù)表

CREATE TABLE IF NOT EXISTS Product (
    id           VARCHAR not null,
    time         VARCHAR not null,
    price        FLOAT,
    sale         INTEGER,
    inventory    INTEGER,

    CONSTRAINT pk PRIMARY KEY (id, time)
) COMPRESSION = 'GZ', SALT_BUCKETS = 6

在這個 Phoenix SQL 創(chuàng)建的 HBase 表里顶燕,id 和 time 組成了 HBase 的 row key,并且 id 在前 time 在后冈爹,由于 HBase 的數(shù)據(jù)是以 row key 排序的涌攻,所以這里相當(dāng)于先按 id 排序,再按 time 排序频伤,這時如果以 id 和 time 以外的字段作為查詢條件的話恳谎,都會導(dǎo)致全表掃描,即會查詢所有的 row key憋肖,即需要遍歷所有 id 的所有 time因痛,因為 HBase 并不知道哪行記錄存有滿足條件的值,比如

select * from Product where price > 200
select * from Product where sale > 100
select * from Product where inventory < 50 

如果以 time 查詢岸更,由于 time 是 row key 的后半部分鸵膏,所以需要遍歷所有 id 的部分 time,比如

select * from Product where time > '2020-01-01'

如果以 id 查詢怎炊,由于 id 是 row key 的前半部分谭企,可以直接把滿足條件的數(shù)據(jù)找出來,比如

select * from Product where id > '10000'

可以看到评肆,查詢性能和 row key 的設(shè)計有很大關(guān)系债查,但一張表可能有多種查詢需求,row key 的設(shè)計無法滿足所有情況瓜挽,這時可以通過創(chuàng)建索引提升查詢性能

索引

如果希望提升以 sale 做查詢條件時的性能攀操,可以創(chuàng)建下面的索引

create index INDEX_PRODUCT on Product(sale) include(
    price
) SALT_BUCKETS=6;

索引實際上是創(chuàng)建另一張 HBase 表,這張表按順序以 sale秸抚、id速和、time 組成 row key(原表的 row key 一定會出現(xiàn)在索引表的 row key),而被 include 的 price 則在 CF 列剥汤,這樣當(dāng)查詢條件是 sale颠放,同時要獲取的是 key 字段或是被 include 的字段時,Phoenix 會去索引表取值吭敢,由于在這個索引里 sale 是在 row key 的最前面碰凶,這樣就能避免全表掃描,比如查詢

select time, price from Product where sale > 100

但是如果要查詢的字段即不是 key 也沒被 include鹿驼,這樣依然會去查原表欲低,比如

select * from Product where sale > 100

這時需要把 inventory 也 include 進來才會用到索引
(由于原表的 key 一定會加進來所以不用 include)

create index INDEX_PRODUCT on Product(sale) include(
    price, inventory
) SALT_BUCKETS=6;

如果只是把第二個 key 即 time 做索引,比如

create index INDEX_PRODUCT on Product(time) SALT_BUCKETS=6;

那么索引表的 row key 由 time畜晰、id 組成砾莱,相當(dāng)于原 row key 交換了順序,并且沒有 CF 值

觸發(fā)索引的條件

總結(jié)一下觸發(fā)索引需要滿足以下條件

  • where 字段是索引字段凄鼻,或是索引字段和 key 字段
  • select 字段是 key 字段腊瑟,或是索引字段聚假,或是被 include 的字段

索引對查詢性能的影響

索引不一定能顯著提升查詢性能,這取決于數(shù)據(jù)分布和查詢條件

如果是以 time 為查詢條件闰非,在原表需要查詢所有 id 的部分 time膘格,而在索引表是直接查詢 time,這樣如果滿足查詢條件的 id 很少财松,性能會有顯著提升瘪贱,如果滿足查詢條件的 id 本來就非常多,性能可能就沒有明顯提升

如果是以 sale 為查詢條件辆毡,在原表需要查詢所有 id 的所有 time菜秦,即需要查詢原表所有 row key,而在索引表是直接查詢 sale胚迫,一般來講性能會有顯著提升喷户,除非滿足查詢條件的 id + time 非常多唾那,即滿足條件的原表 row key 非常多访锻,那性能可能就沒有明顯提升

強制使用索引

在不把 inventory include 進來的情況下也可以強制使用索引表
通過在 select 時加上 /*+ INDEX(table index) */ 的方式

select /*+ INDEX(Product INDEX_PRODUCT ) */ * FROM Product where sale > 100

這樣會強制查詢索引表,但由于 inventory 其實不在索引表闹获,最后還是會去查詢原表期犬,但可能會縮小查詢范圍

比如以 time 為查詢條件,在原表需要查詢所有 id 的部分 time避诽,而先查詢索引可以先過濾出滿足查詢條件的 id龟虎,再去原表查詢滿足條件的 id 的部分 time,如果過濾出來的 id 很少沙庐,性能會有顯著提升鲤妥,如果過濾出來的 id 非常多,性能可能就沒有明顯提升拱雏,甚至可能會有下降棉安,因為要查兩張表

同樣的,如果以 sale 為查詢條件铸抑,在原表需要查詢所有 id 的所有 time贡耽,而先查索引表可以先過濾出滿足條件的 id 和 time,再去原表查詢過濾出來的 id 和 time鹊汛,如果過濾出來的 id 和 time 比較少蒲赂,性能會有顯著提升,如果過濾出來的非常多刁憋,性能可能就沒有明顯提升滥嘴,甚至?xí)陆担驗橐閮蓮埍?br>

對寫性能的影響

索引會導(dǎo)致寫性能下降至耻,因為要寫兩張表氏涩,同時消耗更多的磁盤空間

explain 命令

可以通過 explain 命令查看數(shù)據(jù)庫是如何查詢的

explain select * from Product where sale > 100


異步創(chuàng)建索引

如果創(chuàng)建索引時原表已經(jīng)有大量數(shù)據(jù)了届囚,可能會等很長時間,這時可以使用異步創(chuàng)建的方式

create index INDEX_PRODUCT on Product(sale) include(
    price
) ASYNC;

再用 hbase 命令觸發(fā)執(zhí)行

hbase org.apache.phoenix.mapreduce.index.IndexTool \
    --data-table=Product \
    --index-table=INDEX_PRODUCT \
    --output-path=/user/spark/ASYNC_INDEX_HFILES     <-- 必須先在 hdfs 創(chuàng)建這個目錄




最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末是尖,一起剝皮案震驚了整個濱河市意系,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌饺汹,老刑警劉巖蛔添,帶你破解...
    沈念sama閱讀 221,635評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異兜辞,居然都是意外死亡迎瞧,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評論 3 399
  • 文/潘曉璐 我一進店門逸吵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來凶硅,“玉大人,你說我怎么就攤上這事扫皱∽闵穑” “怎么了?”我有些...
    開封第一講書人閱讀 168,083評論 0 360
  • 文/不壞的土叔 我叫張陵韩脑,是天一觀的道長氢妈。 經(jīng)常有香客問我,道長段多,這世上最難降的妖魔是什么首量? 我笑而不...
    開封第一講書人閱讀 59,640評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮进苍,結(jié)果婚禮上加缘,老公的妹妹穿的比我還像新娘。我一直安慰自己觉啊,他們只是感情好拣宏,可當(dāng)我...
    茶點故事閱讀 68,640評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著柄延,像睡著了一般蚀浆。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上搜吧,一...
    開封第一講書人閱讀 52,262評論 1 308
  • 那天市俊,我揣著相機與錄音,去河邊找鬼滤奈。 笑死摆昧,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蜒程。 我是一名探鬼主播绅你,決...
    沈念sama閱讀 40,833評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼伺帘,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了忌锯?” 一聲冷哼從身側(cè)響起伪嫁,我...
    開封第一講書人閱讀 39,736評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎偶垮,沒想到半個月后张咳,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,280評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡似舵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,369評論 3 340
  • 正文 我和宋清朗相戀三年脚猾,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片砚哗。...
    茶點故事閱讀 40,503評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡龙助,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蛛芥,到底是詐尸還是另有隱情提鸟,我是刑警寧澤,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布常空,位于F島的核電站沽一,受9級特大地震影響盖溺,放射性物質(zhì)發(fā)生泄漏漓糙。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,870評論 3 333
  • 文/蒙蒙 一烘嘱、第九天 我趴在偏房一處隱蔽的房頂上張望昆禽。 院中可真熱鬧,春花似錦蝇庭、人聲如沸醉鳖。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽盗棵。三九已至,卻和暖如春北发,著一層夾襖步出監(jiān)牢的瞬間纹因,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評論 1 272
  • 我被黑心中介騙來泰國打工琳拨, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留瞭恰,地道東北人。 一個月前我還...
    沈念sama閱讀 48,909評論 3 376
  • 正文 我出身青樓狱庇,卻偏偏與公主長得像惊畏,于是被迫代替她去往敵國和親恶耽。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,512評論 2 359

推薦閱讀更多精彩內(nèi)容

  • pyspark.sql模塊 模塊上下文 Spark SQL和DataFrames的重要類: pyspark.sql...
    mpro閱讀 9,464評論 0 13
  • 一颜启、SQL速成 結(jié)構(gòu)查詢語言(SQL)是用于查詢關(guān)系數(shù)據(jù)庫的標(biāo)準語言偷俭,它包括若干關(guān)鍵字和一致的語法,便于數(shù)據(jù)庫元件...
    shadow雨軒閱讀 514評論 0 3
  • 頭夾肌 在體側(cè)線中缰盏,與胸鎖乳突肌向前上方的“X”對應(yīng)的是頭夾肌社搅。 附著點 起點:項韌帶和第七頸椎至第三胸椎椎體(C...
    厚_德_載_物閱讀 802評論 0 4
  • 本次分享大綱 大型網(wǎng)站架構(gòu)系列 分布式系統(tǒng)系列 BAT技術(shù)文學(xué)系列 架構(gòu)設(shè)計系列 本次分享總結(jié) 一、大型網(wǎng)站架構(gòu)系...
    悟空嘿閱讀 1,841評論 0 0
  • 最近看了一個視頻健身激勵說道 “在人生中乳规,贏家不是那些有優(yōu)異基因的人或是那最有天分的人形葬,而是不屈不撓的人獲勝,當(dāng)他...
    阿貓讀書閱讀 697評論 9 9