Phoenix 索引

查詢條件對查詢性能的影響

下面是一張存有商品的編號懒棉、日期、價格该抒、銷量慌洪、庫存的數(shù)據(jù)表

CREATE TABLE IF NOT EXISTS Product (
    id           VARCHAR not null,
    time         VARCHAR not null,
    price        FLOAT,
    sale         INTEGER,
    inventory    INTEGER,

    CONSTRAINT pk PRIMARY KEY (id, time)
) COMPRESSION = 'GZ', SALT_BUCKETS = 6

在這個 Phoenix SQL 創(chuàng)建的 HBase 表里顶燕，id 和 time 組成了 HBase 的 row key，并且 id 在前 time 在后冈爹，由于 HBase 的數(shù)據(jù)是以 row key 排序的涌攻，所以這里相當(dāng)于先按 id 排序，再按 time 排序频伤，這時如果以 id 和 time 以外的字段作為查詢條件的話恳谎，都會導(dǎo)致全表掃描，即會查詢所有的 row key憋肖，即需要遍歷所有 id 的所有 time因痛，因為 HBase 并不知道哪行記錄存有滿足條件的值，比如

select * from Product where price > 200
select * from Product where sale > 100
select * from Product where inventory < 50

如果以 time 查詢岸更，由于 time 是 row key 的后半部分鸵膏，所以需要遍歷所有 id 的部分 time，比如

select * from Product where time > '2020-01-01'

如果以 id 查詢怎炊，由于 id 是 row key 的前半部分谭企，可以直接把滿足條件的數(shù)據(jù)找出來，比如

select * from Product where id > '10000'

可以看到评肆，查詢性能和 row key 的設(shè)計有很大關(guān)系债查，但一張表可能有多種查詢需求，row key 的設(shè)計無法滿足所有情況瓜挽，這時可以通過創(chuàng)建索引提升查詢性能

索引

如果希望提升以 sale 做查詢條件時的性能攀操，可以創(chuàng)建下面的索引

create index INDEX_PRODUCT on Product(sale) include(
    price
) SALT_BUCKETS=6;

索引實際上是創(chuàng)建另一張 HBase 表，這張表按順序以 sale秸抚、id速和、time 組成 row key（原表的 row key 一定會出現(xiàn)在索引表的 row key），而被 include 的 price 則在 CF 列剥汤，這樣當(dāng)查詢條件是 sale颠放，同時要獲取的是 key 字段或是被 include 的字段時，Phoenix 會去索引表取值吭敢，由于在這個索引里 sale 是在 row key 的最前面碰凶，這樣就能避免全表掃描，比如查詢

select time, price from Product where sale > 100

但是如果要查詢的字段即不是 key 也沒被 include鹿驼，這樣依然會去查原表欲低，比如

select * from Product where sale > 100

這時需要把 inventory 也 include 進來才會用到索引
（由于原表的 key 一定會加進來所以不用 include）

create index INDEX_PRODUCT on Product(sale) include(
    price, inventory
) SALT_BUCKETS=6;

如果只是把第二個 key 即 time 做索引，比如

create index INDEX_PRODUCT on Product(time) SALT_BUCKETS=6;

那么索引表的 row key 由 time畜晰、id 組成砾莱，相當(dāng)于原 row key 交換了順序，并且沒有 CF 值

觸發(fā)索引的條件

總結(jié)一下觸發(fā)索引需要滿足以下條件

where 字段是索引字段凄鼻，或是索引字段和 key 字段
select 字段是 key 字段腊瑟，或是索引字段聚假，或是被 include 的字段

索引對查詢性能的影響

索引不一定能顯著提升查詢性能，這取決于數(shù)據(jù)分布和查詢條件

如果是以 time 為查詢條件闰非，在原表需要查詢所有 id 的部分 time膘格，而在索引表是直接查詢 time，這樣如果滿足查詢條件的 id 很少财松，性能會有顯著提升瘪贱，如果滿足查詢條件的 id 本來就非常多，性能可能就沒有明顯提升

如果是以 sale 為查詢條件辆毡，在原表需要查詢所有 id 的所有 time菜秦，即需要查詢原表所有 row key，而在索引表是直接查詢 sale胚迫，一般來講性能會有顯著提升喷户，除非滿足查詢條件的 id + time 非常多唾那，即滿足條件的原表 row key 非常多访锻，那性能可能就沒有明顯提升

強制使用索引

在不把 inventory include 進來的情況下也可以強制使用索引表
通過在 select 時加上 /*+ INDEX(table index) */ 的方式

select /*+ INDEX(Product INDEX_PRODUCT ) */ * FROM Product where sale > 100

這樣會強制查詢索引表，但由于 inventory 其實不在索引表闹获，最后還是會去查詢原表期犬，但可能會縮小查詢范圍

比如以 time 為查詢條件，在原表需要查詢所有 id 的部分 time避诽，而先查詢索引可以先過濾出滿足查詢條件的 id龟虎，再去原表查詢滿足條件的 id 的部分 time，如果過濾出來的 id 很少沙庐，性能會有顯著提升鲤妥，如果過濾出來的 id 非常多，性能可能就沒有明顯提升拱雏，甚至可能會有下降棉安，因為要查兩張表

同樣的，如果以 sale 為查詢條件铸抑，在原表需要查詢所有 id 的所有 time贡耽，而先查索引表可以先過濾出滿足條件的 id 和 time，再去原表查詢過濾出來的 id 和 time鹊汛，如果過濾出來的 id 和 time 比較少蒲赂，性能會有顯著提升，如果過濾出來的非常多刁憋，性能可能就沒有明顯提升滥嘴，甚至?xí)陆担驗橐閮蓮埍?br>

對寫性能的影響

索引會導(dǎo)致寫性能下降至耻，因為要寫兩張表氏涩，同時消耗更多的磁盤空間

explain 命令

可以通過 explain 命令查看數(shù)據(jù)庫是如何查詢的

explain select * from Product where sale > 100

異步創(chuàng)建索引

如果創(chuàng)建索引時原表已經(jīng)有大量數(shù)據(jù)了届囚，可能會等很長時間，這時可以使用異步創(chuàng)建的方式

create index INDEX_PRODUCT on Product(sale) include(
    price
) ASYNC;

再用 hbase 命令觸發(fā)執(zhí)行

hbase org.apache.phoenix.mapreduce.index.IndexTool \
    --data-table=Product \
    --index-table=INDEX_PRODUCT \
    --output-path=/user/spark/ASYNC_INDEX_HFILES     <-- 必須先在 hdfs 創(chuàng)建這個目錄

最后編輯于：2020.04.13 16:54:21

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末是尖，一起剝皮案震驚了整個濱河市意系，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌饺汹，老刑警劉巖蛔添，帶你破解...
沈念sama閱讀 221,635評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異兜辞，居然都是意外死亡迎瞧，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,543評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門逸吵，熙熙樓的掌柜王于貴愁眉苦臉地迎上來凶硅，“玉大人，你說我怎么就攤上這事扫皱∽闵穑” “怎么了？”我有些...
開封第一講書人閱讀 168,083評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵韩脑，是天一觀的道長氢妈。經(jīng)常有香客問我，道長段多，這世上最難降的妖魔是什么首量？我笑而不...
開封第一講書人閱讀 59,640評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮进苍，結(jié)果婚禮上加缘，老公的妹妹穿的比我還像新娘。我一直安慰自己觉啊，他們只是感情好拣宏，可當(dāng)我...
茶點故事閱讀 68,640評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著柄延，像睡著了一般蚀浆。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上搜吧，一...
開封第一講書人閱讀 52,262評論 1贊 308
城市分裂傳說
那天市俊，我揣著相機與錄音，去河邊找鬼滤奈。笑死摆昧，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的蜒程。我是一名探鬼主播绅你，決...
沈念sama閱讀 40,833評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼伺帘，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了忌锯？” 一聲冷哼從身側(cè)響起伪嫁，我...
開封第一講書人閱讀 39,736評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎偶垮，沒想到半個月后张咳，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,280評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡似舵，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,369評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年脚猾，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片砚哗。...
茶點故事閱讀 40,503評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡龙助，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出蛛芥，到底是詐尸還是另有隱情提鸟，我是刑警寧澤，帶...
沈念sama閱讀 36,185評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布常空，位于F島的核電站沽一，受9級特大地震影響盖溺，放射性物質(zhì)發(fā)生泄漏漓糙。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,870評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一烘嘱、第九天我趴在偏房一處隱蔽的房頂上張望昆禽。院中可真熱鬧，春花似錦蝇庭、人聲如沸醉鳖。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,340評論 0贊 24
一樁弒父案哮内，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽盗棵。三九已至，卻和暖如春北发，著一層夾襖步出監(jiān)牢的瞬間纹因，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,460評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工琳拨，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留瞭恰，地道東北人。一個月前我還...
沈念sama閱讀 48,909評論 3贊 376
代替公主和親
正文我出身青樓狱庇，卻偏偏與公主長得像惊畏，于是被迫代替她去往敵國和親恶耽。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,512評論 2贊 359