背景
在hive中使用Roaring64Bitmap實(shí)現(xiàn)精確去重功能 主要目的:
1.提升 hive 中精確去重性能,代替hive 中的 count(distinct uuid);
2.節(jié)省 hive 存儲(chǔ) 积瞒,使用 bitmap 對(duì)數(shù)據(jù)壓縮 签赃,減少了存儲(chǔ)成本注盈;
3.提供在 hive 中 bitmap 的靈活運(yùn)算 且轨,比如:交集俗冻、并集堆巧、差集運(yùn)算 妄荔,計(jì)算后的 bitmap 也可以直接寫(xiě)入 hive;
使用
項(xiàng)目編譯
java 版本:1.8
mvn clean package
github地址
https://github.com/lihuigang/hive-bitmap-udf
下載地址:
https://github.com/lihuigang/hive-bitmap-udf/releases/download/v1.0.2/hive-bitmap-udf.jar
在hive中創(chuàng)建自定義 bitmap UDF
add jar hdfs://node:9000/hive-bitmap-udf.jar;
CREATE TEMPORARY FUNCTION to_bitmap AS 'com.hive.bitmap.udf.ToBitmapUDAF';
CREATE TEMPORARY FUNCTION bitmap_union AS 'com.hive.bitmap.udf.BitmapUnionUDAF';
CREATE TEMPORARY FUNCTION bitmap_count AS 'com.hive.bitmap.udf.BitmapCountUDF';
CREATE TEMPORARY FUNCTION bitmap_and AS 'com.hive.bitmap.udf.BitmapAndUDF';
CREATE TEMPORARY FUNCTION bitmap_or AS 'com.hive.bitmap.udf.BitmapOrUDF';
CREATE TEMPORARY FUNCTION bitmap_xor AS 'com.hive.bitmap.udf.BitmapXorUDF';
CREATE TEMPORARY FUNCTION bitmap_to_array AS 'com.hive.bitmap.udf.BitmapToArrayUDF';
CREATE TEMPORARY FUNCTION bitmap_from_array AS 'com.hive.bitmap.udf.BitmapFromArrayUDF';
UDF說(shuō)明
UDF | 描述 | 案例 | 結(jié)果類型 |
---|---|---|---|
to_bitmap | 將num(int或bigint) 轉(zhuǎn)化為 bitmap | to_bitmap(num) | bitmap |
bitmap_union | 多個(gè)bitmap合并為一個(gè)bitmap(并集) | bitmap_union(bitmap) | bitmap |
bitmap_count | 計(jì)算bitmap中存儲(chǔ)的num個(gè)數(shù) | bitmap_count(bitmap) | long |
bitmap_and | 計(jì)算兩個(gè)bitmap交集 | bitmap_and(bitmap1,bitmap2) | bitmap |
bitmap_or | 計(jì)算兩個(gè)bitmap并集 | bitmap_or(bitmap1,bitmap2) | bitmap |
bitmap_xor | 計(jì)算兩個(gè)bitmap差集 | bitmap_xor(bitmap1,bitmap2) | bitmap |
bitmap_from_array | array 轉(zhuǎn)化為bitmap | bitmap_from_array(array) | bitmap |
bitmap_to_array | bitmap轉(zhuǎn)化為array | bitmap_to_array(bitmap) | array<bigint> |
在 hive 中創(chuàng)建 bitmap 類型表,導(dǎo)入數(shù)據(jù)并查詢
CREATE TABLE IF NOT EXISTS `hive_bitmap_table`
(
k int comment 'id',
bitmap binary comment 'bitmap'
) comment 'hive bitmap 類型表'
STORED AS ORC;
-- 數(shù)據(jù)寫(xiě)入
insert into table hive_bitmap_table select 1 as id,to_bitmap(1) as bitmap;
insert into table hive_bitmap_table select 2 as id,to_bitmap(2) as bitmap;
-- 查詢
select bitmap_union(bitmap) from hive_bitmap_table;
select bitmap_count(bitmap_union(bitmap)) from hive_bitmap_table;
在 hive 中使用 bitmap 實(shí)現(xiàn)精確去重
CREATE TABLE IF NOT EXISTS `hive_table`
(
k int comment 'id',
uuid bigint comment '用戶id'
) comment 'hive 普通類型表'
STORED AS ORC;
-- 普通查詢(計(jì)算去重人數(shù))
select count(distinct uuid) from hive_table;
-- bitmap查詢(計(jì)算去重人數(shù))
select bitmap_count(to_bitmap(uuid)) from hive_table;