Hive bitmap udf

背景

在hive中使用Roaring64Bitmap實(shí)現(xiàn)精確去重功能 主要目的:
1.提升 hive 中精確去重性能,代替hive 中的 count(distinct uuid);
2.節(jié)省 hive 存儲(chǔ) 积瞒,使用 bitmap 對(duì)數(shù)據(jù)壓縮 签赃,減少了存儲(chǔ)成本注盈;
3.提供在 hive 中 bitmap 的靈活運(yùn)算 且轨,比如:交集俗冻、并集堆巧、差集運(yùn)算 妄荔,計(jì)算后的 bitmap 也可以直接寫(xiě)入 hive;

使用

項(xiàng)目編譯

java 版本:1.8
mvn clean package

github地址

https://github.com/lihuigang/hive-bitmap-udf

下載地址:

https://github.com/lihuigang/hive-bitmap-udf/releases/download/v1.0.2/hive-bitmap-udf.jar

在hive中創(chuàng)建自定義 bitmap UDF

add jar hdfs://node:9000/hive-bitmap-udf.jar;

CREATE TEMPORARY FUNCTION to_bitmap AS 'com.hive.bitmap.udf.ToBitmapUDAF';
CREATE TEMPORARY FUNCTION bitmap_union AS 'com.hive.bitmap.udf.BitmapUnionUDAF';
CREATE TEMPORARY FUNCTION bitmap_count AS 'com.hive.bitmap.udf.BitmapCountUDF';
CREATE TEMPORARY FUNCTION bitmap_and AS 'com.hive.bitmap.udf.BitmapAndUDF';
CREATE TEMPORARY FUNCTION bitmap_or AS 'com.hive.bitmap.udf.BitmapOrUDF';
CREATE TEMPORARY FUNCTION bitmap_xor AS 'com.hive.bitmap.udf.BitmapXorUDF';
CREATE TEMPORARY FUNCTION bitmap_to_array AS 'com.hive.bitmap.udf.BitmapToArrayUDF';
CREATE TEMPORARY FUNCTION bitmap_from_array AS 'com.hive.bitmap.udf.BitmapFromArrayUDF';

UDF說(shuō)明

UDF 描述 案例 結(jié)果類型
to_bitmap 將num(int或bigint) 轉(zhuǎn)化為 bitmap to_bitmap(num) bitmap
bitmap_union 多個(gè)bitmap合并為一個(gè)bitmap(并集) bitmap_union(bitmap) bitmap
bitmap_count 計(jì)算bitmap中存儲(chǔ)的num個(gè)數(shù) bitmap_count(bitmap) long
bitmap_and 計(jì)算兩個(gè)bitmap交集 bitmap_and(bitmap1,bitmap2) bitmap
bitmap_or 計(jì)算兩個(gè)bitmap并集 bitmap_or(bitmap1,bitmap2) bitmap
bitmap_xor 計(jì)算兩個(gè)bitmap差集 bitmap_xor(bitmap1,bitmap2) bitmap
bitmap_from_array array 轉(zhuǎn)化為bitmap bitmap_from_array(array) bitmap
bitmap_to_array bitmap轉(zhuǎn)化為array bitmap_to_array(bitmap) array<bigint>

在 hive 中創(chuàng)建 bitmap 類型表,導(dǎo)入數(shù)據(jù)并查詢

CREATE TABLE IF NOT EXISTS `hive_bitmap_table`
( 
    k      int      comment 'id',
    bitmap binary   comment 'bitmap'
) comment 'hive bitmap 類型表' 
STORED AS ORC;

-- 數(shù)據(jù)寫(xiě)入
insert into table  hive_bitmap_table select  1 as id,to_bitmap(1) as bitmap;
insert into table hive_bitmap_table select  2 as id,to_bitmap(2) as bitmap;

-- 查詢

select bitmap_union(bitmap) from hive_bitmap_table;
select bitmap_count(bitmap_union(bitmap)) from hive_bitmap_table;

在 hive 中使用 bitmap 實(shí)現(xiàn)精確去重

CREATE TABLE IF NOT EXISTS `hive_table`
( 
    k      int      comment 'id',
    uuid   bigint   comment '用戶id'
) comment 'hive 普通類型表' 
STORED AS ORC;

-- 普通查詢(計(jì)算去重人數(shù))

select count(distinct uuid) from hive_table;

-- bitmap查詢(計(jì)算去重人數(shù))

select bitmap_count(to_bitmap(uuid)) from hive_table;

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末谍肤,一起剝皮案震驚了整個(gè)濱河市啦租,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌荒揣,老刑警劉巖篷角,帶你破解...
    沈念sama閱讀 211,042評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異系任,居然都是意外死亡恳蹲,警方通過(guò)查閱死者的電腦和手機(jī)虐块,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)嘉蕾,“玉大人贺奠,你說(shuō)我怎么就攤上這事〈沓溃” “怎么了儡率?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)以清。 經(jīng)常有香客問(wèn)我儿普,道長(zhǎng),這世上最難降的妖魔是什么掷倔? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1 283
  • 正文 為了忘掉前任箕肃,我火速辦了婚禮,結(jié)果婚禮上今魔,老公的妹妹穿的比我還像新娘勺像。我一直安慰自己,他們只是感情好错森,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布吟宦。 她就那樣靜靜地躺著,像睡著了一般涩维。 火紅的嫁衣襯著肌膚如雪殃姓。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1 289
  • 那天瓦阐,我揣著相機(jī)與錄音蜗侈,去河邊找鬼。 笑死睡蟋,一個(gè)胖子當(dāng)著我的面吹牛踏幻,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播戳杀,決...
    沈念sama閱讀 38,902評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼该面,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了信卡?” 一聲冷哼從身側(cè)響起隔缀,我...
    開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎傍菇,沒(méi)想到半個(gè)月后猾瘸,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,110評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年牵触,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了淮悼。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,577評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡荒吏,死狀恐怖敛惊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情绰更,我是刑警寧澤瞧挤,帶...
    沈念sama閱讀 34,258評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站儡湾,受9級(jí)特大地震影響特恬,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜徐钠,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評(píng)論 3 312
  • 文/蒙蒙 一癌刽、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧尝丐,春花似錦显拜、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至失息,卻和暖如春譬淳,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背盹兢。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工邻梆, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人绎秒。 一個(gè)月前我還...
    沈念sama閱讀 46,271評(píng)論 2 360
  • 正文 我出身青樓浦妄,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親替裆。 傳聞我的和親對(duì)象是個(gè)殘疾皇子校辩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容