greenplum 導(dǎo)入 Spark計算的RoaringBitmap

最近在做基于標簽的圈人顽馋。通過bitmap來做，使用開源的RoaringBitmap幌羞，數(shù)據(jù)存儲在hive上寸谜。
開始是通過greenplum的pxf插件，將數(shù)據(jù)導(dǎo)入到gp属桦，然后聚合標簽生成Roaringbitmap熊痴。
但是這樣的方式效率低，于是在spark中構(gòu)建聂宾，然后將構(gòu)建好的bitmap導(dǎo)入gp中果善。
開始使用udaf的方式這樣計算效率較低

import org.apache.spark.sql.Row;
import org.apache.spark.sql.expressions.MutableAggregationBuffer;
import org.apache.spark.sql.expressions.UserDefinedAggregateFunction;
import org.apache.spark.sql.types.DataType;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import org.roaringbitmap.RoaringBitmap;
 
import java.io.*;
import java.util.ArrayList;
import java.util.List;
 
/**
 * 實現(xiàn)自定義聚合函數(shù)Bitmap
 */
public class UdafBitMap extends UserDefinedAggregateFunction {
    @Override
    public StructType inputSchema() {
        List<StructField> structFields = new ArrayList<>();
        structFields.add(DataTypes.createStructField("field", DataTypes.BinaryType, true));
        return DataTypes.createStructType(structFields);
    }
 
    @Override
    public StructType bufferSchema() {
        List<StructField> structFields = new ArrayList<>();
        structFields.add(DataTypes.createStructField("field", DataTypes.BinaryType, true));
        return DataTypes.createStructType(structFields);
    }
 
    @Override
    public DataType dataType() {
        return DataTypes.LongType;
    }
 
    @Override
    public boolean deterministic() {
        //是否強制每次執(zhí)行的結(jié)果相同
        return false;
    }
 
    @Override
    public void initialize(MutableAggregationBuffer buffer) {
        //初始化
        buffer.update(0, null);
    }
 
    @Override
    public void update(MutableAggregationBuffer buffer, Row input) {
        // 相同的executor間的數(shù)據(jù)合并
        // 1. 輸入為空直接返回不更新
        Object in = input.get(0);
        if(in == null){
            return ;
        }
        // 2. 源為空則直接更新值為輸入
        byte[] inBytes = (byte[]) in;
        Object out = buffer.get(0);
        if(out == null){
            buffer.update(0, inBytes);
            return ;
        }
        // 3. 源和輸入都不為空使用bitmap去重合并
        byte[] outBytes = (byte[]) out;
        byte[] result = outBytes;
        RoaringBitmap outRR = new RoaringBitmap();
        RoaringBitmap inRR = new RoaringBitmap();
        try {
            outRR.deserialize(new DataInputStream(new ByteArrayInputStream(outBytes)));
            inRR.deserialize(new DataInputStream(new ByteArrayInputStream(inBytes)));
            outRR.or(inRR);
            ByteArrayOutputStream bos = new ByteArrayOutputStream();
            outRR.serialize(new DataOutputStream(bos));
            result = bos.toByteArray();
        } catch (IOException e) {
            e.printStackTrace();
        }
        buffer.update(0, result);
    }
 
    @Override
    public void merge(MutableAggregationBuffer buffer1, Row buffer2) {
        //不同excutor間的數(shù)據(jù)合并
        update(buffer1, buffer2);
    }
 
    @Override
    public Object evaluate(Row buffer) {
        //根據(jù)Buffer計算結(jié)果
        long r = 0l;
        Object val = buffer.get(0);
        if (val != null) {
            RoaringBitmap rr = new RoaringBitmap();
            try {
                rr.deserialize(new DataInputStream(new ByteArrayInputStream((byte[]) val)));
                r = rr.getLongCardinality();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        return r;
    }
}

因為RoaringBitmap是復(fù)雜的類，不能直接存儲gp系谐，需要序列化成 bytea 類型巾陕。
基本思路是每個分區(qū)的數(shù)據(jù)構(gòu)建一個bitmap，然后序列化到hdfs上，通過pxf
插件鄙煤，建立外表的方式將數(shù)據(jù)導(dǎo)入gp
1.gp中建表dim_{colName}_tag(id int,userids bytea)晾匠。此處是bytea類型。
2.在spark中建立roaringbitmap梯刚。每個分區(qū)的數(shù)據(jù)生成一個bitmap混聊，然后序列化。這里使用scala寫的

 mp.foreach(m => {
        val v = m._1
        val d = m._2
        println(s"current tag $t1xjfzv col_value ${v}")
        val colsql = s"select $nft3317,row_id from mytable where ${col} = ${v}"
        val coldf = spark.sql(colsql)

        val res = coldf.mapPartitions(each => {
          val mrb = new RoaringBitmap()
          each.map(_.getLong(1).toInt).toList.foreach(mrb.add(_))
          mrb.runOptimize()
          val array = new Array[Byte](mrb.serializedSizeInBytes)
          mrb.serialize(new DataOutputStream(new OutputStream() {
            var c = 0
            override
            def close(): Unit = {
            }
            override
            def flush(): Unit = {
            }
            override
            def write(b: Int): Unit = {
              array({
                c += 1;
                c - 1
              }) = b.toByte
            }
            override
            def write(b: Array[Byte]): Unit = {
              write(b, 0, b.length)
            }
            override
            def write(b: Array[Byte], off: Int, l: Int): Unit = {
              System.arraycopy(b, off, array, c, l)
              c += l
            }
          }))
          Iterator((d, array))
        })

3.spark數(shù)據(jù)寫到保存到hdfs乾巧，可以采用parquet格式。
4.在gp中建立外表预愤。使用pxf插件沟于。

CREATE EXTERNAL TABLE dim_${colName}_$tag(tag int,row_id bytea) LOCATION ('pxf:/$RELATE_ROW_PATH/pt=$pt/$tag?PROFILE=hdfs:parquet') FORMAT 'CUSTOM' (FORMATTER='pxfwritable_import');"

這里外表與hdfs的目錄對應(yīng)。這樣可以導(dǎo)入數(shù)據(jù)到gp中植康。
5.最重要的一步旷太，就是將序列化的RoaringBitmap反序列化生成roaringbitmap。
建立tagtable(id int,userids roaringbitmap)销睁。需要提前安裝roaringbitmap插件供璧。

"INSERT INTO btable SELECT tag, rb_or_agg(cast(cast(row_id as varchar) as roaringbitmap)), current_timestamp from dim_${colName}_$tag group by tag;"

最核心的部分是

cast(row_id as varchar) 二進制數(shù)據(jù)轉(zhuǎn)成字符
cast(cast(row_id as varchar) as roaringbitmap 字符轉(zhuǎn)成roaringbitmap。
目前冻记，只找到了這重點方法睡毒。雖然官網(wǎng)提供了spark-gp的connector，但是沒有測試成功將bytea數(shù)據(jù)直接寫入gp冗栗。
只能中間導(dǎo)入的方式演顾。