seatunnel 簡(jiǎn)單使用(原名waterdrop)

業(yè)務(wù)背景

將hive中多個(gè)表數(shù)據(jù)同步到clickhouse中提供實(shí)時(shí)查詢圾另,表均2億條記錄扛点。對(duì)同步工具的要求一是能夠?qū)崿F(xiàn)抽數(shù)時(shí)間不宜過(guò)長(zhǎng)术辐;二是能夠自定義控制將數(shù)據(jù)抽取到clickhouse集群指定的節(jié)點(diǎn)實(shí)例上贷揽。作為一名java開發(fā)渡处,自然不想過(guò)多依賴Hadoop那一套镜悉,網(wǎng)上搜索一番后決定使用seatunnel,通過(guò)簡(jiǎn)單配置化就可以實(shí)現(xiàn)數(shù)據(jù)的抽取医瘫。

簡(jiǎn)介

Apache SeaTunnel (Incubating) 是一個(gè)分布式侣肄、高性能、易擴(kuò)展醇份、用于海量數(shù)據(jù)(離線&實(shí)時(shí))同步和轉(zhuǎn)化的數(shù)據(jù)集成平臺(tái)稼锅。

官方文檔:https://interestinglab.github.io/seatunnel-docs/#/

安裝

安裝比較簡(jiǎn)單,參考官方文檔即可僚纷。

配置

config.conf 下述配置是從hive中抽數(shù)插入到clickhouse中的配置矩距,數(shù)據(jù)源是hive的一張表,通過(guò)seatunnel插件根據(jù)id字段進(jìn)行分片插入clickhouse集群不同分片怖竭。

spark {
  spark.sql.catalogImplementation = "hive"
  spark.app.name = "hive2clickhouse"
  spark.executor.instances = 30
  spark.executor.cores = 1 
  spark.executor.memory = "2g"
  spark.ui.port = 13000
}

input {
    hive {
        pre_sql = "select id,name,create_time from table"
        table_name = "table_tmp"
    }
}

filter {
    convert {
        source_field = "data_source"
        new_type = "UInt8"
    }

    org.interestinglab.waterdrop.filter.Slice {
        source_table_name = "table_tmp"
        source_field = "id"
        slice_num = 2
        slice_code = 0
        result_table_name = "table_8123"
    }
    org.interestinglab.waterdrop.filter.Slice {
        source_table_name = "table_tmp"
        source_field = "id"
        slice_num = 2
        slice_code = 1
        result_table_name = "table_8124"
    }
}

output {
    clickhouse {
        source_table_name="table_8123"
        host = "ip1:8123"
        database = "db_name"
        username="username"
        password="pwd"
        table = "table1"
        fields = ["id","name","create_time"]
            clickhouse.socket_timeout = 50000
            retry_codes = [209, 210]
            retry = 3
            bulk_size = 500000
    }
    clickhouse {
        source_table_name="table_8124"
        host = "ip2:8124"
        database = "db_name"
        username="username"
        password="pwd"
        table = "table1"
        fields = ["id","name","create_time"]
            clickhouse.socket_timeout = 50000
            retry_codes = [209, 210]
            retry = 3
            bulk_size = 500000
    }
}

插件開發(fā)

package org.interestinglab.waterdrop.filter

import io.github.interestinglab.waterdrop.apis.BaseFilter
import io.github.interestinglab.waterdrop.config.{Config, ConfigFactory}
import org.apache.spark.sql.functions.{col, hash, lit, udf}
import org.apache.spark.sql.{Dataset, Row, SparkSession}


class Slice extends BaseFilter {

  var conf: Config = ConfigFactory.empty()

  /**
   * Set Config.
   * */
  override def setConfig(config: Config): Unit = {
    this.conf = config
  }

  /**
   * Get Config.
   * */
  override def getConfig(): Config = {
    this.conf
  }

  override def checkConfig(): (Boolean, String) = {
    if (!conf.hasPath("source_field")) {
      (false, "please specify [source_field] as a non-empty string")
    } else if (!conf.hasPath("slice_code")) {
      (false, "please specify [slice_code] as a non-empty string")
    } else if (!conf.hasPath("slice_num")) {
      (false, "please specify [slice_num] as a non-empty string")
    } else {
      (true, "")
    }
  }

  override def process(spark: SparkSession, df: Dataset[Row]): Dataset[Row] = {
    val srcField = conf.getString("source_field")
    val sliceCode = conf.getInt("slice_code")
    val sliceNum = conf.getInt("slice_num")

    df.filter(func(hash(col(srcField)), lit(sliceNum), lit(sliceCode)))
  }

  val func = udf((s: String, num: Int, target: Int) => {
    val moCOde = s.toDouble % num
    val absValue = moCOde.toInt.abs
    absValue == target
  })
}

啟動(dòng)

../bin/start-waterdrop.sh --master local[4] --deploy-mode client --config.conf
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末锥债,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌哮肚,老刑警劉巖登夫,帶你破解...
    沈念sama閱讀 219,539評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異允趟,居然都是意外死亡恼策,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門潮剪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)涣楷,“玉大人,你說(shuō)我怎么就攤上這事抗碰∽芸茫” “怎么了?”我有些...
    開封第一講書人閱讀 165,871評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵改含,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我迄汛,道長(zhǎng)捍壤,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,963評(píng)論 1 295
  • 正文 為了忘掉前任鞍爱,我火速辦了婚禮鹃觉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘睹逃。我一直安慰自己盗扇,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評(píng)論 6 393
  • 文/花漫 我一把揭開白布沉填。 她就那樣靜靜地躺著疗隶,像睡著了一般。 火紅的嫁衣襯著肌膚如雪翼闹。 梳的紋絲不亂的頭發(fā)上斑鼻,一...
    開封第一講書人閱讀 51,763評(píng)論 1 307
  • 那天,我揣著相機(jī)與錄音猎荠,去河邊找鬼坚弱。 笑死,一個(gè)胖子當(dāng)著我的面吹牛关摇,可吹牛的內(nèi)容都是我干的荒叶。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼输虱,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼些楣!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤戈毒,失蹤者是張志新(化名)和其女友劉穎艰猬,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體埋市,經(jīng)...
    沈念sama閱讀 45,850評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡冠桃,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評(píng)論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了道宅。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片食听。...
    茶點(diǎn)故事閱讀 40,144評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖污茵,靈堂內(nèi)的尸體忽然破棺而出樱报,到底是詐尸還是另有隱情,我是刑警寧澤泞当,帶...
    沈念sama閱讀 35,823評(píng)論 5 346
  • 正文 年R本政府宣布迹蛤,位于F島的核電站,受9級(jí)特大地震影響襟士,放射性物質(zhì)發(fā)生泄漏盗飒。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評(píng)論 3 331
  • 文/蒙蒙 一陋桂、第九天 我趴在偏房一處隱蔽的房頂上張望逆趣。 院中可真熱鬧,春花似錦嗜历、人聲如沸宣渗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)痕囱。三九已至,卻和暖如春摊唇,著一層夾襖步出監(jiān)牢的瞬間咐蝇,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工巷查, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留有序,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,415評(píng)論 3 373
  • 正文 我出身青樓岛请,卻偏偏與公主長(zhǎng)得像旭寿,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子崇败,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容