seatunnel 簡(jiǎn)單使用(原名waterdrop)

業(yè)務(wù)背景

將hive中多個(gè)表數(shù)據(jù)同步到clickhouse中提供實(shí)時(shí)查詢圾另，表均2億條記錄扛点。對(duì)同步工具的要求一是能夠?qū)崿F(xiàn)抽數(shù)時(shí)間不宜過(guò)長(zhǎng)术辐；二是能夠自定義控制將數(shù)據(jù)抽取到clickhouse集群指定的節(jié)點(diǎn)實(shí)例上贷揽。作為一名java開發(fā)渡处，自然不想過(guò)多依賴Hadoop那一套镜悉，網(wǎng)上搜索一番后決定使用seatunnel，通過(guò)簡(jiǎn)單配置化就可以實(shí)現(xiàn)數(shù)據(jù)的抽取医瘫。

簡(jiǎn)介

Apache SeaTunnel （Incubating) 是一個(gè)分布式侣肄、高性能、易擴(kuò)展醇份、用于海量數(shù)據(jù)（離線&實(shí)時(shí)）同步和轉(zhuǎn)化的數(shù)據(jù)集成平臺(tái)稼锅。

官方文檔：https://interestinglab.github.io/seatunnel-docs/#/

安裝

安裝比較簡(jiǎn)單，參考官方文檔即可僚纷。

配置

config.conf 下述配置是從hive中抽數(shù)插入到clickhouse中的配置矩距，數(shù)據(jù)源是hive的一張表，通過(guò)seatunnel插件根據(jù)id字段進(jìn)行分片插入clickhouse集群不同分片怖竭。

spark {
  spark.sql.catalogImplementation = "hive"
  spark.app.name = "hive2clickhouse"
  spark.executor.instances = 30
  spark.executor.cores = 1 
  spark.executor.memory = "2g"
  spark.ui.port = 13000
}

input {
    hive {
        pre_sql = "select id,name,create_time from table"
        table_name = "table_tmp"
    }
}

filter {
    convert {
        source_field = "data_source"
        new_type = "UInt8"
    }

    org.interestinglab.waterdrop.filter.Slice {
        source_table_name = "table_tmp"
        source_field = "id"
        slice_num = 2
        slice_code = 0
        result_table_name = "table_8123"
    }
    org.interestinglab.waterdrop.filter.Slice {
        source_table_name = "table_tmp"
        source_field = "id"
        slice_num = 2
        slice_code = 1
        result_table_name = "table_8124"
    }
}

output {
    clickhouse {
        source_table_name="table_8123"
        host = "ip1:8123"
        database = "db_name"
        username="username"
        password="pwd"
        table = "table1"
        fields = ["id","name","create_time"]
            clickhouse.socket_timeout = 50000
            retry_codes = [209, 210]
            retry = 3
            bulk_size = 500000
    }
    clickhouse {
        source_table_name="table_8124"
        host = "ip2:8124"
        database = "db_name"
        username="username"
        password="pwd"
        table = "table1"
        fields = ["id","name","create_time"]
            clickhouse.socket_timeout = 50000
            retry_codes = [209, 210]
            retry = 3
            bulk_size = 500000
    }
}

插件開發(fā)

package org.interestinglab.waterdrop.filter

import io.github.interestinglab.waterdrop.apis.BaseFilter
import io.github.interestinglab.waterdrop.config.{Config, ConfigFactory}
import org.apache.spark.sql.functions.{col, hash, lit, udf}
import org.apache.spark.sql.{Dataset, Row, SparkSession}


class Slice extends BaseFilter {

  var conf: Config = ConfigFactory.empty()

  /**
   * Set Config.
   * */
  override def setConfig(config: Config): Unit = {
    this.conf = config
  }

  /**
   * Get Config.
   * */
  override def getConfig(): Config = {
    this.conf
  }

  override def checkConfig(): (Boolean, String) = {
    if (!conf.hasPath("source_field")) {
      (false, "please specify [source_field] as a non-empty string")
    } else if (!conf.hasPath("slice_code")) {
      (false, "please specify [slice_code] as a non-empty string")
    } else if (!conf.hasPath("slice_num")) {
      (false, "please specify [slice_num] as a non-empty string")
    } else {
      (true, "")
    }
  }

  override def process(spark: SparkSession, df: Dataset[Row]): Dataset[Row] = {
    val srcField = conf.getString("source_field")
    val sliceCode = conf.getInt("slice_code")
    val sliceNum = conf.getInt("slice_num")

    df.filter(func(hash(col(srcField)), lit(sliceNum), lit(sliceCode)))
  }

  val func = udf((s: String, num: Int, target: Int) => {
    val moCOde = s.toDouble % num
    val absValue = moCOde.toInt.abs
    absValue == target
  })
}

啟動(dòng)

../bin/start-waterdrop.sh --master local[4] --deploy-mode client --config.conf

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末锥债，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌哮肚，老刑警劉巖登夫，帶你破解...
沈念sama閱讀 219,539評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異允趟，居然都是意外死亡恼策，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,594評(píng)論 3贊 396
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門潮剪，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)涣楷，“玉大人，你說(shuō)我怎么就攤上這事抗碰∽芸茫” “怎么了？”我有些...
開封第一講書人閱讀 165,871評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵改含，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我迄汛，道長(zhǎng)捍壤，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,963評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任鞍爱，我火速辦了婚禮鹃觉，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘睹逃。我一直安慰自己盗扇，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,984評(píng)論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布沉填。她就那樣靜靜地躺著疗隶，像睡著了一般。火紅的嫁衣襯著肌膚如雪翼闹。梳的紋絲不亂的頭發(fā)上斑鼻，一...
開封第一講書人閱讀 51,763評(píng)論 1贊 307
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音猎荠，去河邊找鬼坚弱。笑死，一個(gè)胖子當(dāng)著我的面吹牛关摇，可吹牛的內(nèi)容都是我干的荒叶。我是一名探鬼主播，決...
沈念sama閱讀 40,468評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼输虱，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼些楣！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,357評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤戈毒，失蹤者是張志新（化名）和其女友劉穎艰猬，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體埋市，經(jīng)...
沈念sama閱讀 45,850評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡冠桃，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,002評(píng)論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了道宅。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片食听。...
茶點(diǎn)故事閱讀 40,144評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖污茵，靈堂內(nèi)的尸體忽然破棺而出樱报，到底是詐尸還是另有隱情，我是刑警寧澤泞当，帶...
沈念sama閱讀 35,823評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布迹蛤，位于F島的核電站，受9級(jí)特大地震影響襟士，放射性物質(zhì)發(fā)生泄漏盗飒。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,483評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一陋桂、第九天我趴在偏房一處隱蔽的房頂上張望逆趣。院中可真熱鬧，春花似錦嗜历、人聲如沸宣渗。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,026評(píng)論 0贊 22
一樁弒父案梨州，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)痕囱。三九已至，卻和暖如春摊唇，著一層夾襖步出監(jiān)牢的瞬間咐蝇，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,150評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工巷查，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留有序，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,415評(píng)論 3贊 373
代替公主和親
正文我出身青樓岛请，卻偏偏與公主長(zhǎng)得像旭寿，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子崇败，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,092評(píng)論 2贊 355

seatunnel 簡(jiǎn)單使用(原名waterdrop)

業(yè)務(wù)背景

簡(jiǎn)介

安裝

配置

插件開發(fā)

啟動(dòng)

推薦閱讀更多精彩內(nèi)容