阿里開源數(shù)據(jù)同步工具——DataX源碼揭秘

1.前言

datax是阿里出品辱士,最初是為了解決淘寶數(shù)據(jù)交換的問題舒萎,據(jù)說淘寶有30%的數(shù)據(jù)交換是通過datax完成的致燥。

2.介紹

DataX 是一個(gè)開源異構(gòu)數(shù)據(jù)源離線同步工具,致力于實(shí)現(xiàn)包括關(guān)系型數(shù)據(jù)庫(MySQL赂韵、Oracle等)娱节、HDFS、Hive祭示、ODPS肄满、HBase、FTP等各種異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步功能质涛。采用Framework + plugin架構(gòu)構(gòu)建稠歉。將數(shù)據(jù)源讀取和寫入抽象成為Reader/Writer插件,納入到整個(gè)同步框架中汇陆。

Data目前已經(jīng)支持常用的插件體系怒炸,主流的RDBMS,NOSQL毡代,大數(shù)據(jù)計(jì)算系統(tǒng)都已接入阅羹。


3.源碼解析

從github上clone源碼到本地,源碼地址:https://github.com/alibaba/DataX教寂。

DataX源碼由Framework(core包捏鱼,common包和transformer包)及?plugin(ReadPlugin和WritePlugin)組成。

Framework:Framework用于連接reader和writer酪耕,作為兩者的數(shù)據(jù)傳輸通道导梆,并處理緩沖,流控,并發(fā)看尼,數(shù)據(jù)轉(zhuǎn)換等核心技術(shù)問題递鹉。

Reader:Reader為數(shù)據(jù)采集模塊,負(fù)責(zé)采集數(shù)據(jù)源的數(shù)據(jù)藏斩,將數(shù)據(jù)發(fā)送給Framework梳虽。Writer: Writer為數(shù)據(jù)寫入模塊,負(fù)責(zé)不斷向Framework取數(shù)據(jù)灾茁,并將數(shù)據(jù)寫入到目的端窜觉。

3.1入口類Engine

? \bullet entry()方法:

? 主要用于獲取項(xiàng)目啟動(dòng)參數(shù):job,jobid北专,mode禀挫;

? 注意:mode分為單機(jī)模式和分布式模式,這里指定為standalone 單機(jī)模式拓颓。

? ? ? ? ? ? jobid默認(rèn)值為-1语婴,只有在standalone模式下使用,非 standalone 模式必須提供有效的jobid值驶睦。

public static void entry(String jobPath)throws Throwable {

? ? ? ? String jobIdString ="-1";

// 指定單機(jī)還是分布式模式運(yùn)行

? ? ? ? RUNTIME_MODE ="standalone";

Configuration configuration = ConfigParser.parse(jobPath);

......

configuration.set(CoreConstant.DATAX_CORE_CONTAINER_JOB_ID, jobId);

......

ConfigurationValidate.doValidate(configuration);

Engine engine =new Engine();

engine.start(configuration);

}

\bullet start()方法:

主要用于初始化配置砰左,檢查job的model信息。

public void start(Configuration allConf) {

// 綁定column轉(zhuǎn)換信息

? ? ColumnCast.bind(allConf);

/**

* 初始化PluginLoader场航,可以獲取各種插件配置

*/

? ? LoadUtil.bind(allConf);

......

Configuration jobInfoConfig = allConf.getConfiguration(CoreConstant.DATAX_JOB_JOBINFO);

//初始化PerfTrace

? ? PerfTrace perfTrace = PerfTrace.getInstance(isJob, instanceId, taskGroupId, priority, traceEnable);

perfTrace.setJobInfo(jobInfoConfig, perfReportEnable, channelNumber);

container.start();

}

3.2 jobContainer容器

job實(shí)例運(yùn)行在jobContainer容器中缠导,它是所有任務(wù)的master,負(fù)責(zé)初始化溉痢、拆分僻造、調(diào)度、運(yùn)行孩饼、回收髓削、監(jiān)控和匯報(bào)。

\bullet start()方法:

jobContainer主要負(fù)責(zé)的工作全部在start()里面镀娶,包括init立膛、prepare、split梯码、scheduler宝泵、post以及destroy和statistics。

public void start() {

LOG.info("DataX jobContainer starts job.");

this.preHandle();

this.init();

this.prepare();

this.totalStage =this.split();

this.schedule();

this.post();

this.postHandle();

this.invokeHooks();

}

\bullet init()方法:reader和writer的初始化

private void init() {

......

JobPluginCollector jobPluginCollector =new DefaultJobPluginCollector(

this.getContainerCommunicator());

//必須先Reader 忍些,后Writer

this.jobReader =this.initJobReader(jobPluginCollector);

this.jobWriter =this.initJobWriter(jobPluginCollector);

}

\bullet schedule()方法:

任務(wù)調(diào)度器schedule首先完成的工作是把上一步reader和writer split的結(jié)果整合到具體taskGroupContainer中鲁猩。

private void schedule() {

/**

* 通過獲取配置信息得到每個(gè)taskGroup需要運(yùn)行哪些tasks任務(wù)

*/

? ? List taskGroupConfigs = JobAssignUtil.assignFairly(this.configuration,

this.needChannelNumber, channelsPerTaskGroup);

......

AbstractScheduler scheduler;

scheduler = initStandaloneScheduler(this.configuration);

scheduler.schedule(taskGroupConfigs);

......

/** * 檢查任務(wù)執(zhí)行情況 */this.checkLimit();

this.checkLimit();

}


\bullet post()方法: 啟動(dòng)各類數(shù)據(jù)庫插件的讀寫任務(wù)坎怪。

private void post() {

this.postJobWriter();

this.postJobReader();

}

4. Spring Boot集成DataX

在springboot項(xiàng)目上罢坝,通過POM文件引入datax相關(guān)jar包

<dependency>

<groupId>com.alibaba.datax</groupId>

<artifactId>datax-core</artifactId>

<version>0.0.1-SNAPSHOT</version>

</dependency>

同時(shí)需要引入數(shù)據(jù)源讀取和寫入相關(guān)的Reader/Writer插件

<dependency>

<groupId>com.oracle</groupId>

<artifactId>ojdbc6</artifactId>

<version>11.2.0.3</version>

<scope>system</scope>

<systemPath>${basedir}/src/main/lib/ojdbc6-11.2.0.3.jar</systemPath>

</dependency>

<dependency>

<groupId>com.microsoft.sqlserver</groupId>

<artifactId>sqljdbc4</artifactId>

<version>4.0</version>

<scope>system</scope>

<systemPath>${basedir}/src/main/lib/sqljdbc4-4.0.jar</systemPath>

</dependency>

這里引入mysql 及oracle數(shù)據(jù)源對(duì)應(yīng)的插件

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子嘁酿,更是在濱河造成了極大的恐慌隙券,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件闹司,死亡現(xiàn)場離奇詭異娱仔,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)游桩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門牲迫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人借卧,你說我怎么就攤上這事盹憎。” “怎么了铐刘?”我有些...
    開封第一講書人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵陪每,是天一觀的道長。 經(jīng)常有香客問我镰吵,道長檩禾,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任疤祭,我火速辦了婚禮盼产,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘勺馆。我一直安慰自己辆飘,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開白布谓传。 她就那樣靜靜地躺著蜈项,像睡著了一般。 火紅的嫁衣襯著肌膚如雪续挟。 梳的紋絲不亂的頭發(fā)上紧卒,一...
    開封第一講書人閱讀 51,488評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音诗祸,去河邊找鬼跑芳。 笑死,一個(gè)胖子當(dāng)著我的面吹牛直颅,可吹牛的內(nèi)容都是我干的博个。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼功偿,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼盆佣!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤共耍,失蹤者是張志新(化名)和其女友劉穎虑灰,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體痹兜,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡穆咐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了字旭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片对湃。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖遗淳,靈堂內(nèi)的尸體忽然破棺而出熟尉,到底是詐尸還是另有隱情,我是刑警寧澤洲脂,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布斤儿,位于F島的核電站,受9級(jí)特大地震影響恐锦,放射性物質(zhì)發(fā)生泄漏往果。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一一铅、第九天 我趴在偏房一處隱蔽的房頂上張望陕贮。 院中可真熱鬧,春花似錦潘飘、人聲如沸肮之。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽戈擒。三九已至,卻和暖如春艰毒,著一層夾襖步出監(jiān)牢的瞬間筐高,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來泰國打工丑瞧, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留柑土,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓绊汹,卻偏偏與公主長得像稽屏,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子西乖,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容