datax介紹
DataX 是阿里巴巴集團(tuán)內(nèi)被廣泛使用的離線數(shù)據(jù)同步工具/平臺(tái)却音,實(shí)現(xiàn)包括 MySQL赡艰、Oracle售淡、SqlServer、Postgre慷垮、HDFS揖闸、Hive、ADS料身、HBase汤纸、TableStore(OTS)、MaxCompute(ODPS)芹血、DRDS 等各種異構(gòu)數(shù)據(jù)源之間高效的數(shù)據(jù)同步功能贮泞。
官網(wǎng)地址:https://github.com/alibaba/DataX
datax使用
? ?1 官網(wǎng)下載datax包,之后解壓幔烛;
? 2編寫json配置文件啃擦,實(shí)例如下:
{
? ? "job": {
? ? ? ? "content": [
? ? ? ? ? ? {
? ? ? ? ? ? ? ? "reader": {
? ? ? ? ? ? ? ? },
? ? ? ? ? ? ? ? "writer": {
? ? ? ? ? ? }
? ? ? ? ],
? ? ? ? "setting": {
? ? ? ? ? ? "speed": {
? ? ? ? ? ? ? ? "channel": "1"
? ? ? ? ? ? }
? ? ? ? }
? ? }
}
具體的reader,writer參數(shù)官網(wǎng)有說明饿悬。
3執(zhí)行 python datax.py? xx.json
4調(diào)優(yōu)令蛉,主要是調(diào)整channel,byte狡恬,record參數(shù)珠叔,不過具體性能還是取決于源端數(shù)據(jù)庫的表是否適合切分,是否有合適的切分字段弟劲,切分字段最好為數(shù)字运杭。