sqoop是apache開(kāi)源項(xiàng)目,主要用于關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)和hdfs數(shù)據(jù)的相互同步.
主要記錄下-m和--split-by參數(shù)的使用:
1. 這倆參數(shù)一般是放在一起使用
2.-m:表明需要使用幾個(gè)map任務(wù)并發(fā)執(zhí)行
3.--split-by :拆分?jǐn)?shù)據(jù)的字段. -m設(shè)置為4,數(shù)據(jù)有100條,sqoop首先會(huì)獲取拆分字段的最大值,最小值,步長(zhǎng)為100/4=25;
那么第一個(gè)map執(zhí)行拆分字段值為(1,25)之間的數(shù)據(jù)
第二個(gè)map執(zhí)行拆分字段值為(26,50)之間的數(shù)據(jù)
第三個(gè)map執(zhí)行拆分字段值為(51,75)之間的數(shù)據(jù)
第四個(gè)map執(zhí)行拆分字段值為(76,100)之間的數(shù)據(jù)
注意事項(xiàng):
1.拆分字段默認(rèn)為主鍵
2.拆分字段的數(shù)據(jù)類(lèi)型最好為int,如果不是則將-m設(shè)置為1,split-by不設(shè)置
3.拆分字段的值最好分布均勻,否則會(huì)造成數(shù)據(jù)傾斜的問(wèn)題