sqoop增量數(shù)據(jù)遷移

背景

業(yè)務(wù)系統(tǒng)庫(kù)數(shù)據(jù)包含了大量歷史數(shù)據(jù),核心的表超過(guò)千萬(wàn)級(jí)甚至億級(jí)后,傳統(tǒng)在業(yè)務(wù)庫(kù)上做數(shù)據(jù)分析已不合時(shí)宜骇塘,需要遷移至大數(shù)據(jù)平臺(tái)(hive/spark sql/impala)做數(shù)據(jù)分析,如果按天全量導(dǎo)入至平臺(tái)不僅消耗大量服務(wù)器資源并且全量讀取業(yè)務(wù)庫(kù)全表速度也會(huì)超慢羊壹,這時(shí)需要增量導(dǎo)入的功能卫袒,因?yàn)闃I(yè)務(wù)系統(tǒng)的表會(huì)用自增ID的標(biāo)志,可以按天截取新增數(shù)據(jù)導(dǎo)入平臺(tái)滚朵。

sqoop增量遷移數(shù)據(jù)方式對(duì)比

一種是 append冤灾,即通過(guò)指定一個(gè)遞增的列,比如:
--incremental append --check-column num_iid --last-value 0
另種是可以根據(jù)時(shí)間戳辕近,比如:
--incremental lastmodified --check-column created --last-value '2012-02-01 11:0:00'
就是只導(dǎo)入created 比'2012-02-01 11:0:00'更大的數(shù)據(jù)。

第一種適合業(yè)務(wù)系統(tǒng)庫(kù)匿垄,一般業(yè)務(wù)系統(tǒng)表會(huì)通過(guò)自增ID作為主鍵標(biāo)識(shí)唯一性移宅。
第二種適合ETL的數(shù)據(jù)

sqoop append模式使用

1.使用 sqoop create-hive-table 生成 hive表結(jié)構(gòu)
2.定義 sqoop job,實(shí)際上是一個(gè)通道,通道的始發(fā)站為mysql對(duì)應(yīng)的表椿疗,終點(diǎn)站為hive對(duì)應(yīng)的表
3.使用 sqoop job執(zhí)行增量導(dǎo)入

注:自己寫(xiě)個(gè)shell定時(shí)跑批或者放到調(diào)度系統(tǒng)定時(shí)執(zhí)行

下面為整個(gè)遷移的腳本示例:

#!/bin/bash
##############################################
##  $1:日期   $2:表名
##  第一個(gè)參數(shù)為日期漏峰,第二個(gè)參數(shù)為mysql表名
##############################################

#配置所在數(shù)據(jù)庫(kù)地址
conf_dbhost=xxx
#配置所在數(shù)據(jù)庫(kù)用戶名
conf_username=xxx
#配置所在數(shù)據(jù)庫(kù)密碼
conf_password=xxx
#配置所在數(shù)據(jù)庫(kù)名
conf_dbname=etl
var_etl_date=`mysql -h $conf_dbhost  -u$conf_username -p$conf_password -D $conf_dbname -e "SELECT var_value FROM para_etl_var WHERE var_name='{ETL_DATE}';"`
echo $var_etl_date
sys_date=`date -d'-1 day' +%Y-%m-%d`
if [ ${1} == "-" ]
then
#    cur_date='2016-09-23'
    cur_date=${var_etl_date:10:10}
    echo $cur_date
else
    #echo "$1"
    cur_date=`date --date="${1}" +%Y-%m-%d`
    echo $cur_date
fi
echo "$cur_date"
#exit
year=`date --date=$cur_date +%Y`
month=`date --date=$cur_date +%m`
day=`date --date=$cur_date +%d`
echo "cur_date:"${cur_date}
#hive庫(kù)名
hdb=rmdb
#hive表名
hive_table=crm_intopieces_dk
#mysql表名
mysql_table=crm_intopieces_dk

#數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)路徑
basedir=/rmdb
#mysql服務(wù)器地址
server=xxx

#mysql端口號(hào)
port=3306
#mysql數(shù)據(jù)庫(kù)名
mysql_database=test
#用戶名
username=xxx
#密碼
password=xxx

#判斷Hive是否存在,不存在執(zhí)行下面創(chuàng)建語(yǔ)句届榄,否則跳過(guò)
#hive -e "use $hdb;select * from $hive_table limit 1;"
if [ $? -ne 0 ]
then
    echo "表不存在浅乔,執(zhí)行創(chuàng)建表結(jié)構(gòu)"
    sqoop create-hive-table 
    --connect jdbc:mysql://$server:$port/$mysql_database?tinyInt1isBit=false 
    --username $username 
    --password $password 
    --table $mysql_table
else
    echo "表已存在,執(zhí)行增量導(dǎo)入铝条。靖苇。。"
fi
#exit
#
#一種是 append班缰,即通過(guò)指定一個(gè)遞增的列贤壁,比如:
#--incremental append  --check-column num_iid --last-value 0 
#另種是可以根據(jù)時(shí)間戳,比如:
#--incremental lastmodified --check-column created --last-value '2012-02-01 11:0:00' 
#就是只導(dǎo)入created 比'2012-02-01 11:0:00'更大的數(shù)據(jù)埠忘。 

echo "創(chuàng)建job"
#append
    sqoop job 
    --create crm_intopieces_dk 
    -- import --connect jdbc:mysql://$server:$port/$mysql_database?tinyInt1isBit=false 
    --username $username 
    --password $password  
    --table $mysql_table 
    --hive-import --hive-table $hive_table 
    --incremental append 
    --check-column id 
    --last-value 0

echo "append增量導(dǎo)入模式啟動(dòng)脾拆。。莹妒。"

    sqoop job --exec crm_intopieces_dk
exit
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末名船,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子旨怠,更是在濱河造成了極大的恐慌渠驼,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,542評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件运吓,死亡現(xiàn)場(chǎng)離奇詭異渴邦,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)拘哨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,596評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門谋梭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人倦青,你說(shuō)我怎么就攤上這事瓮床。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 158,021評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵隘庄,是天一觀的道長(zhǎng)踢步。 經(jīng)常有香客問(wèn)我,道長(zhǎng)丑掺,這世上最難降的妖魔是什么获印? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,682評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮街州,結(jié)果婚禮上兼丰,老公的妹妹穿的比我還像新娘。我一直安慰自己唆缴,他們只是感情好鳍征,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,792評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著面徽,像睡著了一般艳丛。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上趟紊,一...
    開(kāi)封第一講書(shū)人閱讀 49,985評(píng)論 1 291
  • 那天氮双,我揣著相機(jī)與錄音,去河邊找鬼织阳。 笑死眶蕉,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的唧躲。 我是一名探鬼主播造挽,決...
    沈念sama閱讀 39,107評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼弄痹!你這毒婦竟也來(lái)了饭入?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,845評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤肛真,失蹤者是張志新(化名)和其女友劉穎谐丢,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蚓让,經(jīng)...
    沈念sama閱讀 44,299評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡乾忱,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,612評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了历极。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片窄瘟。...
    茶點(diǎn)故事閱讀 38,747評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖趟卸,靈堂內(nèi)的尸體忽然破棺而出蹄葱,到底是詐尸還是另有隱情氏义,我是刑警寧澤,帶...
    沈念sama閱讀 34,441評(píng)論 4 333
  • 正文 年R本政府宣布图云,位于F島的核電站惯悠,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏竣况。R本人自食惡果不足惜克婶,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,072評(píng)論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望丹泉。 院中可真熱鬧鸠补,春花似錦、人聲如沸嘀掸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,828評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春榄棵,著一層夾襖步出監(jiān)牢的瞬間闸溃,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,069評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工贪磺, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留硫兰,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,545評(píng)論 2 362
  • 正文 我出身青樓寒锚,卻偏偏與公主長(zhǎng)得像劫映,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子刹前,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,658評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容