OGG(GoldenGate) + Kafka + Kudu 搭建實時數(shù)據(jù)系統(tǒng)

背景:


公司要啟動項目要做一個實時數(shù)據(jù)系統(tǒng)谣辞,去替代現(xiàn)在在oracle上計算的那套東西全部搬到Hadoop平臺上宋距;調(diào)研了Druid变过、Hbase埃元、Kudu,最后定下來方案使用Kudu媚狰。下面是基本

1. 公司的業(yè)務源端數(shù)據(jù)庫是Oracle岛杀,實時同步數(shù)據(jù)的工具就是GoldenGate

2. 資源的限制崭孤,Kafka集群沒有掛nas盤类嗤,所以暫時我們用的是單機的,沒辦法辨宠,窮只有一個字我只說一次遗锣。



項目訴求:

1.? 自適應:確保源端表在發(fā)生變化的時候,需要通過數(shù)據(jù)包字段來識別表結(jié)構(gòu)是否發(fā)生變化嗤形,然后觸發(fā)目標表變化和原來表數(shù)據(jù)備份精偿;

2.? 自動識別離線數(shù)據(jù)是否完成:因為我們這邊離線數(shù)據(jù)通過調(diào)度平臺來完成,不在實時這部分派殷;

3.? 源端ORACLE保持一致性



系統(tǒng)架構(gòu):

系統(tǒng)機構(gòu)分離線同步和實時同步兩部分:由于KAFKA分區(qū)的原因會造成少量的數(shù)據(jù)錯亂,所以需要每天凌晨會把T+1離線數(shù)據(jù)同步過來覆蓋掉原來的數(shù)據(jù)(以防有錯)墓阀。

1.? 離線部分:從已有的離線數(shù)據(jù)表毡惜,將關(guān)系型轉(zhuǎn)成非關(guān)系型批量插入KUDU中;

2.? 實時部分:在Oracle 源端裝GoldenGate 的源端斯撮,目的端在一臺裝有KAFKA的機器上(圖方便)经伙,KAFKA的CONSUMER直接消費OGG目的端過來的數(shù)據(jù),需要做到檢查勿锅、解析帕膜、新增/更新等操作;

????????2.1 ? OGG到KAFKA安裝教程具體見(https://blog.csdn.net/clerk0324/article/details/73498266):

????????????????中間也踩了不少的坑溢十,導致目的端的replicat啟動不起來垮刹,這個時候需要檢查OGG對應KAFKA配置是否配對了(KAFKA配的lib安裝路、LD_LIBRARY_PATH张弛、JAVA_HOME這些是否都存在)荒典;

????????2.2? KUDU 非關(guān)系型數(shù)據(jù)庫特點(Kudu 自帶的API 酪劫,研究的是這個文檔 :https://github.com/apache/kudu/blob/master/python/kudu/client.pyx)

? ? ? ? ? ? ? ? a. Kudu數(shù)據(jù)庫所有的表必須有主鍵,且主鍵的類型只能是字符型(源端建表的習慣不好寺董,主鍵中有int類型覆糟、還有字段不設置默認值,讓后續(xù)代碼加了很多邏輯去彌補這一麻煩遮咖,所以規(guī)范很重要L沧帧);

? ? ? ? ? ? ? ? b. Kudu 在插入數(shù)據(jù)的時候需要所有數(shù)據(jù)項都要有值且非空御吞;

? ? ? ? ? ? ? ? c. 在更新Kudu 數(shù)據(jù)的時候需要按照主鍵去更新麦箍;

? ? ? ? ? ? ? ? d. 為什么不用impala,其實剛開始使用的就是impala魄藕,因為實時解析部分是要一直插入内列、更新的,impala在大概第五分鐘的時候就已經(jīng)操作不了數(shù)據(jù)(進入假死狀態(tài))背率,而且發(fā)現(xiàn)在進行復雜的SQL的時候话瞧,還沒執(zhí)行完就報錯了,KUDU是支持高并發(fā)的但是impala不行寝姿,所以在解析程序中使用的都是Kudu 自帶的API 交排;

? ? ? ? ? ? ? ? e. 默認會在impala上建一個對應的外部表指向Kudu的同名表,impala應該是通過Kudu表的表名去鏈的饵筑,因為我要備份建新表的時候不重新指向一遍它是找不到新表的埃篓;

? ? ? ? 2.2 ?? KAFKA 消費OGG目的端數(shù)據(jù)解析程序(本系統(tǒng)的最重要部分之一,還有一個最重要是離線批量數(shù)據(jù)由Hive->Kudu )

? ? ? ? ? ? ? 該段核心承擔了系統(tǒng)實時部分主要功能:

? ? ? ? ? ? ? ? a. 解析字段部分:這是最基本的功能根资,我們選擇同步的字段類型是json架专,而不是用分隔符隔開的一個字符串,首先方便校驗原表字段是否做了變化玄帕,可以讓觸發(fā)自適應去更新Kudu表結(jié)構(gòu)部脚;

????????????????b.過來的key是否在對應同步表的表結(jié)構(gòu)中,若不在觸發(fā)備份 - > 更新表結(jié)構(gòu) 操作裤纹;

? ? ? ? ? ? ? ? c. 判斷離線數(shù)據(jù)是否同步成功:這里有兩個最重要的邏輯:1. 如何判斷離線數(shù)據(jù)是否同步成功委刘;2. 離線數(shù)據(jù)同步是需要時間的,假設離線數(shù)據(jù)同步完花了T分鐘鹰椒,此時如果直接去覆蓋實時表部分必然會將T分鐘內(nèi)更新的數(shù)據(jù)給覆蓋掉锡移;這兩個問題解決,實時的數(shù)據(jù)才能和源端保持一致性漆际;

實時系統(tǒng)架構(gòu)圖


這就是該項目大概梳理的邏輯部分淆珊;歡迎大家和我交流,也希望能有很多不同的新思路奸汇;

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末套蒂,一起剝皮案震驚了整個濱河市钞支,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌操刀,老刑警劉巖烁挟,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異骨坑,居然都是意外死亡撼嗓,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進店門欢唾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來且警,“玉大人,你說我怎么就攤上這事礁遣“呶撸” “怎么了?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵祟霍,是天一觀的道長杏头。 經(jīng)常有香客問我,道長沸呐,這世上最難降的妖魔是什么醇王? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮崭添,結(jié)果婚禮上寓娩,老公的妹妹穿的比我還像新娘。我一直安慰自己呼渣,他們只是感情好棘伴,可當我...
    茶點故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著屁置,像睡著了一般焊夸。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上缰犁,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天淳地,我揣著相機與錄音怖糊,去河邊找鬼帅容。 笑死,一個胖子當著我的面吹牛伍伤,可吹牛的內(nèi)容都是我干的并徘。 我是一名探鬼主播,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了堤魁?” 一聲冷哼從身側(cè)響起巡蘸,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤感局,失蹤者是張志新(化名)和其女友劉穎婿牍,沒想到半個月后绩衷,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體卒暂,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡声畏,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年撞叽,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片插龄。...
    茶點故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡愿棋,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出均牢,到底是詐尸還是另有隱情糠雨,我是刑警寧澤,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布徘跪,位于F島的核電站甘邀,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏真椿。R本人自食惡果不足惜鹃答,卻給世界環(huán)境...
    茶點故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望突硝。 院中可真熱鬧测摔,春花似錦、人聲如沸解恰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽护盈。三九已至挟纱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間腐宋,已是汗流浹背紊服。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留胸竞,地道東北人欺嗤。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像卫枝,于是被迫代替她去往敵國和親煎饼。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內(nèi)容