開源數(shù)據(jù)同步神器——canal

前言

如今大型的IT系統(tǒng)中,都會(huì)使用分布式的方式潦刃,同時(shí)會(huì)有非常多的中間件,如redis懈叹、消息隊(duì)列乖杠、大數(shù)據(jù)存儲(chǔ)等,但是實(shí)際核心的數(shù)據(jù)存儲(chǔ)依然是存儲(chǔ)在數(shù)據(jù)庫澄成,作為使用最廣泛的數(shù)據(jù)庫滑黔,如何將mysql的數(shù)據(jù)與中間件的數(shù)據(jù)進(jìn)行同步笆包,既能確保數(shù)據(jù)的一致性、及時(shí)性略荡,也能做到代碼無侵入的方式呢?如果有這樣的一個(gè)需求歉胶,數(shù)據(jù)修改后汛兜,需要及時(shí)的將mysql中的數(shù)據(jù)更新到elasticsearch,我們會(huì)怎么進(jìn)行實(shí)現(xiàn)呢?

數(shù)據(jù)同步方案選擇

針對上文的需求通今,經(jīng)過思考粥谬,初步有如下的一些方案:

  • 代碼實(shí)現(xiàn)
    針對代碼中進(jìn)行數(shù)據(jù)庫的增刪改操作時(shí),同時(shí)進(jìn)行elasticsearch的增刪改操作辫塌。
  • mybatis實(shí)現(xiàn)
    通過mybatis plugin進(jìn)行實(shí)現(xiàn)漏策,截取sql語句進(jìn)行分析, 針對insert臼氨、update掺喻、delete的語句進(jìn)行處理。顯然储矩,這些操作如果都是單條數(shù)據(jù)的操作感耙,是很容易處理的。但是持隧,實(shí)際開發(fā)中即硼,總是會(huì)有一些批量的更新或者刪除操作,這時(shí)候屡拨,就很難進(jìn)行處理了只酥。

  • Aop實(shí)現(xiàn)
    不管是通過哪種Aop方式,根據(jù)制定的規(guī)則呀狼,如規(guī)范方法名裂允,注解等進(jìn)行切面處理,但依然還是會(huì)出現(xiàn)無法處理批量操作數(shù)據(jù)的問題赠潦。

  • logstash
    logstash類似的同步組件提供的文件和數(shù)據(jù)同步的功能叫胖,可以進(jìn)行數(shù)據(jù)的同步,只需要簡單的配置就能將mysql數(shù)據(jù)同步到elasticsearch她奥,但是logstash的原理是每秒進(jìn)行一次增量數(shù)據(jù)查詢瓮增,將結(jié)果同步到elasticsearch,實(shí)時(shí)性要求特別高的哩俭,可能無法滿足要求绷跑。且此方案的性能不是很好,造成資源的浪費(fèi)凡资。

實(shí)現(xiàn)方式 優(yōu)缺點(diǎn)
代碼實(shí)現(xiàn) 技術(shù)難度低砸捏,侵入性強(qiáng)谬运,實(shí)時(shí)性高
基于mybatis 有一定的技術(shù)難度,但是無法覆蓋所有的場景
Aop實(shí)現(xiàn) 技術(shù)難度低垦藏,半侵入性梆暖,需要規(guī)范代碼,依然無法覆蓋所有的場景
logstash 技術(shù)難度低掂骏,無侵入性轰驳,無需開發(fā),但會(huì)造成資源浪費(fèi)弟灼。

那么是否有什么更好的方式進(jìn)行處理嗎级解?mysql binlog同步,實(shí)時(shí)性強(qiáng)田绑,對于應(yīng)用無任何侵入性勤哗,且性能更好,不會(huì)造成資源浪費(fèi)掩驱,那么就有了我今天的主角——canal

canal

介紹

canal 是阿里巴巴的一個(gè)開源項(xiàng)目芒划,基于java實(shí)現(xiàn),整體已經(jīng)在很多大型的互聯(lián)網(wǎng)項(xiàng)目生產(chǎn)環(huán)境中使用昙篙,包括阿里腊状、美團(tuán)等都有廣泛的應(yīng)用,是一個(gè)非常成熟的數(shù)據(jù)庫同步方案苔可,基礎(chǔ)的使用只需要進(jìn)行簡單的配置即可缴挖。
canal是通過模擬成為mysql 的slave的方式,監(jiān)聽mysql 的binlog日志來獲取數(shù)據(jù)焚辅,binlog設(shè)置為row模式以后映屋,不僅能獲取到執(zhí)行的每一個(gè)增刪改的腳本,同時(shí)還能獲取到修改前和修改后的數(shù)據(jù)同蜻,基于這個(gè)特性棚点,canal就能高性能的獲取到mysql數(shù)據(jù)數(shù)據(jù)的變更。

image

使用

canal的介紹在官網(wǎng)有非常詳細(xì)的說明湾蔓,如果想了解更多瘫析,大家可以移步官網(wǎng)(https://github.com/alibaba/canal)了解。我這里補(bǔ)充下使用中不太容易理解部分默责。
canal的部署主要分為server端和client端贬循。
server端部署好以后,可以直接監(jiān)聽mysql binlog,因?yàn)閟erver端是把自己模擬成了mysql slave桃序,所以杖虾,只能接受數(shù)據(jù),沒有進(jìn)行任何邏輯的處理媒熊,具體的邏輯處理奇适,需要client端進(jìn)行處理坟比。
client端一般是需要大家進(jìn)行簡單的開發(fā)。https://github.com/alibaba/canal/wiki/ClientAPI 有一個(gè)簡單的示例嚷往,很容易理解葛账。

canal Adapter

為了便于大家的使用,官方做了一個(gè)獨(dú)立的組件Adapter皮仁,Adapter是可以將canal server端獲取的數(shù)據(jù)轉(zhuǎn)換成幾個(gè)常用的中間件數(shù)據(jù)源注竿,現(xiàn)在支持kafka、rocketmq魂贬、hbase、elasticsearch裙顽,針對這幾個(gè)中間件的支持付燥,直接配置即可,無需開發(fā)愈犹。上文中键科,如果需要將mysql的數(shù)據(jù)同步到elasticsearch,直接運(yùn)行 canal Adapter漩怎,修改相關(guān)的配置即可勋颖。

常見問題

  • 無法接收到數(shù)據(jù),程序也沒有報(bào)錯(cuò)勋锤?
    一定要確保mysql的binlog模式為row模式饭玲,canal原理是解析Binlog文件,并且直接中文件中獲取數(shù)據(jù)的叁执。

  • Adapter 使用無法同步數(shù)據(jù)茄厘?
    按照官方文檔,檢查配置項(xiàng)谈宛,如sql的大小寫次哈,字段的大小寫可能都會(huì)有影響,如果還無法搞定吆录,可以自己獲取代碼調(diào)試下窑滞,Adapter的代碼還是比較容易看懂的。

canal Adapter elasticsearch 改造

因?yàn)橛辛薱anal和canal Adapter這個(gè)神器恢筝,同步到elasticsearch哀卫、hbase等問題都解決了,但是自己的開發(fā)的過程中發(fā)現(xiàn)滋恬,Adapter使用還是有些問題聊训,因?yàn)橄仁褂玫氖莈lasticsearch同步功能,所以對elasticsearch進(jìn)行了一些改造:

elasticsearch初始化

一個(gè)全新的elasticsearch無法使用恢氯,因?yàn)闆]有創(chuàng)建elasticsearch index和mapping,增加了對應(yīng)的功能带斑。
elasticsearch配置文件mapping節(jié)點(diǎn)增加兩個(gè)參數(shù):

  enablefieldmap: true
  fieldmap:
    id: "text"
    name: "text"
    c_time: "text"
  

enablefieldmap 是否需要自動(dòng)生成fieldmap鼓寺,默認(rèn)為false,如果需要啟動(dòng)的時(shí)候就生成這設(shè)置為true,并且設(shè)置
fieldmap,類似elasticsearch mapping中每個(gè)字段的類型。

esconfig bug處理

代碼中獲取binlog的日志處理時(shí)勋磕,必須要獲取數(shù)據(jù)庫名妈候,但是當(dāng)獲取binlog為type query時(shí),是無法獲取
數(shù)據(jù)庫名的挂滓,此處有bug苦银,導(dǎo)致出現(xiàn) "Outer adapter write failed" ,且未輸出錯(cuò)誤日志,修復(fù)此bug.

后續(xù)計(jì)劃

  • 增加rabbit MQ的支持
  • 增加redis的支持

源碼

源碼地址:https://github.com/itmifen/canal

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末赶站,一起剝皮案震驚了整個(gè)濱河市幔虏,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌贝椿,老刑警劉巖想括,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異烙博,居然都是意外死亡瑟蜈,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進(jìn)店門渣窜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來铺根,“玉大人,你說我怎么就攤上這事乔宿∥挥兀” “怎么了?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵予颤,是天一觀的道長囤官。 經(jīng)常有香客問我,道長蛤虐,這世上最難降的妖魔是什么眯勾? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任局雄,我火速辦了婚禮烤低,結(jié)果婚禮上柔纵,老公的妹妹穿的比我還像新娘。我一直安慰自己饲常,他們只是感情好蹲堂,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著贝淤,像睡著了一般柒竞。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上播聪,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天朽基,我揣著相機(jī)與錄音布隔,去河邊找鬼。 笑死稼虎,一個(gè)胖子當(dāng)著我的面吹牛衅檀,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播霎俩,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼哀军,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了打却?” 一聲冷哼從身側(cè)響起杉适,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎柳击,沒想到半個(gè)月后淘衙,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡腻暮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了毯侦。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片哭靖。...
    茶點(diǎn)故事閱讀 39,779評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖侈离,靈堂內(nèi)的尸體忽然破棺而出试幽,到底是詐尸還是另有隱情,我是刑警寧澤卦碾,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布铺坞,位于F島的核電站,受9級(jí)特大地震影響洲胖,放射性物質(zhì)發(fā)生泄漏济榨。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一绿映、第九天 我趴在偏房一處隱蔽的房頂上張望擒滑。 院中可真熱鬧,春花似錦叉弦、人聲如沸丐一。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽库车。三九已至,卻和暖如春樱拴,著一層夾襖步出監(jiān)牢的瞬間柠衍,已是汗流浹背洋满。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拧略,地道東北人芦岂。 一個(gè)月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像垫蛆,于是被迫代替她去往敵國和親禽最。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評論 2 354

推薦閱讀更多精彩內(nèi)容