第三章 數(shù)據(jù)同步之大數(shù)據(jù)下數(shù)據(jù)倉庫的同步方式

數(shù)據(jù)倉庫的特性是集成,把不同數(shù)據(jù)源、不同形式的數(shù)據(jù)整合在一起沧竟。大數(shù)據(jù)下的數(shù)據(jù)特點(diǎn)如下:

①數(shù)據(jù)多樣性:包括高度結(jié)構(gòu)化铸敏,易于處理的結(jié)構(gòu)化數(shù)據(jù)以及服務(wù)器日志、圖片悟泵、視頻等非結(jié)構(gòu)化數(shù)據(jù)

②數(shù)據(jù)量:傳統(tǒng)的數(shù)據(jù)倉庫每天的同步量在幾百GB上下杈笔,大型的數(shù)據(jù)倉庫每天達(dá)PB級別,甚至EB級別


批量數(shù)據(jù)同步:

1)離線的數(shù)據(jù)線倉庫用于負(fù)責(zé)將不同數(shù)據(jù)源的數(shù)據(jù)同步到數(shù)據(jù)倉庫糕非,以及定時將數(shù)據(jù)同步到業(yè)務(wù)系統(tǒng)

2)要實(shí)現(xiàn)不同數(shù)據(jù)庫與數(shù)據(jù)倉庫之間數(shù)據(jù)的雙向同步桩撮,必須把數(shù)據(jù)轉(zhuǎn)換成某種中間狀態(tài)進(jìn)行數(shù)據(jù)格式的統(tǒng)一。目前使用字符串類型作為中間類型

以阿里巴巴DataX為例:2PB數(shù)據(jù)峰弹,3小時

① 通過插件的方式將數(shù)據(jù)從數(shù)據(jù)源轉(zhuǎn)換為中間狀態(tài),同時提供傳輸芜果、緩存等服務(wù)鞠呈。

② 在DataX中數(shù)據(jù)以中間狀態(tài)的形式存儲,在業(yè)務(wù)系統(tǒng)中轉(zhuǎn)化為需要的數(shù)據(jù)格式右钾。

③?DataX采用FrameWork+Plugin的方式實(shí)現(xiàn)蚁吝,F(xiàn)rameWork負(fù)責(zé)數(shù)據(jù)緩沖、流程控制舀射、上下文切換窘茁、并發(fā)并提供接口與插件接入服務(wù);Plugin 僅需實(shí)現(xiàn)對數(shù)據(jù)系統(tǒng)的訪問脆烟,易于開發(fā)

④ 數(shù)據(jù)傳輸全部在內(nèi)存中完成山林,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫與數(shù)據(jù)倉庫之間的高速數(shù)據(jù)交換


job:數(shù)據(jù)同步作業(yè)

Task:同步作業(yè)經(jīng)過分解,切分成多個小人物

Reader:運(yùn)行Task邢羔,將數(shù)據(jù)從源系統(tǒng)裝載到DataX

Channel:Reader與Writer之間數(shù)據(jù)交換

Writer:將數(shù)據(jù)從DataX導(dǎo)出到目標(biāo)系統(tǒng)


實(shí)時數(shù)據(jù)同步

1)對于日志類數(shù)據(jù)或者需要實(shí)時處理的業(yè)務(wù)數(shù)據(jù)驼抹,需要以流的方式把數(shù)據(jù)不間斷的同步到數(shù)據(jù)倉庫

2)采用的策略是建立數(shù)據(jù)交換中心,通過解析數(shù)據(jù)日志實(shí)時地將增量數(shù)據(jù)以流的方式不同同步到數(shù)據(jù)中心

以阿里巴巴TimeTunnel為例:

① 基于生產(chǎn)者拜鹤、消費(fèi)者框冀、Topic的傳輸中間件,將消息持久化到HBase

② 生產(chǎn)者敏簿、消費(fèi)者明也、Topic類似于kafka,Broker負(fù)責(zé)處理收發(fā)消息的請求惯裕,向Hbase取發(fā)數(shù)據(jù)

③ 實(shí)現(xiàn)基于Topic的讀寫分離(kafka的讀寫操作都在leader上)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末温数,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子轻猖,更是在濱河造成了極大的恐慌帆吻,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件咙边,死亡現(xiàn)場離奇詭異猜煮,居然都是意外死亡次员,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進(jìn)店門王带,熙熙樓的掌柜王于貴愁眉苦臉地迎上來淑蔚,“玉大人,你說我怎么就攤上這事愕撰∩采溃” “怎么了?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵搞挣,是天一觀的道長带迟。 經(jīng)常有香客問我,道長囱桨,這世上最難降的妖魔是什么仓犬? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮舍肠,結(jié)果婚禮上搀继,老公的妹妹穿的比我還像新娘。我一直安慰自己翠语,他們只是感情好叽躯,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著肌括,像睡著了一般点骑。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上谍夭,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天畔况,我揣著相機(jī)與錄音,去河邊找鬼慧库。 笑死跷跪,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的齐板。 我是一名探鬼主播吵瞻,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼甘磨!你這毒婦竟也來了橡羞?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤济舆,失蹤者是張志新(化名)和其女友劉穎卿泽,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡签夭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年齐邦,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片第租。...
    茶點(diǎn)故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡措拇,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出慎宾,到底是詐尸還是另有隱情丐吓,我是刑警寧澤,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布趟据,位于F島的核電站券犁,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏汹碱。R本人自食惡果不足惜族操,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望比被。 院中可真熱鬧,春花似錦泼舱、人聲如沸等缀。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽冒掌。三九已至,卻和暖如春股毫,著一層夾襖步出監(jiān)牢的瞬間膳音,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工铃诬, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留祭陷,地道東北人趣席。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像宣肚,于是被迫代替她去往敵國和親想罕。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評論 2 355

推薦閱讀更多精彩內(nèi)容