企業(yè)大數(shù)據(jù)平臺倉庫架構(gòu)建設(shè)思路

實(shí)習(xí)過后需要學(xué)習(xí)一下才能更有體會~~~

學(xué)習(xí)來源:https://blog.csdn.net/huanggang028/article/details/52168092


問題:數(shù)據(jù)爆炸式地增長梯啤,各種結(jié)構(gòu)化级及、半結(jié)構(gòu)化悬垃、非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生赏殃,越來越多的企業(yè)開始在大數(shù)據(jù)平臺下進(jìn)行數(shù)據(jù)處理漾肮。

總體思路

新環(huán)境下的數(shù)據(jù)應(yīng)用特征:

  • 業(yè)務(wù)變化快
  • 數(shù)據(jù)來源多
  • 應(yīng)用深度深
  • 系統(tǒng)耦合多

大數(shù)據(jù)平臺特征

  • 強(qiáng)大的計(jì)算和存儲能力:使得更扁平化的數(shù)據(jù)流程設(shè)計(jì)成為可能路星,簡化計(jì)算過程席镀;
  • 多樣的編程接口和框架:豐富了數(shù)據(jù)加工的手段;
  • 豐富的數(shù)據(jù)采集通道:實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的采集杈女;
  • 各種安全和管理措施:保障了平臺的可用性朱浴。

對于數(shù)據(jù)倉庫的構(gòu)建要求

  • 穩(wěn)定:數(shù)據(jù)的產(chǎn)出穩(wěn)定、有保障达椰;
  • 可信:數(shù)據(jù)的質(zhì)量要足夠高赊琳;
  • 豐富:數(shù)據(jù)涵蓋的業(yè)務(wù)面要足夠豐富;
  • 透明:數(shù)據(jù)構(gòu)成流程體系透明砰碴,讓用戶放心使用。

倉庫架構(gòu)設(shè)計(jì)原則

  • 自下而上+自上而下:保證數(shù)據(jù)搜集的全面性
  • 高容錯板丽;
  • 數(shù)據(jù)質(zhì)量監(jiān)控觀察整個數(shù)據(jù)流程呈枉;
  • 不怕數(shù)據(jù)冗余,利用存儲換易用埃碱。

數(shù)據(jù)模型

模型設(shè)計(jì)

  • 維度建模
    結(jié)構(gòu)簡單猖辫,便于事實(shí)數(shù)據(jù)分析,適合業(yè)務(wù)分析報(bào)表和BI砚殿;
  • 實(shí)體關(guān)系建模
    結(jié)構(gòu)較復(fù)雜啃憎,但它便于主體數(shù)據(jù)打通,適合復(fù)雜數(shù)據(jù)內(nèi)容的深度挖掘似炎。

每個企業(yè)在構(gòu)建自己數(shù)倉時辛萍,應(yīng)該根據(jù)業(yè)務(wù)形態(tài)和需求場景選擇合適的建模方式。對于應(yīng)用復(fù)雜性企業(yè)羡藐,可以采用多種建模結(jié)合的方式贩毕,例如在基礎(chǔ)層采用維度建模的方式,讓維度更加清晰;中間層采用實(shí)體關(guān)系建模方式仆嗦,使得中間層更容易被上層應(yīng)用使用辉阶。

數(shù)據(jù)分層

數(shù)據(jù)分層可以使得數(shù)據(jù)構(gòu)建體系更加清晰,便于數(shù)據(jù)使用者快速對數(shù)據(jù)進(jìn)行定位;同時數(shù)據(jù)分層也可以簡化數(shù)據(jù)加工處理流程,降低計(jì)算復(fù)雜度谆甜。

  • 基礎(chǔ)數(shù)據(jù)層(存)
    • 數(shù)據(jù)采集:把不同數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一采集到一個平臺上;
    • 數(shù)據(jù)清洗垃僚,清洗不符合質(zhì)量要求的數(shù)據(jù),避免臟數(shù)據(jù)參與后續(xù)數(shù)據(jù)計(jì)算;
    • 數(shù)據(jù)歸類规辱,建立數(shù)據(jù)目錄谆棺,在基礎(chǔ)層一般按照來源系統(tǒng)和業(yè)務(wù)域進(jìn)行分類;
    • 數(shù)據(jù)結(jié)構(gòu)化,對于半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)按摘,進(jìn)行結(jié)構(gòu)化;
    • 數(shù)據(jù)規(guī)范化包券,包括規(guī)范維度標(biāo)識、統(tǒng)一計(jì)量單位等規(guī)范化操作炫贤。
  • 中間層(通)
    • 打通同一實(shí)體不同來源的數(shù)據(jù)
    • 從行為中提取關(guān)系
    • 可適當(dāng)增加數(shù)據(jù)冗余溅固,以保障主題的完整性和數(shù)據(jù)的易用性
  • 集市層(用)
    • 場景驅(qū)動建設(shè),各及時之間垂直構(gòu)建
    • 集市層深度挖掘數(shù)據(jù)價值
    • 能夠快速試錯

數(shù)據(jù)架構(gòu)

  • 數(shù)據(jù)整合
    • 結(jié)構(gòu)化數(shù)據(jù)采集
      • 全量采集:每日采集數(shù)據(jù)庫表的快照
      • 增量采集:采集數(shù)據(jù)集每日變化的數(shù)據(jù)
      • 實(shí)時采集:實(shí)時采集數(shù)據(jù)集的變化數(shù)據(jù)
    • 非結(jié)構(gòu)化數(shù)據(jù)特征提取
      例如語音轉(zhuǎn)文本兰珍、圖片識別侍郭、自然語言處理等...
    • 日志結(jié)構(gòu)化
      • 日志采集到平臺之前不做結(jié)構(gòu)化
      • 通過UDF和MR計(jì)算框架實(shí)現(xiàn)日志結(jié)構(gòu)化
      • 日志原始結(jié)構(gòu)越規(guī)范,解析成本越低
  • 數(shù)據(jù)體系
  • 數(shù)據(jù)服務(wù)
    • 統(tǒng)計(jì)服務(wù):偏傳統(tǒng)的報(bào)表服務(wù)掠河,利用大數(shù)據(jù)平臺將數(shù)據(jù)加工后的結(jié)果放入關(guān)系型數(shù)據(jù)庫中亮元,供前端的報(bào)表系統(tǒng)或業(yè)務(wù)系統(tǒng)查詢;
    • 分析服務(wù):提供明細(xì)的事實(shí)數(shù)據(jù)唠摹,利用大數(shù)據(jù)平臺的實(shí)時計(jì)算能力爆捞,允許操作人員自主靈活的進(jìn)行各種維度的交叉組合查詢。
    • 標(biāo)簽服務(wù):大數(shù)據(jù)的應(yīng)用場景下勾拉,經(jīng)常會對主體進(jìn)行特征刻畫煮甥,比如客戶的消費(fèi)能力、興趣習(xí)慣藕赞、物理特征等等成肘,這些數(shù)據(jù)通過打標(biāo)簽轉(zhuǎn)換成KV的數(shù)據(jù)服務(wù),用于前端應(yīng)用查詢斧蜕。

架構(gòu)中一些實(shí)用的點(diǎn)

  • 巧用虛擬節(jié)點(diǎn):實(shí)現(xiàn)多系統(tǒng)數(shù)據(jù)源同步双霍,實(shí)現(xiàn)跨系統(tǒng)間的數(shù)據(jù)傳輸,實(shí)現(xiàn)多應(yīng)用間數(shù)據(jù)交互批销。通過巧用虛擬節(jié)點(diǎn)減少運(yùn)維人員在實(shí)際出現(xiàn)問題時的運(yùn)維成本洒闸。
  • 采用強(qiáng)制分區(qū):在所有的表都上都加上時間分區(qū)。通過分區(qū)风钻,保證每個任務(wù)都能夠獨(dú)立重跑顷蟀,而不產(chǎn)生數(shù)據(jù)質(zhì)量問題,降低了數(shù)據(jù)修復(fù)成本;此外通過分區(qū)裁剪骡技,還可以降低計(jì)算成本鸣个。
  • 計(jì)算框架應(yīng)用:完成日志結(jié)構(gòu)化羞反、同類數(shù)據(jù)計(jì)算過程、減少數(shù)據(jù)掃描次數(shù)等操作囤萤,減輕了開發(fā)人員的負(fù)擔(dān)昼窗,同時更容易維護(hù)。
  • 優(yōu)化關(guān)鍵路徑:每份數(shù)據(jù)的產(chǎn)出都有一個關(guān)鍵數(shù)據(jù)加工路徑涛舍;優(yōu)化關(guān)鍵路徑中耗時最長的任務(wù)是最有效的保障數(shù)據(jù)產(chǎn)出時間的手段澄惊;對重要數(shù)據(jù)產(chǎn)出增加基線監(jiān)控。

數(shù)據(jù)治理

數(shù)據(jù)質(zhì)量

  • 事前:制定每份數(shù)據(jù)的數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則
  • 事中:監(jiān)控和影響數(shù)據(jù)生產(chǎn)過程富雅,不符合質(zhì)量要求的數(shù)據(jù)不算產(chǎn)出數(shù)據(jù)掸驱;
  • 事后:數(shù)據(jù)質(zhì)量情況分析和打分,兔絨數(shù)據(jù)質(zhì)量提升

數(shù)據(jù)生命周期管理

  • 對重要的基礎(chǔ)數(shù)據(jù)長期保留
  • 對數(shù)據(jù)中間計(jì)算過程數(shù)據(jù)没佑,在保障滿足絕大部分應(yīng)用訪問歷史的前提下毕贼,縮短數(shù)據(jù)保留周期,有助于降低存儲成本蛤奢;
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鬼癣,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子啤贩,更是在濱河造成了極大的恐慌待秃,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件痹屹,死亡現(xiàn)場離奇詭異章郁,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)志衍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門驱犹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人足画,你說我怎么就攤上這事〉枧#” “怎么了淹辞?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長俘侠。 經(jīng)常有香客問我象缀,道長,這世上最難降的妖魔是什么爷速? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任央星,我火速辦了婚禮,結(jié)果婚禮上惫东,老公的妹妹穿的比我還像新娘莉给。我一直安慰自己毙石,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布颓遏。 她就那樣靜靜地躺著徐矩,像睡著了一般。 火紅的嫁衣襯著肌膚如雪叁幢。 梳的紋絲不亂的頭發(fā)上滤灯,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天,我揣著相機(jī)與錄音曼玩,去河邊找鬼鳞骤。 笑死,一個胖子當(dāng)著我的面吹牛黍判,可吹牛的內(nèi)容都是我干的豫尽。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼样悟,長吁一口氣:“原來是場噩夢啊……” “哼拂募!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起窟她,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤陈症,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后震糖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體录肯,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年吊说,在試婚紗的時候發(fā)現(xiàn)自己被綠了论咏。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡颁井,死狀恐怖厅贪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情雅宾,我是刑警寧澤养涮,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站眉抬,受9級特大地震影響贯吓,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蜀变,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一悄谐、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧库北,春花似錦爬舰、人聲如沸们陆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽棒掠。三九已至,卻和暖如春屁商,著一層夾襖步出監(jiān)牢的瞬間烟很,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工蜡镶, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留雾袱,地道東北人。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓官还,卻偏偏與公主長得像芹橡,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子望伦,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容