《數(shù)據(jù)中臺(tái):讓數(shù)據(jù)用起來(lái) 》讀書(shū)筆記

數(shù)據(jù)中臺(tái)核心認(rèn)知

  • 數(shù)據(jù)中臺(tái)需要提升到企業(yè)下一代基礎(chǔ)設(shè)施的高度,進(jìn)行規(guī)模化投入
  • 數(shù)據(jù)中臺(tái)需要全新的數(shù)據(jù)價(jià)值觀和方法論,并在其指引下形成平臺(tái)級(jí)
    能力
  • 數(shù)據(jù)中臺(tái)圍繞業(yè)務(wù)朽砰、數(shù)據(jù)、分析會(huì)衍生出全新人才素養(yǎng)要求,需要盡
    快啟動(dòng)人才儲(chǔ)備

數(shù)據(jù)中臺(tái)發(fā)展三個(gè)階段

  1. 數(shù)據(jù)中臺(tái)探索階段
    這個(gè)階段會(huì)將數(shù)據(jù)生命周期各個(gè)階段的技術(shù)與現(xiàn)有業(yè)務(wù)場(chǎng)景或創(chuàng)新業(yè)務(wù)
    場(chǎng)景結(jié)合,迅速形成可見(jiàn)晤锥、可展示的業(yè)務(wù)成果礁阁。特點(diǎn)是項(xiàng)目短小精悍,
    容易見(jiàn)效果,缺點(diǎn)是由于缺乏數(shù)據(jù)中臺(tái)整體規(guī)劃及讓數(shù)據(jù)用起來(lái)的完整
    流程設(shè)計(jì),無(wú)法對(duì)眾多單個(gè)數(shù)據(jù)應(yīng)用沉淀的數(shù)據(jù)形成通用數(shù)據(jù)資產(chǎn),每
    個(gè)項(xiàng)目都需要從頭到尾走一遍,當(dāng)應(yīng)用需求爆發(fā)式增長(zhǎng)時(shí),底層數(shù)據(jù)支
    撐的效率會(huì)大幅度下降,甚至影響最終的業(yè)務(wù)效果。
  2. 數(shù)據(jù)中臺(tái)整合數(shù)據(jù)應(yīng)用提升效率
    這一階段的特點(diǎn)是構(gòu)建數(shù)據(jù)中臺(tái)的技術(shù)含衔、理念煎娇、方法論是可復(fù)制的,市
    場(chǎng)上已有成熟的支撐數(shù)據(jù)中臺(tái)高效運(yùn)轉(zhuǎn)的平臺(tái)級(jí)產(chǎn)品。企業(yè)通過(guò)規(guī)劃贪染、
    建設(shè)缓呛、實(shí)施數(shù)據(jù)中臺(tái)能夠具備三方面的基礎(chǔ)能力:
    數(shù)據(jù)的多樣性、多態(tài)性抑进、多云連接能力(匯聚/交換能力)强经。交換的能
    力用來(lái)解決企業(yè)有哪些數(shù)據(jù)、數(shù)據(jù)在哪里等問(wèn)題寺渗。
    數(shù)據(jù)資產(chǎn)化的能力是數(shù)據(jù)中臺(tái)建設(shè)的關(guān)鍵,包括清洗匿情、加工、治理信殊、
    安全炬称、質(zhì)量等工具模塊及實(shí)施方法論。(說(shuō)明:能直接作用于業(yè)務(wù)領(lǐng)
    域,業(yè)務(wù)能閱讀涡拘、能理解的數(shù)據(jù)才叫數(shù)據(jù)資產(chǎn)玲躯。)
    數(shù)據(jù)服務(wù)化的能力,用數(shù)據(jù)技術(shù)來(lái)使用數(shù)據(jù)的方法。
  3. 數(shù)據(jù)中臺(tái)重構(gòu)數(shù)據(jù)空間和業(yè)務(wù)空間
    到了這一階段,數(shù)據(jù)中臺(tái)已經(jīng)成為企業(yè)數(shù)據(jù)資產(chǎn)的核心能力和基礎(chǔ),通
    過(guò)快速構(gòu)建數(shù)據(jù)資產(chǎn)體系,幫助企業(yè)真正實(shí)現(xiàn)對(duì)其全量數(shù)據(jù)的有效管
    理鳄乏。業(yè)務(wù)和業(yè)務(wù)流程本身都可以通過(guò)適當(dāng)?shù)念w粒度進(jìn)行數(shù)字化解耦和標(biāo)
    準(zhǔn)化,企業(yè)能夠以自我為中心構(gòu)建更加宏大的產(chǎn)業(yè)跷车、行業(yè)價(jià)值鏈范圍的
    數(shù)據(jù)空間和業(yè)務(wù)空間,以數(shù)據(jù)編排的方式響應(yīng)業(yè)務(wù)需求,徹底顛覆傳統(tǒng)
    的軟件工程方式,業(yè)務(wù)實(shí)現(xiàn)自流程化,數(shù)據(jù)實(shí)現(xiàn)自我管理能力。

數(shù)據(jù)中臺(tái)建設(shè)模式

image.png

數(shù)據(jù)中臺(tái)定位

image.png

數(shù)據(jù)中臺(tái)定義

數(shù)據(jù)中臺(tái)是一套可持續(xù)“讓企業(yè)的數(shù)據(jù)用起來(lái)”的機(jī)制,是一種戰(zhàn)略選擇和組織形式,是依據(jù)企業(yè)特有的業(yè)務(wù)模式和組織架構(gòu),通過(guò)有形的產(chǎn)品和實(shí)施方法論支撐,構(gòu)建的一套持續(xù)不斷把數(shù)據(jù)變成資產(chǎn)并服務(wù)于業(yè)務(wù)的機(jī)制橱野。數(shù)據(jù)來(lái)自于業(yè)務(wù),并反哺業(yè)務(wù),不斷循環(huán)迭代,實(shí)現(xiàn)數(shù)據(jù)可見(jiàn)朽缴、可用、可運(yùn)營(yíng)水援。


image.png

image.png

數(shù)據(jù)中臺(tái)的實(shí)施不僅需要一整套技術(shù)產(chǎn)品,更需要針對(duì)不同業(yè)務(wù)密强、數(shù)據(jù)茅郎、應(yīng)用場(chǎng)景的體系化的實(shí)施方法和經(jīng)驗(yàn),過(guò)程中涉及企業(yè)戰(zhàn)略、組織或渤、技術(shù)系冗、人才等全面的保障和配合。

數(shù)據(jù)中臺(tái)必備的四個(gè)核心能力

  1. 匯聚整合
    數(shù)據(jù)中臺(tái)需要對(duì)數(shù)據(jù)進(jìn)行整合和完善,提供適用薪鹦、適配掌敬、成熟、完善的一站式大數(shù)據(jù)平臺(tái)工具,在簡(jiǎn)便有效的基礎(chǔ)上,實(shí)現(xiàn)數(shù)據(jù)采集距芬、交換等任務(wù)配置以及監(jiān)控管理涝开。
    數(shù)據(jù)中臺(tái)必須具備數(shù)據(jù)集成與運(yùn)營(yíng)方面的能力,能夠接入、轉(zhuǎn)換框仔、寫(xiě)入或緩存企業(yè)內(nèi)外部多種來(lái)源的數(shù)據(jù),協(xié)助不同部門(mén)和團(tuán)隊(duì)的數(shù)據(jù)使用者更好地定位數(shù)據(jù)舀武、理解數(shù)據(jù)。同時(shí)數(shù)據(jù)安全离斩、靈活可用也是絕大多數(shù)企業(yè)看重的,他們期望數(shù)據(jù)中臺(tái)能協(xié)助企業(yè)提升數(shù)據(jù)可用性和易用性,且在系統(tǒng)部署上能支持多種模式银舱。


    image.png
  2. 提純加工
    數(shù)據(jù)中臺(tái)必須連通全域數(shù)據(jù),通過(guò)統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和質(zhì)量體系跛梗,建設(shè)提純加工后的標(biāo)準(zhǔn)數(shù)據(jù)資產(chǎn)體系寻馏,以滿足企業(yè)業(yè)務(wù)對(duì)數(shù)據(jù)的需求


    image.png
  3. 服務(wù)可視化
    為了盡快讓數(shù)據(jù)用起來(lái),數(shù)據(jù)中臺(tái)必須提供便捷核偿、快速的數(shù)據(jù)服務(wù)能力诚欠,讓相關(guān)人員能夠迅速開(kāi)發(fā)數(shù)據(jù)應(yīng)用,支持?jǐn)?shù)據(jù)資產(chǎn)場(chǎng)景化能力的快速輸出漾岳,以響應(yīng)客戶的動(dòng)態(tài)需求轰绵。
    多數(shù)企業(yè)還期待數(shù)據(jù)中臺(tái)可以提供數(shù)據(jù)化運(yùn)營(yíng)平臺(tái),幫助企業(yè)快速實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的可視化分析尼荆,提供包括實(shí)時(shí)流數(shù)據(jù)分析左腔、預(yù)測(cè)分析、機(jī)器學(xué)習(xí)等更為高級(jí)的服務(wù)捅儒,為企業(yè)數(shù)據(jù)化運(yùn)營(yíng)賦能液样。
    AI的能力也被多數(shù)企業(yè)期待能應(yīng)用到數(shù)據(jù)中臺(tái)上,實(shí)現(xiàn)自然語(yǔ)言處理等方面的服務(wù)巧还。數(shù)據(jù)洞察來(lái)源于分析鞭莽,數(shù)據(jù)中臺(tái)必須提供豐富的分析功能,數(shù)據(jù)資產(chǎn)必須服務(wù)于業(yè)務(wù)分析才能解決企業(yè)在數(shù)據(jù)洞察方面的短板麸祷,實(shí)現(xiàn)與業(yè)務(wù)的緊密結(jié)合澎怒。

  4. 價(jià)值變現(xiàn)
    數(shù)據(jù)中臺(tái)通過(guò)打通企業(yè)數(shù)據(jù),提供以前單個(gè)部門(mén)或者單個(gè)業(yè)務(wù)單元無(wú)法提供的數(shù)據(jù)服務(wù)能力摇锋,以實(shí)現(xiàn)數(shù)據(jù)的更大價(jià)值變現(xiàn)丹拯。


    image.png

    image.png

    image.png

數(shù)據(jù)中臺(tái)和業(yè)務(wù)中臺(tái)區(qū)別

業(yè)務(wù)中臺(tái)更多偏向于業(yè)務(wù)流程管控,將業(yè)務(wù)流程中共性的服務(wù)抽象出來(lái)荸恕,形成通用的服務(wù)能力乖酬。
業(yè)務(wù)中臺(tái)是抽象業(yè)務(wù)流程的共性形成通用業(yè)務(wù)服務(wù)能力,而數(shù)據(jù)中臺(tái)則
是抽象數(shù)據(jù)能力的共性形成通用數(shù)據(jù)服務(wù)能力融求。

image.png

數(shù)據(jù)倉(cāng)庫(kù) VS 數(shù)據(jù)中臺(tái)
數(shù)據(jù)倉(cāng)庫(kù)的主要場(chǎng)景是支持管理決策和業(yè)務(wù)分析咬像,而數(shù)據(jù)中臺(tái)則是將數(shù)
據(jù)服務(wù)化之后提供給業(yè)務(wù)系統(tǒng),目標(biāo)是將數(shù)據(jù)能力滲透到各個(gè)業(yè)務(wù)環(huán)
節(jié)生宛,不限于決策分析類場(chǎng)景
數(shù)據(jù)中臺(tái)建設(shè)包含數(shù)據(jù)體系建設(shè)县昂,也就是數(shù)據(jù)中臺(tái)包含數(shù)據(jù)倉(cāng)庫(kù)的完整
內(nèi)容,數(shù)據(jù)中臺(tái)將企業(yè)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的投入價(jià)值進(jìn)行最大化陷舅,以加快數(shù)
據(jù)賦能業(yè)務(wù)的速度倒彰,為業(yè)務(wù)提供速度更快、更多樣的數(shù)據(jù)服務(wù)莱睁。數(shù)據(jù)中
臺(tái)也可以將已建好的數(shù)據(jù)倉(cāng)庫(kù)當(dāng)成數(shù)據(jù)源待讳,對(duì)接已有數(shù)據(jù)建設(shè)成果,避
免重復(fù)建設(shè)仰剿。當(dāng)然也可以基于數(shù)據(jù)中臺(tái)提供的能力创淡,通過(guò)匯聚、加工南吮、
治理各類數(shù)據(jù)源琳彩,構(gòu)建全新的離線或?qū)崟r(shí)數(shù)據(jù)倉(cāng)庫(kù)。


image.png

中臺(tái)組織架構(gòu)

image.png

image.png

數(shù)據(jù)中臺(tái)建設(shè)內(nèi)容

1.技術(shù)體系
技術(shù)體系分兩個(gè)層面:大數(shù)據(jù)存儲(chǔ)計(jì)算技術(shù)和數(shù)據(jù)中臺(tái)工具技術(shù)組件部凑,
技術(shù)體系主要關(guān)注點(diǎn)是工具技術(shù)組件露乏。大數(shù)據(jù)存儲(chǔ)計(jì)算技術(shù),比如
Hadoop砚尽、Spark施无、Flink、Greenplum必孤、Elasticsearch猾骡、Redis、Phoenix等敷搪,
相對(duì)標(biāo)準(zhǔn)兴想,企業(yè)只需要進(jìn)行合理選型即可,并不需要自己建設(shè)赡勘,而且技
術(shù)難度很大嫂便,企業(yè)也不太可能自己建設(shè)。數(shù)據(jù)中臺(tái)工具技術(shù)組件包括數(shù)
據(jù)匯聚闸与、數(shù)據(jù)開(kāi)發(fā)毙替、數(shù)據(jù)資產(chǎn)管理岸售、數(shù)據(jù)服務(wù)管控等。數(shù)據(jù)中臺(tái)是企業(yè)
制定和實(shí)施數(shù)據(jù)匯聚厂画、建模和加工規(guī)范的場(chǎng)所凸丸,也是企業(yè)數(shù)據(jù)體系存儲(chǔ)
管理的工具平臺(tái)。通過(guò)工具化袱院、產(chǎn)品化屎慢、可視化降低技術(shù)門(mén)檻,讓數(shù)據(jù)
能夠被更方便地加工使用忽洛。
2.數(shù)據(jù)體系
數(shù)據(jù)體系是數(shù)據(jù)中臺(tái)建設(shè)腻惠、管理、使用的核心要素欲虚, 全企業(yè)的數(shù)據(jù)通
過(guò)各種方式匯聚到數(shù)據(jù)中臺(tái)集灌,在數(shù)據(jù)中臺(tái)按照一定的建模方式進(jìn)行加
工,形成企業(yè)的數(shù)據(jù)資產(chǎn)體系复哆。數(shù)據(jù)中臺(tái)始終圍繞著數(shù)據(jù)體系的建設(shè)和
使用绝页,讓數(shù)據(jù)體系盡可能完整、準(zhǔn)確寂恬、使用廣泛续誉。不同企業(yè)的業(yè)務(wù)不
同、數(shù)據(jù)不同初肉,數(shù)據(jù)體系的內(nèi)容不同酷鸦,但是建設(shè)的方法和對(duì)工具的要求
是相似的,需要在中臺(tái)工具和建設(shè)方法的基礎(chǔ)上針對(duì)不同的企業(yè)建設(shè)不
同的數(shù)據(jù)體系牙咏。

  1. 服務(wù)體系
    數(shù)據(jù)中臺(tái)與大數(shù)據(jù)平臺(tái)的最主要區(qū)別是數(shù)據(jù)能更方便地以服務(wù)化的方式
    支撐業(yè)務(wù)臼隔,而這是通過(guò)數(shù)據(jù)中臺(tái)服務(wù)體系實(shí)現(xiàn)的。服務(wù)體系是通過(guò)數(shù)據(jù)
    中臺(tái)的服務(wù)組件能力妄壶, 把數(shù)據(jù)變?yōu)橐环N服務(wù)能力摔握,比如客戶微觀畫(huà)像
    服務(wù)、信用評(píng)估服務(wù)丁寄、風(fēng)險(xiǎn)預(yù)警服務(wù)等氨淌,讓數(shù)據(jù)能夠方便地參與到業(yè)務(wù)
    中并為業(yè)務(wù)帶去價(jià)值。筆者經(jīng)常聽(tīng)到的數(shù)字化轉(zhuǎn)型伊磺、數(shù)據(jù)化經(jīng)營(yíng)盛正,就是
    讓業(yè)務(wù)決策通過(guò)數(shù)據(jù)而不是僅憑經(jīng)驗(yàn),需要的正是數(shù)據(jù)服務(wù)能力屑埋。每家
    企業(yè)的業(yè)務(wù)不同豪筝,對(duì)數(shù)據(jù)服務(wù)的訴求也不同,數(shù)據(jù)中臺(tái)無(wú)法產(chǎn)品化地提
    供企業(yè)所需的所有數(shù)據(jù)服務(wù)能力。數(shù)據(jù)中臺(tái)通過(guò)提供數(shù)據(jù)服務(wù)生成续崖、發(fā)
    布敲街、監(jiān)控、管理功能严望,幫助企業(yè)逐個(gè)建立屬于自己的每一個(gè)數(shù)據(jù)服務(wù)聪富,
    逐步完成企業(yè)數(shù)據(jù)服務(wù)體系的構(gòu)建。
    4.運(yùn)營(yíng)體系
    運(yùn)營(yíng)體系是數(shù)據(jù)中臺(tái)得以健康著蟹、持續(xù)運(yùn)轉(zhuǎn)的基礎(chǔ)。 運(yùn)營(yíng)體系包括平臺(tái)
    流程規(guī)范執(zhí)行監(jiān)督梢莽、平臺(tái)資源占用的監(jiān)管及優(yōu)化推動(dòng)萧豆、數(shù)據(jù)質(zhì)量的監(jiān)督
    及改進(jìn)推動(dòng)、數(shù)據(jù)價(jià)值的評(píng)估昏名、數(shù)據(jù)服務(wù)的推廣涮雷、稽查排名等。其目標(biāo)
    是讓平臺(tái)可以持續(xù)健康運(yùn)轉(zhuǎn)轻局,產(chǎn)生持續(xù)價(jià)值洪鸭。數(shù)據(jù)中臺(tái)是個(gè)復(fù)雜工程,
    數(shù)據(jù)的匯聚仑扑、開(kāi)發(fā)览爵、管理、服務(wù)都是要持續(xù)進(jìn)行的工作镇饮,如果沒(méi)有運(yùn)營(yíng)
    體系的保障蜓竹,可能會(huì)導(dǎo)致后期的參與者無(wú)從下手,隨著時(shí)間的推移储藐,數(shù)
    據(jù)的質(zhì)量俱济、服務(wù)的效率也會(huì)持續(xù)下降,進(jìn)而導(dǎo)致中臺(tái)無(wú)法使用钙勃。數(shù)據(jù)中
    臺(tái)是一個(gè)持續(xù)的過(guò)程蛛碌,一旦啟動(dòng),就不能暫停辖源,更不能停止蔚携,而保障數(shù)
    據(jù)中臺(tái)持續(xù)高效運(yùn)轉(zhuǎn)的就是這套運(yùn)營(yíng)體系。


    關(guān)鍵步驟

    數(shù)據(jù)中臺(tái)總體架構(gòu)

    數(shù)據(jù)中臺(tái)建設(shè)的四個(gè)階段

不同行業(yè)的數(shù)據(jù)中臺(tái)需求特征

金融行業(yè)需求特征

image.png

image.png

image.png

數(shù)據(jù)埋點(diǎn)

用戶行為采集

  1. 客戶端埋點(diǎn)
    常見(jiàn)的客戶端埋點(diǎn)方式有三種:全埋點(diǎn)克饶、可視化埋點(diǎn)和代碼埋點(diǎn)浮梢。這三
    種方式的應(yīng)用場(chǎng)景企業(yè)可根據(jù)自身需求進(jìn)行選擇。
    全埋點(diǎn):將終端設(shè)備上用戶的所有操作和內(nèi)容都記錄并保存下來(lái)彤路,只
    需要對(duì)內(nèi)嵌SDK做一些初始配置就可以實(shí)現(xiàn)收集全部行為的目的秕硝。這也
    經(jīng)常被稱為無(wú)痕埋點(diǎn)、無(wú)埋點(diǎn)等。
    可視化埋點(diǎn):將終端設(shè)備上用戶的一部分操作远豺,通過(guò)服務(wù)端配置的方
    式有選擇性地記錄并保存奈偏。
    代碼埋點(diǎn):根據(jù)需求來(lái)定制每次的收集內(nèi)容,需要對(duì)相應(yīng)的終端模塊
    進(jìn)行升級(jí)躯护。
    全埋點(diǎn)適合于終端設(shè)計(jì)標(biāo)準(zhǔn)化且有統(tǒng)一系統(tǒng)接口的情形惊来,用戶在終端上
    的操作,通過(guò)系統(tǒng)提供的事件捕獲機(jī)制棺滞,在對(duì)象事件發(fā)生時(shí)調(diào)用埋點(diǎn)工
    具中的指定處理邏輯裁蚁,對(duì)該事件相關(guān)的信息進(jìn)行記錄。這種方法的優(yōu)點(diǎn)
    是不用頻繁升級(jí)继准,一次性驗(yàn)證并發(fā)布后枉证,就可以獲取終端的全量行為數(shù)
    據(jù)。當(dāng)突然發(fā)現(xiàn)需要對(duì)某個(gè)對(duì)象做分析時(shí)移必,可以直接從歷史數(shù)據(jù)中找到
    所需的數(shù)據(jù)室谚,不需要再次進(jìn)行數(shù)據(jù)收集。缺點(diǎn)是數(shù)據(jù)存儲(chǔ)崔泵、傳輸?shù)某杀?br> 會(huì)高一些秒赤,有些當(dāng)前不用的數(shù)據(jù)也需要保留。
    可視化埋點(diǎn)適合于需要考慮存儲(chǔ)和帶寬成本的情形憎瘸,可通過(guò)后端配置來(lái)
    降低對(duì)象事件行為采集數(shù)量入篮,實(shí)現(xiàn)機(jī)制和全埋點(diǎn)類似。其優(yōu)點(diǎn)是發(fā)布后
    不需要頻繁升級(jí)幌甘,成本比全埋點(diǎn)低崎弃,并且能夠靈活配置;缺點(diǎn)是當(dāng)需要
    對(duì)某一個(gè)對(duì)象進(jìn)行分析含潘,但發(fā)現(xiàn)其數(shù)據(jù)沒(méi)有被采集時(shí)饲做,需要重新配置并
    等數(shù)據(jù)采集完成再進(jìn)行后續(xù)工作,容易影響業(yè)務(wù)進(jìn)度遏弱。
    代碼埋點(diǎn)主要適合于終端設(shè)計(jì)非標(biāo)準(zhǔn)化盆均、事件行為需要通過(guò)代碼來(lái)控制
    的情形。其優(yōu)點(diǎn)是靈活性強(qiáng)漱逸,針對(duì)復(fù)雜場(chǎng)景可以單獨(dú)設(shè)計(jì)方案泪姨,對(duì)存
    儲(chǔ)、帶寬等可以做較多的優(yōu)化饰抒;缺點(diǎn)是成本高肮砾,維護(hù)難度大,升級(jí)周期
    較長(zhǎng)袋坑。

數(shù)據(jù)匯集工具

  1. canal
    Canal Server模擬MySQL Slave的交互協(xié)議仗处,偽裝自己為MySQL的Slave
    向Master發(fā)送dump協(xié)議,Master收到請(qǐng)求后開(kāi)始推送binary log,Canal
    解析byte流產(chǎn)出解析后的增量數(shù)據(jù)婆誓。主要優(yōu)點(diǎn)是流程架構(gòu)非常清晰吃环,部
    署和配置等相對(duì)簡(jiǎn)單,同時(shí)可以額外做一些配置管理洋幻、開(kāi)發(fā)改造的工
    作郁轻。Canal的主要缺點(diǎn)是Server中的Instance和Client之間是一對(duì)一的消
    費(fèi),不太適用于多消費(fèi)和數(shù)據(jù)分發(fā)的場(chǎng)景
  2. Sqoop
    Sqoop是目前市面上相對(duì)通用的一種解決方案文留,是在結(jié)構(gòu)化數(shù)據(jù)和HDFS之間進(jìn)行批量數(shù)據(jù)遷移的工具好唯。整體框架以Hadoop為核心,底層使用MapReduce程序?qū)崿F(xiàn)燥翅,MapReduce天生的特性保證了并行化和高容錯(cuò)率骑篙,任務(wù)運(yùn)行在Hadoop集群上,減少了服務(wù)器資源的使用情況权旷。其主要優(yōu)勢(shì)是,在特定場(chǎng)景下贯溅,數(shù)據(jù)交換過(guò)程會(huì)有很大的性能提升拄氯。主要缺點(diǎn)是,處理過(guò)程定制程度較高它浅,目前主要通過(guò)在命令行中配置參數(shù)來(lái)調(diào)整數(shù)據(jù)同步操作行為译柏,在用戶的一些自定義邏輯和數(shù)據(jù)同步鏈路監(jiān)控方面比較薄弱。除此之外姐霍,任務(wù)運(yùn)行完全依賴于MapReduce鄙麦,功能擴(kuò)展性方面受到比較明顯的約束和限制。
    3 Datax
    DataX是阿里巴巴開(kāi)源的一套插件式離線數(shù)據(jù)交換工具镊折,以實(shí)現(xiàn)各種異構(gòu)數(shù)據(jù)源之間的高效數(shù)據(jù)交換為目標(biāo)而設(shè)計(jì)胯府,提供數(shù)據(jù)交換作業(yè)全鏈路的流量監(jiān)控,將作業(yè)本身的狀態(tài)恨胚、數(shù)據(jù)流量骂因、數(shù)據(jù)速度、執(zhí)行進(jìn)度等信息進(jìn)行展示赃泡,提供臟數(shù)據(jù)探測(cè)功能寒波,支持傳輸過(guò)程中對(duì)傳輸報(bào)錯(cuò)(如類型轉(zhuǎn)換錯(cuò)誤)進(jìn)行策略化處理。由于它是基于進(jìn)程內(nèi)讀寫(xiě)直連的方式升熊,高并發(fā)數(shù)據(jù)交換場(chǎng)景下對(duì)機(jī)器內(nèi)存要求比較高俄烁。除此之外,DataX不支持非結(jié)構(gòu)化數(shù)據(jù)的同步级野,目前支持結(jié)構(gòu)化數(shù)據(jù)源页屠、半結(jié)構(gòu)化數(shù)據(jù)源、非結(jié)構(gòu)化數(shù)據(jù)源,但是非結(jié)構(gòu)化數(shù)據(jù)源中需要存儲(chǔ)的是一張邏輯意義上的二維表卷中,例如CSV格式的文本信息矛双,本質(zhì)上還是結(jié)構(gòu)化數(shù)據(jù)。

數(shù)據(jù)交換產(chǎn)品

企業(yè)信息化建設(shè)的多種數(shù)據(jù)源類型蟆豫,可以通過(guò)同步模塊的數(shù)據(jù)源進(jìn)行統(tǒng)一管理议忽,方便用戶快速通過(guò)可視化頁(yè)面執(zhí)行數(shù)據(jù)匯聚工作。
在構(gòu)建數(shù)據(jù)交換中心的實(shí)踐過(guò)程中十减,基于異構(gòu)數(shù)據(jù)源栈幸、異構(gòu)廠商集群、數(shù)據(jù)應(yīng)用時(shí)效性和相關(guān)技術(shù)棧等因素考慮帮辟,采取了不同的同步策略:離線數(shù)據(jù)同步和實(shí)時(shí)數(shù)據(jù)同步速址。同時(shí),在兩種同步服務(wù)的產(chǎn)品形態(tài)上由驹,可以采用相同的可視化同步配置策略芍锚,以降低用戶操作成本

數(shù)據(jù)交換產(chǎn)品

  1. 數(shù)據(jù)源管理
    數(shù)據(jù)源分類:
    關(guān)系型數(shù)據(jù)庫(kù):如Oracle、MySQL蔓榄、SQL Server并炮、Greenplum等。
    NoSQL存儲(chǔ):如HBase甥郑、Redis逃魄、Elasticsearch、Cassandra澜搅、MongoDB伍俘、
    Neo4J等。
    網(wǎng)絡(luò)及MQ:如Kafka勉躺、HTTP等癌瘾。
    文件系統(tǒng):如HDFS弛随、FTP翎猛、OSS怠褐、CSV眉孩、TXT笙隙、Excel等唤锉。
    大數(shù)據(jù)相關(guān):如Hive竖哩、Impala赂毯、Kudu糖赔、MaxCompute萍丐、ADB、LibrA放典、
    ELK等逝变。
  2. 離線數(shù)據(jù)交換
    離線數(shù)據(jù)交換是針對(duì)數(shù)據(jù)時(shí)效要求低基茵、吞吐量大的場(chǎng)景,解決大規(guī)模數(shù)
    據(jù)的批量遷移問(wèn)題壳影,其實(shí)現(xiàn)原理是將不同數(shù)據(jù)源的交換抽象為從源頭數(shù)
    據(jù)源讀取數(shù)據(jù)的讀取插件拱层,以及向目標(biāo)端寫(xiě)入數(shù)據(jù)的寫(xiě)入插件,理論上
    可以支持任意類型數(shù)據(jù)源的數(shù)據(jù)交換工作宴咧。采用插件化方式構(gòu)建根灯,將數(shù)
    據(jù)源讀取和寫(xiě)入抽象成讀取插件、寫(xiě)入插件掺栅。
    非結(jié)構(gòu)化的數(shù)據(jù)也可以通過(guò)擴(kuò)展插件方式進(jìn)行交換烙肺,其場(chǎng)景主要是以文
    件或數(shù)據(jù)塊的方式進(jìn)行交換,因此只需要適配源或目的存儲(chǔ)的相應(yīng)插件
    及數(shù)據(jù)處理的機(jī)制氧卧,如文件傳輸桃笙,數(shù)據(jù)塊保存為特定格式的文件,即可
    以滿足相應(yīng)的需求沙绝。
    ·讀取插件:數(shù)據(jù)采集模塊搏明,負(fù)責(zé)采集數(shù)據(jù)源的數(shù)據(jù),將數(shù)據(jù)發(fā)送給數(shù)
    據(jù)交換核心模塊闪檬。
    ·寫(xiě)入插件:數(shù)據(jù)寫(xiě)入模塊星著,不斷從數(shù)據(jù)交換核心模塊取數(shù)據(jù),并將數(shù)
    據(jù)寫(xiě)入到目的端
    數(shù)據(jù)交換核心模塊:用于連接讀取插件和寫(xiě)入插件谬以,作為兩者的數(shù)據(jù)
    傳輸通道强饮,并處理緩沖由桌、流控为黎、并發(fā)、數(shù)據(jù)轉(zhuǎn)換等核心技術(shù)問(wèn)題行您。
    離線數(shù)據(jù)同步技術(shù)具有以下亮點(diǎn):
    (1)前置稽核
    在源端數(shù)據(jù)同步開(kāi)始前铭乾,可以進(jìn)行數(shù)據(jù)質(zhì)量規(guī)則校驗(yàn),根據(jù)配置規(guī)則的
    阻塞娃循、告警等策略控制數(shù)據(jù)同步是否運(yùn)行炕檩。
    (2)數(shù)據(jù)轉(zhuǎn)換
    數(shù)據(jù)轉(zhuǎn)換是指將各類非標(biāo)準(zhǔn)數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)數(shù)據(jù)格式,并且將轉(zhuǎn)換后的
    數(shù)據(jù)推送到大數(shù)據(jù)平臺(tái)指定的位置或庫(kù)表捌斧。在數(shù)據(jù)同步笛质、傳輸過(guò)程中,
    存在用戶對(duì)于數(shù)據(jù)傳輸進(jìn)行定制化的場(chǎng)景捞蚂,包括字段截取妇押、替換、編碼
    轉(zhuǎn)換等操作姓迅,可以借助ETL的T過(guò)程(Transform)實(shí)現(xiàn)敲霍。
    在配置數(shù)據(jù)同步作業(yè)的字段映射關(guān)系時(shí)俊马,可以對(duì)每個(gè)字段定義轉(zhuǎn)換
    (Transform)函數(shù),例如字符串截取dx_substr肩杈、字符串替換
    dx_replace柴我、字符串過(guò)濾dx_filter,還支持用戶用Groovy自定義轉(zhuǎn)換邏
    輯扩然。
    (3)跨集群數(shù)據(jù)同步
    由于采用插件化的設(shè)計(jì)思路艘儒,數(shù)據(jù)同步模塊可支持不同集群間的數(shù)據(jù)同
    步。例如与学,從A集群上把數(shù)據(jù)同步到B集群上彤悔,只需要開(kāi)發(fā)A集群的
    Reader和B集群的Writer,便可以新建數(shù)據(jù)同步作業(yè)對(duì)數(shù)據(jù)進(jìn)行跨集群遷
    移索守。
    (4)全量同步
    全量數(shù)據(jù)同步分為表全量同步和庫(kù)全量同步(整庫(kù)同步)兩種方式晕窑。表全量同步每次讀取表中全量數(shù)據(jù)并寫(xiě)入;庫(kù)全量同步策略是把庫(kù)中所有表進(jìn)行數(shù)據(jù)同步卵佛,要求源端和目的端的表名稱杨赤、結(jié)構(gòu)相同,允許目標(biāo)表不存在截汪,不存在時(shí)自動(dòng)創(chuàng)建目標(biāo)表疾牲。
    (5)增量同步
    增量同步分為新增、覆蓋和更新三種策略衙解。新增策略主要通過(guò)在目的端創(chuàng)建新分區(qū)或者直接追加寫(xiě)數(shù)據(jù)實(shí)現(xiàn)阳柔。覆蓋和更新策略在同步配置時(shí)選擇唯一鍵,根據(jù)唯一鍵對(duì)比同步中的數(shù)據(jù)和目的端數(shù)據(jù)蚓峦,結(jié)合增量策略來(lái)判斷數(shù)據(jù)是覆蓋還是更新舌剂。
    3.實(shí)時(shí)數(shù)據(jù)交換
    實(shí)時(shí)數(shù)據(jù)交換主要負(fù)責(zé)把數(shù)據(jù)庫(kù)、日志暑椰、爬蟲(chóng)等數(shù)據(jù)實(shí)時(shí)接入Kafka霍转、Hive、Oracle等存儲(chǔ)中一汽,便于后續(xù)進(jìn)行實(shí)時(shí)計(jì)算或供業(yè)務(wù)查詢分析使用避消,整體技術(shù)架構(gòu)如圖5-2所示。
    實(shí)時(shí)同步有兩個(gè)核心服務(wù):數(shù)據(jù)訂閱服務(wù)(Client Server)召夹、數(shù)據(jù)消費(fèi)服務(wù)(Consumer Server)岩喷。
    數(shù)據(jù)訂閱服務(wù)主要包含數(shù)據(jù)的訂閱和讀取、任務(wù)實(shí)例的啟图嘣鳎控制等功能纱意,Client Server采用插件式設(shè)計(jì)思路,可以支持?jǐn)U展不同類型的數(shù)據(jù)訂閱讀取枫虏。數(shù)據(jù)消費(fèi)服務(wù)主要包含任務(wù)狀態(tài)控制妇穴、數(shù)據(jù)解析爬虱、數(shù)據(jù)過(guò)濾、數(shù)據(jù)轉(zhuǎn)換腾它、數(shù)據(jù)寫(xiě)入等功能跑筝,通過(guò)TCP通信方式和數(shù)據(jù)訂閱方式進(jìn)行數(shù)據(jù)讀取和傳輸,經(jīng)過(guò)任務(wù)配置的過(guò)濾瞒滴、轉(zhuǎn)換等功能寫(xiě)入到目的端數(shù)據(jù)源中曲梗。數(shù)據(jù)消費(fèi)服務(wù)也采用插件式設(shè)計(jì)思路,可以支持目的端擴(kuò)展不同類型的數(shù)據(jù)源寫(xiě)入妓忍。
    5.3 數(shù)據(jù)存儲(chǔ)的選擇
    將各類數(shù)據(jù)匯聚后虏两,首先面臨的是存儲(chǔ)壓力,不同類型的數(shù)據(jù)內(nèi)容世剖、不同的數(shù)據(jù)匯聚方式及未來(lái)可能的使用場(chǎng)景定罢,對(duì)存儲(chǔ)的選擇也會(huì)有較多的考慮。常見(jiàn)的問(wèn)題有:存儲(chǔ)是選擇關(guān)系型數(shù)據(jù)庫(kù)還是大數(shù)據(jù)相關(guān)的技術(shù)(Hadoop等)旁瘫?
    現(xiàn)有的存儲(chǔ)與新存儲(chǔ)之間的關(guān)系是什么祖凫?
    拋開(kāi)技術(shù)指標(biāo)的維度對(duì)比,選擇存儲(chǔ)時(shí)還需要考慮以下幾個(gè)方面:


    數(shù)據(jù)交換架構(gòu)

    (1)數(shù)據(jù)規(guī)模
    當(dāng)前的數(shù)據(jù)規(guī)模以及未來(lái)的數(shù)據(jù)規(guī)模酬凳,這取決于對(duì)中臺(tái)的定位及未來(lái)的
    發(fā)展預(yù)期惠况,DT時(shí)代企業(yè)的數(shù)據(jù)生產(chǎn)方式越來(lái)越豐富,數(shù)據(jù)量越來(lái)越
    大宁仔,選擇成本可控且容易擴(kuò)展的存儲(chǔ)是當(dāng)前比較常見(jiàn)的選擇稠屠。
    (2)數(shù)據(jù)生產(chǎn)方式
    有些數(shù)據(jù)生產(chǎn)端沒(méi)有存儲(chǔ),因此會(huì)通過(guò)實(shí)時(shí)推送的方式將生產(chǎn)數(shù)據(jù)按特
    定協(xié)議和方式進(jìn)行推送翎苫,這類場(chǎng)景要求數(shù)據(jù)采集時(shí)的存儲(chǔ)能夠滿足數(shù)據(jù)
    實(shí)時(shí)落地的需求权埠。有些目標(biāo)存儲(chǔ)不具備這種高性能落地的能力,因此需
    要考慮在數(shù)據(jù)生產(chǎn)端和目標(biāo)存儲(chǔ)端中間加一個(gè)寫(xiě)性能較好的存儲(chǔ)拉队。
    (3)數(shù)據(jù)應(yīng)用方式
    數(shù)據(jù)使用場(chǎng)景決定了數(shù)據(jù)存儲(chǔ)的選型弊知,如離線的數(shù)據(jù)分析適合非人機(jī)交
    互的場(chǎng)景阻逮,搜索則需要能夠快速檢查并支持一些關(guān)鍵字和權(quán)重處理粱快。這
    些能力也需要有特定的存儲(chǔ)來(lái)支撐。
    針對(duì)這些復(fù)雜的場(chǎng)景叔扼,在大規(guī)模的數(shù)據(jù)處理下事哭,任何一個(gè)以前認(rèn)為可以
    忽視的小問(wèn)題都可以被無(wú)限放大,因此像以前一樣靠一種存儲(chǔ)能力解決
    所有問(wèn)題是不太可能的瓜富。在建設(shè)中臺(tái)時(shí)鳍咱,需要根據(jù)企業(yè)自身情況選擇合
    適的存儲(chǔ)組合來(lái)滿足企業(yè)的數(shù)據(jù)戰(zhàn)略和數(shù)據(jù)應(yīng)用需求。
    1.在線與離線
    在線存儲(chǔ)是指存儲(chǔ)設(shè)備和所存儲(chǔ)的數(shù)據(jù)時(shí)刻保持“在線”狀態(tài)与柑,可供用戶
    隨意讀取谤辜,滿足計(jì)算平臺(tái)對(duì)數(shù)據(jù)訪問(wèn)的速度要求蓄坏,就像PC機(jī)中常用的
    磁盤(pán)存儲(chǔ)模式一樣。在線存儲(chǔ)設(shè)備一般為磁盤(pán)丑念、磁盤(pán)陣列涡戳、云存儲(chǔ)等。
    離線存儲(chǔ)是為了對(duì)在線存儲(chǔ)的數(shù)據(jù)進(jìn)行備份脯倚,以防范可能發(fā)生的數(shù)據(jù)災(zāi)
    難渔彰。離線存儲(chǔ)的數(shù)據(jù)不會(huì)經(jīng)常被調(diào)用,一般也遠(yuǎn)離系統(tǒng)應(yīng)用推正,“離線”生
    動(dòng)地描述了這種存儲(chǔ)方式恍涂。離線存儲(chǔ)介質(zhì)上的數(shù)據(jù)在讀寫(xiě)時(shí)是順序進(jìn)行
    的。當(dāng)需要讀取數(shù)據(jù)時(shí)植榕,需要把磁帶卷到頭再沧,再進(jìn)行定位。當(dāng)需要對(duì)已
    寫(xiě)入的數(shù)據(jù)進(jìn)行修改時(shí)尊残,所有的數(shù)據(jù)都需要全部進(jìn)行改寫(xiě)产园。因此,離線
    存儲(chǔ)的訪問(wèn)速度慢夜郁、效率低什燕。離線存儲(chǔ)的典型產(chǎn)品是硬盤(pán)、磁帶和光盤(pán)
    等竞端。
    2.OLTP與OLAP
    OLTP和OLAP是相對(duì)傳統(tǒng)的術(shù)語(yǔ)屎即,但是在大數(shù)據(jù)時(shí)代,它們又有新的使
    命事富。需要強(qiáng)調(diào)的是技俐,OLTP和OLAP并不是競(jìng)爭(zhēng)或者互斥的關(guān)系,相反统台,
    它們相互協(xié)作雕擂,互利共贏,OLTP用于存儲(chǔ)和管理日常操作的數(shù)據(jù)贱勃,
    OLAP用于分析這些數(shù)據(jù)


    OLAP和OLTP關(guān)系

    OLTP(On-Line Transaction Processing井赌,聯(lián)機(jī)事務(wù)處理)是專注于面向
    事務(wù)的任務(wù)的一類數(shù)據(jù)處理,通常涉及在數(shù)據(jù)庫(kù)中插入贵扰、更新或刪除少
    量數(shù)據(jù)仇穗,主要處理大量用戶下的大量事務(wù)。一般都是高可用的在線系
    統(tǒng)戚绕,以小的事務(wù)以及小的查詢?yōu)橹魑谱u(píng)估其系統(tǒng)的時(shí)候,一般看其每秒
    執(zhí)行的事務(wù)及查詢的數(shù)量舞丛。在這樣的系統(tǒng)中耘子,單個(gè)數(shù)據(jù)庫(kù)每秒處理的事
    務(wù)往往超過(guò)幾百甚至幾千個(gè)果漾,Select語(yǔ)句的執(zhí)行量每秒幾千甚至幾萬(wàn)
    個(gè)。典型的OLTP系統(tǒng)有電子商務(wù)系統(tǒng)谷誓、銀行跨晴、證券等,如美國(guó)eBay的
    業(yè)務(wù)數(shù)據(jù)庫(kù)就是很典型的OLTP數(shù)據(jù)庫(kù)片林。
    OLAP端盆,也叫聯(lián)機(jī)分析處理(On-Line Analytical Processing)系統(tǒng),有的
    時(shí)候也叫DSS(決策支持系統(tǒng))费封,就是我們說(shuō)的數(shù)據(jù)倉(cāng)庫(kù)焕妙。常用于報(bào)表
    分析場(chǎng)景,相對(duì)于OLTP弓摘,對(duì)準(zhǔn)確性(如id-mapping)焚鹊、事務(wù)性和實(shí)時(shí)性
    要求較低。1993年韧献,E.F.Codd認(rèn)為OLTP已不能滿足終端用戶對(duì)數(shù)據(jù)庫(kù)
    查詢分析的需要末患,SQL對(duì)大型數(shù)據(jù)庫(kù)進(jìn)行的簡(jiǎn)單查詢也不能滿足終端用
    戶分析的要求。用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行大量計(jì)算才能得
    到結(jié)果锤窑,而查詢的結(jié)果并不能滿足決策者提出的需求璧针。因此,他提出了
    多維數(shù)據(jù)庫(kù)和多維分析的概念渊啰,即OLAP探橱。
    OLAP技術(shù)主要通過(guò)多維的方式來(lái)對(duì)數(shù)據(jù)進(jìn)行分析、查詢并生成報(bào)表绘证,
    它不同于傳統(tǒng)的OLTP處理應(yīng)用隧膏。OLTP應(yīng)用主要是用來(lái)完成用戶的事務(wù)
    處理,如民航訂票系統(tǒng)和銀行的儲(chǔ)蓄系統(tǒng)等嚷那,通常要進(jìn)行大量的更新操
    作胞枕,同時(shí)對(duì)響應(yīng)的時(shí)間要求比較高。而OLAP系統(tǒng)的應(yīng)用主要是對(duì)用戶
    當(dāng)前的數(shù)據(jù)和歷史數(shù)據(jù)進(jìn)行分析魏宽,幫助市場(chǎng)做決策腐泻,制定營(yíng)銷策略,主
    要用來(lái)執(zhí)行大量的查詢操作湖员,對(duì)實(shí)時(shí)性要求低贫悄。表5-1對(duì)OLTP與OLAP
    進(jìn)行了比較
    OLAP和OLTP對(duì)比
  3. 存儲(chǔ)技術(shù)
    為了應(yīng)對(duì)數(shù)據(jù)處理的壓力瑞驱,過(guò)去十年間娘摔,數(shù)據(jù)處理技術(shù)領(lǐng)域有了很多的
    創(chuàng)新和發(fā)展。除了面向高并發(fā)唤反、短事務(wù)的OLTP內(nèi)存數(shù)據(jù)庫(kù)外
    (Altibase凳寺、Timesten)鸭津,其他的技術(shù)創(chuàng)新和產(chǎn)品都是面向數(shù)據(jù)分析的,
    而且是大規(guī)模數(shù)據(jù)分析肠缨,也可以說(shuō)是大數(shù)據(jù)分析逆趋。有的采用
    MPP(Massive Parallel Processing,大規(guī)模并行處理)架構(gòu)的數(shù)據(jù)庫(kù)集
    群晒奕,重點(diǎn)面向行業(yè)大數(shù)據(jù)闻书,如Greenplum、LibrA等脑慧;有的采用Shared
    Nothing架構(gòu)魄眉,通過(guò)列存儲(chǔ)、粗粒度索引等多項(xiàng)大數(shù)據(jù)處理技術(shù)闷袒,再結(jié)
    合MPP架構(gòu)高效的分布式計(jì)算模式坑律,完成對(duì)分析類應(yīng)用的支撐,運(yùn)行環(huán)
    境多為低成本的PC Server囊骤,具有高性能和高擴(kuò)展性的特點(diǎn)晃择;也有采用從
    Hadoop技術(shù)生態(tài)圈中衍生的相關(guān)的大數(shù)據(jù)技術(shù),如HBase等也物。

第六章 數(shù)據(jù)開(kāi)發(fā):數(shù)據(jù)價(jià)值提煉工廠

數(shù)據(jù)開(kāi)發(fā)產(chǎn)品能力: 離線開(kāi)發(fā)宫屠、實(shí)時(shí)開(kāi)發(fā)、算法開(kāi)發(fā)


數(shù)據(jù)開(kāi)發(fā)

離線開(kāi)發(fā)主要包括離線數(shù)據(jù)的加工滑蚯、發(fā)布激况、運(yùn)維管理,以及數(shù)據(jù)分析膘魄、數(shù)據(jù)探索乌逐、在線查詢和即席分析相關(guān)的工作。
實(shí)時(shí)開(kāi)發(fā)主要涉及數(shù)據(jù)的實(shí)時(shí)接入和實(shí)時(shí)處理创葡,簡(jiǎn)化流數(shù)據(jù)的加工處理過(guò)程浙踢。
算法開(kāi)發(fā)主要提供簡(jiǎn)單易用的可視化拖曳方式和Notebook方式來(lái)實(shí)現(xiàn)
數(shù)據(jù)價(jià)值的深度挖掘。
常見(jiàn)的加工場(chǎng)景有離線和實(shí)時(shí)數(shù)倉(cāng)建設(shè)灿渴、算法模型訓(xùn)練洛波、數(shù)據(jù)化運(yùn)營(yíng)分析、數(shù)據(jù)探索等骚露。在這個(gè)過(guò)程中蹬挤,通過(guò)數(shù)據(jù)開(kāi)發(fā)套件對(duì)大數(shù)據(jù)的存儲(chǔ)和計(jì)算能力進(jìn)行封裝,通過(guò)產(chǎn)品化的方式讓用戶更容易地使用大數(shù)據(jù)棘幸。計(jì)算能力與上一章提到的存儲(chǔ)能力是緊密聯(lián)系的焰扳,數(shù)據(jù)規(guī)模不斷增加,除了存儲(chǔ)能力需要細(xì)分,計(jì)算能力也一樣需要細(xì)分吨悍,因此在建設(shè)過(guò)程中扫茅,也需要對(duì)不同場(chǎng)景下的計(jì)算能力有一定了解

數(shù)據(jù)計(jì)算能力

image.png

(1)批計(jì)算
主要用于批量數(shù)據(jù)的高延時(shí)處理場(chǎng)景,如離線數(shù)倉(cāng)的加工育瓜、大規(guī)模數(shù)據(jù)
的清洗和挖掘等葫隙。目前大多是利用MapReduce、Hive躏仇、Spark等計(jì)算框架
進(jìn)行處理恋脚,其特點(diǎn)是數(shù)據(jù)吞吐量大、延時(shí)高焰手,適合人機(jī)交互少的場(chǎng)景慧起。
(2)流計(jì)算
也叫實(shí)時(shí)流計(jì)算,對(duì)于數(shù)據(jù)的加工處理和應(yīng)用有較強(qiáng)的實(shí)效性要求册倒,常
見(jiàn)于監(jiān)控告警場(chǎng)景蚓挤,例如實(shí)時(shí)分析網(wǎng)絡(luò)事件,當(dāng)有異常事件發(fā)生時(shí)能夠
及時(shí)介入處理驻子。例如灿意,阿里巴巴“雙11”的可視化大屏上的數(shù)據(jù)展現(xiàn)是根
據(jù)瀏覽、交易數(shù)據(jù)經(jīng)過(guò)實(shí)時(shí)計(jì)算后展現(xiàn)在可視化大屏上的一種應(yīng)用崇呵。這
類場(chǎng)景目前應(yīng)用較多的計(jì)算框架主要有Flink缤剧、Spark Streaming和Storm
等。
(3)在線查詢
主要用于數(shù)據(jù)結(jié)果的在線查詢域慷、條件過(guò)濾和篩選等荒辕,如數(shù)據(jù)檢索、條件
過(guò)濾等犹褒。根據(jù)不同的場(chǎng)景也會(huì)有多種選擇抵窒,如營(yíng)銷場(chǎng)景對(duì)響應(yīng)延時(shí)要求
高的,一般會(huì)采集緩存型的存儲(chǔ)計(jì)算叠骑,如Redis李皇、Tair等;對(duì)響應(yīng)延時(shí)要
求正常的宙枷,可以選擇HBase和MySQL等掉房;需要進(jìn)行條件過(guò)濾、檢索的慰丛,
可以選擇Elasticsearch等卓囚。企業(yè)一般對(duì)在線查詢的需求比較旺盛,因此
可能會(huì)有多套在線計(jì)算的能力提供服務(wù)诅病。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末哪亿,一起剝皮案震驚了整個(gè)濱河市粥烁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌锣夹,老刑警劉巖页徐,帶你破解...
    沈念sama閱讀 210,914評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件苏潜,死亡現(xiàn)場(chǎng)離奇詭異银萍,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)恤左,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評(píng)論 2 383
  • 文/潘曉璐 我一進(jìn)店門(mén)贴唇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人飞袋,你說(shuō)我怎么就攤上這事戳气。” “怎么了巧鸭?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,531評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵瓶您,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我纲仍,道長(zhǎng)呀袱,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,309評(píng)論 1 282
  • 正文 為了忘掉前任郑叠,我火速辦了婚禮夜赵,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘乡革。我一直安慰自己寇僧,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,381評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布沸版。 她就那樣靜靜地躺著嘁傀,像睡著了一般。 火紅的嫁衣襯著肌膚如雪视粮。 梳的紋絲不亂的頭發(fā)上心包,一...
    開(kāi)封第一講書(shū)人閱讀 49,730評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音馒铃,去河邊找鬼蟹腾。 笑死,一個(gè)胖子當(dāng)著我的面吹牛区宇,可吹牛的內(nèi)容都是我干的娃殖。 我是一名探鬼主播,決...
    沈念sama閱讀 38,882評(píng)論 3 404
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼议谷,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼炉爆!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,643評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤芬首,失蹤者是張志新(化名)和其女友劉穎赴捞,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體郁稍,經(jīng)...
    沈念sama閱讀 44,095評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡赦政,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,448評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了耀怜。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片恢着。...
    茶點(diǎn)故事閱讀 38,566評(píng)論 1 339
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖财破,靈堂內(nèi)的尸體忽然破棺而出掰派,到底是詐尸還是另有隱情,我是刑警寧澤左痢,帶...
    沈念sama閱讀 34,253評(píng)論 4 328
  • 正文 年R本政府宣布靡羡,位于F島的核電站,受9級(jí)特大地震影響俊性,放射性物質(zhì)發(fā)生泄漏略步。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,829評(píng)論 3 312
  • 文/蒙蒙 一磅废、第九天 我趴在偏房一處隱蔽的房頂上張望纳像。 院中可真熱鬧,春花似錦拯勉、人聲如沸竟趾。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,715評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)岔帽。三九已至,卻和暖如春导绷,著一層夾襖步出監(jiān)牢的瞬間犀勒,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,945評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工妥曲, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留贾费,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,248評(píng)論 2 360
  • 正文 我出身青樓檐盟,卻偏偏與公主長(zhǎng)得像褂萧,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子葵萎,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,440評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容