2015年國(guó)務(wù)院向社會(huì)公布的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》明確提出了大數(shù)據(jù)的基本概念:大數(shù)據(jù)是以容量大脚作、類(lèi)型多葫哗、存取速度快、應(yīng)用價(jià)值高位為主要特征的數(shù)據(jù)集合球涛,正快速發(fā)展為對(duì)數(shù)量巨大劣针、來(lái)源分散、格式多樣的數(shù)據(jù)進(jìn)行采集亿扁、存儲(chǔ)和關(guān)聯(lián)分析捺典,從中發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值从祝、提升新能力的新一代信息技術(shù)和服務(wù)業(yè)態(tài)襟己。近幾年來(lái),隨著企業(yè)積累的數(shù)據(jù)越來(lái)越多牍陌。如何利用大數(shù)據(jù)技術(shù)構(gòu)建企業(yè)大數(shù)據(jù)平臺(tái)擎浴,以充分體現(xiàn)大數(shù)據(jù)的價(jià)值,是各行各業(yè)一直在不斷探索和追求的目標(biāo)毒涧。那么贮预,企業(yè)大數(shù)據(jù)平臺(tái)技術(shù)體系架構(gòu)究竟如何規(guī)劃呢?筆者結(jié)合多年企業(yè)大數(shù)據(jù)平臺(tái)建設(shè)經(jīng)驗(yàn),將企業(yè)大數(shù)據(jù)平臺(tái)概括為6個(gè)主要環(huán)節(jié)仿吞。從數(shù)據(jù)源開(kāi)始滑频,依次為數(shù)據(jù)采集、數(shù)據(jù)處理唤冈、數(shù)據(jù)存儲(chǔ)峡迷、數(shù)據(jù)服務(wù)、數(shù)據(jù)展示以及數(shù)據(jù)質(zhì)量管理你虹。企業(yè)大數(shù)據(jù)平臺(tái)技術(shù)體系架構(gòu)绘搞,如下圖所示:
數(shù)據(jù)采集層的主要目標(biāo)是從數(shù)據(jù)源收集數(shù)量巨大、來(lái)源分散售葡、格式多樣的數(shù)據(jù)到企業(yè)大數(shù)據(jù)平臺(tái)看杭。一般采取實(shí)時(shí)數(shù)據(jù)增量采集和歷史數(shù)據(jù)批量采集兩種解決方案。實(shí)時(shí)數(shù)據(jù)增量采集在監(jiān)控領(lǐng)域應(yīng)用比較廣泛挟伙,快速楼雹、高效收集數(shù)據(jù)源產(chǎn)生的實(shí)時(shí)數(shù)據(jù),以便即時(shí)響應(yīng)和處理尖阔;歷史數(shù)據(jù)批量采集則是將數(shù)據(jù)源歷史一段時(shí)間的數(shù)據(jù)全部抽取到企業(yè)大數(shù)據(jù)平臺(tái)贮缅,數(shù)據(jù)采集存在一定的延遲,適合數(shù)據(jù)補(bǔ)采介却、周期性計(jì)算等實(shí)時(shí)性要求不高的業(yè)務(wù)應(yīng)用場(chǎng)景谴供。
數(shù)據(jù)處理層是從大量的原始數(shù)據(jù)中發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值齿坷、提升新能力的過(guò)程桂肌,是企業(yè)大數(shù)據(jù)平臺(tái)建設(shè)的關(guān)鍵環(huán)節(jié)。數(shù)據(jù)處理層既要滿足常規(guī)的統(tǒng)計(jì)分析和有價(jià)值的數(shù)據(jù)挖掘等離線歷史大數(shù)據(jù)處理要求永淌,還要兼顧時(shí)效性要求高的在線實(shí)時(shí)流數(shù)據(jù)處理要求崎场。在線實(shí)時(shí)流數(shù)據(jù)處理要求數(shù)據(jù)實(shí)時(shí)采集、實(shí)時(shí)處理遂蛀、實(shí)時(shí)反饋和實(shí)時(shí)輸出谭跨,響應(yīng)時(shí)間在秒級(jí)甚至于毫秒級(jí)。離線歷史大數(shù)據(jù)處理通常是針對(duì)批量采集數(shù)據(jù)李滴,數(shù)據(jù)處理量大螃宙,達(dá)到TB、PB級(jí)以上所坯,數(shù)據(jù)處理周期以分鐘谆扎、小時(shí)、天為單位芹助。當(dāng)然燕酷,對(duì)于實(shí)時(shí)增量數(shù)據(jù)籍凝,我們可以以增量方式處理分鐘、小時(shí)苗缩、天為單位的統(tǒng)計(jì)數(shù)據(jù),以提高系統(tǒng)處理效率声诸。
數(shù)據(jù)存儲(chǔ)層是大數(shù)據(jù)集合酱讶、主題數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)彼乌、基礎(chǔ)數(shù)據(jù)等持久化的存儲(chǔ)中心泻肯。一般包括關(guān)系型數(shù)據(jù)庫(kù)和分布式文件系統(tǒng)兩種。關(guān)系型數(shù)據(jù)庫(kù)用于存儲(chǔ)主題數(shù)據(jù)慰照、業(yè)務(wù)數(shù)據(jù)灶挟、基礎(chǔ)數(shù)據(jù)等;分布式文件系統(tǒng)用于存儲(chǔ)大數(shù)據(jù)集合毒租。
數(shù)據(jù)服務(wù)層是大數(shù)據(jù)對(duì)外共享發(fā)布通道稚铣。目前應(yīng)用最多的是以服務(wù)接口的形式對(duì)外提供,或者以消息訂閱推送的方式對(duì)外提供墅垮。
數(shù)據(jù)展示層是企業(yè)大數(shù)據(jù)平臺(tái)的圖形用戶接口惕医。展現(xiàn)形式可以多樣化,最典型的三種方式是:移動(dòng)客戶端算色、個(gè)人工作站和可視化大屏幕抬伺。
數(shù)據(jù)質(zhì)量管理是貫穿數(shù)據(jù)采集、數(shù)據(jù)處理灾梦、數(shù)據(jù)存儲(chǔ)峡钓、數(shù)據(jù)服務(wù)和數(shù)據(jù)展現(xiàn)的全過(guò)程質(zhì)量管理體系。
結(jié)束語(yǔ):企業(yè)大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)實(shí)現(xiàn)的關(guān)鍵是如何選擇開(kāi)源技術(shù)實(shí)現(xiàn)數(shù)據(jù)采集若河、數(shù)據(jù)處理能岩、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)服務(wù)和數(shù)據(jù)展現(xiàn)5個(gè)層次的應(yīng)用牡肉,以及建設(shè)一套標(biāo)準(zhǔn)化的全過(guò)程的數(shù)據(jù)質(zhì)量管理體系捧灰。