2惕耕、GB/T 35589-2017 信息技術 大數(shù)據(jù)技術參考模型
(1)了解本標準的范圍诅炉、術語和定義氓润,熟悉大數(shù)據(jù)參考架構的目的赂乐、目標薯鳍,熟悉大數(shù)據(jù)參考架構及其各組成部分咖气。
1.范圍
本標準描述了大數(shù)據(jù)的參考架構,包括角色挖滤、活動和功能組件以及它們之間的關系崩溪。
本標準適用于對大數(shù)據(jù)復雜操作的理解,可為大數(shù)據(jù)系列標準的制定提供基礎斩松。
2.規(guī)范性引用文件
下列文件對于本文件的應用是必不可少的伶唯。凡是注日期的引用文件,僅注日期的版木適用于本文件惧盹。凡是不注日期的引用文件乳幸,其最新版本(包括所有的修改單)適用于本文件瞪讼。
GB/T 35295 信息技術 大數(shù)據(jù) 術語
3.術語和定義
GB/T 35295 界定的以及下列術語和定義適用于本文件。
3.1大數(shù)據(jù)參考架構 big data reference architecture
一種用作工具以便于對大數(shù)據(jù)內在的要求粹断、設計結構和運行進行開放性探討的高層概念模型符欠。
注:比較普遍認同的大數(shù)據(jù)參考架構一般包含系統(tǒng)協(xié)調者、數(shù)據(jù)提供者瓶埋、大數(shù)據(jù)應用提供者希柿、大數(shù)據(jù)框架提供者和
數(shù)據(jù)消費者等5個邏輯功能構件。
3.2 系統(tǒng)協(xié)調者 system orchestrator
大數(shù)據(jù)參考架構中的一種邏輯功能構件,定義所需的數(shù)據(jù)應用活動并將它們整合到可運行的垂直系統(tǒng)中养筒。
注:系統(tǒng)協(xié)調者可以是人曾撤、軟件或這二者。
3.3 數(shù)據(jù)提供者 data provider
大數(shù)據(jù)參考架構中的一種邏輯功能構件晕粪,將新的數(shù)據(jù)或信息引人大數(shù)據(jù)系統(tǒng)挤悉。
3.4 大數(shù)據(jù)應用提供者 big data application provider
大數(shù)據(jù)參考架構中的一種邏輯功能構件,執(zhí)行數(shù)據(jù)生命周期操作,以滿足系統(tǒng)協(xié)調者定義的需求以及安全和隱私保護需求巫湘。
3.5 大數(shù)據(jù)框架提供者 bis data framework provider
大數(shù)據(jù)參考架構中的一種邏輯功能構件尖啡,建立一種計算框架,在此框架中執(zhí)行轉換應用,同時保護數(shù)據(jù)完整性和隱私。
3.6 數(shù)據(jù)消費者 data consumer
大數(shù)據(jù)參考架構中的一種邏輯功能構件剩膘,是使用大數(shù)據(jù)應用提供者提供的應用的末端用戶或其他系統(tǒng)衅斩。
3.7 數(shù)據(jù)科學家 data scientist
數(shù)據(jù)科學專業(yè)人員;他們具有足夠的業(yè)務需求管理機制方面的知識、領城知識怠褐、分析技能以及用于管理數(shù)據(jù)生命周期中每個階段的端到端數(shù)據(jù)過程的軟件和系統(tǒng)工程知識畏梆。
4.縮略語
下列縮略語適用于本文件。
BDRA:大數(shù)據(jù)參考架構(Big Data Reference Architecture)
POSIX:可移植操作系統(tǒng)接口 (Portable Operating System Interface)
5.大數(shù)據(jù)參考架構的目的和目標
本標準中的 BDRA提供了一個體系架構奈懒。用于有效描述大數(shù)據(jù)角色奠涌、活動和功能組件。
BDRA 目的包括:
- 為各種利益相關者提供一種交流大數(shù)據(jù)技術的通用語言磷杏;
- 鼓勵大數(shù)據(jù)實踐者遵守通用標準溜畅、規(guī)范和模式;
- 為解決相似的問題集提供一致的技術實現(xiàn)方法极祸。
BDRA 的目的是為了方便對大數(shù)據(jù)復雜性操作的認識慈格。它不代表一個特定的大數(shù)據(jù)系統(tǒng)的系統(tǒng)架構;相反,它是一種工具遥金,使用通用的架構來描述浴捆、討論和開發(fā)特定系統(tǒng)的架構。
BDRA 是一個通用的大數(shù)據(jù)系統(tǒng)概念模型稿械,對于討論大數(shù)據(jù)需求选泻、結構和操作,它是一種有效的工具。該模型不依賴于任何特定的產品和服務供應商页眯,也不定義規(guī)范的解決方案梯捕。
BDRA 支持以下標準化目標:
- 在一個與供應商和技術無關的大數(shù)據(jù)高層概念模型語境下,增進對大數(shù)據(jù)構件、處理過程及系統(tǒng)的理解窝撵;
- 為政府部門科阎、相關機構和其他用戶在理解、討論忿族、分類和比較大數(shù)據(jù)解決方案的過程中提供技術參考锣笨;
- 促進對大數(shù)據(jù)互操作性、可移植性道批、可重用性和可擴展性的備選標準的分析错英。
6.大數(shù)據(jù)參考架構概述
本標準定義的 BDRA 為大數(shù)據(jù)標準化提供了基本參考點,為大數(shù)據(jù)系統(tǒng)的基本概念和原理提供了
一個總體架構,見圖1隆豹。
BDRA 圍繞代表大數(shù)據(jù)價值鏈的兩個維度組織展開:信息價值鏈(水平軸)和信息技術價值鏈(垂直軸)椭岩。信息價值鏈表現(xiàn)大數(shù)據(jù)作為一種數(shù)據(jù)科學方法對從數(shù)據(jù)到知識的處理過程中所實現(xiàn)的信息流價值。信息價值鏈的校心價值通過數(shù)據(jù)收集璃赡、預處理判哥、分析、可視化和訪問等活動實現(xiàn)碉考。信息技術價值鏈表現(xiàn)大數(shù)據(jù)作為一種新興的數(shù)據(jù)應用范式對信息技術產生的新需求所帶來的價值塌计。信息技術價值鏈的核心價值通過為大數(shù)據(jù)應用提供存放和運行大數(shù)據(jù)的網絡 、基礎設施侯谁、平臺锌仅、應用工具以及其他信息技術服務實現(xiàn)。大數(shù)據(jù)應用提供者位于兩個價值鏈的交叉點上,大數(shù)據(jù)分析及其實現(xiàn)為兩個價值鏈上的大數(shù)據(jù)利益相關者提供特定價值墙贱。
BDRA提供了一個構件層級分類體系热芹,用于描述BDRA 中的邏輯構件以及定義邏輯構件的分類。
BDRA 中的邏輯構件被劃分為 3個層級惨撇,從高到低依次為角色伊脓、活動和組件。最頂層級的邏輯構件是代表大數(shù)據(jù)系統(tǒng)中存在的5個角色,包括系統(tǒng)協(xié)調者魁衙、數(shù)據(jù)提供者报腔、大數(shù)據(jù)應用提供者、大數(shù)據(jù)框架提供者纺棺、數(shù)據(jù)消費者5個角色榄笙。另外兩個非常重要的邏輯構件是安全和隱私以及管理,它們?yōu)榇髷?shù)據(jù)系統(tǒng)的5個角色提供服務和功能祷蝌。第二層級的邏輯構件是每個角色執(zhí)行的活動。第三層級的邏輯構件是執(zhí)行每個活動需要的功能組件帆卓。
該架構可以用于表示由多個大數(shù)據(jù)系統(tǒng)組成的堆疊式或鏈式系統(tǒng),其中一個系統(tǒng)的數(shù)據(jù)消費者可以作為后面一個系統(tǒng)的數(shù)據(jù)提供者巨朦。
該架構持各種商業(yè)環(huán)境,包括緊密集成的企業(yè)系統(tǒng)和松散耦合的垂直行業(yè)米丘,有助于理解大數(shù)據(jù)系統(tǒng)如何補充并有別于已有的分析、商業(yè)智能糊啡、數(shù)據(jù)庫等傳統(tǒng)的數(shù)據(jù)應用系統(tǒng)拄查。
7. 大數(shù)據(jù)參考架構的組成
7.1 系統(tǒng)協(xié)調者
系統(tǒng)協(xié)調者職責在于規(guī)范和集成各類所需的數(shù)據(jù)應用活動,以構建一個可運行的垂直系統(tǒng)。
系統(tǒng)協(xié)調者具體功能包括:配置和管理 BDRA 中其他組件執(zhí)行一個或多個工作負載棚蓄,以確保各工作項能正常運行堕扶。負責為其他組件分配對應的物理或虛擬節(jié)點并對各組件的運行情況進行監(jiān)控,并通過動態(tài)調配資源等方式來確保各組件的服務質量水平達到所需要求梭依。
系統(tǒng)協(xié)調者的功能可由管理員稍算、軟件或二者的組合以集中式或分布式的形式實現(xiàn)。
7.2 數(shù)據(jù)提供者
數(shù)據(jù)提供者的職責是將數(shù)據(jù)和信息引人到大數(shù)據(jù)系統(tǒng)中役拴,供大數(shù)據(jù)系統(tǒng)發(fā)現(xiàn)糊探、訪問和轉換。
其具體活動包括:
- 收集河闰、固化數(shù)據(jù)科平。
- 創(chuàng)建描述數(shù)據(jù)源的元數(shù)據(jù)。
- 發(fā)布信息的可用性和訪問方法姜性。
- 確保數(shù)據(jù)傳輸質量瞪慧。
數(shù)據(jù)提供者和大數(shù)據(jù)應用提供者的接口涉及3個階段:開始、數(shù)據(jù)傳輸和終止部念。
7.3 大數(shù)據(jù)應用提供者
7.3.1 概述
大數(shù)據(jù)應用提供者的職責是通過在數(shù)據(jù)生命周期中執(zhí)行的一組特定操作,來滿足由系統(tǒng)協(xié)調者規(guī)定的要求汞贸,以及安全性、隱私性要求印机。
大數(shù)據(jù)應用提供者包括收集矢腻、預處理、分析射赛、可視化和訪問5個活動多柑。
7.3.2 收集
負責處理與數(shù)據(jù)提供者的接口和數(shù)據(jù)引人。
7.3.3 預處理
包括數(shù)據(jù)驗證楣责、清洗竣灌、標準化、格式化和存儲秆麸。
7.3.4 分析
基于數(shù)據(jù)科學家的需求或垂直應用的需求初嘹,確定處理數(shù)據(jù)的算法水產生新的分析,解決技術目標沮趣,從而實現(xiàn)從數(shù)據(jù)中提取知識的技術屯烦。
7.3.5 可視化
提供給最終的數(shù)據(jù)消費者處理中的數(shù)據(jù)元素和呈現(xiàn)分析功能的輸出。
7.3.6 訪問
與可視化和分析功能交互,響應應用程序請求,通過使用處理和平臺框架來檢索數(shù)據(jù),并響應數(shù)據(jù)消費者請求。
7.4 大數(shù)據(jù)框架提供者
7.4.1 概述
大數(shù)據(jù)框架提供者的職責是為大數(shù)據(jù)應用提供者在創(chuàng)建具體應用時提供使用的資源和服務驻龟。
大數(shù)據(jù)框架提供者包括基礎設施温眉、平臺、處理框架翁狐、信息交互/通信和資源管理5個活動类溢。
7.4.2 基礎設施
為大數(shù)據(jù)系統(tǒng)中的所有其他要素提供必要的資源,這些資源是由一些物理資源的組合構成,這些物理資源可以控制/支持相似的虛擬資源。這些資源分為下面幾類:
- 網絡:從一個資源向另一個資源傳輸數(shù)據(jù)的資源露懒。
- 計算:用于執(zhí)行和保持其他組件的軟件的實際處理器和存儲器闯冷。
- 存儲:大數(shù)據(jù)系統(tǒng)中保存數(shù)據(jù)的資源。
- 環(huán)境:在建立大數(shù)據(jù)實例的時候必須考慮的物理廠房資源(電力懈词、制冷等)蛇耀。
7.4.3 平臺
包含邏輯數(shù)據(jù)的組織和分布,支持文件系統(tǒng)方式存儲和素引存儲方法:
- 文件系統(tǒng):實施某種級別的 POSIX 標準以獲取權限,進行相關的文件操作钦睡。
- 素引存儲:無需掃描整個數(shù)據(jù)集蒂窒,便可以迅速定位數(shù)據(jù)的具體要素。
7.4.4 處理框架
提供必要的基礎設施軟件以支持實現(xiàn)應用程序能夠滿足數(shù)據(jù)數(shù)量荞怒、速度和多樣性的處理洒琢。包括批處理、流處理褐桌,以及兩者的數(shù)據(jù)交換與數(shù)據(jù)操作衰抑。
7.4.5 信息交互/通信
包含點對點傳輸和存儲轉發(fā)兩種通信模型。在點對點傳輸模型中,發(fā)送者通過信道直接將所傳輸?shù)男畔l(fā)送給接收者;而在后者中,發(fā)送者會將信息先發(fā)送給中間實體,然后中間實體再逐條轉發(fā)給接收者。點對點傳輸模型還包括多播這種特殊的通信模式苛骨,在多播中,一個發(fā)送者可將信息發(fā)送給多個而不是一個接收者。
7.4.6 資源管理
計算谭网、存儲及實現(xiàn)兩者互聯(lián)互通的網絡連接管理。主要日標是實現(xiàn)分布式的赃春、彈性的資源調配愉择,具體包括對存儲資源的管理和對計算資源的管理。
7.5 數(shù)據(jù)消費者
通過調用大數(shù)據(jù)應用提供者提供的接口按需訪問信息,與其產生可視的,事后可查的交互织中。
7.6 安全和隱私
在安全和隱私管理模塊锥涕。通過不同的技術手段和安全措施,構建大數(shù)據(jù)平臺安全防護體系狭吼,實現(xiàn)覆蓋硬件层坠、軟件和上層應用的安全保護,從網絡安全、主機安全刁笙、應用安全破花、數(shù)據(jù)安全四個方面來保證大數(shù)據(jù)平臺的安全性:
- 網絡安全:通過網絡安全技術谦趣,保證數(shù)據(jù)處理、存儲安全和維護正常運行旧乞。
- 主機安全:通過對集群內節(jié)點的操作系統(tǒng)安全加固等手段保證節(jié)點正常運行蔚润。
- 應用安全:具有身份簽別和認證磅氨、用戶和權限管理尺栖、數(shù)據(jù)庫加固、用戶口令管理烦租、審計控制等安全措施,實施合法用戶合理訪問資源的安全策略延赌。
- 數(shù)據(jù)安全:從集群容災、備份叉橱、數(shù)據(jù)完整性挫以、數(shù)據(jù)分角色存儲、數(shù)據(jù)訪問控制等方面保證用戶數(shù)據(jù)的安全窃祝。
同時應提供一個合理的災備框架掐松,提升災備恢復能力,實現(xiàn)數(shù)據(jù)的實時異地容災功能,跨數(shù)據(jù)中心數(shù)據(jù)備份。
隱私保護主要是在不暴露用戶敏感信息的前提下進行有效的數(shù)據(jù)挖掘;根據(jù)需要保護的內容不同粪小,可分為位置隱私保護大磺、標識符匿名保護和連接關系匿名保護等。
7.7 管理
提供大規(guī)模集群統(tǒng)一的運維管理系統(tǒng),能夠對包括數(shù)據(jù)中心探膊、基礎硬件杠愧、平臺軟件和應用軟件進行集中運維、統(tǒng)一管理,實現(xiàn)安裝部署逞壁、參數(shù)配置流济、監(jiān)控、告警腌闯、用戶管理绳瘟、權限管理、審計姿骏、服務管理糖声、健康檢查、問題定位工腋、升級和補丁等功能姨丈。
具有自動化運維的能力,通過對名個數(shù)據(jù)中心的資源進行統(tǒng)一管理,合理的分配和調度業(yè)務所需要的資源,做到自動化按需分配擅腰。同時提供對多個數(shù)據(jù)中心的信息技術基礎設施進行集中運維的能力蟋恬,自動化監(jiān)控數(shù)據(jù)中心內各種信息技術設備的事件、告警趁冈、性能,實現(xiàn)從業(yè)務緯度來進行運維的能力歼争。
對主管理系統(tǒng)節(jié)點及所有業(yè)務組件中心管理節(jié)點實現(xiàn)高可靠性的雙機機制,采用主備或負荷分擔配置,避免單點故障場景對系統(tǒng)可靠性的影響拜马。