「大數(shù)據(jù)」02大數(shù)據(jù)技術體系

從數(shù)據(jù)在信息系統(tǒng)中的生命周期看,大數(shù)據(jù)從數(shù)據(jù)源開始本辐,經過分析、挖掘到最終環(huán)節(jié)獲得價值一般需要經過6個主要環(huán)節(jié):數(shù)據(jù)收集、數(shù)據(jù)存儲慎皱、資源管理與服務協(xié)調老虫、計算引擎、數(shù)據(jù)分析和數(shù)據(jù)可視化茫多。技術體系如圖:

大數(shù)據(jù)技術體系

(1)數(shù)據(jù)收集層(ETL祈匙,即提取、轉換天揖、加載)

????數(shù)據(jù)收集層由直接跟數(shù)據(jù)源對接的模塊構成夺欲,負責將數(shù)據(jù)源中的數(shù)據(jù)近實時或實時收集到一起。數(shù)據(jù)源具有的特點:

①分布式:分布在不同機器或設備上今膊,通過網(wǎng)絡連接在一起些阅。

②異構性:產生源頭多樣,比如Web服務器斑唬、數(shù)據(jù)庫市埋、傳感器等。

③多樣化:數(shù)據(jù)格式多樣恕刘。

④流式產生:任意環(huán)節(jié)都會產生腰素。

所以適用于大數(shù)據(jù)領域的收集系統(tǒng),一般具備以下特點:

①擴展性:靈活連接不同數(shù)據(jù)源雪营。

②可靠性:數(shù)據(jù)在傳輸過程中不能丟失或容忍少量丟失弓千。

③安全性:保證收集敏感數(shù)據(jù)不產生安全隱患。

④低延遲:數(shù)據(jù)產生后在較低延遲前提下傳輸?shù)酱鎯ο到y(tǒng)中献起。

(2)數(shù)據(jù)存儲層

????數(shù)據(jù)存儲層主要負責海量結構化與非結構化數(shù)據(jù)的存儲洋访。適用于大數(shù)據(jù)領域的存儲系統(tǒng),一般具備以下特點:

①擴展性:隨著數(shù)據(jù)量的增加谴餐,存儲系統(tǒng)必須具備非常好的線性擴展內存能力姻政。

②容錯性:機器出現(xiàn)故障時系統(tǒng)數(shù)據(jù)不丟失。

③存儲模型:由于數(shù)據(jù)具有多樣性岂嗓,存儲系統(tǒng)應支持多種數(shù)據(jù)模型汁展,確保各類數(shù)據(jù)可以保存。

(3)資源管理與服務協(xié)調層

????相較于“一種應用一個集群”的模式厌殉,應用輕量級彈性資源管理平臺的好處:

①資源利用率高:如果每個應用一個集群食绿,往往會由于應用程序數(shù)量和資源需求的不均衡,造成集群資源的短時間緊缺或浪費公罕。共享集群模式通過各種應用共享資源器紧,使得集群中的資源得到充分利用。

②運營成本低楼眷。

③數(shù)據(jù)共享:跨集群間的數(shù)據(jù)移動不僅需要花費時間铲汪,還增加了硬件成本熊尉。而共享集群模式可以讓多種應用共享數(shù)據(jù)和硬件資源,大大減少了數(shù)據(jù)移動帶來的成本掌腰。

????而在構建分布式大數(shù)據(jù)系統(tǒng)時狰住,會面臨很多共同的問題,包括leader選舉齿梁、服務命名催植、分布式隊列、分布式鎖士飒、發(fā)布訂閱功能等,為了避免重復開發(fā)這些功能蔗崎,通常會構建一個統(tǒng)一的服務協(xié)調組件酵幕,包含了開發(fā)分布式系統(tǒng)過程中通用的功能。

(4)計算引擎層

????按照對時間性能的要求缓苛,可將計算引擎分為三類:

計算引擎分類(按照對時間性能的要求)

①批處理:對時間要求最低芳撒,追求的是高吞吐量,即單位時間內處理的數(shù)據(jù)量盡可能大未桥。

②交互式處理:對時間要求較高笔刹,需要跟人進行交互,會提供類SQL的語言便于用戶使用冬耿。

③實時處理:對時間要求最高舌菜,注重時效性。

(5)數(shù)據(jù)分析層

????數(shù)據(jù)分析層直接跟用戶應用程序對接亦镶,為其提供易用的數(shù)據(jù)處理工具日月。計算引擎提供的工具包括應用程序API、類SQL查詢語言缤骨、數(shù)據(jù)挖掘SDK等爱咬。

????數(shù)據(jù)分析層典型的模式:首先使用批處理框架對原始海量數(shù)據(jù)進行分析,產生較小規(guī)模的數(shù)據(jù)集绊起,在此基礎上精拟,再使用交互式處理工具對該數(shù)據(jù)集進行快速查詢,獲取最終結果虱歪。

(6)數(shù)據(jù)可視化層

????數(shù)據(jù)可視化技術指的是運用計算機圖形學和圖像處理技術蜂绎,將數(shù)據(jù)轉換為圖形或圖像在屏幕上顯示出來,并進行交互處理的理論笋鄙、方法和技術荡碾。


文章內容整理于:董西成《大數(shù)據(jù)技術體系詳解:原理、架構與實踐》

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末局装,一起剝皮案震驚了整個濱河市坛吁,隨后出現(xiàn)的幾起案子劳殖,更是在濱河造成了極大的恐慌,老刑警劉巖拨脉,帶你破解...
    沈念sama閱讀 221,331評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件哆姻,死亡現(xiàn)場離奇詭異,居然都是意外死亡玫膀,警方通過查閱死者的電腦和手機矛缨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,372評論 3 398
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來帖旨,“玉大人箕昭,你說我怎么就攤上這事〗庠模” “怎么了落竹?”我有些...
    開封第一講書人閱讀 167,755評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長货抄。 經常有香客問我述召,道長,這世上最難降的妖魔是什么蟹地? 我笑而不...
    開封第一講書人閱讀 59,528評論 1 296
  • 正文 為了忘掉前任积暖,我火速辦了婚禮,結果婚禮上怪与,老公的妹妹穿的比我還像新娘夺刑。我一直安慰自己,他們只是感情好分别,可當我...
    茶點故事閱讀 68,526評論 6 397
  • 文/花漫 我一把揭開白布性誉。 她就那樣靜靜地躺著,像睡著了一般茎杂。 火紅的嫁衣襯著肌膚如雪错览。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,166評論 1 308
  • 那天煌往,我揣著相機與錄音倾哺,去河邊找鬼。 笑死刽脖,一個胖子當著我的面吹牛羞海,可吹牛的內容都是我干的。 我是一名探鬼主播曲管,決...
    沈念sama閱讀 40,768評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼却邓,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了院水?” 一聲冷哼從身側響起腊徙,我...
    開封第一講書人閱讀 39,664評論 0 276
  • 序言:老撾萬榮一對情侶失蹤简十,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后撬腾,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體螟蝙,經...
    沈念sama閱讀 46,205評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,290評論 3 340
  • 正文 我和宋清朗相戀三年民傻,在試婚紗的時候發(fā)現(xiàn)自己被綠了胰默。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,435評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡漓踢,死狀恐怖牵署,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情喧半,我是刑警寧澤奴迅,帶...
    沈念sama閱讀 36,126評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站薯酝,受9級特大地震影響半沽,放射性物質發(fā)生泄漏爽柒。R本人自食惡果不足惜吴菠,卻給世界環(huán)境...
    茶點故事閱讀 41,804評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望浩村。 院中可真熱鬧做葵,春花似錦、人聲如沸心墅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,276評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽怎燥。三九已至瘫筐,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間铐姚,已是汗流浹背策肝。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留隐绵,地道東北人之众。 一個月前我還...
    沈念sama閱讀 48,818評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像依许,于是被迫代替她去往敵國和親棺禾。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,442評論 2 359

推薦閱讀更多精彩內容