「大數(shù)據(jù)」02大數(shù)據(jù)技術體系

從數(shù)據(jù)在信息系統(tǒng)中的生命周期看，大數(shù)據(jù)從數(shù)據(jù)源開始本辐，經過分析、挖掘到最終環(huán)節(jié)獲得價值一般需要經過6個主要環(huán)節(jié)：數(shù)據(jù)收集、數(shù)據(jù)存儲慎皱、資源管理與服務協(xié)調老虫、計算引擎、數(shù)據(jù)分析和數(shù)據(jù)可視化茫多。技術體系如圖：

大數(shù)據(jù)技術體系

（1）數(shù)據(jù)收集層(ETL祈匙，即提取、轉換天揖、加載)

????數(shù)據(jù)收集層由直接跟數(shù)據(jù)源對接的模塊構成夺欲，負責將數(shù)據(jù)源中的數(shù)據(jù)近實時或實時收集到一起。數(shù)據(jù)源具有的特點：

①分布式：分布在不同機器或設備上今膊，通過網(wǎng)絡連接在一起些阅。

②異構性：產生源頭多樣，比如Web服務器斑唬、數(shù)據(jù)庫市埋、傳感器等。

③多樣化：數(shù)據(jù)格式多樣恕刘。

④流式產生：任意環(huán)節(jié)都會產生腰素。

所以適用于大數(shù)據(jù)領域的收集系統(tǒng)，一般具備以下特點：

①擴展性：靈活連接不同數(shù)據(jù)源雪营。

②可靠性：數(shù)據(jù)在傳輸過程中不能丟失或容忍少量丟失弓千。

③安全性：保證收集敏感數(shù)據(jù)不產生安全隱患。

④低延遲：數(shù)據(jù)產生后在較低延遲前提下傳輸?shù)酱鎯ο到y(tǒng)中献起。

（2）數(shù)據(jù)存儲層

????數(shù)據(jù)存儲層主要負責海量結構化與非結構化數(shù)據(jù)的存儲洋访。適用于大數(shù)據(jù)領域的存儲系統(tǒng)，一般具備以下特點：

①擴展性：隨著數(shù)據(jù)量的增加谴餐，存儲系統(tǒng)必須具備非常好的線性擴展內存能力姻政。

②容錯性：機器出現(xiàn)故障時系統(tǒng)數(shù)據(jù)不丟失。

③存儲模型：由于數(shù)據(jù)具有多樣性岂嗓，存儲系統(tǒng)應支持多種數(shù)據(jù)模型汁展，確保各類數(shù)據(jù)可以保存。

（3）資源管理與服務協(xié)調層

????相較于“一種應用一個集群”的模式厌殉，應用輕量級彈性資源管理平臺的好處：

①資源利用率高：如果每個應用一個集群食绿，往往會由于應用程序數(shù)量和資源需求的不均衡，造成集群資源的短時間緊缺或浪費公罕。共享集群模式通過各種應用共享資源器紧，使得集群中的資源得到充分利用。

②運營成本低楼眷。

③數(shù)據(jù)共享：跨集群間的數(shù)據(jù)移動不僅需要花費時間铲汪，還增加了硬件成本熊尉。而共享集群模式可以讓多種應用共享數(shù)據(jù)和硬件資源，大大減少了數(shù)據(jù)移動帶來的成本掌腰。

????而在構建分布式大數(shù)據(jù)系統(tǒng)時狰住，會面臨很多共同的問題，包括leader選舉齿梁、服務命名催植、分布式隊列、分布式鎖士飒、發(fā)布訂閱功能等，為了避免重復開發(fā)這些功能蔗崎，通常會構建一個統(tǒng)一的服務協(xié)調組件酵幕，包含了開發(fā)分布式系統(tǒng)過程中通用的功能。

（4）計算引擎層

????按照對時間性能的要求缓苛，可將計算引擎分為三類：

計算引擎分類（按照對時間性能的要求）

①批處理：對時間要求最低芳撒，追求的是高吞吐量，即單位時間內處理的數(shù)據(jù)量盡可能大未桥。

②交互式處理：對時間要求較高笔刹，需要跟人進行交互，會提供類SQL的語言便于用戶使用冬耿。

③實時處理：對時間要求最高舌菜，注重時效性。

（5）數(shù)據(jù)分析層

????數(shù)據(jù)分析層直接跟用戶應用程序對接亦镶，為其提供易用的數(shù)據(jù)處理工具日月。計算引擎提供的工具包括應用程序API、類SQL查詢語言缤骨、數(shù)據(jù)挖掘SDK等爱咬。

????數(shù)據(jù)分析層典型的模式：首先使用批處理框架對原始海量數(shù)據(jù)進行分析，產生較小規(guī)模的數(shù)據(jù)集绊起，在此基礎上精拟，再使用交互式處理工具對該數(shù)據(jù)集進行快速查詢，獲取最終結果虱歪。

（6）數(shù)據(jù)可視化層

????數(shù)據(jù)可視化技術指的是運用計算機圖形學和圖像處理技術蜂绎，將數(shù)據(jù)轉換為圖形或圖像在屏幕上顯示出來，并進行交互處理的理論笋鄙、方法和技術荡碾。

文章內容整理于：董西成《大數(shù)據(jù)技術體系詳解：原理、架構與實踐》

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末局装，一起剝皮案震驚了整個濱河市坛吁，隨后出現(xiàn)的幾起案子劳殖，更是在濱河造成了極大的恐慌，老刑警劉巖拨脉，帶你破解...
沈念sama閱讀 221,331評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件哆姻，死亡現(xiàn)場離奇詭異，居然都是意外死亡玫膀，警方通過查閱死者的電腦和手機矛缨，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,372評論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來帖旨，“玉大人箕昭，你說我怎么就攤上這事〗庠模” “怎么了落竹？”我有些...
開封第一講書人閱讀 167,755評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長货抄。經常有香客問我述召，道長，這世上最難降的妖魔是什么蟹地？我笑而不...
開封第一講書人閱讀 59,528評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任积暖，我火速辦了婚禮，結果婚禮上怪与，老公的妹妹穿的比我還像新娘夺刑。我一直安慰自己，他們只是感情好分别，可當我...
茶點故事閱讀 68,526評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布性誉。她就那樣靜靜地躺著，像睡著了一般茎杂。火紅的嫁衣襯著肌膚如雪错览。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,166評論 1贊 308
城市分裂傳說
那天煌往，我揣著相機與錄音倾哺，去河邊找鬼。笑死刽脖，一個胖子當著我的面吹牛羞海，可吹牛的內容都是我干的。我是一名探鬼主播曲管，決...
沈念sama閱讀 40,768評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼却邓，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了院水？” 一聲冷哼從身側響起腊徙，我...
開封第一講書人閱讀 39,664評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤简十，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后撬腾，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體螟蝙，經...
沈念sama閱讀 46,205評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 38,290評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年民傻，在試婚紗的時候發(fā)現(xiàn)自己被綠了胰默。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,435評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡漓踢，死狀恐怖牵署，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情喧半，我是刑警寧澤奴迅，帶...
沈念sama閱讀 36,126評論 5贊 349
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站薯酝，受9級特大地震影響半沽，放射性物質發(fā)生泄漏爽柒。R本人自食惡果不足惜吴菠，卻給世界環(huán)境...
茶點故事閱讀 41,804評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望浩村。院中可真熱鬧做葵，春花似錦、人聲如沸心墅。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,276評論 0贊 23
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽怎燥。三九已至瘫筐，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間铐姚，已是汗流浹背策肝。一陣腳步聲響...
開封第一講書人閱讀 33,393評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留隐绵，地道東北人之众。一個月前我還...
沈念sama閱讀 48,818評論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長得像依许，于是被迫代替她去往敵國和親棺禾。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,442評論 2贊 359

「大數(shù)據(jù)」02大數(shù)據(jù)技術體系

推薦閱讀更多精彩內容